En los últimos tres años, la inteligencia artificial ha dado un salto espectacular en cuanto a sus capacidades, transformando la manera en que trabajamos, aprendemos y nos relacionamos.
Esta tecnología ha ido mejorando con el paso del tiempo, desde reconocer señales de tráfico hasta decir algunas palabras sin sentido. Con el paso del tiempo, y con la evolución de estos algoritmos, tras una larguísima acumulación de datos han ido surgiendo los que se llaman «modelos de lenguaje grande» o LLM (Large Language Models por sus siglas en inglés).
Estos modelos desde su presentación han obtenido una atención global sin precedentes por su asombrosa capacidad para generar texto coherente y natural, traducir lenguajes, resumir información y desempeñar una infinidad de tareas generalistas, sin limitarse a una única tarea.
¿Cómo logran manejar tareas tan complejas? ¿Qué ocurre en su interior para producir respuestas que parecen tan humanas? En este artículo, desglosaremos estas preguntas, explorando desde los fundamentos más sencillos hasta los detalles más profundos de los LLM.
¿Qué es un LLM?
Un modelo de lenguaje grande (LLM) es un tipo de inteligencia artificial que pertenece a la familia de los modelos de procesamiento del lenguaje.
Su finalidad es procesar grandes volúmenes de datos textuales y aprender patrones complejos del lenguaje, debido a este propósito son los más extendidos y destacados ya que son altamente versátiles. A diferencia de otros sistemas de IA, como aquellos que se especializan en generar imágenes o reconocer objetos, los LLM tienen entrada y salida de texto, lo que les permite ser extraordinariamente generalistas y aplicarse a una amplia gama de tareas que van desde la redacción de artículos hasta la traducción de idiomas o la resolución de problemas matemáticos complejos. Además, al dedicarse al lenguaje, se pueden combinar con otras inteligencias artificiales, sistemas o elementos ya creados, como por ejemplo, analizar una base de datos, conectarse con una IA que reconozca texto de una imagen para procesarlo, o enviar su salida a otra IA de texto a voz, de hecho, así funciona Chatgpt 4o, la IA de openai que permite hablar con su IA mediante la voz, realmente se compone de 3 IA’s, voz a texto, texto a texto y texto a voz.
Una tabla que recopila todos los modelos de IA tipo LLM y los ordena por su «Arena Elo» o puntuación, cuanto más alto, mejor.
¿Por qué se les llama grandes?
Esto es algo a lo que has podido llegar tu mismo conforme estas leyendo el artículo pero tal vez no conces la «unidad de medida» que se emplea en las IA’s, son los parámetros, estos, explicados de forma simple son como “piezas” internas de la red neuronal que se ajustan a medida que el modelo aprende. A medida que el modelo es entrenado, se ajustan, expanden y optimizan estos parámetros, lo que le permite realizar predicciones más precisas y manejar tareas más complejas. En un sentido más figurado, se asemeja a pintar un cuadro con un gran lienzo, al entrenar una IA, empiezas con un lienzo en grande, y comienzas pintando desde el centro hacia fuera, conforme la IA se va entrenando, vas expandiendo el área que vas pintando poco a poco, pero a la vez, vas retocando el área que ya has pintado, cuando haces cualquiera de estas dos cosas el número de parámetros de tu cuadro (tu IA) aumenta en 1.
Para hacer una escala de como de grandes son los modelos actuales podemos ver unos ejemplos: ChatGPT 3 (175 mil millones, 2020), LLama 3.1 (405B, Facebook), Llama 3.1 Nemotron (70B, Nvidia 2024).
Por ejemplo, el modelo más avanzado en la actualidad, como GPT-4, está compuesto por billones de parámetros, lo que le otorga una capacidad sin precedentes para captar el contexto de un texto y generar respuestas complejas. Para ponerlo en perspectiva, un solo modelo LLM de este tamaño requiere servidores de miles de dólares para funcionar de manera efectiva.
¿Cómo funcionan estos modelos tan complejos?
A pesar de que los LLM pueden parecer modelos “inteligentes” que comprenden el lenguaje humano, lo cierto es que se basan en modelos probabilísticos y matemáticos. Esto quiere decir que, en lugar de razonar como un ser humano, los LLM operan en base a probabilidades y predicciones. De hecho, se asemejan más a los cálculos matemáticos que se realizan para predecir el resultado de lanzar un dado, que a la forma de pensar humana. ¿Cómo es esto posible? Vamos a desglosarlo con un ejemplo sencillo.
Imagina que tienes un modelo simple de IA entrenado para predecir la siguiente letra de una palabra. Supón que el modelo recibe como entrada la letra “H”. Este modelo ha sido entrenado con miles de palabras que comienzan con “H”, como Hola, Himalaya, Hogar, etc. Gracias a este entrenamiento, el modelo es capaz de predecir que la siguiente letra más probable es una “o”, lo que le da como salida “Ho”. Esta es la esencia de cómo los LLMs comienzan a formar patrones.
A medida que el modelo se vuelve más grande, su capacidad para hacer predicciones más complejas también crece. En lugar de predecir una sola letra, ahora puede predecir palabras completas o incluso frases enteras. Por ejemplo, si el modelo recibe la entrada “Hola buenas”, es capaz de generar la salida “Hola buenas tardes”, completando la frase de manera coherente. Este tipo de predicción se basa en la probabilidad de que una palabra siga a otra, y la calidad de las predicciones mejora conforme el modelo se ajusta y aumenta el número de parámetros.
De pequeños A GIGANTES
La diferencia principal entre los modelos más pequeños y los más grandes radica en la cantidad de parámetros con los que cuentan. En los primeros modelos, como los que simplemente predicen una letra, los parámetros son pocos y limitados. Sin embargo, a medida que los modelos escalan en tamaño, incorporan millones, o incluso billones de parámetros, lo que les permite hacer predicciones más sofisticadas. Con una mayor cantidad de parámetros, un LLM puede predecir no solo la siguiente letra o palabra, sino frases completas, conceptos abstractos e incluso resolver ecuaciones matemáticas complejas.
Las IA’s nos adelantan por la derecha, pero no mucho.
Existe una gran diferencia entre una persona y una IA, y es que las IA’s no aprenden de forma continua. A pesar de que pueden parecer inteligentes o adaptarse a nuestras preguntas, no están en constante aprendizaje, incluso aunque parezca que podemos crear un «GPT» o que después de una buena conversación aún se acuerde de lo que se le ha dicho, lo que se utiliza en estos casos se llama «Contexto» y «memoria» y representan una ínfima parte en proporción a su conocimiento total, además, es conocimiento temporal.
Para entrenar un modelo como un LLM, se requieren enormes cantidades de datos y muchísimas horas de procesamiento. El entrenamiento puede durar semanas o incluso meses, dependiendo del tamaño del modelo y la cantidad de datos a procesar. Una vez que el modelo ha sido entrenado, ya no sigue aprendiendo de manera activa con cada interacción. No es como un ser humano que se adapta continuamente a nuevas experiencias. Sin embargo, lo que sí ocurre es que estos modelos pueden ser actualizados o reentrenados en momentos específicos. Esto implica que los nuevos datos recopilados se usen para afinar el modelo, pero no es algo que suceda en tiempo real.
Alucina
Y mucho, las IA’s al igual que las personas a veces se equivocan, pero cuando hablamos de alucinaciones entramos en otro terreno, estoy seguro de que alguna vez le has preguntado algo y se ha ido a otro tema, o le has dado mucha información para resumir y su respuesta ha sido darte la hora de Murcia (esto nos ha pasado), o en un caso más «light» puede contarte una épica historia de batallas de la edad media completamente inventada, bien, pues esto se llama «Alucinación», y ocurren cuando el modelo genera información que parece plausible, pero que es completamente falsa. Esto se debe a que los modelos de IA no comprenden el significado de las palabras ni las implicaciones de los conceptos que están procesando. Solo se basan en patrones y probabilidades.
Este fenómeno se ve mucho más acentuado a la hora de realizar operaciones matemáticas
La calidad del entrenamiento y las alucinaciones: la complejidad de los modelos LLM
Los modelos LLM destacan por su tamaño y versatilidad, capaces de redactar artículos, generar código, traducir idiomas, crear poesía, resolver ecuaciones y mucho más. Sin embargo, no todo es perfecto. Aunque impresionan con sus habilidades, también enfrentan limitaciones inherentes. La mayor de ellas es que no «entienden» el mundo como los humanos. No tienen experiencias sensoriales ni conocimiento real; simplemente procesan patrones. Esto puede llevar a alucinaciones: respuestas erróneas o fabricadas que parecen plausibles pero son falsas. Además, como aprenden de grandes volúmenes de texto, los modelos pueden adquirir sesgos presentes en esos datos, lo que genera preocupaciones éticas, especialmente en áreas sensibles como la medicina, la justicia o la política. El modelo no aprende continuamente y, aunque se actualiza, sus capacidades se mantienen estáticas entre entrenamientos.
El futuro de los LLM: ¿Qué nos depara?
Los avances en los LLM no se detienen aquí. Cada nueva iteración de estos modelos es más avanzada y eficiente. Los investigadores están trabajando para hacerlos más rápidos, más precisos y, sobre todo, más responsables. El reto ahora no es solo mejorar su rendimiento, sino también abordar los problemas éticos y sociales que surgen con su implementación masiva. Como con todas las tecnologías poderosas, el verdadero desafío es cómo utilizarlas de manera ética y justa para beneficiar a la sociedad.
Si alguna vez te encuentras interactuando con un modelo de lenguaje y sientes que está “comprendiendo” lo que dices, recuerda que detrás de esa aparente comprensión hay solo probabilidades, patrones y ajustes matemáticos. Son estos modelos los que, con su gigantesca capacidad de procesamiento, nos abren una ventana a un futuro en el que la inteligencia artificial juega un papel cada vez más protagonista.