¿Qué es un LLM (Large Language Model o gran modelo de lenguaje)?

Por Juan González Villa

Los LLMs (siglas de Large Language Model o modelo de lenguaje grande) son la tecnología detrás de chatbots como ChatGPT o Gemini. Pero ChatGPT no es un LLM en sí, sino una app de chatbot impulsada por LLMs. GPT-4, el modelo que hace funcionar ChatGPT, sí lo es (en realidad es un conjunto de modelos).

Analicemos los términos detrás de las siglas LLM: gran modelo de lenguaje. El término “modelo” se refiere a un modelo matemático probabilístico. En esencia, un LLM calcula las probabilidades de que cierta palabra siga a una cadena de palabras dada previamente. 

¿De qué datos extrae esa probabilidad? Aquí es donde entra el término “grande”, ya que los LLMs se nutren de corpus o conjuntos de datos muy grandes (por ejemplo: toda la Wikipedia en inglés, un subconjunto representativo de las páginas de internet como puede ser Common Crawl, etc). 

El LLM “guarda” las sucesiones de palabras que ha encontrado en su entrenamiento y a partir de ahí asignará probabilidades a las siguientes palabras, dada una cadena de palabras previa que usa como punto de partida (el prompt). A esta fase se le llama pre-entrenamiento. 

Hasta aquí esto podría hacerse sin IA, ni machine learning. Podría ser un simple cálculo de probabilidades, pero esto haría que el resultado fuera bastante aleatorio, en lugar de sonar natural o “plausible” (como si lo hubiera articulado un humano), que es lo que más destaca en modelos como GPT-4 de OpenAI (el modelo que actualmente impulsa a ChatGPT). 

¿Dónde está la IA, entonces? Mediante muchos ejemplos de frases reales y sin apenas intervención humana (más allá de dar ejemplos y reglas aleatorias como punto de partida), el programa aprende a asignar unos pesos para predecir frases más lógicas o naturales. 

Estos pesos son como «votos», que tienen el efecto de que ciertas palabras, frases y hasta estructuras de texto sean más probables, dadas ciertas características que el modelo detecta en el prompt. Es lo que llamamos parámetros del modelo. 

Hecho a escala y bien calibrado, esto acaba dando resultados sorprendentemente buenos. Por eso en general el output de los LLMs es mejor cuantos más datos han visto en su entrenamiento y, sobre todo, cuanto mayor es el número de parámetros con el que han sido entrenados. 

GPT-3.5, por ejemplo, tiene 175 mil millones de parámetros, y ha sido ya ampliamente superado en número de parámetros por modelos más avanzados como GPT-4, Claude 3.5 y Gemini 1.5. Todos esos parámetros son las piezas que forman una red neuronal, organizada en una arquitectura concreta llamada Transformer, que fue el avance que permitió, en 2017, dar el salto hacia los LLMs de hoy en día.

El Transformer fue desarrollado por Google, que compartió esta tecnología con toda la comunidad científica, pero fue OpenAI quien la perfeccionó, dando origen a su familia de modelos GPT, cuyas siglas quieren decir «Generative Pre-trained Transformer».

Aparte de los datos y pesos aprendidos durante su entrenamiento, un avance introducido por OpenAI a partir de GPT 3.5 es el de dotar al modelo de una capa extra, llamada RLHF (“refuerzo del aprendizaje con feedback humano”), que es lo que resulta de poner a muchas personas a hacer preguntas y evaluar las respuestas de la IA. 

El modelo aprende de ese feedback y del que damos millones de usuarios desde que ChatGPT se hizo público, y va reajustando sus pesos para responder mejor a prompts en los que previamente ha «alucinado» o no respondía de manera idónea. 

Por último, todos los chatbots impulsados por LLMs y que llegan al público tienen unas reglas codificadas “a mano” que prohíben o limitan que el chat devuelva respuestas sobre temas polémicos o cuestionables, violentos, etc. Est no es sólo una característica de ChatGPT, ya que también sucede en otras apps de Chatbot, como Claude (de Anthropic) y Gemini (de Google).

Otro factor que condiciona la calidad del modelo es la ventana de contexto que acepta como prompt, y la extensión que puede tener su respuesta. Si puede recibir como prompt 3000 palabras y contestar con 1000, será más útil que si sólo pudiese trabajar con un máximo de 500.

Pequeño inciso: en realidad estos límites de contexto no se calculan por palabras, sino por tokens, que es como una unidad de significado para la máquina que procesa el texto. En inglés, un token equivale más o menos a 4 caracteres de media (en español, entre 2 y 3 caracteres). 

Limitaciones (qué no es un LLM)

Si en esencia un LLM predice las siguientes palabras más probables, en respuesta a un estímulo previo, entonces un LLM no puede ser una AGI o Inteligencia Artificial General, a no ser que tu definición de inteligencia general sea muy extraña. 

Los LLMs son reactivos: para tirar por algún lado, necesitan que les digas previamente por donde deben tirar. No toman decisiones por sí mismos, porque no hacen nada por iniciativa propia, sólo responden a la orden o petición del usuario. 

Esto no cambia por haber sido entrenado con más datos, ni siquiera aunque en esos datos hubiera ideas “malévolas”, ni tampoco por usar más parámetros para modular la respuesta del modelo. Un LLM con muchos millones de parámetros sigue siendo un LLM. 

Los chatbots basados en LLMs pueden conversar sin parar, y sus respuestas serán aparentemente coherentes y correctas gramaticalmente, pero no tienen por qué decir la verdad. De hecho, más allá de sus limitados datos de entrenamiento, no saben qué es verdad y qué no. 

Cuando preguntamos por hechos muy recientes a un chatbot sin acceso a internet, si acierta con la realidad será una feliz coincidencia. Por esto no se ha logrado aún que sean idóneos como buscadores, aunque usen como parte de su prompt los primeros resultados de las búsquedas, que es la técnica que se ha aplicado hasta ahora en ChatGPT al darle acceso a navegación web, y también en los buscadores que ofrecen resúmenes generados por IA, como Perplexity y Bing Copilot (antes Bing Chat).

Pero en el momento en el que, como respuesta, se genera texto por IA, y más si es en modo conversación, se abre la puerta a «alucinaciones», inaceptables en un buscador usado diariamente por millones de usuarios y acostumbrados a encontrar respuestas fiables (y rápidas). 

Suscríbete a 10 Links Azules, nuestra newsletter de SEO