¿Qué es un transformer en inteligencia artificial?

El transformer es una arquitectura de red neuronal, presentada por investigadores de Google en 2017 en el artículo «Attention Is All You Need», que se convirtió en la base de los grandes modelos de lenguaje modernos. Su innovación central es el mecanismo de atención, que permite al modelo sopesar la importancia de cada palabra de un texto en relación con todas las demás, capturando contexto a larga distancia.

A diferencia de arquitecturas anteriores que procesaban el texto palabra por palabra, el transformer puede procesar toda la secuencia en paralelo, lo que lo hace mucho más eficiente de entrenar en hardware como las GPU. Esa eficiencia permitió escalar los modelos hasta miles de millones de parámetros.

La «T» de GPT significa precisamente «Transformer». Modelos como ChatGPT (GPT), Claude y Gemini son todos transformers, y la arquitectura también impulsa generadores de imágenes y sistemas multimodales.

Preguntas frecuentes

¿Por qué el transformer fue tan importante para la IA?

Porque su mecanismo de atención y su capacidad de procesar texto en paralelo permitieron entrenar modelos mucho más grandes y capaces. Esto desencadenó la ola de grandes modelos de lenguaje que dio lugar a ChatGPT y a la IA generativa actual.

¿Qué es el mecanismo de atención?

Es la pieza clave del transformer: permite que el modelo, al procesar una palabra, mire todas las demás palabras del texto y decida cuáles son más relevantes para entender su significado en ese contexto.