¿Qué son los modelos de difusión?

Los modelos de difusión (diffusion models) son un tipo de modelo de IA generativa que crea imágenes partiendo de ruido aleatorio y eliminándolo paso a paso hasta formar una imagen coherente. Durante el entrenamiento aprenden a revertir un proceso que añade ruido a imágenes reales; al generar, aplican ese aprendizaje en sentido inverso, guiados por una indicación de texto, para construir la imagen pedida.

Esta técnica es la base de la mayoría de los generadores de imágenes actuales, como Stable Diffusion, Midjourney y DALL·E. El usuario escribe un prompt y el modelo, a lo largo de varias etapas de «limpieza» del ruido, va revelando una imagen que se ajusta a esa descripción. Los modelos de difusión también se aplican a la generación de video y audio. Su gran ventaja es la calidad y el realismo de los resultados; su desventaja, que cada imagen requiere varios pasos de cálculo, lo que demanda hardware potente.

Preguntas frecuentes

¿Por qué se llaman modelos de difusión?

Por analogía con la difusión física, el proceso por el que las partículas se dispersan en un medio. El modelo aprende a invertir una difusión simulada de ruido sobre una imagen, recuperando la imagen original a partir del ruido.

¿Qué diferencia hay entre difusión y los modelos de lenguaje?

Los modelos de lenguaje (como GPT) predicen el siguiente token de un texto. Los modelos de difusión generan imágenes, video o audio refinando ruido en varios pasos. Son arquitecturas distintas para tareas distintas, aunque ambos son IA generativa.