¿Qué es una IA multimodal?

Una IA multimodal es un modelo capaz de entender o generar más de un tipo de información, o «modalidad»: texto, imágenes, audio, video y, en algunos casos, código. A diferencia de los modelos que solo manejan texto, un modelo multimodal puede, por ejemplo, mirar una foto y describirla, escuchar una pregunta hablada o combinar varios formatos en una misma conversación.

Los grandes asistentes actuales son multimodales: ChatGPT, Claude y Gemini aceptan imágenes y texto, y algunos también voz. Esto permite usos como analizar un gráfico, leer un documento escaneado, describir una escena para personas con discapacidad visual o resolver problemas de matemáticas a partir de una foto del enunciado.

La multimodalidad es una de las direcciones centrales de la IA actual, porque acerca los modelos a la forma en que los humanos percibimos el mundo, combinando varios sentidos a la vez.

Preguntas frecuentes

¿Qué modelos de IA son multimodales?

Los principales asistentes actuales lo son: ChatGPT (de OpenAI), Claude (de Anthropic) y Gemini (de Google) aceptan al menos texto e imágenes, y varios manejan también audio o video. La multimodalidad se ha vuelto un estándar entre los modelos frontera.

¿Para qué sirve la IA multimodal?

Permite analizar imágenes y documentos, describir fotos, interpretar gráficos, responder a voz, generar imágenes a partir de texto y combinar formatos en una misma tarea. Amplía mucho los usos prácticos respecto a un modelo que solo entiende texto.