La visión artificial (computer vision, también visión computacional) es el campo de la inteligencia artificial que permite a las computadoras interpretar y extraer información de imágenes y video. Mediante modelos entrenados con grandes cantidades de imágenes, un sistema de visión artificial puede reconocer objetos, rostros, texto o escenas, detectar su posición y describir lo que aparece en una imagen.
Es una de las áreas más maduras de la IA y está presente en la vida cotidiana: el desbloqueo facial del teléfono, los filtros de cámara, los autos con asistencia a la conducción, el control de calidad en fábricas o el diagnóstico por imágenes en medicina. Los modelos modernos multimodales, como GPT y Gemini, combinan visión y lenguaje: pueden «mirar» una foto y responder preguntas sobre ella. La técnica dominante hoy es el aprendizaje profundo con redes neuronales, que sustituyó a los métodos manuales de detección de bordes y formas.
Noticias relacionadas
Preguntas frecuentes
¿Para qué se usa la visión artificial?
Para reconocimiento facial, lectura de texto en imágenes (OCR), conducción asistida, inspección industrial, diagnóstico por imágenes médicas, búsqueda visual y moderación de contenido, entre muchos otros usos.
¿Es lo mismo que el reconocimiento de imágenes?
El reconocimiento de imágenes es una tarea dentro de la visión artificial: identificar qué hay en una imagen. La visión artificial es más amplia e incluye también detectar la ubicación de objetos, segmentar regiones, rastrear movimiento y analizar video.



