La cuantización (quantization) es una técnica que reduce la precisión numérica con la que se almacenan los parámetros de un modelo de IA para que ocupe menos memoria y se ejecute más rápido. En lugar de guardar cada peso con números de alta precisión (por ejemplo, 16 o 32 bits), la cuantización los representa con menos bits, como 8 o incluso 4, a cambio de una pequeña pérdida de exactitud.
Esta técnica es clave para llevar grandes modelos a hardware más modesto. Gracias a la cuantización, modelos de lenguaje que normalmente requerirían varias GPU de centro de datos pueden ejecutarse en una sola tarjeta gráfica de consumo o incluso en un teléfono o laptop. Es muy común al desplegar versiones locales de modelos de pesos abiertos como Llama o DeepSeek. El reto es encontrar el equilibrio: cuantizar demasiado agresivamente reduce el tamaño y acelera la inferencia, pero puede degradar la calidad de las respuestas del modelo.
Preguntas frecuentes
¿La cuantización empeora el modelo?
Reduce algo la precisión, pero con métodos modernos la pérdida de calidad suele ser pequeña y muchas veces imperceptible en la práctica, sobre todo a 8 bits. Cuanto más agresiva es la reducción (por ejemplo, 4 bits o menos), mayor es el riesgo de degradar las respuestas.
¿Para qué sirve cuantizar un modelo?
Para reducir el uso de memoria y acelerar la inferencia, lo que permite ejecutar modelos grandes en hardware más barato, incluso en una GPU de consumo, una laptop o un teléfono, y abarata el costo de servirlos a gran escala.


