En resumen
NVIDIA lanzó Nemotron-Labs-TwoTower, un modelo de lenguaje por difusión con pesos abiertos construido sobre Nemotron-3-Nano-30B-A3B. La apuesta importa porque intenta atacar el cuello de botella clásico de los modelos autorregresivos: generar texto token por token, en secuencia.
NVIDIA lanzó Nemotron-Labs-TwoTower, un modelo de lenguaje por difusión con pesos abiertos construido sobre una base autorregresiva ya entrenada, Nemotron-3-Nano-30B-A3B. Según la noticia base publicada por MarkTechPost, el modelo llega bajo la NVIDIA Nemotron Open Model License y fue diseñado para investigar una cuestión central de la generación moderna de texto: cómo reducir el cuello de botella impuesto por la decodificación estrictamente secuencial de los modelos autorregresivos.
En los modelos autorregresivos más comunes, la generación ocurre un token a la vez. Cada nueva palabra, fragmento de palabra o símbolo depende de lo que se produjo antes, lo que crea una cadena serial de inferencia. Esta arquitectura ha sido extremadamente exitosa y sostiene buena parte de los chatbots y copilotos actuales, pero también impone límites prácticos: incluso cuando hay mucha potencia computacional disponible, parte del proceso sigue atada a un orden rígido de generación.
Qué cambia con un enfoque por difusión
Los modelos de difusión se hicieron más conocidos en la generación de imágenes, donde un sistema aprende a transformar ruido en una salida coherente mediante etapas sucesivas. En lenguaje, la idea es más compleja, porque el texto es discreto: los tokens no varían de forma continua como los píxeles. Aun así, la investigación en modelos de difusión discretos busca permitir que distintas partes de una secuencia se refinen, corrijan o completen de una manera menos dependiente de un único orden de izquierda a derecha.
Nemotron-Labs-TwoTower es relevante porque no parte de una hoja en blanco. NVIDIA usa una columna vertebral autorregresiva congelada, Nemotron-3-Nano-30B-A3B, como base para el nuevo diseño. En la práctica, esto sugiere un intento de aprovechar capacidades ya aprendidas por un modelo de lenguaje grande, mientras se experimenta con una capa o estructura de generación diferente, orientada a mejoras de throughput e investigación arquitectónica.
La decisión de congelar la base autorregresiva también es importante desde el punto de vista de ingeniería. En lugar de volver a entrenar por completo un modelo grande, el diseño puede preservar parte de la inversión computacional y de los conocimientos lingüísticos ya incorporados en el backbone. Esto no elimina los desafíos de calidad, alineación y evaluación, pero vuelve la propuesta más pragmática para laboratorios que quieren explorar alternativas al patrón dominante sin descartar todo el ecosistema ya construido alrededor de los LLM autorregresivos.
Por qué NVIDIA apunta al throughput
El throughput se convirtió en una de las métricas más importantes de la IA generativa en producción. Para los usuarios finales, aparece como velocidad de respuesta. Para las empresas, aparece como costo por solicitud, capacidad para atender picos de demanda y viabilidad de productos que dependen de generación extensa, como agentes, asistentes de programación, análisis documental y automatización de atención al cliente.
NVIDIA tiene un interés directo en este problema. La empresa proporciona GPU, bibliotecas, infraestructura y modelos que componen la pila de IA usada por desarrolladores y grandes clientes corporativos. Las mejoras que eleven la eficiencia de la generación de texto pueden aumentar el atractivo de su plataforma y abrir espacio para nuevos formatos de inferencia, especialmente en entornos donde la latencia y el costo operativo son tan importantes como la puntuación en benchmarks.
- Los modelos autorregresivos generan texto en secuencia, lo que limita la paralelización durante la salida.
- Los modelos de difusión para lenguaje intentan refinar o construir secuencias mediante etapas alternativas.
- El uso de un backbone congelado puede reducir el costo de investigación y preservar capacidades ya aprendidas.
- Los pesos abiertos permiten que investigadores y empresas prueben, comparen y adapten el enfoque.
Los pesos abiertos amplían el escrutinio
Al lanzar Nemotron-Labs-TwoTower como un modelo de pesos abiertos, NVIDIA permite que la comunidad técnica evalúe la propuesta con más profundidad de la que sería posible en una demostración cerrada. Pesos abiertos no significa necesariamente ausencia total de restricciones, ya que el uso está regido por una licencia específica, pero aumenta la posibilidad de auditoría, reproducción de resultados, pruebas en dominios especializados y comparación con modelos autorregresivos convencionales.
Este punto es particularmente relevante porque los modelos de difusión para texto todavía no son el estándar dominante. La promesa de mayor paralelismo o mejor throughput debe equilibrarse con la calidad de generación, la coherencia en textos largos, el control de instrucciones, la estabilidad en conversaciones y la compatibilidad con herramientas de inferencia existentes. Un lanzamiento abierto ayuda a convertir estas preguntas en experimentos medibles.
También hay una dimensión estratégica. NVIDIA viene ampliando su presencia más allá del hardware, ofreciendo modelos, herramientas de entrenamiento, bibliotecas de inferencia y componentes para agentes corporativos. Nemotron-Labs-TwoTower encaja en ese movimiento como una pieza de investigación aplicada: no solo un modelo para uso directo, sino una referencia para explorar caminos alternativos de generación a escala.
Lo que aún debe demostrarse
El lanzamiento no significa que los modelos de difusión vayan a reemplazar rápidamente a los autorregresivos. La arquitectura dominante triunfó porque combina calidad, previsibilidad, un gran volumen de investigación acumulada y una infraestructura madura de serving. Para cambiar ese equilibrio, enfoques como el de TwoTower deben mostrar mejoras claras en escenarios reales, no solo en pruebas controladas.
Entre los puntos a observar están la calidad en tareas de razonamiento, la robustez ante instrucciones complejas, el comportamiento en generación larga y el costo total de inferencia. Un modelo puede generar más tokens por segundo en ciertas condiciones y, aun así, ser menos atractivo si requiere más pasos de refinamiento, si produce salidas menos estables o si demanda adaptaciones difíciles en la infraestructura de producción.
Aun así, Nemotron-Labs-TwoTower indica que la búsqueda de alternativas a la decodificación token por token está ganando tracción en empresas centrales de la industria. Si la propuesta avanza, el impacto puede aparecer primero en casos de alto volumen, como generación por lotes, sumarización masiva, atención automatizada y sistemas que necesitan producir muchas respuestas simultáneamente. La noticia original de MarkTechPost posiciona el lanzamiento justamente en esa frontera entre investigación de arquitectura y necesidad práctica de escalar la generación de texto.
Nuestro prisma
El punto más importante no es solo que NVIDIA haya lanzado otro modelo, sino el hecho de apuntar al cuello de botella estructural de la generación autorregresiva. Si los modelos por difusión logran ofrecer calidad comparable con mayor paralelismo, la economía de la inferencia puede cambiar en productos de IA de alto volumen. La decisión de usar pesos abiertos también traslada parte de la validación a la comunidad, lo que debería acelerar las comparaciones independientes. A corto plazo, TwoTower parece más una plataforma de investigación aplicada que un reemplazo directo de los LLM actuales.
Fuente: MarkTechPost
Preguntas frecuentes
¿Qué es Nemotron-Labs-TwoTower?
Es un modelo de lenguaje por difusión de NVIDIA, con pesos abiertos, construido sobre una base autorregresiva congelada Nemotron-3-Nano-30B-A3B.
¿Por qué llaman la atención los modelos de difusión para texto?
Porque pueden explorar formas de generación menos estrictamente secuenciales, lo que puede mejorar el throughput en ciertos escenarios.
¿El modelo es totalmente abierto?
NVIDIA puso a disposición pesos abiertos bajo la NVIDIA Nemotron Open Model License, según la noticia base de MarkTechPost.
Recibe Radar de IA todos los días
Las noticias de inteligencia artificial que importan — con nuestro prisma y siempre con las fuentes. Gratis.






