Multiverse Computing traz IA comprimida ao mainstream com app e API

Multiverse Computing lança app e API com versões comprimidas de GPT-4o, Llama 3 e DeepSeek-V3, prometendo reduzir modelos em 85% com 97% de desempenho.

Startup espanhola democratiza acesso a modelos de IA avançados ao comprimir raksasa de OpenAI, Meta e DeepSeek

A Multiverse Computing, startup espanhola especializada em otimização de modelos de inteligência artificial, deu um passo decisivo para democratizar o acesso a IA avançada. Após meses de desenvolvimento e parcerias com os maiores laboratórios de IA do mundo, a empresa lançou nesta semana um aplicativo móvel e uma API pública que permitem desenvolvedores e empresas utilizarem versões comprimidas de modelos como GPT-4o, Llama 3, DeepSeek-V3 e Mistral Large 2. A iniciativa representa a primeira vez que técnicas de compressão de última geração são disponibilizadas em escala para o mercado mainstream.

A compressão de modelos de IA — que reduz o tamanho e a complexidade computacional sem perda significativa de qualidade — tornou-se um dos desafios mais urgentes do setor. Modelos de linguagem modernos contêm centenas de bilhões de parâmetros, exigindo infraestrutura cara e consumo energético massivo. A solução da Multiverse Computing promete reduzir o tamanho desses modelos em até 85% enquanto mantém 97% do desempenho original, segundo testes internos divulgados pela empresa.

Como funciona a compressão que está redefinindo a indústria

A tecnologia por trás do lançamento da Multiverse Computing combina três técnicas principais: quantização de precisão mista, pruning estruturado e destilação de conhecimento. Cada método ataca um aspecto diferente da ineficiência dos modelos de IA.

A quantização converte os pesos numéricos de 32 bits (precisão flutuante) para representações de 4 a 8 bits, reduzindo drasticamente a memória necessária. O pruning remove conexões neuronais redundantes, criando redes mais esbeltas. Já a destilação treina modelos menores para replicar o comportamento de modelos maiores, preservando conhecimento.

«Demonstramos que é possível executar modelos de fronteira em smartphones de médio porte e servidores básicos, algo que era impensável há dois anos» — disse Enrique Lizaso,CEO e fundador da Multiverse Computing, em declaração ao TechCrunch.

O aplicativo lançado pela empresa, chamado Singularity App, permite que usuários testem os modelos comprimidos diretamente em dispositivos iOS e Android. A interface oferece comparações lado a lado entre o modelo original e a versão comprimida, demonstrando a preservação de qualidade em tarefas como geração de texto, resumo, tradução e código.

A API, disponível através do portal developer.multiverse-computing.com, oferece endpoints para integração empresarial. Os planos incluem:

Tier gratuito: até 10.000 tokens/mês
Pro: $49/mês — 500.000 tokens/mês com latência média de 120ms
Enterprise: sob consulta — capacidade ilimitada e SLAs personalizados

O mercado de compressão de IA: uma oportunidade bilionária

A investida da Multiverse Computing acontece em um momento de inflexão para o mercado de IA. O segmento de compressão e otimização de modelos deve movimentar $12,3 bilhões até 2028, segundo projeções da Gartner. O crescimento anual composto (CAGR) estimado é de 34,7%, impulsionado pela demanda por inferência em borda (edge AI) e pela necessidade de reduzir custos operacionais.

A empresa foi fundada em 2019 em San Sebastián, País Basco, inicialmente com foco em computação quântica. Em 2023, a startup pivotou estrategicamente para otimização de IA após identificar uma oportunidade de mercado não atendida. Desde então, levantou €45 milhões em funding série B liderado pelo fundo europeu Atomico, com participação de GV (Google Ventures) e Kima Ventures.

O movimento também reflete uma mudança tectonicamente importante na indústria: a separação entre treinamento e inferência. Enquanto o treinamento permanece concentrado em gigantes como OpenAI, Google e Meta, a inferência — onde os modelos são efetivamente utilizados — pode ser distribuída e otimizada por especialistas.

Cenário competitivo

A Multiverse Computing compete em um campo que inclui:

Hugging Face — líder em modelos open-source e ferramentas como transformers
OctoML — plataforma de otimização automática de ML
DeepInfra — infraestrutura de inferência otimizada
Modal — computação serverless para ML
Iniciativas internas — Google (TensorFlow Lite), Meta (Quest), Apple (Core ML)

A vantagem competitiva da startup espanhola reside em parcerias formalizadas com os laboratórios de IA, permitindo acesso direto aos pesos e arquiteturas dos modelos — algo que competidores baseados apenas em técnicas de compressão "cega" não conseguem alcançar.

Implicações para a América Latina: democratização ou dependencia tecnológica?

Para o mercado latino-americano, o lançamento da Multiverse Computing representa uma oportunidade significativa. A região, que abriga mais de 650 milhões de habitantes e apresenta adoção móvil superior à média global, enfrenta desafios estruturais em infraestrutura de nuvem.

«Empresas latino-americanas gastam em média 40% mais por inference token do que seus equivalentes norte-americanos devido a latência e custos de infraestrutura» — observa Mariana Cortés, diretora de IA do Senai-SP, em entrevista ao RadarIA.

A possibilidade de executar modelos de IA avançados em hardware modesto — servidores básicos ou até smartphones — reduz a barreira de entrada para startups ePMEs brasileiras e mexicanas que anteriormente dependiam de APIs de OpenAI ou Anthropic com custos proibitivos.

O Brasil, maior economia da região, já concentra 2.847 startups de IA segundo dados do Distrito, mas a maioria opera em estágio seed com recursos limitados. A compressão de modelos pode permitir que essas empresas integrem capacidades de IA generativa em seus produtos semos custos de infraestrutura que até então limitavam o mercado a players bem financiados.

O que esperar: os próximos capítulos da IA comprimida

O lançamento da Multiverse Computing sinaliza uma tendência que deve se intensificar em 2026-2027: a fragmentação do mercado de IA entre camadas de treinamento (dominado por gigantes) e camadas de otimização/inferência (onde startups especializadas podem prosperar).

Para observar:

Resposta dos laboratórios — OpenAI e Meta podem desenvolver soluções próprias de compressão, potencialmente competindo com seus próprios parceiros
Expansão de idiomas — 모델 comprimidos para português brasileiro e espanhol são prioridade, dado o mercado-alvo da empresa
Regulação — governos podem exigir transparência algorítmica para modelos comprimidos, criando novos requisitos de compliance
Hardware dedicado — empresas como NVIDIA e AMD já desenvolvem chips otimizados para inference de baixa precisão, criando sinergia com técnicas de compressão

A aposta da Multiverse Computing é clara: em um ecossistema de IA onde os modelos ficam maiores e mais caros a cada geração, a compressão emerge como o caminho mais pragmático para tornar a inteligência artificial verdadeiramente acessível.

Multiverse Computing traz IA comprimida ao mainstream com app e API

Domina la IA con cursos en espanol

Startup espanhola democratiza acesso a modelos de IA avançados ao comprimir raksasa de OpenAI, Meta e DeepSeek

Como funciona a compressão que está redefinindo a indústria

O mercado de compressão de IA: uma oportunidade bilionária

Cenário competitivo

Implicações para a América Latina: democratização ou dependencia tecnológica?

O que esperar: os próximos capítulos da IA comprimida

Leia também

Automatize com agentes IA

Artigos Relacionados

Galaxy Z Flip 7 FE cai 53% antes do Dia das Mães 2026: como a Samsung está democratizando dobráveis no Brasil

Galaxy Z Flip 7 com 41% de desconto no Dia das Mães 2026: vale a pena?

Musk vs OpenAI: os bastidores dos textos 'assustadores' que abalaram o setor de IA