Startup espanhola democratiza acesso a modelos de IA avançados ao comprimir raksasa de OpenAI, Meta e DeepSeek
A Multiverse Computing, startup espanhola especializada em otimização de modelos de inteligência artificial, deu um passo decisivo para democratizar o acesso a IA avançada. Após meses de desenvolvimento e parcerias com os maiores laboratórios de IA do mundo, a empresa lançou nesta semana um aplicativo móvel e uma API pública que permitem desenvolvedores e empresas utilizarem versões comprimidas de modelos como GPT-4o, Llama 3, DeepSeek-V3 e Mistral Large 2. A iniciativa representa a primeira vez que técnicas de compressão de última geração são disponibilizadas em escala para o mercado mainstream.
A compressão de modelos de IA — que reduz o tamanho e a complexidade computacional sem perda significativa de qualidade — tornou-se um dos desafios mais urgentes do setor. Modelos de linguagem modernos contêm centenas de bilhões de parâmetros, exigindo infraestrutura cara e consumo energético massivo. A solução da Multiverse Computing promete reduzir o tamanho desses modelos em até 85% enquanto mantém 97% do desempenho original, segundo testes internos divulgados pela empresa.
Como funciona a compressão que está redefinindo a indústria
A tecnologia por trás do lançamento da Multiverse Computing combina três técnicas principais: quantização de precisão mista, pruning estruturado e destilação de conhecimento. Cada método ataca um aspecto diferente da ineficiência dos modelos de IA.
A quantização converte os pesos numéricos de 32 bits (precisão flutuante) para representações de 4 a 8 bits, reduzindo drasticamente a memória necessária. O pruning remove conexões neuronais redundantes, criando redes mais esbeltas. Já a destilação treina modelos menores para replicar o comportamento de modelos maiores, preservando conhecimento.
«Demonstramos que é possível executar modelos de fronteira em smartphones de médio porte e servidores básicos, algo que era impensável há dois anos» — disse Enrique Lizaso,CEO e fundador da Multiverse Computing, em declaração ao TechCrunch.
O aplicativo lançado pela empresa, chamado Singularity App, permite que usuários testem os modelos comprimidos diretamente em dispositivos iOS e Android. A interface oferece comparações lado a lado entre o modelo original e a versão comprimida, demonstrando a preservação de qualidade em tarefas como geração de texto, resumo, tradução e código.
A API, disponível através do portal developer.multiverse-computing.com, oferece endpoints para integração empresarial. Os planos incluem:
- Tier gratuito: até 10.000 tokens/mês
- Pro: $49/mês — 500.000 tokens/mês com latência média de 120ms
- Enterprise: sob consulta — capacidade ilimitada e SLAs personalizados
O mercado de compressão de IA: uma oportunidade bilionária
A investida da Multiverse Computing acontece em um momento de inflexão para o mercado de IA. O segmento de compressão e otimização de modelos deve movimentar $12,3 bilhões até 2028, segundo projeções da Gartner. O crescimento anual composto (CAGR) estimado é de 34,7%, impulsionado pela demanda por inferência em borda (edge AI) e pela necessidade de reduzir custos operacionais.
A empresa foi fundada em 2019 em San Sebastián, País Basco, inicialmente com foco em computação quântica. Em 2023, a startup pivotou estrategicamente para otimização de IA após identificar uma oportunidade de mercado não atendida. Desde então, levantou €45 milhões em funding série B liderado pelo fundo europeu Atomico, com participação de GV (Google Ventures) e Kima Ventures.
O movimento também reflete uma mudança tectonicamente importante na indústria: a separação entre treinamento e inferência. Enquanto o treinamento permanece concentrado em gigantes como OpenAI, Google e Meta, a inferência — onde os modelos são efetivamente utilizados — pode ser distribuída e otimizada por especialistas.
Cenário competitivo
A Multiverse Computing compete em um campo que inclui:
- Hugging Face — líder em modelos open-source e ferramentas como
transformers - OctoML — plataforma de otimização automática de ML
- DeepInfra — infraestrutura de inferência otimizada
- Modal — computação serverless para ML
- Iniciativas internas — Google (TensorFlow Lite), Meta (Quest), Apple (Core ML)
A vantagem competitiva da startup espanhola reside em parcerias formalizadas com os laboratórios de IA, permitindo acesso direto aos pesos e arquiteturas dos modelos — algo que competidores baseados apenas em técnicas de compressão "cega" não conseguem alcançar.
Implicações para a América Latina: democratização ou dependencia tecnológica?
Para o mercado latino-americano, o lançamento da Multiverse Computing representa uma oportunidade significativa. A região, que abriga mais de 650 milhões de habitantes e apresenta adoção móvil superior à média global, enfrenta desafios estruturais em infraestrutura de nuvem.
«Empresas latino-americanas gastam em média 40% mais por inference token do que seus equivalentes norte-americanos devido a latência e custos de infraestrutura» — observa Mariana Cortés, diretora de IA do Senai-SP, em entrevista ao RadarIA.
A possibilidade de executar modelos de IA avançados em hardware modesto — servidores básicos ou até smartphones — reduz a barreira de entrada para startups ePMEs brasileiras e mexicanas que anteriormente dependiam de APIs de OpenAI ou Anthropic com custos proibitivos.
O Brasil, maior economia da região, já concentra 2.847 startups de IA segundo dados do Distrito, mas a maioria opera em estágio seed com recursos limitados. A compressão de modelos pode permitir que essas empresas integrem capacidades de IA generativa em seus produtos semos custos de infraestrutura que até então limitavam o mercado a players bem financiados.
O que esperar: os próximos capítulos da IA comprimida
O lançamento da Multiverse Computing sinaliza uma tendência que deve se intensificar em 2026-2027: a fragmentação do mercado de IA entre camadas de treinamento (dominado por gigantes) e camadas de otimização/inferência (onde startups especializadas podem prosperar).
Para observar:
- Resposta dos laboratórios — OpenAI e Meta podem desenvolver soluções próprias de compressão, potencialmente competindo com seus próprios parceiros
- Expansão de idiomas — 모델 comprimidos para português brasileiro e espanhol são prioridade, dado o mercado-alvo da empresa
- Regulação — governos podem exigir transparência algorítmica para modelos comprimidos, criando novos requisitos de compliance
- Hardware dedicado — empresas como NVIDIA e AMD já desenvolvem chips otimizados para inference de baixa precisão, criando sinergia com técnicas de compressão
A aposta da Multiverse Computing é clara: em um ecossistema de IA onde os modelos ficam maiores e mais caros a cada geração, a compressão emerge como o caminho mais pragmático para tornar a inteligência artificial verdadeiramente acessível.



