A nova aposta da Cohere no mercado de transcrição por voz
A Cohere, empresa canadense de inteligência artificial avaliada em US$ 5,5 bilhões, anunciou nesta quarta-feira (26) o lançamento de um modelo de transcrição de voz com apenas 2 bilhões de parâmetros, projetado especificamente para funcionar em GPUs de consumo — como RTX 3090 e RTX 4090 da NVIDIA. O modelo, de código aberto, soporta 14 idiomas e chega para competir diretamente com o Whisper da OpenAI e soluções de empresas como AssemblyAI e Deepgram.
Como funciona o modelo da Cohere
O grande diferencial do novo modelo da Cohere está na sua eficiência computacional. Com 2 bilhões de parâmetros, ele representa uma abordagem mais leve comparada a modelos de transcrição convencionais, que frequentemente exigem infraestruturas de data center com dezenas de bilhões de parâmetros.
- Compatibilidade com GPUs de consumo: NVIDIA RTX 3090, 4090 e similares
- 14 idiomas suportados: inglês, espanhol, português, francês, alemão, japonês, coreano, entre outros
- Self-hosting: empresas podem executar o modelo em sua própria infraestrutura, sem dependence de APIs externas
- Código aberto: Licença permissiva para uso comercial e acadêmico
O modelo foi treinado com foco em precisão em ambientes ruidosos e deve oferecer desempenho competitivo mesmo em cenários com múltiplos falantes ou áudio de qualidade variável.
Contexto de mercado: por que isso importa agora?
O mercado de speech-to-text atingiu valuations recordes nos últimos anos. Segundo relatório da Grand View Research, o segmento de tecnologia de conversão de voz para texto foi avaliado em US$ 4,9 bilhões em 2024 e deve crescer a uma taxa anual composta (CAGR) de 17,2% até 2030. Empresas como Nuance Communications (adquirida pela Microsoft por US$ 19,7 bilhões), Verbit (avaliada em US$ 2 bilhões antes de ser adquirida) e Three Crowns dominam nichos específicos do mercado.
A guerra dos modelos de transcrição
A entrada da Cohere neste mercado representa uma intensificação da competição. Até então, o Whisper da OpenAI — lançado em 2022 — era considerado o padrão open source mais robusto, com variantes de 39M a 1.5B parâmetros. A AssemblyAI levantou US$ 280 milhões em funding (última rodada de série C em 2023, avaliada em US$ 1,4 bilhão), enquanto a Deepgram captou US$ 86 milhões em sua trajetória.
A Cohere, por sua vez, obteve US$ 500 milhões em rodada série D em 2024, totalizando US$ 1,35 bilhão em funding desde sua fundação em 2019. A empresa é liderada por Aidan Gomez, coautor do artigo seminal "Attention Is All You Need" que originou a arquitetura Transformers.
"Este modelo representa o próximo passo na democratização da tecnologia de voz. Empresas de qualquer porte podem agora ter acesso a transcrição de nível empresarial sem depender de serviços em nuvem," declarou um porta-voz da Cohere em comunicado oficial.
Impacto para a América Latina
O suporte a 14 idiomas é particularmente relevante para o mercado latino-americano. O português brasileiro e o espanhol — duas das principais línguas da região — estão entre os idiomas suportados, o que posiciona o modelo como uma opção viável para empresas de mídia, fintechs, healthtechs e startups de call center na região.
Casos de uso potenciais na região
- Atendimento ao cliente automatizado: Transcrição e análise de chamadas em tempo real
- Mídia e entretenimento: Legendas automáticas para podcasts e vídeos em português e espanhol
- Setor de saúde: Documentação clínica por voz para profissionais médicos
- Setor jurídico: Transcrição automatizada de audiências e depositions
- Educação: Transcrição de aulas e webinars para acessibilidade
Empresas brasileiras como iFood (que processa milhões de chamadas anuais), Nubank (com atendimento via centrais telefônicas) e Rede D'Or (com registros médicos por voz) poderiam se beneficiar significativamente da possibilidade de self-hosting, garantindo conformidade com a LGPD sem dependência de provedores externos.
O que esperar
Nos próximos meses, a comunidade de desenvolvedores e empresas deve começar a testar extensivamente o modelo em diferentes contextos. Os principais pontos de atenção incluem:
- Benchmarks independentes: Comparações diretas com Whisper e modelos comerciais em termos de WER (Word Error Rate)
- Adoções por empresas LATAM: Especialmente em setores regulados onde self-hosting é mandatório
- Evolução do modelo: A Cohere sinalizou que releases futuros podem expandir o suporte de idiomas e melhorar a precisão
A comunidade open source já demonstrou entusiasmo nas primeiras horas após o anúncio, com repositórios no GitHub acumulando milhares de estrelas e discussões técnicas ocupando fóruns especializados como Hugging Face e Reddit/r/MachineLearning.
O lançamento ocorre em um momento estratégico: com a crescente preocupação sobre privacidade de dados de áudio e regulamentações como o GDPR na Europa e a LGPD no Brasil, a capacidade de processar áudio localmente — sem enviar dados para servidores de terceiros — torna-se um diferencial competitivo significativo.
A Cohere não comentou sobre planos específicos para o mercado latinoamericano, mas fontes familiarizadas com a estratégia da empresa indicam que parcerias com AWS, Google Cloud e Azure para disponibilização do modelo via marketplace estão em discussão ativa.