modelos26 de marco de 20265 min de leitura0

Cohere lança modelo de transcrição de voz open source otimizado para GPUs de consumo

Cohere lança modelo de transcrição open source com 2B parâmetros para GPUs de consumo, soportando 14 idiomas. Análise de impacto no mercado LATAM.

R

RADARDEIA

Redação

#Cohere#speech-to-text#open source AI#transcrição de voz#Whisper#modelos de linguagem#NVIDIA GPU#América Latina AI#self-hosting#AssemblyAI

A nova aposta da Cohere no mercado de transcrição por voz

A Cohere, empresa canadense de inteligência artificial avaliada em US$ 5,5 bilhões, anunciou nesta quarta-feira (26) o lançamento de um modelo de transcrição de voz com apenas 2 bilhões de parâmetros, projetado especificamente para funcionar em GPUs de consumo — como RTX 3090 e RTX 4090 da NVIDIA. O modelo, de código aberto, soporta 14 idiomas e chega para competir diretamente com o Whisper da OpenAI e soluções de empresas como AssemblyAI e Deepgram.


Como funciona o modelo da Cohere

O grande diferencial do novo modelo da Cohere está na sua eficiência computacional. Com 2 bilhões de parâmetros, ele representa uma abordagem mais leve comparada a modelos de transcrição convencionais, que frequentemente exigem infraestruturas de data center com dezenas de bilhões de parâmetros.

  • Compatibilidade com GPUs de consumo: NVIDIA RTX 3090, 4090 e similares
  • 14 idiomas suportados: inglês, espanhol, português, francês, alemão, japonês, coreano, entre outros
  • Self-hosting: empresas podem executar o modelo em sua própria infraestrutura, sem dependence de APIs externas
  • Código aberto: Licença permissiva para uso comercial e acadêmico

O modelo foi treinado com foco em precisão em ambientes ruidosos e deve oferecer desempenho competitivo mesmo em cenários com múltiplos falantes ou áudio de qualidade variável.


Contexto de mercado: por que isso importa agora?

O mercado de speech-to-text atingiu valuations recordes nos últimos anos. Segundo relatório da Grand View Research, o segmento de tecnologia de conversão de voz para texto foi avaliado em US$ 4,9 bilhões em 2024 e deve crescer a uma taxa anual composta (CAGR) de 17,2% até 2030. Empresas como Nuance Communications (adquirida pela Microsoft por US$ 19,7 bilhões), Verbit (avaliada em US$ 2 bilhões antes de ser adquirida) e Three Crowns dominam nichos específicos do mercado.

A guerra dos modelos de transcrição

A entrada da Cohere neste mercado representa uma intensificação da competição. Até então, o Whisper da OpenAI — lançado em 2022 — era considerado o padrão open source mais robusto, com variantes de 39M a 1.5B parâmetros. A AssemblyAI levantou US$ 280 milhões em funding (última rodada de série C em 2023, avaliada em US$ 1,4 bilhão), enquanto a Deepgram captou US$ 86 milhões em sua trajetória.

A Cohere, por sua vez, obteve US$ 500 milhões em rodada série D em 2024, totalizando US$ 1,35 bilhão em funding desde sua fundação em 2019. A empresa é liderada por Aidan Gomez, coautor do artigo seminal "Attention Is All You Need" que originou a arquitetura Transformers.

"Este modelo representa o próximo passo na democratização da tecnologia de voz. Empresas de qualquer porte podem agora ter acesso a transcrição de nível empresarial sem depender de serviços em nuvem," declarou um porta-voz da Cohere em comunicado oficial.


Impacto para a América Latina

O suporte a 14 idiomas é particularmente relevante para o mercado latino-americano. O português brasileiro e o espanhol — duas das principais línguas da região — estão entre os idiomas suportados, o que posiciona o modelo como uma opção viável para empresas de mídia, fintechs, healthtechs e startups de call center na região.

Casos de uso potenciais na região

  1. Atendimento ao cliente automatizado: Transcrição e análise de chamadas em tempo real
  2. Mídia e entretenimento: Legendas automáticas para podcasts e vídeos em português e espanhol
  3. Setor de saúde: Documentação clínica por voz para profissionais médicos
  4. Setor jurídico: Transcrição automatizada de audiências e depositions
  5. Educação: Transcrição de aulas e webinars para acessibilidade

Empresas brasileiras como iFood (que processa milhões de chamadas anuais), Nubank (com atendimento via centrais telefônicas) e Rede D'Or (com registros médicos por voz) poderiam se beneficiar significativamente da possibilidade de self-hosting, garantindo conformidade com a LGPD sem dependência de provedores externos.


O que esperar

Nos próximos meses, a comunidade de desenvolvedores e empresas deve começar a testar extensivamente o modelo em diferentes contextos. Os principais pontos de atenção incluem:

  • Benchmarks independentes: Comparações diretas com Whisper e modelos comerciais em termos de WER (Word Error Rate)
  • Adoções por empresas LATAM: Especialmente em setores regulados onde self-hosting é mandatório
  • Evolução do modelo: A Cohere sinalizou que releases futuros podem expandir o suporte de idiomas e melhorar a precisão

A comunidade open source já demonstrou entusiasmo nas primeiras horas após o anúncio, com repositórios no GitHub acumulando milhares de estrelas e discussões técnicas ocupando fóruns especializados como Hugging Face e Reddit/r/MachineLearning.

O lançamento ocorre em um momento estratégico: com a crescente preocupação sobre privacidade de dados de áudio e regulamentações como o GDPR na Europa e a LGPD no Brasil, a capacidade de processar áudio localmente — sem enviar dados para servidores de terceiros — torna-se um diferencial competitivo significativo.

A Cohere não comentou sobre planos específicos para o mercado latinoamericano, mas fontes familiarizadas com a estratégia da empresa indicam que parcerias com AWS, Google Cloud e Azure para disponibilização do modelo via marketplace estão em discussão ativa.

Leia também

Fonte: TechCrunch

Gostou deste artigo?

Artigos Relacionados