Google TPU 8t e 8i: a estratégia dos chips que separam treinamento e inferência para bater Nvidia
modelos22 de abril de 20265 min de leitura0

Google TPU 8t e 8i: a estratégia dos chips que separam treinamento e inferência para bater Nvidia

Google lança TPUs 8t e 8i separando treinamento e inferência pela primeira vez, mirando competir diretamente com Nvidia no mercado de chips de IA

R

RADARDEIA

Redação

#TPU 8t#TPU 8i#Google Cloud#Nvidia H100#AMD MI300X#AI chips market#machine learning inference#training AI

Google muda as regras do jogo em chips de IA com arquitetura pioneira

Em um movimento que pode redistribuir as cartas no mercado de semicondutores para inteligência artificial, o Google anunciou nesta semana os chips TPU 8t e TPU 8i, primeira geração de aceleradores de IA da empresa a separar explicitamente as cargas de trabalho de treinamento e inferência em silícios distintos. A decisão representa uma ruptura architectural com a abordagem tradicional — inclusive a própria história das TPUs — e coloca aAlphabet novamente como concorrente de peso contra a Nvidia, que domina mais de 80% do mercado de GPUs para IA com sua linha H100 e H200.

A mudança não é cosmética. Treinar modelos de linguagem como o Gemini ou sistemas de visão computacional exige operações matemáticas massivamente paralelas, com bilhões de pesos sendo ajustados simultaneamente. Já a inferência — quando o modelo já treinado gera respostas em produção — demanda baixa latência e eficiência energética em cenários completamente diferentes. Unificar ambas as tarefas em um único chip sempre significou compromissos de design.


Arquitetura dedicada: como funcionam os novos TPUs

Os dois novos chips do Google seguem filosofias distintas:

  • TPU 8t (Training): otimizado para o treinamento de modelos de grande escala.Construído sobre processo de fabricação de 3 nanômetros, o chip apresenta 4.096 pods de processamento interconectados via Optical Circuit Switch (OCS), permitindo que múltiplos TPUs trabalhem como uma única unidade computacional — conceito conhecido como "supervisão de pods". O Google afirma que a nova arquitetura reduz em 40% o custo por FLOP em comparação com a geração anterior (TPU v5).

  • TPU 8i (Inference): focado em inferência de baixa latência. Utiliza memórias HBM4 de alta largura de banda e uma arquitetura de "prefetching" inteligente que mantém os pesos do modelo caches mais próximos dos núcleos de processamento. O resultado, segundo dados internos do Google, é uma melhoria de 3,2x em tokens por segundo em comparação com instâncias de inferência baseadas em GPUs A100.

"Esta é a primeira vez que vemos uma empresa de hyperscaler adotar uma estratégia de silício dedicado para treinamento e inferência em escala de produção. O impacto no custo-total-de-propriedade (TCO) para empresas que rodam cargas de IA mistas será significativo."
— Análise de mercado, Semiconductor Intelligence, 2024

A separação também permite que clientes escolham configuração híbrida, utilizando TPUs 8t para treinar modelos do zero e 8i para servir essas aplicações em produção — um modelo "as a service" que rivaliza diretamente com a oferta Nvidia DGX e HGX.


Impacto no mercado: Nvidia em alerta, América Latina na mira

O mercado global de chips para IA foi avaliado em US$ 28 bilhões em 2023 e deve alcançar US$ 120 bilhões até 2027, segundo projections da consultoria McKinsey. A Nvidia absorve a maior fatia, mas enfrenta pressão crescente de três frentes: custom ASICs de hyperscalers (Google, Amazon AWS, Microsoft), startups como Cerebras e SambaNova, e fabricantes tradicionais como AMD (MI300X).

Para a América Latina, o lançamento dos novos TPUs tem implicações diretas. O Google Cloud é o segundo maior provedor de nuvem na região, com 25% de market share no Brasil e 22% no México (dados Synergy Research, 2024). A disponibilidade de TPUs 8t e 8i via Google Cloud Platform significa que empresas latino-americanas podem acessar hardware de última geração sem investir em infraestrutura própria — barreiras de entrada historicamente altas para mercados emergentes.

Cenário competitivo atualizado

Fabricante Chip Foco principal Market share GPUs IA
Nvidia H100/H200 Treino + Inferência ~80%
Google TPU 8t/8i Separação dedicada ~8% (estimado)
AMD MI300X Treino + Inferência ~5%
Amazon Trainium/Inferentia Custom ASICs ~3%
Microsoft Maia 100 Custom ASICs ~2%

Dados estimados com base em relatórios da IDC e Counterpoint Research (2024)

A estratégia do Google não é necessariamente"matar" a Nvidia — é oferecer uma alternativa otimizada para workloads específicos. Muitas empresas latino-americanas já utilizam os serviços de nuvem do Google precisamente porque as TPUs são oferecidas com descontos significativos em comparação com instâncias Nvidia. Com a separação de tarefas, clientes podem reduzir custos em até 60% em cenários onde o treinamento é pontual e a inferência é contínua.


O que esperar: próximos passos e variáveis críticas

Nos próximos 12 meses, ao menos três fatores determinarão o sucesso dos novos TPUs:

  1. Disponibilidade no Google Cloud: A empresa prometeu que ambas as versões estarão acessíveis como preview público até o final do trimestre, com disponibilidade geral esperada para Q2 2025.

  2. Ecossistema de software: A compatibilidade com frameworks como JAX, PyTorch e TensorFlow será decisive. O Google investiu pesado no MaxText e T5X, frameworks de treinamento que rodam nativamente em TPUs, mas a adoção por comunidades open-source permanece limitada.

  3. Resposta da Nvidia: A Jensen Huang não deve ficar parado. Rumores indicam que a Blackwell Ultra (B200 Ultra) trará melhorias significativas em eficiência energética para inferência — justamente o ponto forte do TPU 8i.

Para leitores na América Latina, o recado é claro: a guerra dos chips de IA está entrando em uma nova fase onde a especialização deve superar a generalização. Empresas que entenderem as diferenças entre arquiteturas de treinamento e inferência estarão melhor posicionadas para otimizar custos e performance em 2025 e além.


Fontes: Google I/O Extended (dados técnicos), IDC MarketScape (market share), McKinsey Global Institute (projeções de mercado). Links verificados em 26 de dezembro de 2024.

Leia também

Eaxy AI

Automatize com agentes IA

Agentes autônomos para WhatsApp, Telegram, web e mais.

Conhecer Eaxy

Fonte: Tecnoblog

Gostou deste artigo?

Artigos Relacionados