Google muda as regras do jogo em chips de IA com arquitetura pioneira
Em um movimento que pode redistribuir as cartas no mercado de semicondutores para inteligência artificial, o Google anunciou nesta semana os chips TPU 8t e TPU 8i, primeira geração de aceleradores de IA da empresa a separar explicitamente as cargas de trabalho de treinamento e inferência em silícios distintos. A decisão representa uma ruptura architectural com a abordagem tradicional — inclusive a própria história das TPUs — e coloca aAlphabet novamente como concorrente de peso contra a Nvidia, que domina mais de 80% do mercado de GPUs para IA com sua linha H100 e H200.
A mudança não é cosmética. Treinar modelos de linguagem como o Gemini ou sistemas de visão computacional exige operações matemáticas massivamente paralelas, com bilhões de pesos sendo ajustados simultaneamente. Já a inferência — quando o modelo já treinado gera respostas em produção — demanda baixa latência e eficiência energética em cenários completamente diferentes. Unificar ambas as tarefas em um único chip sempre significou compromissos de design.
Arquitetura dedicada: como funcionam os novos TPUs
Os dois novos chips do Google seguem filosofias distintas:
TPU 8t (Training): otimizado para o treinamento de modelos de grande escala.Construído sobre processo de fabricação de 3 nanômetros, o chip apresenta 4.096 pods de processamento interconectados via Optical Circuit Switch (OCS), permitindo que múltiplos TPUs trabalhem como uma única unidade computacional — conceito conhecido como "supervisão de pods". O Google afirma que a nova arquitetura reduz em 40% o custo por FLOP em comparação com a geração anterior (TPU v5).
TPU 8i (Inference): focado em inferência de baixa latência. Utiliza memórias HBM4 de alta largura de banda e uma arquitetura de "prefetching" inteligente que mantém os pesos do modelo caches mais próximos dos núcleos de processamento. O resultado, segundo dados internos do Google, é uma melhoria de 3,2x em tokens por segundo em comparação com instâncias de inferência baseadas em GPUs A100.
"Esta é a primeira vez que vemos uma empresa de hyperscaler adotar uma estratégia de silício dedicado para treinamento e inferência em escala de produção. O impacto no custo-total-de-propriedade (TCO) para empresas que rodam cargas de IA mistas será significativo."
— Análise de mercado, Semiconductor Intelligence, 2024
A separação também permite que clientes escolham configuração híbrida, utilizando TPUs 8t para treinar modelos do zero e 8i para servir essas aplicações em produção — um modelo "as a service" que rivaliza diretamente com a oferta Nvidia DGX e HGX.
Impacto no mercado: Nvidia em alerta, América Latina na mira
O mercado global de chips para IA foi avaliado em US$ 28 bilhões em 2023 e deve alcançar US$ 120 bilhões até 2027, segundo projections da consultoria McKinsey. A Nvidia absorve a maior fatia, mas enfrenta pressão crescente de três frentes: custom ASICs de hyperscalers (Google, Amazon AWS, Microsoft), startups como Cerebras e SambaNova, e fabricantes tradicionais como AMD (MI300X).
Para a América Latina, o lançamento dos novos TPUs tem implicações diretas. O Google Cloud é o segundo maior provedor de nuvem na região, com 25% de market share no Brasil e 22% no México (dados Synergy Research, 2024). A disponibilidade de TPUs 8t e 8i via Google Cloud Platform significa que empresas latino-americanas podem acessar hardware de última geração sem investir em infraestrutura própria — barreiras de entrada historicamente altas para mercados emergentes.
Cenário competitivo atualizado
| Fabricante | Chip | Foco principal | Market share GPUs IA |
|---|---|---|---|
| Nvidia | H100/H200 | Treino + Inferência | ~80% |
| TPU 8t/8i | Separação dedicada | ~8% (estimado) | |
| AMD | MI300X | Treino + Inferência | ~5% |
| Amazon | Trainium/Inferentia | Custom ASICs | ~3% |
| Microsoft | Maia 100 | Custom ASICs | ~2% |
Dados estimados com base em relatórios da IDC e Counterpoint Research (2024)
A estratégia do Google não é necessariamente"matar" a Nvidia — é oferecer uma alternativa otimizada para workloads específicos. Muitas empresas latino-americanas já utilizam os serviços de nuvem do Google precisamente porque as TPUs são oferecidas com descontos significativos em comparação com instâncias Nvidia. Com a separação de tarefas, clientes podem reduzir custos em até 60% em cenários onde o treinamento é pontual e a inferência é contínua.
O que esperar: próximos passos e variáveis críticas
Nos próximos 12 meses, ao menos três fatores determinarão o sucesso dos novos TPUs:
Disponibilidade no Google Cloud: A empresa prometeu que ambas as versões estarão acessíveis como preview público até o final do trimestre, com disponibilidade geral esperada para Q2 2025.
Ecossistema de software: A compatibilidade com frameworks como JAX, PyTorch e TensorFlow será decisive. O Google investiu pesado no
MaxTexteT5X, frameworks de treinamento que rodam nativamente em TPUs, mas a adoção por comunidades open-source permanece limitada.Resposta da Nvidia: A Jensen Huang não deve ficar parado. Rumores indicam que a Blackwell Ultra (B200 Ultra) trará melhorias significativas em eficiência energética para inferência — justamente o ponto forte do TPU 8i.
Para leitores na América Latina, o recado é claro: a guerra dos chips de IA está entrando em uma nova fase onde a especialização deve superar a generalização. Empresas que entenderem as diferenças entre arquiteturas de treinamento e inferência estarão melhor posicionadas para otimizar custos e performance em 2025 e além.
Fontes: Google I/O Extended (dados técnicos), IDC MarketScape (market share), McKinsey Global Institute (projeções de mercado). Links verificados em 26 de dezembro de 2024.



