Většina firem, které se plně zaměřily na vývoj modelů umělé inteligence, skupuje všechny akcelerátory AI od Nvidie, které se dají sehnat, ale Google zvolil jiný přístup. Většina jeho cloudové infrastruktury pro AI je založena na řadě vlastních procesorových jednotek Tensor (TPU). Po oznámení TPU Ironwood sedmé generace v roce 2025 přešla společnost k verzi osmé generace.
Nové TPU jsou k dispozici ve dvou variantách a podle společnosti Google poskytují rychlejší a efektivnější platformu pro umělou inteligenci. Současná éra agentů se prý zásadně liší od předchozích systémů umělé inteligence, což vyžaduje nový přístup k hardwaru. Inženýři proto vyvinuli dva oddělené čipy: TPU8t slouží k trénování modelu a TPU 8i pro zpracování dotazu (inferenci).
Modernizované serverové klastry Tensor 8t, které Google nazývá pody, nyní obsahují 9600 čipů se dvěma petabajty sdílené paměti. Výpočetní výkon takového klastru je 121 FP4 EFlops na jeden pod. Google tvrdí, že TPU 8t lze dokonce škálovat lineárně, a to až na milion čipů v jediném logickém klastru.
Po ukončení tréninku běží modely umělé inteligence v režimu inferenčním, aby generovaly tokeny a prováděly uživatelem zadané akce. Tento proces ale už nevyžaduje tak velký výpočetní výkon, takže používání stejného hardwaru pro obě fáze životního cyklu umělé inteligence je neefektivní. Proto je inferenční zpracování doménou čipu TPU 8i, který je navržen tak, aby byl efektivnější při spouštění více specializovaných agentů a zkrátil čekací dobu.
Čipy TPU 8i také běží ve větších podech o 1152 čipech oproti 256 u předchozí generace. To odpovídá výkonu 11,6 EFlops na pod. Společnost Google také ztrojnásobila kapacitu integrované paměti SRAM v každém čipu TPU 8i na 384 MB. Díky tomu mohou nové čipy této společnosti uchovávat na čipu větší mezipaměť klíčových hodnot, což urychluje výpočet modelů s delšími kontextovými okny.