Lors de Google Cloud Next, Google a dévoilé ses accélérateurs d'IA de huitième génération: le TPU v8t ¢Sunfish ¢ pour la formation et le TPU v8i ¢Zebrafish ¢ pour l'inférence, aux côtés du nouveau tissu de centre de données Virgo.Adapté à l'ère de l' IA., ces puces sont optimisées pour la formation de modèles à large mélange d'experts (MoE) et des jetons à faible latence offrant des prix rentables.v8t et v8i diffèrent en mémoire, SRAM, topologie et spécialisation matérielle.
Un superpod v8t prend en charge 9.600 puces avec 2 PB HBM et fournit 121 EFLOPS de calcul FP4, presque le triple des performances de la génération précédente Ironwood.152 puces avec 288 Go de HBM et 384 Mo de SRAM sur la puceLe tissu Virgo est interconnecté par plus de 134 000 puces V8t,fournissant une bande passante de 47 Pb/s sans blocage avec un débit par accélérateur 4 fois plus élevé et une latence 40% plus faible.
L'architecture fondamentale de la TPU par rapport à la GPU
Les TPU sont des ASIC personnalisés caractérisés par de grandes unités de multiplication de matrice (MXU), une SRAM gérée par logiciel et une compilation anticipée.Les TPU présentent un flux de données déterministe avec des tableaux systoliques, éliminant les frais généraux de planification de cache et de distorsion pour une utilisation plus élevée des FLOPS sur des charges de travail de matrice dense.Réseaux graphiques irréguliers et complexes, tout en offrant un support plus restreint de l'écosystème logiciel dominé par JAX et XLA.
La différence structurelle dans le support de la sparsité distingue clairement les TPU et les GPU.Les matrices systoliques TPU fonctionnent en phase de verrouillage rigideAWS Trainium2 adopte un terrain d'entente avec des décompresseurs spars dédiés pour conserver le débit du réseau.
Les TPU intègrent des SparseCores pour gérer des tâches de collect-scatter irrégulières pour l'intégration de tables et le routage MoE.couvrant les charges de travail de recommandation et l'expédition de jetons d'experts que les MXU standard ne peuvent pas traiter efficacement.
TPU v8t: Accélérateur de formation
La puce d'entraînement v8t est équipée de 216 GB de mémoire HBM3e et 128 MB de SRAM.Il conserve une interconnexion 3D torus et mis à niveau 19.2 Tb/s largeur de bande ICI, idéale pour les communications collectives basées sur l'anneau dans la formation à grande échelle.
Les SparseCores hérités optimisent la transmission de données irrégulière tout-à-tout du MoE.TPUDirect RDMA et TPUDirect Storage contournent le processeur hôte pour permettre un accès direct à la mémoire TPUEn outre, le v8t adopte les processeurs Axion basés sur Arm de Google en tant que processeurs hôtes.isoler la frénésie de l'hôte et améliorer la stabilité du pré-traitement pour une formation multi-puce synchronisée.
TPU v8i: Accélérateur d'inférence
Conçu pour les charges de travail d'inférence liées à la bande passante de mémoire, v8i donne la priorité à la génération de jetons à faible latence.Il dispose de 384 MB de SRAM triple que celui d'Ironwood pour mettre en cache le cache KV sur la puce et réduire la lecture répétée de HBM. Avec deux TensorCores et 288 GB HBM3e, il réalise 10,1 PFLOPS FP4 calcul, en superposant des tâches d'inférence de court lot pour une utilisation plus soutenue.
Remplaçant SparseCores, le moteur d'accélération des collectifs (CAE) réduit la latence de synchronisation sur la puce jusqu'à 5 fois, optimisant ainsi les opérations collectives fréquentes de petits lots.Le v8i abandonne le toro 3D pour la topologie Boardfly basée sur Dragonfly, réduisant les sauts maximaux de puce à puce de 16 à 7 et réduisant la latence MoE all-to-all de 50%.
Hiérarchie des tissus de Vierge et Jupiter
Virgo sert de tissu de mise à l'échelle intra-data-center, adoptant une architecture à deux couches non bloquant pour éliminer la surabonnement pour le trafic d'IA est-ouest.Il permet un redirectionnement des défauts au niveau des millisecondes et maintient 97% de bonne performance pour les superpods V8tCombiné avec le tissu de centre de données interconnecté à longue distance de Jupiter ¥ Google ¥, le système d'interconnexion en couches prend en charge plus d'un million de puces TPU dans un seul cluster logique avec 1.7 calculs ZFLOPS au total pour le 4e programmecadre.
Performance, TCO et position sur le marché
Les coûts de formation des TPU sont inférieurs de 62% à ceux de NVIDIA GB300.v8t performance FP4 à densité située entre GB200 et GB300, tandis que Google domine dans le clustering à grande échelle avec un module unique de 9 600 puces, dépassant de loin le domaine NVLink de 72 GPU de NVIDIA.
À l'avenir, Vera Rubin, Rubin Ultra et Kyber de NVIDIA réduiront l'écart de performance des TPU de 2026 à 2027.absence de rareté matérielle et compatibilité limitée avec les écosystèmesNéanmoins, Google maintient ses atouts en matière de regroupement massif, de latence déterministe et d'efficacité en termes de coûts pour les charges de travail du ministère de l'Intérieur.
Google développe à la fois l'infrastructure TPU et le GPU NVIDIA. Meta prévoit un accord d'adoption de TPU de plusieurs milliards de dollars à partir de 2027.TPU v8 assure la compétitivité de Google contre NVIDIA Grace-Blackwell pour le déploiement de l'IA à grande échelle.
La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!



