AMD a annoncé ses résultats de référence MLPerf Inference v6.0, positionnant le GPU Instinct MI355X comme une plateforme d'inférence hautement évolutive capable de prendre en charge un seul nœud, plusieurs nœuds,et déploiements hétérogènesAu-delà des gains de performance incrémentiels, la soumission introduit de nouvelles charges de travail, démontre un débit à l'échelle du cluster dépassant 1 million de jetons par seconde,et valide la reproductibilité constante des performances dans un écosystème partenaire en expansion.
CDNA 4 Objectifs d'architecture d'inférence de haute capacité
L'instinct MI355X est construit sur l'architecture CDNA 4 d'AMD, tirant parti d'une conception de puce à double processus de TSMC: les matrices de calcul (XCD) utilisent un nœud 3nm, tandis que les matrices d'E/S utilisent la technologie FinFET 6nm.Le paquet multichiplet intègre 185 milliards de transistors et prend en charge les formats de données FP4 et FP6Chaque GPU est équipé d'une mémoire HBM3E pouvant atteindre 288 Go (offrant 8 To/sec de bande passante de mémoire), permettant de prendre en charge des modèles pouvant atteindre 520 milliards de paramètres sur un seul appareil.AMD souligne que cette combinaison de densité de calcul et de capacité de mémoire élimine le besoin de partitionnement excessif du modèle, un avantage essentiel pour les charges de travail d'inférence à grande échelle.
Disponible en configurations UBB8, la plateforme offre à la fois des options refroidies à l'air et refroidies directement par liquide, en s'alignant sur divers besoins de déploiement de centres de données.le MI355X est équipé d'une puissance thermique de 1400 W avec refroidissement par liquide, offrant des performances plus élevées que son homologue refroidi à l'air, le MI350X.
Le débit multi-node dépasse 1 million de jetons par seconde
Une réalisation remarquable de la ronde MLPerf v6.0 est le débit à l'échelle de cluster d'AMD qui dépasse 1 million de jetons par seconde.AMD a atteint cette étape avec Llama 2 70B dans les scénarios Server et Offline, ainsi qu'avec GPT-OSS-120B en mode hors ligne.
AMD MLPerf 1M jetons par seconde graphique
Ces résultats reflètent un changement croissant de l'industrie vers l'évaluation des performances d'inférence au niveau du cluster, plutôt que par accélérateur individuel.Le débit global et le temps de service sont devenus des indicateurs principaux pour déterminer la préparation à la production dans les déploiements d'IA à grande échelle.
AMD a également démontré une efficacité de mise à l'échelle exceptionnelle.d'une efficacité de mise à l'échelle allant de 93% à 98%Pour GPT-OSS-120B, un cluster de 12 nœuds et 94 GPU fournissant un débit similaire avec une efficacité de mise à l'échelle supérieure à 90% ‒ prouvant des performances efficaces à mesure que les déploiements dépassent un seul système.
Les gains générationnels et la performance concurrentielle du nœud unique
AMD a signalé des améliorations générationnelles significatives, avec l'Instinct MI355X offrant 3,1 fois de meilleures performances sur le serveur Llama 2 70B par rapport à l'Instinct MI325X de génération précédente, atteignant 100,282 jetons par secondeCette amélioration provient à la fois des améliorations de l'architecture de CDNA 4 et des optimisations du logiciel ROCm.Principalement alimenté par la quantification FP4 une caractéristique clé du MI355X qui débloque un débit plus élevé pour les charges de travail d'IA.
Résultats d'inférence AMD par rapport au graphique de la génération précédente
Dans les comparaisons à nœud unique avec les plateformes NVIDIA, le MI355X a démontré une forte compétitivité.atteint une quasi-parité des performances du serveurLe MI355X est le plus performant en mode interactif, avec 92% de performances hors ligne, 93% de performances serveur et 4% en mode interactif.Le MI355X offre également une rentabilité supérieure., fournissant 40% de jetons de plus par dollar par rapport à la NVIDIA B200.
L'activation du modèle pour la première fois élargit la couverture
MLPerf Inference v6.0 a introduit plusieurs nouvelles charges de travail, et AMD a utilisé cette ronde pour présenter l'activation rapide du modèle.obtenir des résultats compétitifs par rapport aux systèmes NVIDIA dans les scénarios Offline et Server.
AMD a également soumis des résultats pour la génération de texte en vidéo Wan-2.2, marquant son entrée dans l'inférence vidéo multimodale et générative.les résultats étaient à la hauteur des plateformes existantesLe réglage post-envoi a encore amélioré les performances, ce qui laisse la place à l'optimisation à mesure que la pile de logiciels mûrit.
Ces ajouts soulignent l'engagement d'AMD à aller au-delà des critères de référence traditionnels de LLM pour prendre en charge les charges de travail émergentes de l'IA dans divers cas d'utilisation.
Le logiciel ROCm permet la mise à l'échelle et l'inférence hétérogène
AMD attribue une grande partie des performances et de l'évolutivité du MI355X à sa pile de logiciels ROCm.et le support d'une répartition dynamique de la charge de travail dans des environnements hétérogènes.
AMD MLPerf résultats d'inférence instinct mI355x graphique
Une présentation hétérogène de pointe développée par Dell et MangoBoost utilisait trois modèles de GPU AMD Instinct: MI300X, MI325X et MI355X.521 jetons par seconde sur le serveur Llama 2 70B et 151La plateforme MI355X était située dans le laboratoire américain de Dell.pendant que les systèmes MI300X et MI325X étaient en Corée, démontrant la capacité de coordonner des systèmes distribués à travers des emplacements géographiques..
Croissance et reproductibilité des écosystèmes
L'écosystème de partenaires d'AMD s'est considérablement élargi dans ce cycle MLPerf, avec neuf entreprises soumettant des résultats sur plusieurs générations de GPU Instinct.Gigacomputing, HPE, MangoBoost, MiTAC, Oracle, Supermicro et Red Hat reflètent une large adoption par l'industrie des solutions d'inférence AMD.
Les soumissions des partenaires étaient étroitement alignées sur les résultats internes de AMD, généralement dans un rayon de 4% et dans certains cas dans un rayon de 1%.Cette cohérence confirme que les performances du MI355X sont reproductibles sur les plateformes OEM et cloud., réduisant le risque de déploiement et renforçant la confiance dans les résultats de performance dans le monde réel.
La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!



