Deux caractéristiques se démarquent pour le NVIDIA DGX Spark: une mémoire unifiée de 128 Go dans une unité de bureau de 4 000 $ et un réseau de niveau centre de données intégré de 200 Go.Le tissu à grande vitesse le différencie des postes de travail ordinaires, permettant le regroupement multi-nœuds autrefois exclusif aux serveurs montés sur rack.et les variantes HP Spark dans des grappes 200GbE à deux nœuds pour différents modèles et charges de travailIl analyse également le parallélisme des pipelines (PP), une méthode de scission alternative qui surpasse le parallélisme des tensors par défaut (TP) de NVIDIA.
Tissu réseau de 200 Gb
Chaque Spark est équipé de deux cages QSFP56 couplées à un SmartNIC ConnectX-7 intégré.avec un port suffisant pour une bande passante complèteTrois configurations communes sont disponibles: liaisons directes Spark-to-Spark 200 Gb, topologie d'anneau sans commutateur via des ports doubles de 100 Gb,et le regroupement hybride avec accès de stockage à haute vitesse NVMe-oFNVIDIA vend des ordinateurs de bureau à un seul appareil, des clusters à deux nœuds validés et des configurations à quatre nœuds récemment publiées.La configuration à double étincelle est la plus pratique pour l'inférence de style de production et l'objectif de ce test.
Rationalisation de l'accumulation d'étincelles
L'avantage principal est l'expansion de la capacité du modèle: deux Sparks liés peuvent exécuter des modèles de paramètres 120B qui dépassent les limites de la mémoire d'un seul bloc.la plateforme sert d'outil éducatif abordable. NVIDIA conçoit Spark pour les débutants pour apprendre les flux de travail de l'IA, avec des guides officiels couvrant le déploiement du modèle, le réglage fin et le développement PyTorch / JAX.Les clusters à double nœud enseignent également le parallélisme multi-nœuds et l'analyse des goulots d'étranglement du réseau sans matériel coûteux du centre de donnéesNotamment, Spark n'est pas optimisé pour l'inférence de production.Les grappes plus grandes souffrent d'une dégradation grave des performances, avec un faible débit de jetons, les limitant à un usage éducatif plutôt qu'à un service commercial.
Tests de performance: PP contre TP
Sélection de la stratégie de parallélisme
NVIDIA utilise par défaut TP, qui divise chaque couche de transformateur entre deux GPU avec des échanges de données fréquents.transfert d'activations une seule fois entre les nœudsSur les liaisons 200GbE, PP minimise la communication entre les nœuds. Pour les grands modèles à grande taille de lot, PP surpasse largement TP; TP excelle uniquement dans les scénarios de chat à faible latence à demande unique.
Les tests sur GPT-OSS-120B confirment cette lacune. À la taille du lot 128, PP atteint 554,69 tok/s (2,20 fois plus rapide que TP) dans les charges de travail équilibrées, 310,63 tok/s contre 164,99 tok/s dans les tâches de pré-remplissage.TP conduit uniquement au lot de taille 1Pour les petits modèles comme Llama-3.1-8B, TP domine la plupart des tailles de lot en raison du calcul des couches légères, PP dépassant TP uniquement à haute concurrence.
Résultats de l'analyse comparative multi-modèle (PP=2)
Série GPT-OSS
Pour GPT-OSS-120B, HP a dépassé le débit de pointe dans les charges de travail équilibrées (504,88 tok/s) et pré-remplissage lourds (441,63 tok/s); GIGABYTE a mené des tests de décodeur lourds (494,37 tok/s).Dell dominé équilibré (976.77 tok/s) et les scénarios de pré-remplissage lourd (852.39 tok/s), tandis que GIGABYTE a mené les tâches de décodage (945.55 tok/s).
Llama 3.1 8B Variantes
Dans la précision BF16, Dell a mené des charges de travail équilibrées (689.53 tok/s) et décodées (581.43 tok/s); GIGABYTE a remporté des tests pré-remplissage (539.27 tok/s).Gigabyte LED équilibré (1458Pour le FP8, Dell a maintenu des prospects étroits dans les scénarios équilibrés (1105.42 tok/s) et décodés (862.33 tok/s).
Les modèles Mistral et Qwen
Mistral Small 3.1 24B a connu des lacunes minimales: GIGABYTE a atteint un sommet de 255,09 tok/s dans les charges de travail équilibrées.Dell excellait dans les scénarios de décodeDans le cadre de la quantification FB8, GIGABYTE a dépassé le débit de pré-remplissage (3088,62 tok/s), tandis que Dell a mené les tâches de décodage (705,77 tok/s).
Résumé du pic de production des systèmes à double étincelle
|
Modèle
|
Scénario (BS ¢ 64)
|
Période de sortie maximale
|
Période de sortie maximale en gigaoctets
|
Sortie maximale HP
|
|---|---|---|---|---|
|
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.
|
L'ISL/OSL est égale
|
463.97 tok/s
|
497.26 tok/s
|
5040,88 tok/s
|
|
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.
|
Remplissage préalable lourd
|
419.56 tok/s
|
417.34 tok/s
|
441.63 tok/s
|
|
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.
|
Décodage lourd
|
451.18 tok/s
|
494.37 tok/s
|
474.85 tok/s
|
|
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.
|
L'ISL/OSL est égale
|
976.77 tok/s
|
952.31 tok/s
|
915.72 tok/s
|
|
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.
|
Remplissage préalable lourd
|
852.39 tok/s
|
802.37 tok/s
|
7570,05 tok/s
|
|
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.
|
Décodage lourd
|
938.65 tok/s
|
945.55 tok/s
|
865.78 tok/s
|
|
Llama-3.1-8B-Instructeur
|
L'ISL/OSL est égale
|
689.53 tok/s
|
687.48 tok/s
|
618.87 tok/s
|
|
Llama-3.1-8B-Instructeur
|
Remplissage préalable lourd
|
515.45 tok/s
|
539.27 tok/s
|
463.39 tok/s
|
|
Llama-3.1-8B-Instructeur
|
Décodage lourd
|
581.43 tok/s
|
576.91 tok/s
|
5310,07 tok/s
|
|
Llama-3.1-8B-FP4
|
L'ISL/OSL est égale
|
1427.39 tok/s
|
14580,86 tok/s
|
1413.51 tok/s
|
|
Llama-3.1-8B-FP4
|
Remplissage préalable lourd
|
884.22 tok/s
|
954.23 tok/s
|
843.57 tok/s
|
|
Llama-3.1-8B-FP4
|
Décodage lourd
|
10080,98 tok/s
|
1007.23 tok/s
|
943.73 tok/s
|
|
Llama-3.1-8B-FP8
|
L'ISL/OSL est égale
|
1105.42 tok/s
|
1089.85 tok/s
|
1076.68 tok/s
|
|
Llama-3.1-8B-FP8
|
Remplissage préalable lourd
|
759.50 tok/s
|
827.40 tok/s
|
725.51 tok/s
|
|
Llama-3.1-8B-FP8
|
Décodage lourd
|
862.33 tok/s
|
855.81 tok/s
|
800.78 tok/s
|
|
Le Mistral-Small-3.1-24B
|
L'ISL/OSL est égale
|
249.77 tok/s
|
255.09 tok/s
|
239.09 tok/s
|
|
Le Mistral-Small-3.1-24B
|
Remplissage préalable lourd
|
216.01 tok/s
|
214.38 tok/s
|
1970,92 tok/s
|
|
Le Mistral-Small-3.1-24B
|
Décodage lourd
|
238.44 tok/s
|
237.97 tok/s
|
221.41 tok/s
|
Conclusion
Les unités Dell, GIGABYTE et HP Spark offrent des lacunes négligeables de performance, avec des avantages mineurs spécifiques au lot.et le soutien après-vente par rapport aux différences insignifiantes entre les indices de référenceLa stratégie de parallélisation a un impact beaucoup plus important que les variantes OEM: PP surpasse TP pour l'inférence par lots, tandis que TP convient à l'interaction à faible latence en un seul flux.La recommandation de TP de NVIDIA s'aligne avec le positionnement de Spark comme un dispositif d'apprentissage interactif plutôt que comme une infrastructure de productionUn cluster Spark à deux nœuds sert de plateforme d'enseignement abordable pour l'IA distribuée.En attente de déploiement du commutateur 800Gb.
La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!



