logo
Aperçu Les affaires

NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP

Certificat
Chine Beijing Qianxing Jietong Technology Co., Ltd. certifications
Chine Beijing Qianxing Jietong Technology Co., Ltd. certifications
Examens de client
Le personnel de vente de Beijing Qianxing Jietong Technology Co.,Ltd sont très professionnel et patient. Ils peuvent fournir des citations rapidement. La qualité et l'emballage des produits sont également très bons. Notre coopération est très lisse.

—— LLC de》 de Festfing DV de 《

Quand je recherchais l'unité centrale de traitement d'Intel et le disque transistorisé de Toshiba instamment, Sandy de Beijing Qianxing Jietong Technology Co., Ltd m'a donné beaucoup d'aide et m'a obtenu les produits que j'ai eus besoin rapidement. Je l'apprécie vraiment.

—— Kitty Yen

Sandy de Beijing Qianxing Jietong Technology Co.,Ltd est un vendeur très soigneux, qui peut me rappeler des erreurs de configuration à temps où j'achète un serveur. Les ingénieurs sont également très professionnels et peuvent rapidement compléter le processus de essai.

—— Strelkin Mikhail Vladimirovich

Nous sommes très satisfaits de notre expérience de travail avec Beijing Qianxing Jietong. La qualité du produit est excellente et la livraison est toujours à l'heure. Leur équipe de vente est professionnelle, patiente et très serviable pour toutes nos questions. Nous apprécions vraiment leur soutien et nous nous réjouissons d'un partenariat à long terme. Fortement recommandé !

—— Ahmad Navid

Qualité: “Grande expérience avec mon fournisseur. Le MikroTik RB3011 était déjà utilisé, mais il était en très bon état et tout fonctionnait parfaitement.et toutes mes préoccupations ont été traitées rapidementUn fournisseur très fiable, très recommandé.

—— Geran Colesio

Je suis en ligne une discussion en ligne

NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP

May 15, 2026
Deux caractéristiques se démarquent pour le NVIDIA DGX Spark: une mémoire unifiée de 128 Go dans une unité de bureau de 4 000 $ et un réseau de niveau centre de données intégré de 200 Go.Le tissu à grande vitesse le différencie des postes de travail ordinaires, permettant le regroupement multi-nœuds autrefois exclusif aux serveurs montés sur rack.et les variantes HP Spark dans des grappes 200GbE à deux nœuds pour différents modèles et charges de travailIl analyse également le parallélisme des pipelines (PP), une méthode de scission alternative qui surpasse le parallélisme des tensors par défaut (TP) de NVIDIA.

dernière affaire concernant NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP  0

Tissu réseau de 200 Gb


Chaque Spark est équipé de deux cages QSFP56 couplées à un SmartNIC ConnectX-7 intégré.avec un port suffisant pour une bande passante complèteTrois configurations communes sont disponibles: liaisons directes Spark-to-Spark 200 Gb, topologie d'anneau sans commutateur via des ports doubles de 100 Gb,et le regroupement hybride avec accès de stockage à haute vitesse NVMe-oFNVIDIA vend des ordinateurs de bureau à un seul appareil, des clusters à deux nœuds validés et des configurations à quatre nœuds récemment publiées.La configuration à double étincelle est la plus pratique pour l'inférence de style de production et l'objectif de ce test.

dernière affaire concernant NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP  1

Rationalisation de l'accumulation d'étincelles


L'avantage principal est l'expansion de la capacité du modèle: deux Sparks liés peuvent exécuter des modèles de paramètres 120B qui dépassent les limites de la mémoire d'un seul bloc.la plateforme sert d'outil éducatif abordable. NVIDIA conçoit Spark pour les débutants pour apprendre les flux de travail de l'IA, avec des guides officiels couvrant le déploiement du modèle, le réglage fin et le développement PyTorch / JAX.Les clusters à double nœud enseignent également le parallélisme multi-nœuds et l'analyse des goulots d'étranglement du réseau sans matériel coûteux du centre de donnéesNotamment, Spark n'est pas optimisé pour l'inférence de production.Les grappes plus grandes souffrent d'une dégradation grave des performances, avec un faible débit de jetons, les limitant à un usage éducatif plutôt qu'à un service commercial.

Tests de performance: PP contre TP


Sélection de la stratégie de parallélisme


NVIDIA utilise par défaut TP, qui divise chaque couche de transformateur entre deux GPU avec des échanges de données fréquents.transfert d'activations une seule fois entre les nœudsSur les liaisons 200GbE, PP minimise la communication entre les nœuds. Pour les grands modèles à grande taille de lot, PP surpasse largement TP; TP excelle uniquement dans les scénarios de chat à faible latence à demande unique.
Les tests sur GPT-OSS-120B confirment cette lacune. À la taille du lot 128, PP atteint 554,69 tok/s (2,20 fois plus rapide que TP) dans les charges de travail équilibrées, 310,63 tok/s contre 164,99 tok/s dans les tâches de pré-remplissage.TP conduit uniquement au lot de taille 1Pour les petits modèles comme Llama-3.1-8B, TP domine la plupart des tailles de lot en raison du calcul des couches légères, PP dépassant TP uniquement à haute concurrence.

Résultats de l'analyse comparative multi-modèle (PP=2)


Série GPT-OSS


Pour GPT-OSS-120B, HP a dépassé le débit de pointe dans les charges de travail équilibrées (504,88 tok/s) et pré-remplissage lourds (441,63 tok/s); GIGABYTE a mené des tests de décodeur lourds (494,37 tok/s).Dell dominé équilibré (976.77 tok/s) et les scénarios de pré-remplissage lourd (852.39 tok/s), tandis que GIGABYTE a mené les tâches de décodage (945.55 tok/s).

Llama 3.1 8B Variantes


Dans la précision BF16, Dell a mené des charges de travail équilibrées (689.53 tok/s) et décodées (581.43 tok/s); GIGABYTE a remporté des tests pré-remplissage (539.27 tok/s).Gigabyte LED équilibré (1458Pour le FP8, Dell a maintenu des prospects étroits dans les scénarios équilibrés (1105.42 tok/s) et décodés (862.33 tok/s).

Les modèles Mistral et Qwen


Mistral Small 3.1 24B a connu des lacunes minimales: GIGABYTE a atteint un sommet de 255,09 tok/s dans les charges de travail équilibrées.Dell excellait dans les scénarios de décodeDans le cadre de la quantification FB8, GIGABYTE a dépassé le débit de pré-remplissage (3088,62 tok/s), tandis que Dell a mené les tâches de décodage (705,77 tok/s).

Résumé du pic de production des systèmes à double étincelle


Modèle
Scénario (BS ¢ 64)
Période de sortie maximale
Période de sortie maximale en gigaoctets
Sortie maximale HP
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.
L'ISL/OSL est égale
463.97 tok/s
497.26 tok/s
5040,88 tok/s
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.
Remplissage préalable lourd
419.56 tok/s
417.34 tok/s
441.63 tok/s
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.
Décodage lourd
451.18 tok/s
494.37 tok/s
474.85 tok/s
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.
L'ISL/OSL est égale
976.77 tok/s
952.31 tok/s
915.72 tok/s
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.
Remplissage préalable lourd
852.39 tok/s
802.37 tok/s
7570,05 tok/s
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.
Décodage lourd
938.65 tok/s
945.55 tok/s
865.78 tok/s
Llama-3.1-8B-Instructeur
L'ISL/OSL est égale
689.53 tok/s
687.48 tok/s
618.87 tok/s
Llama-3.1-8B-Instructeur
Remplissage préalable lourd
515.45 tok/s
539.27 tok/s
463.39 tok/s
Llama-3.1-8B-Instructeur
Décodage lourd
581.43 tok/s
576.91 tok/s
5310,07 tok/s
Llama-3.1-8B-FP4
L'ISL/OSL est égale
1427.39 tok/s
14580,86 tok/s
1413.51 tok/s
Llama-3.1-8B-FP4
Remplissage préalable lourd
884.22 tok/s
954.23 tok/s
843.57 tok/s
Llama-3.1-8B-FP4
Décodage lourd
10080,98 tok/s
1007.23 tok/s
943.73 tok/s
Llama-3.1-8B-FP8
L'ISL/OSL est égale
1105.42 tok/s
1089.85 tok/s
1076.68 tok/s
Llama-3.1-8B-FP8
Remplissage préalable lourd
759.50 tok/s
827.40 tok/s
725.51 tok/s
Llama-3.1-8B-FP8
Décodage lourd
862.33 tok/s
855.81 tok/s
800.78 tok/s
Le Mistral-Small-3.1-24B
L'ISL/OSL est égale
249.77 tok/s
255.09 tok/s
239.09 tok/s
Le Mistral-Small-3.1-24B
Remplissage préalable lourd
216.01 tok/s
214.38 tok/s
1970,92 tok/s
Le Mistral-Small-3.1-24B
Décodage lourd
238.44 tok/s
237.97 tok/s
221.41 tok/s


Conclusion


Les unités Dell, GIGABYTE et HP Spark offrent des lacunes négligeables de performance, avec des avantages mineurs spécifiques au lot.et le soutien après-vente par rapport aux différences insignifiantes entre les indices de référenceLa stratégie de parallélisation a un impact beaucoup plus important que les variantes OEM: PP surpasse TP pour l'inférence par lots, tandis que TP convient à l'interaction à faible latence en un seul flux.La recommandation de TP de NVIDIA s'aligne avec le positionnement de Spark comme un dispositif d'apprentissage interactif plutôt que comme une infrastructure de productionUn cluster Spark à deux nœuds sert de plateforme d'enseignement abordable pour l'IA distribuée.En attente de déploiement du commutateur 800Gb.

La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
“Utiliser la technologie pour bâtir un monde intelligent”Votre fournisseur de services de produits TIC de confiance!
Coordonnées
Beijing Qianxing Jietong Technology Co., Ltd.

Personne à contacter: Ms. Sandy Yang

Téléphone: 13426366826

Envoyez votre demande directement à nous (0 / 3000)