Aperçu Les affaires

NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP

Tous les produits

Serveur de stockage en rayons
(165)

Serveur de fusion de Huawei
(31)

Dell Poweredge Server
(59)

Serveur de H3C
(31)

Commutateurs de la télématique
(96)

Dispositif de WLAN
(21)

Routeur sans fil intelligent
(10)

Unité de disque dur HDD
(78)

Disque transistorisé de disque dur interne
(16)

Carte graphique de Geforce
(27)

Processeur d'unité centrale de traitement d'INTEL
(20)

Mémoire RAM de serveur
(6)

Serveur refourbi de stockage
(6)

Module d'émetteur-récepteur de SFP
(4)

Commutateur de la Manche de fibre
(94)

Certificat

Examens de client

Le personnel de vente de Beijing Qianxing Jietong Technology Co.,Ltd sont très professionnel et patient. Ils peuvent fournir des citations rapidement. La qualité et l'emballage des produits sont également très bons. Notre coopération est très lisse.

—— LLC de》 de Festfing DV de 《

Quand je recherchais l'unité centrale de traitement d'Intel et le disque transistorisé de Toshiba instamment, Sandy de Beijing Qianxing Jietong Technology Co., Ltd m'a donné beaucoup d'aide et m'a obtenu les produits que j'ai eus besoin rapidement. Je l'apprécie vraiment.

—— Kitty Yen

Sandy de Beijing Qianxing Jietong Technology Co.,Ltd est un vendeur très soigneux, qui peut me rappeler des erreurs de configuration à temps où j'achète un serveur. Les ingénieurs sont également très professionnels et peuvent rapidement compléter le processus de essai.

—— Strelkin Mikhail Vladimirovich

Nous sommes très satisfaits de notre expérience de travail avec Beijing Qianxing Jietong. La qualité du produit est excellente et la livraison est toujours à l'heure. Leur équipe de vente est professionnelle, patiente et très serviable pour toutes nos questions. Nous apprécions vraiment leur soutien et nous nous réjouissons d'un partenariat à long terme. Fortement recommandé !

—— Ahmad Navid

Qualité: Grande expérience avec mon fournisseur. Le MikroTik RB3011 était déjà utilisé, mais il était en très bon état et tout fonctionnait parfaitement.et toutes mes préoccupations ont été traitées rapidementUn fournisseur très fiable, très recommandé.

—— Geran Colesio

Je suis en ligne une discussion en ligne

NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP

May 15, 2026

Deux caractéristiques se démarquent pour le NVIDIA DGX Spark: une mémoire unifiée de 128 Go dans une unité de bureau de 4 000 $ et un réseau de niveau centre de données intégré de 200 Go.Le tissu à grande vitesse le différencie des postes de travail ordinaires, permettant le regroupement multi-nœuds autrefois exclusif aux serveurs montés sur rack.et les variantes HP Spark dans des grappes 200GbE à deux nœuds pour différents modèles et charges de travailIl analyse également le parallélisme des pipelines (PP), une méthode de scission alternative qui surpasse le parallélisme des tensors par défaut (TP) de NVIDIA.

Tissu réseau de 200 Gb

Chaque Spark est équipé de deux cages QSFP56 couplées à un SmartNIC ConnectX-7 intégré.avec un port suffisant pour une bande passante complèteTrois configurations communes sont disponibles: liaisons directes Spark-to-Spark 200 Gb, topologie d'anneau sans commutateur via des ports doubles de 100 Gb,et le regroupement hybride avec accès de stockage à haute vitesse NVMe-oFNVIDIA vend des ordinateurs de bureau à un seul appareil, des clusters à deux nœuds validés et des configurations à quatre nœuds récemment publiées.La configuration à double étincelle est la plus pratique pour l'inférence de style de production et l'objectif de ce test.

Rationalisation de l'accumulation d'étincelles

L'avantage principal est l'expansion de la capacité du modèle: deux Sparks liés peuvent exécuter des modèles de paramètres 120B qui dépassent les limites de la mémoire d'un seul bloc.la plateforme sert d'outil éducatif abordable. NVIDIA conçoit Spark pour les débutants pour apprendre les flux de travail de l'IA, avec des guides officiels couvrant le déploiement du modèle, le réglage fin et le développement PyTorch / JAX.Les clusters à double nœud enseignent également le parallélisme multi-nœuds et l'analyse des goulots d'étranglement du réseau sans matériel coûteux du centre de donnéesNotamment, Spark n'est pas optimisé pour l'inférence de production.Les grappes plus grandes souffrent d'une dégradation grave des performances, avec un faible débit de jetons, les limitant à un usage éducatif plutôt qu'à un service commercial.

Tests de performance: PP contre TP

Sélection de la stratégie de parallélisme

NVIDIA utilise par défaut TP, qui divise chaque couche de transformateur entre deux GPU avec des échanges de données fréquents.transfert d'activations une seule fois entre les nœudsSur les liaisons 200GbE, PP minimise la communication entre les nœuds. Pour les grands modèles à grande taille de lot, PP surpasse largement TP; TP excelle uniquement dans les scénarios de chat à faible latence à demande unique.

Les tests sur GPT-OSS-120B confirment cette lacune. À la taille du lot 128, PP atteint 554,69 tok/s (2,20 fois plus rapide que TP) dans les charges de travail équilibrées, 310,63 tok/s contre 164,99 tok/s dans les tâches de pré-remplissage.TP conduit uniquement au lot de taille 1Pour les petits modèles comme Llama-3.1-8B, TP domine la plupart des tailles de lot en raison du calcul des couches légères, PP dépassant TP uniquement à haute concurrence.

Résultats de l'analyse comparative multi-modèle (PP=2)

Série GPT-OSS

Pour GPT-OSS-120B, HP a dépassé le débit de pointe dans les charges de travail équilibrées (504,88 tok/s) et pré-remplissage lourds (441,63 tok/s); GIGABYTE a mené des tests de décodeur lourds (494,37 tok/s).Dell dominé équilibré (976.77 tok/s) et les scénarios de pré-remplissage lourd (852.39 tok/s), tandis que GIGABYTE a mené les tâches de décodage (945.55 tok/s).

Llama 3.1 8B Variantes

Dans la précision BF16, Dell a mené des charges de travail équilibrées (689.53 tok/s) et décodées (581.43 tok/s); GIGABYTE a remporté des tests pré-remplissage (539.27 tok/s).Gigabyte LED équilibré (1458Pour le FP8, Dell a maintenu des prospects étroits dans les scénarios équilibrés (1105.42 tok/s) et décodés (862.33 tok/s).

Les modèles Mistral et Qwen

Mistral Small 3.1 24B a connu des lacunes minimales: GIGABYTE a atteint un sommet de 255,09 tok/s dans les charges de travail équilibrées.Dell excellait dans les scénarios de décodeDans le cadre de la quantification FB8, GIGABYTE a dépassé le débit de pré-remplissage (3088,62 tok/s), tandis que Dell a mené les tâches de décodage (705,77 tok/s).

Résumé du pic de production des systèmes à double étincelle

Modèle	Scénario (BS ¢ 64)	Période de sortie maximale	Période de sortie maximale en gigaoctets	Sortie maximale HP
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.	L'ISL/OSL est égale	463.97 tok/s	497.26 tok/s	5040,88 tok/s
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.	Remplissage préalable lourd	419.56 tok/s	417.34 tok/s	441.63 tok/s
Le système de contrôle de l'équipement doit être conforme aux exigences de la présente directive.	Décodage lourd	451.18 tok/s	494.37 tok/s	474.85 tok/s
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.	L'ISL/OSL est égale	976.77 tok/s	952.31 tok/s	915.72 tok/s
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.	Remplissage préalable lourd	852.39 tok/s	802.37 tok/s	7570,05 tok/s
Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.	Décodage lourd	938.65 tok/s	945.55 tok/s	865.78 tok/s
Llama-3.1-8B-Instructeur	L'ISL/OSL est égale	689.53 tok/s	687.48 tok/s	618.87 tok/s
Llama-3.1-8B-Instructeur	Remplissage préalable lourd	515.45 tok/s	539.27 tok/s	463.39 tok/s
Llama-3.1-8B-Instructeur	Décodage lourd	581.43 tok/s	576.91 tok/s	5310,07 tok/s
Llama-3.1-8B-FP4	L'ISL/OSL est égale	1427.39 tok/s	14580,86 tok/s	1413.51 tok/s
Llama-3.1-8B-FP4	Remplissage préalable lourd	884.22 tok/s	954.23 tok/s	843.57 tok/s
Llama-3.1-8B-FP4	Décodage lourd	10080,98 tok/s	1007.23 tok/s	943.73 tok/s
Llama-3.1-8B-FP8	L'ISL/OSL est égale	1105.42 tok/s	1089.85 tok/s	1076.68 tok/s
Llama-3.1-8B-FP8	Remplissage préalable lourd	759.50 tok/s	827.40 tok/s	725.51 tok/s
Llama-3.1-8B-FP8	Décodage lourd	862.33 tok/s	855.81 tok/s	800.78 tok/s
Le Mistral-Small-3.1-24B	L'ISL/OSL est égale	249.77 tok/s	255.09 tok/s	239.09 tok/s
Le Mistral-Small-3.1-24B	Remplissage préalable lourd	216.01 tok/s	214.38 tok/s	1970,92 tok/s
Le Mistral-Small-3.1-24B	Décodage lourd	238.44 tok/s	237.97 tok/s	221.41 tok/s

Conclusion

Les unités Dell, GIGABYTE et HP Spark offrent des lacunes négligeables de performance, avec des avantages mineurs spécifiques au lot.et le soutien après-vente par rapport aux différences insignifiantes entre les indices de référenceLa stratégie de parallélisation a un impact beaucoup plus important que les variantes OEM: PP surpasse TP pour l'inférence par lots, tandis que TP convient à l'interaction à faible latence en un seul flux.La recommandation de TP de NVIDIA s'aligne avec le positionnement de Spark comme un dispositif d'apprentissage interactif plutôt que comme une infrastructure de productionUn cluster Spark à deux nœuds sert de plateforme d'enseignement abordable pour l'IA distribuée.En attente de déploiement du commutateur 800Gb.

La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!

PREV: Examen ORICO X50 : vitesse Thunderbolt 5 dans un boîtier SSD portable

NEXT: Examen du Seagate IronWolf Pro 32 To : capacité supérieure de la pile pour NAS multi-baies

Coordonnées

Beijing Qianxing Jietong Technology Co., Ltd.

Personne à contacter: Ms. Sandy Yang

Téléphone: 13426366826

NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP

Serveur de stockage en rayons

Serveur de fusion de Huawei

Dell Poweredge Server

Serveur de H3C

Commutateurs de la télématique

Dispositif de WLAN

Routeur sans fil intelligent

Unité de disque dur HDD

Disque transistorisé de disque dur interne

Carte graphique de Geforce

Processeur d'unité centrale de traitement d'INTEL

Mémoire RAM de serveur

Serveur refourbi de stockage

Module d'émetteur-récepteur de SFP

Commutateur de la Manche de fibre

NVIDIA DGX Spark Cluster Review : inférence distribuée sur Dell, GIGABYTE et HP

Tissu réseau de 200 Gb

Rationalisation de l'accumulation d'étincelles

Tests de performance: PP contre TP

Sélection de la stratégie de parallélisme

Résultats de l'analyse comparative multi-modèle (PP=2)

Série GPT-OSS

Llama 3.1 8B Variantes

Les modèles Mistral et Qwen

Résumé du pic de production des systèmes à double étincelle

Conclusion

Serveur de stockage en rayons

12 serveur Rackmount de support de Lenovo ThinkSystem SR630 de serveur des baies 1U

Serveur de stockage en rack ThinkSystem SR250 V2 4SFF Processeur Intel Xeon E-2378G

Serveur de bâti de support d'Inspur NF5180M6 1U de serveur de stockage en rayons d'Intel C621A

Serveur de fusion de Huawei

Serveur 32 DDR4 DIMMs de support de FusionServer 5288 V6 4U 44 disques durs de 3,5 pouces

Serveur ultra à haute densité 1288H V5 de stockage de réseau du serveur 1U de fusion de Huawei

Stockage flash hybride pour serveur rack Huawei nouvelle génération OceanStor 5310