Points clés à retenir
- Débit sans précédent dans un seul nœud : Le R7725xd a maintenu plus de 300 Go/s de bande passante interne et 160 Go/s sur NVMe-oF RDMA, rivalisant avec des clusters de stockage multi-nœuds dans un châssis 2U.
- Architecture Gen5 véritable, sans commutateurs, sans distribution : Les 24 SSD Micron 9550 PRO bénéficient tous de voies PCIe Gen5 x4 dédiées directement du complexe CPU, permettant une mise à l'échelle en ligne sans contention.
- Alimenté par les processeurs AMD EPYC série 9005 : Les processeurs AMD EPYC 9575F doubles fournissent le nombre de voies, la bande passante mémoire et la topologie NUMA nécessaires pour une E/S à haute concurrence soutenue.
- Conçu pour l'IA, l'analytique et les charges de travail lourdes en points de contrôle : Le système élimine les goulots d'étranglement d'E/S qui ralentissent les pipelines GPU modernes, permettant une livraison de données continue et à large bande passante.
- PEAK:AIO débloque le parallélisme complet : La pile logicielle de PEAK:AIO maintient les structures de file d'attente saturées sous charge, offrant des performances d'entreprise à un rapport coût par Go convaincant.
La section de stockage de l'iDRAC 10 présente un aperçu complet de tous les disques physiques installés dans le R7725xd. Le panneau de résumé affiche un décompte général de tous les disques connectés, accompagné d'un graphique circulaire illustrant les états des disques. Dans cette configuration, 24 SSD NVMe sont actifs et signalés comme prêts, avec deux périphériques de démarrage supplémentaires présents dans le système, distincts de la banque NVMe avant principale.
Sur la droite, le panneau Résumé des disques les détaille en disques physiques et en disques virtuels associés. Comme le R7725xd utilise une architecture NVMe directe sans contrôleurs RAID traditionnels, tous les disques sont signalés comme Non-RAID et adressables individuellement, conformément à la conception du système pour les grands pools NVMe et les plateformes SDS.
Sous le résumé de l'état, la zone Événements de stockage récemment enregistrés liste les journaux d'insertion pour chaque SSD PCIe, organisés par baie et par emplacement. Cet enregistrement confirme la détection correcte dans toutes les baies de disques et aide à identifier tout problème d'insertion, de câblage ou d'activité de hot-swap. Pour les déploiements importants, ces journaux sont utiles pour suivre le provisionnement des disques ou vérifier que la capacité a été remplie comme prévu.
La dernière capture d'écran montre la vue détaillée des périphériques NVMe dans iDRAC10. Chaque disque NVMe installé dans le système est répertorié avec son état, sa capacité et son emplacement dans la baie. La sélection d'un disque individuel ouvre une ventilation complète de ses caractéristiques.
Dans cet exemple, le panneau d'informations sur le disque affiche la chaîne de modèle complète, le protocole du périphérique, le facteur de forme et les paramètres PCIe négociés. Les périphériques NVMe fonctionnent à une vitesse de liaison de 32 GT/s avec une connexion x4 négociée, confirmant que les disques fonctionnent à pleine bande passante sur le backplane PCIe Gen5 du système. La section d'informations signale également le pourcentage d'endurance, l'état des pièces de rechange disponibles et le type de protocole, aidant les administrateurs à surveiller l'état des disques et les attentes de cycle de vie.
Ce rapport granulaire sur les disques est précieux dans les configurations NVMe haute densité où la largeur de liaison, la vitesse négociée et l'état des médias influencent directement le comportement de la charge de travail et les performances de stockage.
Dans l'ensemble, l'interface iDRAC 10 fournit une vue claire et centrée sur le matériel de l'architecture de stockage NVMe du R7725xd, permettant une validation facile de l'état de la liaison, de l'état du disque et de l'intégrité du système en un coup d'œil.
Performances du Dell PowerEdge R7725xd
Avant les tests, notre système a été configuré avec une charge utile équilibrée mais haute performance. Le système est équipé de deux processeurs AMD EPYC 9575F, chacun doté de 64 cœurs à haute fréquence, et associé à 24 DIMM DDR5 de 32 Go fonctionnant à 6400 MT/s. Pour le stockage, le châssis est entièrement rempli de 24 SSD NVMe U.2 Micron 9550 PRO de 15,36 To, chacun connecté via un lien PCIe Gen5 x4 dédié. Cela fournit une capacité brute totale de 368,64 To, et les disques Micron 9550 PRO offrent des vitesses de lecture séquentielles allant jusqu'à 14 000 Mo/s et des vitesses d'écriture séquentielles allant jusqu'à 10 000 Mo/s. Le réseau est géré par quatre adaptateurs Broadcom BCM57608 qui fournissent un total de huit ports 200 Gb, ainsi qu'une carte OCP NIC BCM57412 offrant deux ports supplémentaires de 10 Gigabit.
Spécifications du système de test
- CPU : 2x processeurs haute fréquence AMD EPYC 9575F 64 cœurs
- Mémoire : 24x 32 Go DDR5 @ 6400 MT/s
- Stockage : 24x disques U.2 Micron 9550 PRO de 15,36 To (connectés sur 4 voies PCIe Gen5 chacun) ; prend en charge jusqu'à des disques de 128 To aujourd'hui avec des capacités plus élevées à venir
- Réseau : 4x cartes réseau Broadcom BCM57608 2x200G, 1x carte réseau OCP BCM57412 2x10Gb
- Commutateur : Dell PowerSwitch Z9664
Benchmark de performance FIO
Pour mesurer les performances de stockage du PowerEdge R7725xd, nous avons utilisé des métriques standard de l'industrie et l'outil FIO. Dans cette section, nous nous concentrons sur les benchmarks FIO suivants :
- 4K aléatoire – 1M
- 4K séquentiel – 1M
FIO – Local – Bande passante
Lors du test d'accès local aux 24 disques NVMe PCIe Gen5 à l'intérieur du Dell PowerEdge R7725xd, le système montre exactement ce que l'on attend d'une plateforme où chaque disque est connecté aux CPU en utilisant un lien PCIe Gen5 x4 complet. Sans couche réseau impliquée, il s'agit du débit interne pur de la disposition de stockage Gen5 de Dell et de la bande passante PCIe de la plateforme AMD EPYC fonctionnant sans restriction.
Les lectures séquentielles commencent à 184 Go/s avec des blocs 4K et augmentent rapidement à mesure que la taille des blocs augmente. De 512 Ko à 1 Mo, le serveur maintient une moyenne constante de 312 à 314 Go/s, ce qui indique bien comment le système peut agréger les 24 voies Gen5 x4 en bande passante de lecture soutenue sans aucun goulot d'étranglement au niveau du contrôleur.
Les écritures séquentielles suivent une courbe différente mais restent fermement dans la plage attendue. Commençant à 149 Go/s, les résultats augmentent dans les 100 Go/s moyens et atteignent 182 Go/s à 1 million. Cela correspond au comportement d'écriture des SSD Micron 9550 PRO et à la surcharge inhérente aux écritures NVMe hautement parallèles sur autant de périphériques indépendants.
Les performances de lecture aléatoire sont un autre point fort. Le système atteint des vitesses de près de 300 Go/s aux plus petites tailles de blocs, diminue légèrement dans la plage moyenne, puis récupère dans les 200 Go/s supérieurs et les 300 Go/s inférieurs aux tailles de blocs plus grandes. À 1 Mo, les lectures aléatoires atteignent un maximum de 318 Go/s, démontrant la capacité de la plateforme à distribuer uniformément les opérations mixtes sur les 24 disques.
Les écritures aléatoires sont à un taux inférieur, ce qui est typique pour les métadonnées dispersées et les tâches d'allocation d'écriture sur un large ensemble NVMe. Les résultats restent dans la plage de 140 à 160 Go/s pendant la majeure partie du test et diminuent à un peu moins de 100 Go/s à 1 Mo.
FIO – Local – IOPS
En examinant le côté IOPS, le R7725xd démontre de solides performances sur les petits blocs, avec des taux de requêtes atteignant bien des dizaines de millions avant que les tailles de blocs plus grandes ne déplacent la charge de travail vers un profil axé sur la bande passante.
À 4K, les lectures atteignent 44,9 millions d'IOPS et les écritures 36,3 millions. Les lectures aléatoires atteignent des niveaux encore plus élevés à 71,4 millions d'IOPS, démontrant la capacité du système à distribuer efficacement les charges de travail à file d'attente élevée sur tous les disques. Ces valeurs diminuent naturellement à mesure que la taille des blocs augmente, mais la progression reste constante dans les plages 8K, 16K et 32K.
À 16K et 32K blocs, les lectures se stabilisent à 17,4 millions et 8,35 millions d'IOPS, les lectures aléatoires étant très proches à 16,5 millions et 8,15 millions. Les écritures suivent le schéma attendu, étant plus faibles mais restant stables sur les modes d'accès séquentiel et aléatoire.
Lorsque nous passons à 64K et plus, le test passe de l'IOPS pur à un scénario plus lié à la bande passante. Les IOPS tombent dans la plage de quelques millions, puis dans les centaines de milliers. À une taille de bloc de 1 Mo, les IOPS de lecture se situent autour de 300K, les écritures autour de 174K, et les opérations aléatoires se terminent dans le même ordre de grandeur.
Dans l'ensemble, les résultats IOPS locaux montrent clairement la capacité du système à soutenir des charges de travail à très haute profondeur de file d'attente sur de petits blocs, avec une mise à l'échelle prévisible à mesure que les transferts augmentent et que la bande passante devient le facteur dominant.
PEAK:AIO : Pourquoi le Dell PowerEdge R7725xd convient à cette charge de travail
PEAK:AIO est conçu pour les environnements qui exigent un accès extrêmement rapide et à faible latence à de grands ensembles de données, généralement pour l'entraînement d'IA, les pipelines d'inférence, la modélisation financière et l'analyse en temps réel. La plateforme prospère sur le stockage NVMe dense, la bande passante PCIe équilibrée et la latence prévisible à grande échelle. Pour répondre à ces exigences, le matériel sous-jacent doit fournir un débit soutenu tout en maintenant des performances constantes et répétables sous des charges lourdes concurrentes.
C'est là que le Dell PowerEdge R7725xd s'aligne naturellement avec PEAK:AIO. L'architecture du système est conçue pour maximiser les ressources PCIe Gen5, exposant la pleine bande passante de ses 24 baies NVMe U.2 montées à l'avant directement aux CPU, sans dépendre de contrôleurs RAID traditionnels. Cette disposition donne à PEAK:AIO le parallélisme et le profil de latence qu'il attend des pipelines de données modernes basés sur NVMe. La configuration du système a divisé les SSD NVMe en deux groupes RAID0.
Dans le scénario testé, nous avons utilisé deux systèmes clients connectés au R7725xd, chacun équipé de cartes réseau Broadcom BCM57608 2x 200G. Cela a créé un total de quatre liaisons montantes de 200G alimentant chaque client, plaçant le R7725xd dans une configuration réaliste haute performance qui reflète ce que les déploiements PEAK:AIO voient en production. Ce niveau de bande passante réseau nous a donné la marge de manœuvre nécessaire pour solliciter pleinement le sous-système NVMe, la topologie PCIe et les interconnexions CPU sans goulot d'étranglement au niveau de la carte réseau.
Le résultat est une plateforme qui s'aligne efficacement avec les charges de travail PEAK:AIO. Le R7725xd offre une capacité NVMe dense, un débit PCIe Gen5, deux processeurs AMD EPYC 9005 pour le parallélisme, et la capacité réseau pour soutenir l'ingestion de données multi-clients à des centaines de gigabits par client. Toutes ces caractéristiques sont fondamentales pour atteindre les attentes de performance de PEAK:AIO.
PEAK:AIO – NVMe-oF RDMA – Bande passante
En examinant les résultats de bande passante NVMe-oF RDMA sur le PowerEdge R7725xd avec PEAK:AIO, la tendance générale est exactement celle que nous attendons d'un système avec autant de bande passante PCIe et réseau. À mesure que la taille des blocs augmente, le débit augmente rapidement jusqu'à se stabiliser près de la limite pratique de la plateforme.
Aux petites tailles de blocs, les performances commencent dans la plage de 20 Go/s pour les lectures et les écritures, ce qui est normal car les transferts 4K et 8K sollicitent davantage le chemin des IOPS que le chemin du débit. Une fois que nous entrons dans les blocs 16K et 32K, le pipeline s'ouvre. Les lectures sautent à environ 154 Go/s à 32K et continuent de grimper dans la plage de 160 Go/s, ce qui est exactement là où nous nous attendrions à ce qu'une configuration à double client sur quatre liaisons de 200 Gb/s atterrisse.
Les performances de lecture aléatoire reflètent presque parfaitement les performances séquentielles. PEAK:AIO fait un bon travail pour maintenir les files d'attente d'ordres alimentées, de sorte que la bande passante de lecture aléatoire suit essentiellement la bande passante de lecture séquentielle tout au long, se stabilisant à environ 159 à 161 Go/s de 32K à 1M. Cela indique que la pile de stockage ne constitue pas un goulot d'étranglement sous des modèles d'accès mixtes, et que la topologie PCIe du R7725xd distribue la charge uniformément sur les 24 disques NVMe Gen5.
Les performances d'écriture suivent une courbe similaire, bien qu'elles atteignent un sommet légèrement inférieur aux lectures. Les écritures séquentielles restent dans la plage de 140 à 148 Go/s pour les blocs de taille moyenne, diminuant à environ 117 Go/s à 128K mais récupérant à mesure que la taille des blocs augmente. Les écritures aléatoires se comportent différemment et se stabilisent plus près de 110-117 Go/s, ce qui est normal pour les charges de travail à files d'attente mixtes qui introduisent une surcharge supplémentaire.
Le point clé à retenir de cette section est que le R7725xd n'a aucune difficulté à maintenir un débit extrêmement élevé sur NVMe-oF, même avec plusieurs clients poussant le système à ses limites. Une fois que les tailles de blocs atteignent 32K ou plus, le serveur sature constamment sa bande passante réseau et de stockage disponible. C'est exactement le type de performance que PEAK:AIO est conçu pour extraire, faisant de ces résultats une forte validation de la capacité de la plateforme à évoluer dans des conditions réelles.
PEAK AIO – NVMe-oF RDMA IOPS
Du côté des IOPS, le PowerEdge R7725xd présente de solides performances sur les petits blocs, bien que nous ayons initialement observé des chiffres inférieurs aux attentes ; ce problème devrait être résolu avec une meilleure prise en charge des pilotes réseau à l'avenir. Même avec cela en jeu, la tendance générale de mise à l'échelle semble exactement telle que NVMe-oF RDMA se comporte typiquement lorsque la taille des blocs augmente.
À la plus petite taille de bloc, le système peut fournir plus de 6 millions d'IOPS sur les charges de travail séquentielles et aléatoires. Lecture, écriture, lecture aléatoire et écriture aléatoire se situent à peu près dans la même plage à 4K et 8K, indiquant que les clients frontaux, l'infrastructure PCIe et les disques NVMe eux-mêmes n'ont aucun mal à suivre le taux de requêtes.
À mesure que la taille des blocs augmente, la baisse attendue des IOPS commence. À 32K, les lectures atteignent environ 4,7 millions d'IOPS, tandis que les écritures sont légèrement en retrait à environ 4,4 millions. Les écritures aléatoires subissent le plus gros coup ici, tombant à environ 3,3 millions d'IOPS, ce qui correspond à la surcharge supplémentaire de file d'attente et de CPU introduite par les modèles d'accès mixtes.
En passant aux grands blocs, les IOPS continuent de diminuer de manière prévisible et linéaire. Au moment où nous atteignons des transferts de 256K et 512K, le débit devient la métrique dominante, et les IOPS tombent naturellement dans les centaines de milliers. À une taille de bloc de 1 Mo, toutes les charges de travail convergent vers 140K-153K IOPS, ce qui est cohérent avec les chiffres de bande passante que nous avons vus dans la section précédente.
Performances de stockage GPUDirect
L'un des tests que nous avons menés sur le R7725xd était le test Magnum IO GPUDirect Storage (GDS). GDS est une fonctionnalité développée par NVIDIA qui permet aux GPU de contourner le CPU lors de l'accès aux données stockées sur des disques NVMe ou d'autres périphériques de stockage à haute vitesse. Au lieu de router les données via le CPU et la mémoire système, GDS permet une communication directe entre le GPU et le périphérique de stockage, réduisant considérablement la latence et améliorant le débit des données.
Comment fonctionne GPUDirect Storage
Traditionnellement, lorsqu'un GPU traite des données stockées sur un disque NVMe, les données doivent d'abord passer par le CPU et la mémoire système avant d'atteindre le GPU. Ce processus introduit des goulots d'étranglement, car le CPU devient un intermédiaire, ajoutant de la latence et consommant des ressources système précieuses. GPUDirect Storage élimine cette inefficacité en permettant au GPU d'accéder directement aux données du périphérique de stockage via le bus PCIe. Ce chemin direct réduit la surcharge de mouvement des données, permettant des transferts de données plus rapides et plus efficaces.
Les charges de travail d'IA, en particulier celles impliquant l'apprentissage profond, sont très intensives en données. L'entraînement de grands réseaux neuronaux nécessite le traitement de téraoctets de données, et tout retard dans le transfert de données peut entraîner une sous-utilisation des GPU et des temps d'entraînement plus longs. GPUDirect Storage répond à ce défi en garantissant que les données sont livrées au GPU aussi rapidement que possible, minimisant le temps d'inactivité et maximisant l'efficacité computationnelle.
De plus, GDS est particulièrement bénéfique pour les charges de travail impliquant le streaming de grands ensembles de données, tels que le traitement vidéo, le traitement du langage naturel ou l'inférence en temps réel. En réduisant la dépendance au CPU, GDS accélère le mouvement des données et libère les ressources CPU pour d'autres tâches, améliorant ainsi les performances globales du système.
Au-delà de la bande passante brute, GPUDirect avec NVMe-oF (TCP/RDMA) offre également des E/S à latence ultra-faible. Cela garantit que les GPU ne sont jamais privés de données, ce qui rend le système idéal pour l'inférence d'IA en temps réel, les pipelines d'analyse et la relecture vidéo.
GDSIO Lecture Séquentielle
En examinant PEAK:AIO avec un client utilisant GDSIO, le débit de lecture présente un schéma de mise à l'échelle clair à mesure que la taille des blocs et le nombre de threads augmentent. Ce client unique était connecté via deux liaisons 400G, limitant son potentiel total à 90 Go/s.
Aux plus petites tailles de blocs et aux faibles nombres de threads, les performances sont modestes, avec des lectures 4K commençant autour de 189 Mio/s à un seul thread. Dès que nous augmentons le parallélisme des threads, le système répond immédiatement, atteignant 691 Mio/s à quatre threads et entrant dans la plage multi-Gio/s à mesure que nous passons à des blocs plus grands.
Les tailles de blocs moyennes montrent la plus forte sensibilité au nombre de threads. À 32K, le débit passe de 1,3 Gio/s à un seul thread à près de 20 Gio/s avec 64 threads, avec seulement une légère diminution au-delà. Un schéma similaire apparaît à 64K et 128K, où le système passe de quelques Gio/s à faible parallélisme à plus de 30 Gio/s à mesure que la charge de travail évolue.
Une fois que nous atteignons les tailles de blocs plus grandes, le débit commence à se stabiliser à mesure que le système approche de son plafond de performance pour un client unique. À 1 Mo, les performances passent de 11 Gio/s à un thread à environ 88 Gio/s avec un nombre élevé de threads. Les transferts de 5 Mo et 10 Mo montrent le même plateau, atteignant environ 89-90 Gio/s, que le test soit exécuté sur 64, 128 ou 256 threads.
GDSIO Écriture Séquentielle
Côté écriture, le comportement de mise à l'échelle suit un schéma similaire aux lectures, mais avec des performances légèrement inférieures sur la plupart des tailles de blocs, ce qui est attendu pour les charges de travail d'écriture séquentielles. Aux plus petites tailles de blocs, le débit commence à 165 Mio/s pour un seul thread à 4K et augmente régulièrement à mesure que le parallélisme augmente. À quatre threads, cela passe à un peu plus de 619 Mio/s avant de dépasser 1 Gio/s à huit threads.
Les tailles de blocs moyennes montrent des gains plus importants à mesure que le nombre de threads augmente. À 32K, le débit commence à un peu moins de 1 Gio/s et atteint plus de 21 Gio/s à des niveaux de threads plus élevés. Les plages 64K et 128K continuent la tendance, passant de quelques Gio/s à faible parallélisme à des dizaines de Gio/s à mesure que la charge de travail devient plus parallèle.
Les transferts plus importants sont le moment où le système se stabilise à son plafond naturel de débit d'écriture. À 1 Mo, les performances passent de 13,3 Gio/s à un seul thread à un peu moins de 90 Gio/s avec un nombre élevé de threads. Les tests de 5 Mo et 10 Mo suivent un schéma similaire, avec des résultats atteignant un pic autour de 90 Gio/s, que le système fonctionne sur 64, 128 ou 256 threads.
Redéfinir les performances à l'ère Gen5
Sandy Yang/Directeur de la stratégie mondiale
WhatsApp / WeChat : +86 13426366826
E-mail : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Focus commercial :
Distribution de produits TIC/Intégration de systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous nous associons à des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !
Personne à contacter: Ms. Sandy Yang
Téléphone: 13426366826



