Les principaux enseignements
- Un débit sans précédent dans un seul nœud:Le R7725xd a soutenu plus de 300 GB / s de bande passante interne et 160 GB / s sur NVMe-oF RDMA, rivalisant avec les grappes de stockage multi-nœuds à l'intérieur d'un châssis 2U.
- Véritable architecture de la 5e génération, pas de commutateurs, pas de fan-out:Tous les SSD 24 Micron 9550 PRO reçoivent des voies dédiées x4 PCIe Gen5 directement du complexe CPU, ce qui permet une mise à l'échelle du débit de ligne sans contestation.
- Propulsé par AMD EPYC série 9005:Les processeurs AMD EPYC 9575F doubles fournissent le nombre de voies, la bande passante de mémoire et la topologie NUMA nécessaires à une entrée/sortie à haute concurrence soutenue.
- Conçu pour l'IA, l'analyse et les charges de travail lourdes sur les points de contrôle:Le système élimine les goulots d'étranglement d'E/S qui bloquent les pipelines GPU modernes, permettant une livraison continue de données à large bande passante.
- AIO débloque le parallélisme complet:PEAK: La pile logicielle d'AIO maintient les structures de file d'attente saturées sous la charge, offrant des performances d'entreprise à un rapport dollar-GB convaincant.
La section de stockage d'iDRAC 10 présente une vue d'ensemble complète de tous les disques physiques installés dans le R7725xd.accompagné d'un graphique graphique illustrant les états de conduiteDans cette configuration, 24 SSD NVMe sont actifs et déclarés prêts, avec deux périphériques de démarrage supplémentaires présents dans le système, séparés de la banque NVMe principale.
À droite, le panneau Résumé des disques les décompose en disques physiques et en disques virtuels associés.,tous les disques sont déclarés non-RAID et individuellement adressables, conformément à la conception du système pour les grands pools NVMe et les plateformes SDS.
En dessous du résumé de l'état, la zone Récemment enregistrés événements de stockage répertorie les journaux d'insertion pour chaque SSD PCIe, organisés par baie et emplacement.Cet enregistrement confirme la détection correcte à travers toutes les baies d'entraînement et aide à identifier les problèmes avec les siègesPour les grands déploiements, ces journaux sont utiles pour suivre le provisionnement des entraînements ou pour vérifier que la capacité a été utilisée comme prévu.
La capture d'écran finale montre la vue détaillée des périphériques NVMe dans iDRAC10. Chaque lecteur NVMe installé dans le système est répertorié avec son statut, sa capacité et son emplacement.La sélection d'un lecteur individuel ouvre une ventilation complète de ses caractéristiques.
Dans cet exemple, le panneau d'information du lecteur affiche la chaîne de modèle complète, le protocole du périphérique, le facteur de forme et les paramètres PCIe négociés.Les appareils NVMe fonctionnent à une vitesse de liaison de 32 GT/s avec une connexion x4 négociée, confirmant que les disques fonctionnent à pleine bande passante sur le système PCIe Gen5 de la plate-forme arrière.aider les administrateurs à surveiller les attentes en matière de santé et de cycle de vie des véhicules.
Ces rapports de disque granulaires sont précieux dans les configurations NVMe à haute densité où la largeur de liaison, la vitesse négociée et l'état des médias influencent directement le comportement de la charge de travail et les performances de stockage.
Dans l'ensemble, l'interface iDRAC 10 fournit une vue claire et centrée sur le matériel de l'architecture de stockage NVMe R7725xd, permettant une validation facile de l'état de la liaison, de l'état du lecteur,et l'intégrité du système en un coup d'œil.
Dell PowerEdge R7725xd Performance
Avant les tests, notre système a été configuré avec un chargement équilibré mais de haute performance.et associé à 24 DIMM DDR5 32 GB fonctionnant à 6400 MT/sPour le stockage, le châssis est entièrement rempli de 24 disques SSD Micron 9550 PRO U.2 NVMe de 15,36 To, chacun connecté via une liaison PCIe Gen5 x4 dédiée.et les lecteurs Micron 9550 PRO offrent des vitesses de lecture séquentielles allant jusqu'à 14,000 MB/s et des vitesses d'écriture séquentielle allant jusqu'à 10 000 MB/s. Le réseau est géré par quatre adaptateurs Broadcom BCM57608 qui fournissent un total de huit ports 200Gb,avec un NIC OCP BCM57412 offrant deux ports supplémentaires de 10 gigabits.
Spécifications du système d'essai
- Le processeur:2x processeurs haute fréquence AMD EPYC 9575F 64 cœurs
- La mémoire:Les données de l'appareil doivent être conservées.
- Réservoir:Disques 24x 15.36TB Micron 9550 PRO U.2 (connectés à 4 voies de PCIe Gen5 chacune); prend en charge jusqu'à 128TB aujourd'hui avec des capacités plus élevées à l'horizon
- Réseau:4x NICs 2x200G de Broadcom BCM57608 et 1x NIC OCP 2x10Gb de BCM57412
- Commutateur:Dell PowerSwitch Z9664 est un appareil électronique
Indice de performance du FIO
Pour mesurer les performances de stockage du PowerEdge R7725xd, nous avons utilisé des mesures standard de l'industrie et l'outil FIO.
- 4K aléatoire 1M
- 4K séquentiel 1M
FIO local largeur de bande
Lors du test d'accès local aux 24 lecteurs NVMe PCIe Gen5 à l'intérieur du Dell PowerEdge R7725xd,le système montre exactement ce que vous attendez d'une plate-forme où chaque lecteur est connecté aux processeurs en utilisant une liaison PCIe Gen5 de voie x4 complète. Sans couche réseau impliquée, c'est le débit pur et interne de la disposition de stockage Dell's Gen5 et la bande passante PCIe de la plateforme AMD EPYC fonctionnant sans restriction.
Les lectures séquentielles commencent à 184 Go/s avec des blocs 4K et évoluent rapidement à mesure que la taille du bloc augmente.ce qui indique fortement à quel point le système peut regrouper toutes les voies 24 × 4 Gen5 dans une bande passante de lecture soutenue sans aucun goulot d'étranglement au niveau du contrôleur.
Les écritures séquentielles suivent une courbe différente mais restent fermement dans la plage attendue.Cela s'aligne avec le comportement d'écriture des disques SSD Micron 9550 PRO et la surcharge inhérente à l'écriture NVMe parallèle à travers tant d'appareils indépendants.
Les performances de lecture aléatoire sont un autre point fort. Le système atteint des vitesses de près de 300 GB/s aux plus petites tailles de blocs, baisse légèrement dans la gamme moyenne,et puis récupère à 200 supérieurs et 300 inférieurs à des blocs de plus grande tailleÀ 1M, les lectures aléatoires atteignent un maximum de 318 GB/s, ce qui démontre la capacité de la plateforme à répartir uniformément les opérations mixtes sur les 24 disques.
Les écritures aléatoires arrivent à un taux inférieur, ce qui est typique pour les tâches de méta-données dispersées et d'allocation d'écriture sur un large ensemble NVMe.Les résultats restent dans la gamme de 140 à 160 GB/s pour la plupart des tests et diminuent à un peu moins de 100 GB/s à 1 M.
Le FIO
Lors de l'examen du côté IOPS, le R7725xd démontre des performances robustes de petit bloc,avec des taux de requête atteignant bien dans les dizaines de millions avant que les blocs de plus grande taille déplacer la charge de travail vers un profil à bande passante.
En 4K, les lectures atteignent 44,9 millions d'IOPS et les écritures atteignent 36,3 millions.démontrant la capacité du système à répartir efficacement les charges de travail à longue file d'attente sur tous les disquesCes valeurs diminuent naturellement à mesure que les blocs augmentent, mais la progression reste constante dans les gammes 8K, 16K et 32K.
Par les blocs 16K et 32K, les lectures s'installent à 17,4 millions et 8,35 millions IOPS, avec des lectures aléatoires qui correspondent étroitement à 16,5 millions et 8,15 millions.suivi inférieur mais restant stable à la fois sur les modèles d'accès séquentiels et aléatoires.
Au fur et à mesure que nous passons à 64K et au-dessus, les tests passent de l'IOPS pur à un scénario plus lié à la bande passante.À la taille de bloc 1M, lire IOPS terre autour de 300K, écrit à environ 174K, et les opérations aléatoires se terminent dans le même quartier.
Dans l'ensemble, les résultats locaux de l'IOPS montrent clairement la capacité du système à supporter des charges de travail à très grande profondeur de file d'attente sur de petits blocs,avec une évolution prévisible à mesure que les transferts augmentent et que la bande passante devient le facteur dominant.
Pourquoi le Dell PowerEdge R7725xd s'adapte à cette charge de travail
PEAK: AIO est conçu pour les environnements qui exigent un accès extrêmement rapide et à faible latence à de grands ensembles de données, généralement pour la formation de l'IA, les pipelines d'inférence, la modélisation financière et l'analyse en temps réel.La plate-forme fonctionne avec un stockage NVMe dense, une bande passante PCIe équilibrée et une latence prévisible à l'échelle.le matériel sous-jacent doit fournir un débit soutenu tout en maintenant des performances constantes et répétables sous lourdes charges simultanées;.
C'est là que le Dell PowerEdge R7725xd s'aligne naturellement avec PEAK: AIO. L'architecture du système est conçue pour maximiser les ressources PCIe Gen5, exposant la pleine bande passante de ses 24 U montés à l'avant.2 baies NVMe directement aux CPUCette mise en page donne à PEAK: AIO le profil de parallélisme et de latence qu'il attend des pipelines de données modernes basés sur NVMe.La configuration du système a divisé les SSD NVMe en deux groupes RAID0.
Dans le scénario testé, nous avons utilisé deux systèmes clients connectés au R7725xd, chacun équipé de NICs Broadcom BCM57608 2x 200G.Le R7725xd a été conçu dans une configuration de haute performance réaliste qui reflète ce que PEAKCe niveau de bande passante de réseau nous a donné la marge de manœuvre pour mettre pleinement l'accent sur le sous-système NVMe, la topologie PCIe,et l'interconnexion du processeur sans goulot d'étranglement à la couche NIC.
Le résultat est une plate-forme qui s'aligne efficacement avec les charges de travail PEAK:AIO. Le R7725xd fournit une capacité NVMe dense, un débit PCIe Gen5, deux processeurs AMD EPYC 9005 pour le parallélisme, un processeur AMD EPYC 9005 pour le parallélisme et un processeur AMD EPYC 9005 pour le parallélisme.et la capacité de mise en réseau pour maintenir l'ingestion de données multi-clients à des centaines de gigabits par clientToutes ces caractéristiques sont essentielles pour atteindre les attentes de performance de PEAK:AIO.
PEAK:AIO ️ NVMe-of RDMA ️ Largeur de bande
En examinant les résultats de bande passante NVMe-oF RDMA sur le PowerEdge R7725xd avec PEAK: AIO, la tendance globale est précisément ce à quoi nous nous attendons d'un système avec autant de bande passante PCIe et réseau.À mesure que la taille du bloc augmenteLe débit augmente rapidement jusqu'à ce qu'il s'établisse près de la limite pratique de la plateforme.
Chez les petites blocs, les performances commencent dans la gamme moyenne de 20 Go/s pour les lectures et les écritures, ce qui est normal car les transferts 4K et 8K poussent le chemin IOPS beaucoup plus difficile que le chemin de débit.Une fois que nous sommes dans les blocs 16K et 32K, le pipeline s'ouvre. Les lectures sautent à environ 154 GB/s à 32K et continuent à grimper à la plage de 160 GB/s, qui est exactement où nous nous attendons à une configuration double client sur quatre liens 200 Gb/s à terre.
Les miroirs de lecture aléatoires sont séquentiels presque parfaitement.Donc, la bande passante de lecture aléatoire suit essentiellement la bande passante de lecture séquentielle jusqu'en haut, s'installant à environ 159 à 161 GB/s de 32K à 1M. Cela indique que la pile de stockage n'est pas un goulot d'étranglement dans les modèles d'accès mixtes,et la topologie PCIe R7725xd ̇s répartit la charge uniformément sur les 24 entraînements NVMe de génération 5.
Les performances d'écriture suivent une courbe similaire, bien qu'elles soient légèrement inférieures à celles des lectures.plongeant à environ 117 GB/s à 128K mais se rétablissant à mesure que la taille du bloc augmenteLes écritures aléatoires se comportent différemment et s'aplatissent plus près de 110-117 Go/s, ce qui est normal pour les charges de travail mixtes qui introduisent des frais généraux supplémentaires.
Le principal avantage de cette section est que le R7725xd n'a aucun problème à maintenir une bande passante extrêmement élevée sur NVMe-oF, même avec plusieurs clients poussant le système à ses limites.Une fois que les blocs atteignent 32K ou plus, le serveur sature constamment sa bande passante de réseau et de stockage disponible.En faisant de ces résultats une solide validation de la capacité de la plateforme à évoluer dans des conditions réelles.
Le PEAK AIO NVMe-oF RDMA IOPS est un groupe de travail
Du côté IOPS, le PowerEdge R7725xd affiche de bonnes performances sur les petits blocs, bien que nous ayons initialement observé des chiffres inférieurs aux attentes;Ce problème devrait être résolu avec une meilleure prise en charge des pilotes réseau à l'avenir.Même avec cela en jeu, la tendance globale de mise à l'échelle apparaît exactement comme NVMe-oF RDMA se comporte généralement lorsque la taille du bloc augmente.
À la plus petite taille de bloc, le système peut fournir plus de 6 millions de IOPS à travers les charges de travail séquentielles et aléatoires.et l'écriture aléatoire sont tous assis à peu près dans la même plage à 4K et 8K, ce qui indique que les clients front-end, l'infrastructure PCIe et les lecteurs NVMe eux-mêmes n'ont aucun problème à suivre le taux de demande.
Au fur et à mesure que la taille des blocs augmente, la baisse attendue des IOPS commence. à 32K, lit terre autour de 4,7 millions IOPS, tandis que écrit piste légèrement derrière à environ 4,4 millions. Random écrit prendre le plus gros coup ici,Le taux de désabonnement de l'ordinateur est tombé à environ 3,3 millions IOPS, ce qui correspond aux frais supplémentaires de file d'attente et de CPU introduits par les modèles d'accès mixte.
En se déplaçant vers les grands blocs, IOPS continue de se rétrécir de manière linéaire prévisible.et les IOPS tombent naturellement dans les centaines de milliersÀ une taille de bloc de 1M, toutes les charges de travail convergent à 140K-153K IOPS, en cohérence avec les chiffres de bande passante que nous avons vus dans la section précédente.
Performance du stockage GPUDirect
L'un des tests que nous avons effectués sur le R7725xd était le test Magnum IO GPUDirect Storage (GDS).GDS est une fonctionnalité développée par NVIDIA qui permet aux GPU de contourner le processeur lors de l'accès aux données stockées sur les lecteurs NVMe ou autres périphériques de stockage à grande vitesse.Au lieu d'acheminer les données à travers le processeur et la mémoire système, GDS permet une communication directe entre le GPU et le périphérique de stockage, réduisant considérablement la latence et améliorant le débit des données.
Comment fonctionne le stockage GPUDirect
Traditionnellement, lorsqu'un GPU traite les données stockées sur un lecteur NVMe, les données doivent d'abord traverser le processeur et la mémoire système avant d'atteindre le GPU.Comme le processeur devient un intermédiaireLe stockage GPUDirect élimine cette inefficacité en permettant à la GPU d'accéder aux données directement à partir du périphérique de stockage via le bus PCIe.Ce cheminement direct réduit les frais de déplacement des données, permettant des transferts de données plus rapides et plus efficaces.
Les charges de travail liées à l'IA, en particulier celles liées à l'apprentissage en profondeur, consomment beaucoup de données.et tout retard dans le transfert de données peut conduire à des GPU sous-utilisés et des temps d'entraînement plus longs. GPUDirect Storage répond à ce défi en veillant à ce que les données soient livrées au GPU le plus rapidement possible, en minimisant le temps d'inactivité et en maximisant l'efficacité de calcul.
En outre, le GDS est particulièrement bénéfique pour les charges de travail impliquant le streaming de grands ensembles de données, tels que le traitement vidéo, le traitement du langage naturel ou l'inférence en temps réel.En réduisant la dépendance au CPU, GDS accélère le mouvement des données et libère les ressources du processeur pour d'autres tâches, améliorant ainsi encore les performances globales du système.
Au-delà de la bande passante brute, GPUDirect avec NVMe-oF (TCP/RDMA) fournit également une entrée/sortie à très faible latence.pipelines d'analyse, et la lecture vidéo.
GDSIO lecture séquentielle
Lors de l'examen de PEAK:AIO avec un client utilisant GDSIO, le débit de lecture présente un schéma de mise à l'échelle clair à mesure que la taille du bloc et le nombre de fils augmentent.Ce client unique était connecté via deux liaisons 400G, limitant sa capacité totale à 90 GB/s.
Les performances sont modestes, avec des lectures 4K commençant autour de 189 MiB/s sur un seul thread.le système réagit immédiatement, poussant 691 MiB/s à quatre fils et pénétrant dans la gamme multi-GiB/s à mesure que nous entrons dans des blocs plus grands.
Les blocs de taille moyenne présentent la plus forte sensibilité au nombre de fils.avec seulement un léger rétrécissement au-delà de celaUn schéma similaire apparaît à 64K et 128K, où le système passe d'un faible chiffre d'un seul giB/s à faible parallélisme à plus de 30 giB/s à mesure que la charge de travail s'élargit.
Une fois que nous atteignons les blocs de plus grande taille, le débit commence à se stabiliser à mesure que le système approche de son plafond de performance pour un seul client.les performances passent de 11 GiB/s à un fil à environ 88 GiB/s à un nombre élevé de filLes transferts de 5 MiB et 10 MiB montrent le même plateau, atteignant environ 89 ‰ 90 GiB/s, que le test soit exécuté à 64, 128 ou 256 fils.
GDSIO écrire séquentiel
Du côté de l'écriture, le comportement de mise à l'échelle suit un modèle similaire à celui des lectures, mais avec des performances légèrement inférieures dans la plupart des tailles de blocs, ce qui est attendu pour les charges de travail d'écriture séquentielle.Dans les plus petites tailles de blocsLe débit commence à 165 MiB/s pour un seul thread à 4K et augmente régulièrement à mesure que le parallélisme augmente.
Les blocs de taille moyenne montrent des gains plus importants à mesure que le nombre de fils augmente.Les gammes 64K et 128K poursuivent la tendance, passant d'un faible chiffre d'un chiffre GiB/s à 30 GiB/s et 50 GiB/s à mesure que la charge de travail devient plus parallèle.
Les transferts sont plus importants lorsque le système atteint son plafond d'écriture naturel.Les tests 5 MiB et 10 MiB suivent un schéma similaire, avec des résultats de pointe autour de 90 GiB/s, indépendamment du fait que le système fonctionne à 64, 128 ou 256 fils.
Redéfinir les performances à l'ère de la Gen5
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!



