Les principaux enseignements
- Résistance à flash:PERC13 H975i s'éloigne entièrement de SAS/SATA, construit sur Broadcom SAS51xx pour une architecture native NVMe et prête à l'IA.
- Le grand saut générationnel:PCIe Gen5 x16 avec jusqu'à 16 lecteurs NVMe par contrôleur (32 avec deux) a livré 52,5 GB/s et 12,5 M IOPS par contrôleur en test, avec des gains par rapport à PERC12 y compris +88% de bande passante de lecture,+ 318% de bande passante d'écriture, +31% 4K lire IOPS, et +466% 4K écrire IOPS.
- La connexion au serveur d'IA:La conception intégrée frontale libère les emplacements PCIe arrière pour les GPU, raccourcit les exécutions MCIO et permet un tuyau de stockage dédié par accélérateur pour un débit plus stable et plus déterministe sans surcoût du processeur.
- Résistance au stress:Le cache protégé par supercondensateur et les reconstructions plus rapides réduisent le temps jusqu'à 10 min/TiB tout en maintenant des performances élevées lors des reconstructions (jusqu'à 53,7 Go/s de lecture, 68 Go/s d'écriture, 17,3 M/5,33 M 4K IOPS).
- Sécurité de bout en bout:Hardware Root of Trust, identité du dispositif SPDM et chiffrement à spectre complet qui couvre les disques, les données en vol et le cache du contrôleur.
Les spécifications de Dell PERC12 H965i et PERC13 H975i
| Caractéristique | PERC12 H965i Vue avant | PERC13 H975i Vue avant |
|---|---|---|
| Niveaux de RAID | 0, 1, 5, 6, 10, 50, 60 | 0, 1, 5, 6, 10, 50, 60 |
| Le système de détection des risques est défini dans le présent règlement. | - Oui, oui. | - Oui, oui. |
| Type de bus hôte | Le PCIe Gen4 x16 | Le système de contrôle de la qualité de l'air |
| Gestion des bandes latérales | Le système de détection des données est utilisé. | Le système de détection des données est utilisé. |
| Réserves par port | Ne pas appliquer | Ne pas appliquer |
| Processeur / puce | Le système de contrôle de l'appareil est basé sur le système de contrôle de l'appareil. | Le système de contrôle de la radio est un système de contrôle de la radio qui est utilisé pour contrôler la radio. |
| Pack énergétique / Réserve d'énergie | Batterie | Supercondensateur |
| Sécurité de la gestion locale des clés | - Oui, oui. | - Oui, oui. |
| Gestionnaire de clés d'entreprise sécurisé | - Oui, oui. | - Oui, oui. |
| Profondeur de file d'attente du contrôleur | 8,192 | 8,192 |
| Cache non volatile | - Oui, oui. | - Oui, oui. |
| Mémoire de cache | 8 GB DDR4 3200 MT/s | Cache RAID intégré |
| Fonctions de mise en cache | Réécrire, lire à l'avance, écrire à travers, toujours réécrire, pas lire à l'avance | Réécrire, réécrire, toujours réécrire, pas de lecture à l'avance |
| Disques virtuels complexes max | 64 | 16 |
| Disques virtuels simples max | 240 | 64 |
| Groupes de disques maximaux | 64 | 32 |
| Maximum de VD par groupe de disques | 16 | 8 |
| Dispositifs de remplacement à chaud max | 64 | 8 |
| Dispositifs d'échange à chaud pris en charge | - Oui, oui. | - Oui, oui. |
| Configuration automatique (principale et exécutée une fois) | - Oui, oui. | - Oui, oui. |
| Moteur XOR matériel | - Oui, oui. | - Oui, oui. |
| Élargissement des capacités en ligne | - Oui, oui. | - Oui, oui. |
| Spécial chauffage dédié et mondial | - Oui, oui. | - Oui, oui. |
| Types de lecteur pris en charge | NVMe Gen3 et Gen4 | NVMe Gen3, Gen4 et Gen5 |
| Taille de l'élément de bande VD | 64KB | 64KB |
| Prise en charge du système NVMe PCIe | Génération 4 | Génération 5 |
| Configuration des lecteurs NVMe max | 8 entraînements par contrôleur | 16 entraînements par contrôleur |
| Tailles des secteurs soutenus | 512B, 512e, 4Kn | 512B, 512e, 4Kn |
| Soutien au démarrage du stockage | UEFI uniquement | UEFI uniquement |
Le contrôleur frontal PERC13 H975i dans les serveurs Dell PowerEdge est conçu pour une intégration transparente dans l'architecture du système.le H975i se connecte directement au backplane de l'entraînement avant et s'interface avec les connecteurs MCIO avant sur la carte mère via PCIe 5 dédiéCette conception intégrée préserve les emplacements PCIe arrière pour les GPU haute performance et l'expansion supplémentaire PCIe, tout en réduisant considérablement la longueur des câbles.Cela aide à maintenir l'intégrité du signalLe résultat est une disposition interne plus propre et un flux d'air amélioré pour des déploiements denses et informatiques.
Le H975i implémente une architecture de sécurité complète qui s'étend de l'attestation matérielle au niveau du silicium à travers le cryptage de données à spectre complet des données en place avec les lecteurs SED.,Hardware Root of Trust établit une chaîne immuable de vérification cryptographique à partir de la ROM de démarrage interne à travers chaque composant de firmware,s'assurer que seul le firmware certifié Dell authentifié peut s'exécuter sur le contrôleurCette sécurité basée sur le matériel s'étend à travers la mise en œuvre du protocole de sécurité et du modèle de données (SPDM),lorsque chaque contrôleur contient un certificat d'identité de périphérique unique permettant à iDRAC d'effectuer une vérification d'authentification en temps réelLe contrôleur étend la protection cryptographique au-delà des scénarios traditionnels de données au repos pour inclure la mémoire cache.Il maintient les clés de cryptage dans des régions de mémoire sécurisées inaccessibles au firmware non autoriséEn conséquence, les données sensibles restent protégées, qu'elles résident sur les disques ou soient activement traitées en cache.
La protection de l'alimentation dans le H975i est une autre évolution significative par rapport aux systèmes traditionnels alimentés par batterie grâce à l'intégration d'un supercondensateur.Le supercondensateur fournit une alimentation instantanée lors d'événements de perte de puissance inattendusEn outre, contrairement aux systèmes basés sur batterie qui nécessitent 4 à 8 heures pour les cycles d'apprentissage, les systèmes basés sur les batteries ne permettent pas de transférer les données vers un système de stockage non volatile.le supercondensateur H975i ̇s complète son cycle d'apprentissage transparent en 5 à 10 minutes sans aucune dégradation des performances pendant l'étalonnage;Cette conception élimine les frais de maintenance et les problèmes de dégradation inhérents aux solutions de batterie, tout en offrant une fiabilité supérieure pour la protection des données critiques.
Surveillance et gestion intégrées
Le contrôleur RAID PERC13 de Dell, comme de nombreuses solutions RAID de Dell, peut être géré et surveillé de plusieurs façons, notamment lors du démarrage de la plateforme via la configuration du système dans le BIOS, via l'interface graphique web iDRAC,l'utilité PERC12, et même Dell OpenManage UI et CLI.
Gestion du contrôleur iDRAC
Lors de l'affichage de l'interface de gestion iDRAC, l'onglet contrôleurs offre un aperçu du matériel de stockage du serveur.complète avec des informations sur les versions du micrologicielCe résumé vous permet de vérifier rapidement la disponibilité et la configuration des contrôleurs sans avoir besoin d'accéder au BIOS ou d'utiliser les outils CLI.
L'onglet Disques virtuels dans iDRAC affiche les tableaux de stockage créés, y compris leur niveau RAID, leur taille et leur politique de mise en cache.De ce point de vue, les administrateurs peuvent confirmer que les volumes sont en ligne, créer de nouveaux disques virtuels ou utiliser le menu Actions pour ajuster ou supprimer les configurations existantes.
Utilitaire de configuration du contrôleur RAID
L'image ci-dessus montre un exemple de saisie du système de configuration de l'utilitaire de configuration avant PERC H975i sur la plateforme PowerEdge R7715.vous pouvez gérer tous les paramètres de contrôleurs RAID clés, y compris la gestion de la configuration, la gestion du contrôleur, la gestion des appareils, et plus encore.Cet utilitaire fournit un moyen simplifié de configurer des disques virtuels et de surveiller les composants matériels directement pendant le processus de démarrage de la plateforme.
Après avoir sélectionné le niveau RAID, nous passons à la sélection des disques physiques pour le tableau. Dans cet exemple, tous les SSD NVMe disponibles sont répertoriés et marqués comme compatibles RAID. Nous sélectionnons plusieurs 3.2 entraînements TiB Dell DC NVMe du pool de capacité non configuréLes filtres tels que le type de support, l'interface et la taille du secteur logique aident à affiner la sélection.nous pouvons procéder en cliquant sur OK pour finaliser la sélection du disque et continuer à créer le disque virtuel.
Avant de finaliser la création du disque virtuel, le système affiche un avertissement confirmant que toutes les données sur les disques physiques sélectionnés seront définitivement supprimées.Nous cochons la case "Confirmer" et sélectionnons "Oui" pour autoriser l'opérationCette protection aide à prévenir la perte accidentelle de données lors du processus de création de RAID.
Une fois le disque virtuel créé, il apparaît dans le menu Virtual Disk Management dans cet exemple, notre nouveau disque virtuel RAID 5 est répertorié avec une capacité de 43.656 TiB et un statut de Avec seulement quelques étapes simples, le stockage est configuré et prêt à être utilisé.
Alors que l'utilitaire de configuration du BIOS PERC et l'interface iDRAC offrent des options intuitives pour la gestion locale et à distance, Dell fournit également un puissant outil de ligne de commande appelé PERC CLI (perccli2).Cet utilitaire prend en charge Windows, Linux et VMware, ce qui le rend idéal pour la création de scripts, l'automatisation ou la gestion des contrôleurs PERC dans des environnements sans tête.Dell fournit également une documentation détaillée sur l'installation et l'utilisation des commandes pour PERC CLI sur leur site de support.
Dell PERC13 Tests de performance
Avant de plonger dans les tests de performance, nous avons préparé notre environnement en utilisant la plateforme Dell PowerEdge R7715 configurée avec deux contrôleurs frontaux PERC H975i.Disques NVMe Dell de 2 To, chacune d'entre elles est qualifiée pour des lectures séquentielles jusqu'à 12 000 MB/s et des écritures séquentielles jusqu'à 5 500 MB/s en utilisant des blocs de 128 KiB.Cette base de haute performance nous permet de repousser les limites du débit du contrôleur PERC13 et d'évaluer le comportement RAID à l'échelle.
- Plateforme:Dell PowerEdge R7715
- Le processeur:Processeur à 96 cœurs AMD EPYC 9655P
- - Je ne sais pas.768 Go (12 x 64 Go) DDR5 à 5200 ECC
- Contrôleur de raid:2 x PERC13 H975i
- Réservoir:Les lecteurs NVMe de type Dell CD8P de 32 x 3,2 To
- Accélérateurs PCIe:2 x graphique graphique NVIDIA H100
NVIDIA Magnum IO GPU stockage direct: l'IA répond au stockage
Les pipelines d'IA modernes sont souvent liés à l'E/S, et non au calcul. Les lots de données, les intégrations et les points de contrôle doivent être transférés du stockage à la mémoire GPU assez rapidement pour occuper les accélérateurs.Le Magnum IO GDS de NVIDIA (via cuFile) court-circuite le chemin traditionnel SSD → CPU DRAM → GPU et permet aux données DMA directement de la mémoire NVMe vers la mémoire GPUCela élimine les frais généraux du tampon de rebond du CPU, réduit la latence, et rend le débit plus prévisible sous charge, ce qui se traduit par une utilisation plus élevée du GPU, des temps d'époque plus courts,et des cycles plus rapides de sauvegarde/chargement des points de contrôle.
Notre test GDSIO est conçu pour mesurer le chemin de données entre le stockage et le GPU lui-même, en balayant les tailles de blocs et le nombre de threads pour montrer à quelle vitesse un ensemble NVMe pris en charge par PERC13 peut être diffusé dans la mémoire H100.Avec chaque H975i sur un PCIe 5.0 x16 liens (théoriquement ~64 GB/s par contrôleur, unidirectionnel), deux contrôleurs fixent un plafond global proche de ~112 GB/s; où notre plateau de courbes vous indique si vous êtes lié ou limité aux médias.Pour les praticiens, lire les graphiques comme des proxies pour les charges de travail réelles: grande lecture séquentielle de la carte à l'ensemble de données en streaming et le point de contrôle restaure; grande séquentielle écrit la carte à la sauvegarde de point de contrôle;Les transferts plus petits avec la parallèle reflètent les changements du chargeur de données et le pré-retraitEn bref, une forte mise à l'échelle de GDSIO signifie moins de stands de GPU et des performances plus cohérentes pendant la formation et l'inférence à haut débit.
Le débit de lecture séquentiel de GDSIO
À partir de la lecture séquentielle, le débit a commencé modestement à des tailles de blocs et à des nombres de fils inférieurs, à partir d'environ 0,3 GiB / s à des blocs 8K avec un seul thread.Les performances ont fortement augmenté entre les blocs 16K et 512KLes gains les plus importants se sont produits sur les blocs de 1M, 5M et 10M, où le débit a considérablement augmenté.une vitesse maximale de 103 GiB/s à une taille de bloc de 10 M avec 256 filsCette progression montre que le tableau PERC13 bénéficie de blocs de plus grande taille et de parallélisme multithread, avec une saturation optimale autour de 64 à 128 threads, au-delà duquel il gagne en plateau.
Différentiel de débit séquentiel de lecture GDSIO
Dans les tests de lecture séquentiels sur les blocs de 8K à 10M, le PERC13 (H975i) a systématiquement surpassé le PERC12 (H965i),avec des gains en pourcentage qui évoluent de façon spectaculaire à des blocs de plus grande taille et à un nombre de fils plus élevé.
À des tailles de blocs plus petites (8K-16K), les améliorations ont été modestes (typiquement allant de 0 à 20%), et dans certains cas isolés, le H975i a légèrement retardé en raison de la variabilité des tests à de faibles profondeurs de file d'attente.Par taille de bloc 32K-64K, l'avantage est devenu plus cohérent, le H975i offrant un débit 30-50% plus élevé sur la plupart des fils.
Les différences les plus significatives ont été observées à des blocs de plus grande taille (128K à 10M), où le contrôleur PERC13 a déverrouillé tout le potentiel de lecture séquentielle du système.le H975i a démontré des gains de 50 à 120% par rapport au H965iPar exemple, à la taille de bloc de 1M avec 8-16 fils, le débit était supérieur à 55 GiB/s, ce qui équivaut à environ 90% d'augmentation.avec certaines configurations montrant presque le double des performances par rapport à la génération précédente.
Dans l'ensemble, le PERC13 (H975i) a établi une avance dominante dans les charges de travail de lecture séquentielle, en particulier en ce qui concerne la taille des blocs et le nombre de threads.à 256 K et plus, le nouveau contrôleur a toujours offert des performances supérieures de 50 à 100%, soulignant clairement les progrès architecturaux de la dernière plateforme RAID de Dell.
GDSIO lit la latence séquentielle
Au fur et à mesure que le débit de lecture séquentiel augmentait, la latence restait gérable à des tailles de bloc plus petites et à des nombres de threads plus faibles.affichant un traitement efficace des relevés dans cette plageUne fois que les tailles de blocs et le nombre de threads ont augmenté, en particulier à 5M et 10M avec 64 threads ou plus, la latence a augmenté rapidement, atteignant un sommet de 211,8 ms à une taille de bloc de 10M avec 256 threads.Cela met en évidence comment les goulets d'étranglement du contrôleur ou de la file d'attente émergent sous des charges de travail extrêmes, même si le débit reste élevé.
Le meilleur équilibre de performance et d'efficacité a été observé à la taille du bloc 1M avec 8-16 fils, où le réseau a maintenu un débit de 87,5 à 93,7 GiB/s tout en maintenant une latence comprise entre 179 et 334 μs.Cette zone représente le point idéal pour maximiser la bande passante tout en gardant les retards bien en dessous d'une milliseconde.
GDSIO écrire le débit séquentiel
Les performances d'écriture ont montré une forte mise à l'échelle précoce à mesure que les tailles de blocs augmentaient, le débit passant de 1,2 GiB/s à 8K et 1 thread à 13,9 GiB/s à 256K.La croissance la plus importante est apparue entre les blocs de 128K et 1MLes performances maximales ont été obtenues sur les blocs de 5M et 10M, soutenant 100 à 101 GiB/s à partir de 8 threads.
Les performances sont réduites de 8 à 64 fils pour ces blocs plus grands, ce qui indique que les contrôleurs ont atteint la saturation au début de la courbe d'échelle.,La stabilité du débit a varié, se maintenant stable sur les grands blocs 5M et 10M à 101 GiB/s, mais en baisse pour les blocs de taille moyenne, tels que 256K, passant de 61,2 GiB/s à 32 fils à 45.3 GiB/s à 256 fils.
GDSIO écrire différentiel de débit séquentiel
Dans les tests d'écriture séquentielle, le PERC13 (H975i) a produit des gains substantiels par rapport au PERC12 (H965i), en particulier à mesure que les tailles de blocs et le nombre de fils ont été mis à l'échelle.les améliorations ont été modestes, généralement compris entre 0 et 10%, avec des différences négligeables occasionnelles de bruit d'essai.
À partir de 64K, l'avantage du H975i est devenu plus prononcé. À la taille du bloc 64K, les améliorations ont atteint 40-70%, le débit augmentant de plus de 12-17 GiB/s par rapport au H965i. À 128K-256K,Le H975i a toujours fourni un débit de 50 à 70% plus élevé à un nombre de fils modéré à élevé.
L'écart de performance le plus spectaculaire est apparu à des blocs de plus grande taille (512K à 10M). À 512K, le H975i a obtenu des gains de +31 à +56 GiB / s, ce qui équivaut à une amélioration de 60 à 80% par rapport au H965i.À la taille de bloc 1MEnfin, pour les blocs de 5M et 10M, le PERC 13 a presque doublé le débit par rapport au PERC 12,avec des delta de +75 à +79 GiB/s, ce qui se traduit par une amélioration de 100% dans certains scénarios riches en fils.
Dans l'ensemble, le contrôleur PERC 13 a montré un saut générationnel clair dans les performances d'écriture séquentielle.le H975i offre toujours un débit de 50 à 100% plus élevé, établissant fermement sa supériorité sur le H965i dans les charges de travail séquentielles à forte intensité d'écriture.
GDSIO écrire la latence séquentielle
La latence lors des écritures séquentielles est restée impressionnante à de plus petites tailles de blocs et à un nombre de threads inférieur, restant souvent inférieure à 50 μs à travers des blocs 128K avec jusqu'à 8 threads.Comme le nombre de fils a augmentéPar exemple, la latence a atteint 392 μs à 512K avec 32 threads et a dépassé 1 ms à 1M de taille de bloc avec 64 threads.
Les effets de saturation sont devenus plus évidents aux plus grandes tailles de blocs et aux niveaux de concurrence les plus élevés.
Le point d'exploitation le plus efficace pour les charges de travail d'écriture séquentielle s'est produit aux blocs de taille 1M ou 5M avec 8 à 16 fils, où le débit atteignait 87,9 à 101.2 GiB/s tandis que la latence est restée dans les 178 μs0,7 ms, offrant des performances soutenues fortes sans provoquer de retards excessifs dans la file d'attente d'écriture.
Performance du stockage 2.0 de Perf
Pour évaluer les performances du monde réel dans les environnements de formation d'IA, nous avons utilisé la suite de tests MLPerf Storage 2.0.les charges de travail simulées d'apprentissage profondIl fournit des informations sur la façon dont les systèmes de stockage gèrent des défis tels que le contrôle des points et la formation des modèles.
Point de référence de contrôle
Lors de l'entraînement des modèles d'apprentissage automatique, les points de contrôle sont essentiels pour enregistrer périodiquement l'état du modèle.permet de s'arrêter tôt pendant la formation, et permet aux chercheurs de se ramifier à partir de différents points de contrôle pour des expériences et des ablations.
La comparaison de la durée d'enregistrement au point de contrôle a révélé que le PERC13 de Dell surpassait systématiquement le PERC12 dans toutes les configurations de modèles.alors que PERC12 exigeait 10L'écart de performance était le plus prononcé avec le modèle de paramètre 1T,où PERC13 effectue des sauvegardes en un peu plus de 10 secondes comparativement à PERC12 ′s 20+ secondesCela représente une réduction d'environ 50% du temps d'économie pour les modèles les plus grands.
En examinant les résultats du débit de sauvegarde, les données montrent l'utilisation supérieure de la bande passante de PERC13 ′, offrant constamment des taux de transfert de données plus élevés.81 Go/sEn revanche, PERC12 atteint 9,49 Go/s et tombe à 6,98 Go/s pour la configuration la plus grande.Le contrôleur plus récent maintient des performances plus stables sur différentes tailles de modèles, ce qui suggère une meilleure optimisation pour le traitement de grandes écritures séquentielles typiques des opérations de checkpoint.
Personne à contacter: Ms. Sandy Yang
Téléphone: 13426366826



