La sauvegarde de points de contrôle est essentielle à l'entraînement des modèles d'IA, car elle garantit la résilience, l'efficacité opérationnelle et la capacité de reprendre ou d'affiner l'entraînement à partir d'états sauvegardés. Cependant, les exigences des charges de travail d'IA modernes, caractérisées par des modèles de plus en plus complexes et des ensembles de données d'entraînement volumineux, poussent les systèmes de stockage à leurs limites absolues.
Le rôle des points de contrôle dans les flux de travail d'IA
La sauvegarde de points de contrôle dans l'entraînement d'IA est un processus vital qui consiste à enregistrer périodiquement l'état complet d'un modèle pendant son cycle d'entraînement. Cet état englobe les poids et paramètres du modèle, les états de l'optimiseur, les calendriers de taux d'apprentissage et les métadonnées d'entraînement. En créant un instantané complet du processus d'entraînement à intervalles spécifiques, la sauvegarde de points de contrôle garantit la continuité de l'entraînement et permet la récupération en cas d'interruptions.
Les points de contrôle sont généralement capturés à des intervalles basés sur les itérations (par exemple, toutes les mille étapes d'entraînement). L'entraînement des modèles de langage volumineux (LLM) modernes, qui peut s'étendre sur des semaines, voire des mois, et consommer d'énormes ressources informatiques, repose fortement sur ces points de contrôle comme filet de sécurité contre les défaillances potentielles. Par exemple, l'entraînement d'un modèle de classe GPT-4 peut générer des points de contrôle allant de plusieurs centaines de gigaoctets à plusieurs téraoctets, en fonction de la taille du modèle et de la configuration d'entraînement.
Processus d'entraînement généré par DALL-E
L'objectif principal de la sauvegarde de points de contrôle va au-delà de la simple fonction de sauvegarde. Il sert de mécanisme essentiel pour la résilience de l'entraînement, permettant à l'entraînement de reprendre à partir du dernier état sauvegardé plutôt que de redémarrer à partir de zéro en cas de défaillances du système, de coupures de courant ou de problèmes matériels. De plus, les points de contrôle sont inestimables pour l'analyse des modèles : ils permettent aux chercheurs d'examiner l'évolution du modèle à différentes étapes d'entraînement et potentiellement de revenir à des états précédents si une dégradation des performances est détectée.
Du point de vue du stockage, les modèles d'écriture lors de la sauvegarde de points de contrôle sont particulièrement remarquables. Lorsqu'un point de contrôle est déclenché, le système doit écrire d'énormes volumes de données dans un schéma de rafale. Cela crée un profil d'E/S distinct : des périodes d'activité de stockage relativement faible pendant les calculs d'entraînement, suivies d'opérations d'écriture intenses et à large bande passante pendant la sauvegarde de points de contrôle. Ces opérations d'écriture sont généralement séquentielles et peuvent grandement bénéficier des systèmes de stockage optimisés pour les écritures séquentielles à large bande passante.
Les différentes stratégies de parallélisme dans l'entraînement distribué peuvent avoir un impact substantiel sur le comportement de la sauvegarde de points de contrôle. Ces stratégies influencent le moment où la sauvegarde de points de contrôle se produit pendant l'entraînement et quelle partie du modèle est sauvegardée. Dans les configurations d'entraînement distribué modernes, plusieurs GPU peuvent écrire simultanément différentes parties de la même couche, créant des modèles d'E/S complexes. Cette capacité d'écriture parallèle est essentielle à l'efficacité, mais nécessite une coordination minutieuse et des systèmes de stockage robustes capables de gérer les opérations d'écriture concurrentes tout en maintenant la cohérence des données. Tout goulot d'étranglement dans ce processus peut entraîner des retards d'entraînement généralisés.
Une sauvegarde de points de contrôle lente peut créer des goulots d'étranglement d'entraînement importants, car l'ensemble du processus d'entraînement doit s'arrêter pendant que le point de contrôle est écrit sur le stockage. Par exemple, dans une configuration d'entraînement à grande échelle, si la sauvegarde de points de contrôle prend 30 minutes toutes les quelques heures, cela pourrait entraîner plusieurs heures d'interruption accumulée sur toute la période d'entraînement. Cela a un impact direct sur l'efficacité de l'entraînement et augmente les coûts opérationnels, en particulier dans les environnements cloud où les ressources informatiques sont facturées à l'heure.
Une sauvegarde de points de contrôle plus rapide permet également aux équipes de créer des points de contrôle plus fréquemment, réduisant ainsi la perte de données potentielle maximale en cas de défaillances. Cela permet des approches d'entraînement plus agressives et des cycles d'itération expérimentale améliorés. De plus, des temps de chargement rapides des points de contrôle facilitent une expérimentation plus rapide avec différentes configurations d'entraînement et architectures de modèles, car les chercheurs peuvent plus facilement restaurer des états précédents pour tester des approches alternatives.
La capacité du système de stockage à gérer efficacement ces opérations de points de contrôle devient un facteur déterminant dans l'infrastructure d'entraînement globale. Les solutions de stockage haute performance capables de gérer à la fois les modèles d'écriture en rafale de la sauvegarde de points de contrôle et les opérations de lecture/écriture soutenues de l'entraînement peuvent réduire considérablement le temps et le coût totaux de l'entraînement de grands modèles de langage. Ainsi, les caractéristiques de performance du sous-système de stockage, en particulier sa capacité à gérer les écritures séquentielles volumineuses et à maintenir une bande passante élevée et constante, sont des considérations cruciales lors de la conception de l'infrastructure d'entraînement des LLM.
Pour ce rapport, nous avons cherché à évaluer les performances des SSD pour la sauvegarde de points de contrôle d'IA, en évaluant les avantages des derniers SSD Gen5 lorsque la vitesse des points de contrôle est critique, par rapport aux plus grands SSD QLC du marché, qui peuvent stocker un grand nombre de points de contrôle si cela est plus bénéfique pour le modèle entraîné.
Performances des points de contrôle – Benchmarking avec DLIO
Pour évaluer les performances réelles des SSD Solidigm dans les environnements d'entraînement d'IA, nous avons utilisé l'outil de benchmark Data and Learning Input/Output (DLIO). Développé par l'Argonne National Laboratory, DLIO est spécifiquement conçu pour tester les modèles d'E/S dans les charges de travail d'apprentissage profond, fournissant des informations sur la manière dont les systèmes de stockage gèrent la sauvegarde de points de contrôle, l'ingestion de données et les défis de l'entraînement de modèles.

En utilisant DLIO, nous avons cherché à mesurer le débit, la latence et la fiabilité du lecteur dans des scénarios de sauvegarde de points de contrôle intensifs. Bien que ces tests aient été effectués sur le D5-P5336 de 61,44 To, les données de performance initiales indiquent que la version 122 To du Solidigm D5-P5336 offre un profil de performance similaire. Nous avons également inclus les résultats d'un D7-PS1010 basé sur TLC pour démontrer les avantages de PCIe Gen5 dans ce test. Nous avons sélectionné ces deux lecteurs pour présenter les deux perspectives sur les points de contrôle : l'une axée sur le temps de point de contrôle le plus rapide possible, et l'autre sur le stockage du nombre maximum de points de contrôle sur un seul SSD.
La plateforme choisie pour ce travail était notre Dell PowerEdge R760 exécutant Ubuntu 22.04.02 LTS. Nous avons utilisé la version 2.0 du benchmark DLIO de la version du 13 août 2024. Notre configuration système est décrite ci-dessous :
- 2 x Intel Xeon Gold 6430 (32 cœurs, 2,1 GHz)
- 16 x 64 Go DDR5-4400
- SSD Dell BOSS 480 Go
- Câbles série Gen5 JBOF
- 7,68 To Solidigm D7-PS1010
- 61,44 To Solidigm D5-P5336
Pour garantir que notre benchmarking reflète les scénarios réels, nous avons basé nos tests sur l'architecture du modèle LLAMA 3.1 405B, en implémentant la sauvegarde de points de contrôle via torch.save() pour capturer les paramètres du modèle, les états de l'optimiseur et les états des couches. Notre configuration a simulé un système à 8 GPU, implémentant une stratégie de parallélisme hybride avec un traitement parallèle tensoriel à 4 voies et parallèle pipeline à 2 voies réparti sur les huit GPU. Cette configuration a abouti à des tailles de points de contrôle de 1 636 Go, représentatives des exigences d'entraînement des modèles de langage volumineux modernes.
Notre processus de test pour la charge de travail de points de contrôle DLIO a consisté à remplir chaque lecteur jusqu'à un niveau d'utilisation similaire. Pour le Solidigm D5-P5336 de 61,44 To, chaque passage comprenait 33 intervalles de points de contrôle, totalisant 54 To. Le D7-PS1010 plus petit de 7,68 To a confortablement accueilli trois intervalles de points de contrôle, avec une empreinte totale de 4,9 To. Un point de contrôle supplémentaire aurait pu être ajouté au D7-PS1010, bien que cela ait légèrement augmenté son utilisation au-delà de ce que nous souhaitions.
La charge de travail de points de contrôle DLIO a donné des résultats intéressants lorsque nous avons comparé le D5-P5536 de 61,44 To basé sur QLC Gen4 au D7-PS1010 de 7,68 To basé sur TLC Gen5. Pendant le premier passage, à mesure que les lecteurs se remplissaient, nous avons constaté un écart de performance plus large entre les deux modèles de SSD. Le PS1010 Gen5 plus rapide a terminé chaque point de contrôle en moyenne en 464 secondes, contre 623 secondes pour le P5336 Gen4. Lors des deuxième et troisième passages, l'écart s'est réduit à 579 et 587 secondes pour le PS1010 et à 676 et 680 secondes pour le P5336.
Pour les entreprises qui cherchent à avoir le plus petit écart possible dans les intervalles de points de contrôle, le PS1010 Gen5 basé sur TLC offre un avantage en termes de temps d'achèvement le plus rapide. Si l'objectif est de conserver de nombreux points de contrôle de manière rentable, le P5336 Gen4 basé sur QLC peut le faire. Nous avons mesuré une différence dans les temps moyens de points de contrôle de moins de 17 % entre les deux lecteurs pendant les deuxième et troisième passages.
Bande passante GPU Direct Storage
Alors que DLIO montre les performances flash dans un flux de travail d'IA, la charge de travail est entièrement basée sur l'écriture jusqu'à ce qu'un point de contrôle soit restauré. Pour brosser un tableau plus complet du Solidigm D7-PS1010 et du D5-P5336 dans les charges de travail d'IA, nous avons inclus des mesures de bande passante de lecture à l'aide de GDSIO.
Comment fonctionne GPU Direct Storage
Traditionnellement, lorsqu'un GPU traite des données stockées sur un lecteur NVMe, les données doivent d'abord transiter par le CPU et la mémoire système avant d'atteindre le GPU. Ce processus introduit des goulots d'étranglement, car le CPU agit comme intermédiaire, ajoutant de la latence et consommant des ressources système précieuses. GPU Direct Storage élimine cette inefficacité en permettant au GPU d'accéder directement aux données du périphérique de stockage via le bus PCIe. Ce chemin direct réduit la surcharge associée au mouvement des données, permettant des transferts de données plus rapides et plus efficaces.
Les charges de travail d'IA, en particulier celles impliquant l'apprentissage profond, sont très gourmandes en données. L'entraînement de grands réseaux neuronaux nécessite le traitement de téraoctets de données, et tout retard dans le transfert de données peut entraîner une sous-utilisation des GPU et des temps d'entraînement plus longs. GPU Direct Storage répond à ce défi en garantissant que les données sont livrées au GPU aussi rapidement que possible, en minimisant les temps d'inactivité et en maximisant l'efficacité computationnelle.
Comme le test DLIO, l'objectif est de mieux comprendre et caractériser les différences entre les SSD Gen5 à haute vitesse et les lecteurs QLC à haute capacité. Toutes les charges de travail d'IA ne sont pas identiques, et chaque lecteur offre des avantages distincts, en fonction du besoin.
Matrice de configuration de test
Nous avons systématiquement testé toutes les combinaisons des paramètres suivants avec une NVIDIA L4 sur notre plateforme de test :
- Tailles de blocs : 1M, 128K, 64K, 16K, 8K
- Nombre de threads : 128, 64, 32, 16, 8, 4, 1
- Nombre de tâches : 16
- Tailles de lots : 16
Notre première observation a porté sur le D5-P5336 basé sur QLC, qui a atteint 4,2 Gio/s en utilisant une taille de transfert de 1 Mo à une profondeur d'E/S de 128. L'effet des tailles de blocs a produit une amélioration substantielle de la bande passante, passant de 8 Ko à 1 Mo. L'avantage d'une profondeur d'E/S accrue a commencé à diminuer à 32, où les charges de travail ont commencé à se stabiliser.
Ensuite, nous examinons le PS-1010 Gen5, qui peut atteindre 6,2 Gio/s avec une taille de bloc de 1 Mo et une profondeur d'E/S de 128. Dans l'ensemble, il a surpassé le P5336 basé sur Gen4, avec des charges de travail particulières démontrant une amélioration substantielle. Un domaine d'amélioration notable est apparu avec la taille de bloc de 128 Ko, où à une profondeur d'E/S de 64 et 128, le PS1010 a offert le double de la bande passante de lecture du P5336.
Il est important de noter que les deux SSD ont été testés à l'aide de la NVIDIA L4. Alors que le D5-P5336 Gen4 est à son maximum ou proche de son maximum, les GPU NVIDIA de modèle supérieur comme le H100 ont démontré des performances plus élevées avec le D7-PS1010. La vitesse d'un lecteur est le facteur décisif ultime pour certains clients, tandis que d'autres privilégient la densité globale.Solidigmpropose des solutions pourles deux, avec sesoffres de SSD QLC et TLC.
Conclusion
Alors que l'échelle et la complexité de l'entraînement d'IA continuent de croître, l'infrastructure de stockage sous-jacente doit non seulement suivre le rythme, mais aussi donner le tempo. Nos tests avec deux SSD distincts soulignent l'importance d'aligner les solutions de stockage sur les priorités d'entraînement spécifiques, qu'il s'agisse de minimiser la latence des points de contrôle ou de maximiser la densité des points de contrôle pour une évolutivité rentable.
Dans notre évaluation, nous avons testé le Solidigm D5-P5336 (61,44 To) et le D7-PS1010 (7,68 To) dans des conditions d'entraînement d'IA réalistes, en utilisant le benchmark DLIO et un flux de travail de sauvegarde de points de contrôle LLM hybride-parallèle étendu. Nous avons capturé des métriques reflétant les performances d'écriture des points de contrôle sur plusieurs séries de tests à mesure que les lecteurs se remplissaient, soulignant les différences de performance dans les temps d'achèvement entre le D5-P5336 basé sur QLC Gen4 et le D7-PS1010 basé sur TLC Gen5.

Alors que le D7-PS1010 offrait les écritures de points de contrôle les plus rapides possibles, le D5-P5336 a démontré des avantages convaincants en termes de rentabilité et de capacité, avec seulement un compromis de performance modeste. Nous avons en outre examiné les bandes passantes de lecture de GPU Direct Storage (GDS) à l'aide de GDSIO avec un GPU NVIDIA L4. Nos résultats ont montré que le Solidigm D5-P5336 offrait jusqu'à 4,2 Gio/s de bande passante de lecture avec une taille de transfert de 1 Mo, tandis que le D7-PS1010 offrait une amélioration substantielle à 6,2 Gio/s. Les performances seraient encore plus impressionnantes en utilisant un GPU plus puissant, tel que le NVIDIA L40s ou H100/H200.
À l'avenir, la capacité sans précédent du SSD Solidigm D5-P5336 122 To est appelée à remodeler l'entraînement et le déploiement d'IA. À mesure que la taille des modèles et les exigences de sauvegarde de points de contrôle continuent de croître, ces lecteurs à haute capacité ouvrent de nouveaux niveaux d'efficacité et de flexibilité, permettant des stratégies d'entraînement qui étaient auparavant inaccessibles. Le leadership de Solidigm dans les solutions SSD à haute capacité permet aux organisations de stocker plus de données et de points de contrôle sur moins de lecteurs, tout en aidant à pérenniser leurs infrastructures face à la prochaine vague de complexité de l'IA.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Directeur de la stratégie mondiale
WhatsApp / WeChat : +86 13426366826
E-mail : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Domaine d'activité :
Distribution de produits TIC/Intégration de systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous nous associons à des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !