MinIO a développé un système de mise en cache MemKV à l'échelle du pétaoctet, adapté aux GPU Nvidia, déployé au-dessus de sa plate-forme de stockage d'objets AIStor.
Les clusters GPU exécutant l'inférence nécessitent une mémoire à large bande passante (HBM) pour stocker le contexte, les jetons vectorisés et les paires clé-valeur (KV) intermédiaires. Une fois le GPU HBM saturé, les données sont acheminées vers la DRAM CPU et les SSD NVMe, gérés par les DPU Nvidia BlueField-4 (BF4). Lorsque ces niveaux atteignent leur capacité, MinIO AIStor agit comme la sauvegarde de stockage finale. L'architecture STX de Nvidia régit cette hiérarchie de cache multicouche, et MemKV est conforme à la norme pour fournir un contexte persistant et partagé sur les clusters GPU à une échelle supérieure.
AB Periasamy, co-fondateur et co-PDG de MinIO, a commenté : "L'industrie cache la perte de contexte depuis des années car, à petite échelle, vous pouvez absorber la taxe de recalcul. Avec la densité élevée de GPU actuelle pour les hyperscalers et les néoclouds, cela n'est plus viable.
Le recalcul du contexte généré gaspille de l'énergie ; pour les clusters comportant des milliers de GPU, cela crée une inefficacité structurelle fondamentale. L'inférence à grande échelle nécessite une infrastructure spécialement conçue, et MemKV est spécialement conçu pour ce chemin de données.
Pour la première fois, MinIO permet des pools de contexte partagés pour des clusters GPU entiers avec une latence de l'ordre de la microseconde correspondant aux flux de travail d'inférence, évitant ainsi les retards de quelques millisecondes du stockage externe conventionnel. Sans niveaux de cache suffisants, les GPU gaspillent des ressources lors de recalculs répétés du contexte.
Dans un déploiement de 128 GPU avec une longueur de contexte de 128 000 jetons, MemKV a amélioré le délai d'obtention du premier jeton sous des charges de production et a augmenté l'utilisation du GPU de 50 % à plus de 90 %, générant une économie annuelle estimée à 2 millions de dollars sur les coûts de calcul.
Spécialement conçu pour l'architecture Nvidia STX, MemKV prend en charge les outils de mise en cache Nvidia Dynamo et NIXL. Il fournit des pétaoctets de mémoire contextuelle partagée à des coûts équivalents à ceux d'un SSD, dissociant ainsi la mise à l'échelle du cache des ressources de calcul du GPU. Ses principales fonctionnalités sont répertoriées ci-dessous :
-
Prise en charge native du BF4 STX: fonctionne comme un binaire ARM64 au sein de l'infrastructure STX, intégré dans le stockage plutôt que dans des serveurs de stockage x86 séparés.
-
Transport RDMA de bout en bout: transfère le cache KV entre la mémoire GPU et NVMe via RDMA, en contournant les protocoles conventionnels de stockage de fichiers et d'objets.
-
Taille de bloc optimisée pour le GPU: utilise des blocs de 2 à 16 Mo pour les demandes de débit GPU, au lieu des anciens blocs de stockage de 4 Ko.
-
Performances à vitesse filaire: Optimisé pour Nvidia Spectrum-X Ethernet et PCIe Gen6 pour maximiser le débit de la structure physique.
MemKV transfère directement les données des SSD NVMe vers les pipelines IA via RDMA, éliminant ainsi la surcharge HTTP, la traduction du système de fichiers et les serveurs de stockage intermédiaires.
MinIO classe les solutions de mémoire contextuelle concurrentes en deux types : NVMe local non partageable (G3) et stockage partagé à usage général (G4). Il positionne MemKV comme un niveau G3.5 spécialement conçu, se distinguant des produits de stockage génériques.
La société souligne que les offres G3.5 des fournisseurs existants conservent toujours des nœuds de protocole, des services de métadonnées et des couches de traduction de fichiers redondants. Ces couches garantissent la durabilité et la cohérence des données d'entraînement et des poids des modèles, mais elles sont inutiles pour le cache KV éphémère et recalculable optimisé pour les blocs de données de 2 à 16 Mo.
Le fournisseur de matériel RAID GRAID et la société de stockage WEKA proposent également des solutions de cache KV compatibles STX. Un large éventail de fournisseurs de stockage prennent en charge Nvidia STX, notamment Cloudian, Dell, DDN, Everpure, Hammerspace, Hitachi Vantara, HPE, Lightbits/ScaleFlux, NetApp, Nutanix, Peak:AIO, Pliops et VAST Data.
Pékin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Directrice de la stratégie mondiale
WhatsApp/WeChat : +86 13426366826
Courriel : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Objectif commercial :
Distribution de produits TIC/Intégration et services de systèmes/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous collaborons avec de grandes marques mondiales pour fournir des produits et des services professionnels fiables.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !