Les laboratoires Lightbits et ScaleFlux ont réalisé unAugmentation de performance de 100 à 280 foispour les charges de travail de cache KV en utilisant le logiciel de cache LightInferra pour lire les données des SSD de stockage de calcul ScaleFlux.
Les deux sociétés ont fourni des données de cache KV aux GPU déployés dans un environnement de centre de données FarmGPU, et présenteront cette percée lors de la prochaine conférence GTC de Nvidia.Un cache KV stocke des vecteurs de jetons dans la mémoire haute bande passante (HBM) d'un GPUUne fois que la capacité du HBM est épuisée, les blocs de données du cache KV doivent être recalculés, un processus qui prend du temps et dégrade les vitesses d'entraînement et d'inférence de l'IA.Ce ralentissement est particulièrement prononcé à mesure que les charges de travail de l'IA augmentent, ce qui entraîne une forte augmentation du nombre de jetons utilisés pour générer des vecteurs.
Le logiciel de mise en cache KV étend logiquement la couche de mise en cache vers l'extérieur: d'abord vers le processeur x86 et sa DRAM sur le serveur GPU, puis vers les lecteurs NVMe locaux dans le même système x86, puis vers les SSD NVMe externes.Cette extension à niveaux élimine la nécessité de recomputer les vecteurs de jetonsAlors que les SSD NVMe ont naturellement une latence d'accès plus élevée que HBM ou DRAM, récupérer des vecteurs de jetons précalculés est beaucoup plus rapide que de recalculer des dizaines de milliers d'entre eux à partir de zéro.Lightbits et ScaleFlux affirment que leur solution accélère considérablement la récupération de données de cache KV à partir de disques SSD.
Arthur Rasmusson, directeur de l'architecture de l'IA chez Lightbits Labs, a déclaré: "Nous transformons la mémoire d'inférence d'un cache réactif en une couche de données intelligente et en streaming".
- Comment?
En prélevant uniquement les données qui comptent et en les envoyant aux GPU via RDMA haut débit avant qu'elles ne soient nécessaires, nous éliminons les stands qui limitent traditionnellement les performances de long contexte.Le résultat est un Time-to-First-Token (TTFT) inférieur, un débit plus stable sous charge réelle et une utilisation efficace significativement plus élevée du GPU.
Keith McKay, directeur principal de l'architecture des solutions et des partenariats techniques chez ScaleFlux, a commenté:Ce que nous montrons au GTC est un premier aperçu de la manière dont un placement plus intelligent des données et une gestion persistante de l'état d'attention pourraient aider les systèmes d'inférence à rester réactifs à mesure que les fenêtres de contexte se développentC'est une collaboration que nous voulons créer avec de vrais opérateurs.
Lightbits et ScaleFlux visent à encourager les opérateurs de cloud et d'infrastructure à adopter leurs logiciels et leurs SSD, éliminant ainsi le temps d'inactivité coûteux des GPU.
Examinons d'abord la contribution de ScaleFlux, puis passons à la couche logicielle plus sophistiquée de Lightbits.
ScaleFlux fournit des SSD NVMe et des disques de stockage informatique (CSD) équipés d'une technologie de réduction d'écriture (WRT) basée sur le matériel.Propulsé par la compression accélérée par le matériel et la gestion des métadonnées basée sur SoC, ces disques offrent jusqu'à quatre fois plus de capacité logique que le stockage physique, tout en restant totalement transparents pour les systèmes hôtes.La société est membre du consortium Open Flash Platform (OFP)., qui travaille à redéfinir l'infrastructure de données d'IA avec une densité, une faible latence,Systèmes économes en énergie offrant 10 fois la densité du stockage d'IA classique basé sur les fichiers et seulement un dixième de la consommation d'énergie.
En s'appuyant sur ces disques de stockage, Lightbits ajoute une précollection intelligente des données KV CacheavantLes GPU l'exigent, évitant les arrêts causés par une capacité KV insuffisante ou un recomputement coûteux des vecteurs de jetons.Son logiciel LightInferra utilise des algorithmes de mise en cache optimisés par KV Cache pour extraire les données requises dans la mémoire GPU à des vitesses RDMA avant la demande réelle.
Encore une fois, comment?
Le logiciel fonctionne sur l'hôte x86 intégré dans les serveurs GPU et suit les modèles d'accès des blocs de données KV Cache.il fonctionne avec un moteur de précaptage d'attention sublinéaire (SLSAP) pour identifier les blocs KV les plus susceptibles d'être nécessaires à la suite.
Ce moteur combine le hachage sensible à la localisation (LSH) avec la modélisation de la réutilisation statistique analyse de la localisation d'accès historique dans les calculs d'attention pour marquer et hiérarchiser les blocs KV,puis sélectionne ceux avec la plus grande probabilité d'être demandé par les GPU.
Ce processus de sélection tire parti de la rareté inhérente à l'accès aux données du GPU: la plupart des jetons ne sont significativement liés qu'à un petit sous-ensemble de jetons précédents.la solution réduit considérablement le volume de vecteurs de jetons qui doivent être diffusés vers les GPU.
Un deuxième algorithme se concentre sur les modèles de réutilisation: jetons récents, jetons sémantiquement similaires,les modèles structurels communs aux RAG ou aux scénarios de chat multi-tours sont fréquemment réutilisés et priorisés en conséquence.
LightInferra récupère ces blocs de jetons d'abord à partir de la DRAM du serveur x86, ou à partir de SSD externes ScaleFlux si nécessaire, puis les précharge dans le HBM du GPU via des liens RDMA.
Lightbits a comparé cette approche au recomptage du contenu mis en cache à partir de zéro en utilisant de grandes charges de travail de modèles de langage, mesurant les améliorations du Time-to-First-Token (TTFT).Les valeurs d'accélération rapportées de 100 à 280 fois sont dérivées directement de ces résultats d'essai.

Bien sûr, nous aimerions voir des résultats de référence comparant l'accélération de Lightbits-ScaleFlux KV Cache
Le programme est basé sur des accélérateurs KV Cache de DDN, Hammerspace, VAST Data, WEKA et d'autres.
ne sont pas disponibles.
Il y a des graphiques montrant comment LightInferra-ScaleFlux progressivement amélioré sur la régénération de cache TTFT
à mesure que la taille du modèle augmente.

Toutes les données relatives aux indices de référence sont présentées dans des graphiques à l'échelle logarithmique, conçus principalement pour les professionnels de l'informatique, mais un langage simple facilite la compréhension de l'impact du monde réel:Le résultat est une performance durable du temps jusqu'au premier jeton (TTFT) à mesure que le contexte passe de 100 000 jetons à 1 million et plus.??
Comme le dit Jonmichael Hands de FarmGPU, quand une conversation de 400 000 jetons reprend et que le système doit régénérer le cache KV entier à partir de zéro,Cela signifie deux minutes complètes de GPU avec zéro jeton produitLightInferra change complètement le modèle économique, la même charge de travail génère son premier jeton en moins d'une demi-seconde, transformant un niveau de produit non viable en un niveau rentable.
Lightbits et ScaleFlux ont conçu cette solution conjointe spécifiquement pour les fermes de GPU néocloud de nouvelle génération, où de grandes capsules GPU exécutent des centaines voire des milliers de charges de travail simultanées de modèles d'IA.Presque toutes ces charges de travail atteindront la limite de la capacité de cache KV dans la mémoire à large bande passante (HBM) du GPU.
Dans les configurations traditionnelles, les équipes sont confrontées à deux options coûteuses: récupérer lentement des vecteurs de jetons du stockage externe générique,ou le processus beaucoup plus long de recalculer ces vecteurs à partir de zéro, qui laisse les GPU inactifs pendant des heures.La combinaison de LightInferra et ScaleFlux élimine complètement ce point sensible de l'industrie.
Le PDG de FarmGPU, Jonmichael Hands, a ajouté: "Le stockage en réseau rapide de Lightbits débloque une multitude de nouveaux cas d'utilisation pour l'inférence de contexte long.En associant notre service géré avec le stockage à haute performance de Lightbits fonctionnant sur les lecteurs NVMe de ScaleFlux, nous pouvons réduire le temps de premier jeton et augmenter l'utilisation du GPU, réduisant considérablement le coût total de possession (TCO) pour les charges de travail d'inférence.
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!