logo
Aperçu Nouvelles

nouvelles de l'entreprise L'accélération du cache de Lightbits et de ScaleFlux est de 100x à 280x

Certificat
Chine Beijing Qianxing Jietong Technology Co., Ltd. certifications
Chine Beijing Qianxing Jietong Technology Co., Ltd. certifications
Examens de client
Le personnel de vente de Beijing Qianxing Jietong Technology Co.,Ltd sont très professionnel et patient. Ils peuvent fournir des citations rapidement. La qualité et l'emballage des produits sont également très bons. Notre coopération est très lisse.

—— LLC de》 de Festfing DV de 《

Quand je recherchais l'unité centrale de traitement d'Intel et le disque transistorisé de Toshiba instamment, Sandy de Beijing Qianxing Jietong Technology Co., Ltd m'a donné beaucoup d'aide et m'a obtenu les produits que j'ai eus besoin rapidement. Je l'apprécie vraiment.

—— Kitty Yen

Sandy de Beijing Qianxing Jietong Technology Co.,Ltd est un vendeur très soigneux, qui peut me rappeler des erreurs de configuration à temps où j'achète un serveur. Les ingénieurs sont également très professionnels et peuvent rapidement compléter le processus de essai.

—— Strelkin Mikhail Vladimirovich

Nous sommes très satisfaits de notre expérience de travail avec Beijing Qianxing Jietong. La qualité du produit est excellente et la livraison est toujours à l'heure. Leur équipe de vente est professionnelle, patiente et très serviable pour toutes nos questions. Nous apprécions vraiment leur soutien et nous nous réjouissons d'un partenariat à long terme. Fortement recommandé !

—— Ahmad Navid

Qualité: “Grande expérience avec mon fournisseur. Le MikroTik RB3011 était déjà utilisé, mais il était en très bon état et tout fonctionnait parfaitement.et toutes mes préoccupations ont été traitées rapidementUn fournisseur très fiable, très recommandé.

—— Geran Colesio

Je suis en ligne une discussion en ligne
Société Nouvelles
L'accélération du cache de Lightbits et de ScaleFlux est de 100x à 280x
Les laboratoires Lightbits et ScaleFlux ont réalisé unAugmentation de performance de 100 à 280 foispour les charges de travail de cache KV en utilisant le logiciel de cache LightInferra pour lire les données des SSD de stockage de calcul ScaleFlux.

Les deux sociétés ont fourni des données de cache KV aux GPU déployés dans un environnement de centre de données FarmGPU, et présenteront cette percée lors de la prochaine conférence GTC de Nvidia.Un cache KV stocke des vecteurs de jetons dans la mémoire haute bande passante (HBM) d'un GPUUne fois que la capacité du HBM est épuisée, les blocs de données du cache KV doivent être recalculés, un processus qui prend du temps et dégrade les vitesses d'entraînement et d'inférence de l'IA.Ce ralentissement est particulièrement prononcé à mesure que les charges de travail de l'IA augmentent, ce qui entraîne une forte augmentation du nombre de jetons utilisés pour générer des vecteurs.

Le logiciel de mise en cache KV étend logiquement la couche de mise en cache vers l'extérieur: d'abord vers le processeur x86 et sa DRAM sur le serveur GPU, puis vers les lecteurs NVMe locaux dans le même système x86, puis vers les SSD NVMe externes.Cette extension à niveaux élimine la nécessité de recomputer les vecteurs de jetonsAlors que les SSD NVMe ont naturellement une latence d'accès plus élevée que HBM ou DRAM, récupérer des vecteurs de jetons précalculés est beaucoup plus rapide que de recalculer des dizaines de milliers d'entre eux à partir de zéro.Lightbits et ScaleFlux affirment que leur solution accélère considérablement la récupération de données de cache KV à partir de disques SSD.

Arthur Rasmusson, directeur de l'architecture de l'IA chez Lightbits Labs, a déclaré: "Nous transformons la mémoire d'inférence d'un cache réactif en une couche de données intelligente et en streaming".

- Comment?


En prélevant uniquement les données qui comptent et en les envoyant aux GPU via RDMA haut débit avant qu'elles ne soient nécessaires, nous éliminons les stands qui limitent traditionnellement les performances de long contexte.Le résultat est un Time-to-First-Token (TTFT) inférieur, un débit plus stable sous charge réelle et une utilisation efficace significativement plus élevée du GPU.

Keith McKay, directeur principal de l'architecture des solutions et des partenariats techniques chez ScaleFlux, a commenté:Ce que nous montrons au GTC est un premier aperçu de la manière dont un placement plus intelligent des données et une gestion persistante de l'état d'attention pourraient aider les systèmes d'inférence à rester réactifs à mesure que les fenêtres de contexte se développentC'est une collaboration que nous voulons créer avec de vrais opérateurs.

Lightbits et ScaleFlux visent à encourager les opérateurs de cloud et d'infrastructure à adopter leurs logiciels et leurs SSD, éliminant ainsi le temps d'inactivité coûteux des GPU.

Examinons d'abord la contribution de ScaleFlux, puis passons à la couche logicielle plus sophistiquée de Lightbits.

ScaleFlux fournit des SSD NVMe et des disques de stockage informatique (CSD) équipés d'une technologie de réduction d'écriture (WRT) basée sur le matériel.Propulsé par la compression accélérée par le matériel et la gestion des métadonnées basée sur SoC, ces disques offrent jusqu'à quatre fois plus de capacité logique que le stockage physique, tout en restant totalement transparents pour les systèmes hôtes.La société est membre du consortium Open Flash Platform (OFP)., qui travaille à redéfinir l'infrastructure de données d'IA avec une densité, une faible latence,Systèmes économes en énergie offrant 10 fois la densité du stockage d'IA classique basé sur les fichiers et seulement un dixième de la consommation d'énergie.

En s'appuyant sur ces disques de stockage, Lightbits ajoute une précollection intelligente des données KV CacheavantLes GPU l'exigent, évitant les arrêts causés par une capacité KV insuffisante ou un recomputement coûteux des vecteurs de jetons.Son logiciel LightInferra utilise des algorithmes de mise en cache optimisés par KV Cache pour extraire les données requises dans la mémoire GPU à des vitesses RDMA avant la demande réelle.

Encore une fois, comment?


Le logiciel fonctionne sur l'hôte x86 intégré dans les serveurs GPU et suit les modèles d'accès des blocs de données KV Cache.il fonctionne avec un moteur de précaptage d'attention sublinéaire (SLSAP) pour identifier les blocs KV les plus susceptibles d'être nécessaires à la suite.

Ce moteur combine le hachage sensible à la localisation (LSH) avec la modélisation de la réutilisation statistique analyse de la localisation d'accès historique dans les calculs d'attention pour marquer et hiérarchiser les blocs KV,puis sélectionne ceux avec la plus grande probabilité d'être demandé par les GPU.

Ce processus de sélection tire parti de la rareté inhérente à l'accès aux données du GPU: la plupart des jetons ne sont significativement liés qu'à un petit sous-ensemble de jetons précédents.la solution réduit considérablement le volume de vecteurs de jetons qui doivent être diffusés vers les GPU.

Un deuxième algorithme se concentre sur les modèles de réutilisation: jetons récents, jetons sémantiquement similaires,les modèles structurels communs aux RAG ou aux scénarios de chat multi-tours sont fréquemment réutilisés et priorisés en conséquence.

LightInferra récupère ces blocs de jetons d'abord à partir de la DRAM du serveur x86, ou à partir de SSD externes ScaleFlux si nécessaire, puis les précharge dans le HBM du GPU via des liens RDMA.

Lightbits a comparé cette approche au recomptage du contenu mis en cache à partir de zéro en utilisant de grandes charges de travail de modèles de langage, mesurant les améliorations du Time-to-First-Token (TTFT).Les valeurs d'accélération rapportées de 100 à 280 fois sont dérivées directement de ces résultats d'essai.

dernières nouvelles de l'entreprise L'accélération du cache de Lightbits et de ScaleFlux est de 100x à 280x  0

Bien sûr, nous aimerions voir des résultats de référence comparant l'accélération de Lightbits-ScaleFlux KV Cache

Le programme est basé sur des accélérateurs KV Cache de DDN, Hammerspace, VAST Data, WEKA et d'autres.

ne sont pas disponibles.


Il y a des graphiques montrant comment LightInferra-ScaleFlux progressivement amélioré sur la régénération de cache TTFT

à mesure que la taille du modèle augmente.


dernières nouvelles de l'entreprise L'accélération du cache de Lightbits et de ScaleFlux est de 100x à 280x  1


Toutes les données relatives aux indices de référence sont présentées dans des graphiques à l'échelle logarithmique, conçus principalement pour les professionnels de l'informatique, mais un langage simple facilite la compréhension de l'impact du monde réel:Le résultat est une performance durable du temps jusqu'au premier jeton (TTFT) à mesure que le contexte passe de 100 000 jetons à 1 million et plus.??
Comme le dit Jonmichael Hands de FarmGPU, quand une conversation de 400 000 jetons reprend et que le système doit régénérer le cache KV entier à partir de zéro,Cela signifie deux minutes complètes de GPU avec zéro jeton produitLightInferra change complètement le modèle économique, la même charge de travail génère son premier jeton en moins d'une demi-seconde, transformant un niveau de produit non viable en un niveau rentable.

Lightbits et ScaleFlux ont conçu cette solution conjointe spécifiquement pour les fermes de GPU néocloud de nouvelle génération, où de grandes capsules GPU exécutent des centaines voire des milliers de charges de travail simultanées de modèles d'IA.Presque toutes ces charges de travail atteindront la limite de la capacité de cache KV dans la mémoire à large bande passante (HBM) du GPU.

Dans les configurations traditionnelles, les équipes sont confrontées à deux options coûteuses: récupérer lentement des vecteurs de jetons du stockage externe générique,ou le processus beaucoup plus long de recalculer ces vecteurs à partir de zéro, qui laisse les GPU inactifs pendant des heures.La combinaison de LightInferra et ScaleFlux élimine complètement ce point sensible de l'industrie.

Le PDG de FarmGPU, Jonmichael Hands, a ajouté: "Le stockage en réseau rapide de Lightbits débloque une multitude de nouveaux cas d'utilisation pour l'inférence de contexte long.En associant notre service géré avec le stockage à haute performance de Lightbits fonctionnant sur les lecteurs NVMe de ScaleFlux, nous pouvons réduire le temps de premier jeton et augmenter l'utilisation du GPU, réduisant considérablement le coût total de possession (TCO) pour les charges de travail d'inférence.

La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Site internet:Les données fournies par les autorités chinoises sont les suivantes:

En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
“Utiliser la technologie pour bâtir un monde intelligent”Votre fournisseur de services de produits TIC de confiance!
Temps de bar : 2026-03-18 11:34:46 >> Liste de nouvelles
Coordonnées
Beijing Qianxing Jietong Technology Co., Ltd.

Personne à contacter: Ms. Sandy Yang

Téléphone: 13426366826

Envoyez votre demande directement à nous (0 / 3000)