WEKA a annoncé l'intégration de sa plateforme NeuralMesh avec l'architecture de référence NVIDIA STX,établissant sa grille de mémoire augmentée comme élément clé de l'infrastructure d'IA de nouvelle générationLa solution combinée s'attaque à l'un des goulets d'étranglement les plus importants dans les environnements d'inférence à grande échelle: les contraintes de mémoire qui affectent directement les performances, le coût total de possession,et une croissance évolutive.
Opérant via NeuralMesh, WEKA's Augmented Memory Grid étend la mémoire du GPU en extériorisant et en conservant les caches de valeur de clé.Cette architecture fournit un stockage de mémoire contextuelle à haut débit pour les charges de travail d'IA agentSelon la société, les configurations combinant les systèmes NVL72 de NVIDIA Vera Rubin, les DPU BlueField-4,et l' Ethernet Spectrum-X peut augmenter le débit des jetons de mémoire contextuelle de 4x à 10xLa plateforme devrait également offrir au moins 320 Go/s de lecture et 150 Go/s d'écriture, soit plus du double des performances des architectures de stockage traditionnelles d'IA.
L'infrastructure de mémoire devient le goulot d'étranglement de l'inférence
WEKA concentre cette intégration sur le défi croissant du mur de mémoire dans les déploiements d'IA modernes.entraînant des recalculs répétés et une diminution de l'efficacité opérationnelleAu fur et à mesure que la concomitance du système augmente, ces inefficacités se multiplient, augmentant les dépenses d'infrastructure et réduisant la prévisibilité des performances.
La société promeut l'infrastructure de cache KV partagée comme solution.La mise en cache partagée élimine le traitement redondant et stabilise le débit des jetons. NVIDIA STX fournit l'architecture de référence validée pour ce modèle, tandis que WEKA fournit la couche d'extension de stockage et de mémoire.
NeuralMesh et architecture de grille de mémoire augmentée
NeuralMesh agit comme la plateforme de stockage distribué de WEKA, conçue pour s'intégrer de manière transparente dans l'ensemble de la pile NVIDIA STX.tandis que la grille de mémoire augmentée sert de couche d'expansion de mémoire dédiée qui consolide le cache KV en dehors de la mémoire GPU.
Cette conception permet aux environnements d'inférence de maintenir des sessions contextuelles longues sans surcharger les ressources du GPU.La plateforme maintient une utilisation élevée et des performances constantes à mesure que les déploiements évoluent.
WEKA note que la Grille de mémoire augmentée, dévoilée pour la première fois au GTC 2025 et désormais généralement disponible, a été validée sur les plateformes de processeurs NVIDIA Grace jumelées à des DPU BlueField.L'architecture offre des gains mesurables en efficacité d'inférence, y compris un temps de premier jeton considérablement plus rapide, un débit de jeton par GPU plus élevé et des performances stables en cas de concurrence accrue.Le déchargement du chemin de données vers BlueField-4 réduit également les frais généraux du processeur et atténue les goulots d'étranglement d'E/S.
Augmentation des performances et de l'efficacité
Dans les environnements de production, la plateforme est conçue pour améliorer la réactivité et l'efficacité des infrastructures.WEKA affirme que la Grille de Mémoire Augmentée peut réduire le temps de premier jeton de 4x à 20x, tout en augmentant la sortie de jetons par GPU jusqu'à 6,5 fois. Ces améliorations résultent de taux de succès de cache KV plus élevés et de moins de cycles de recomptage,permettant aux systèmes de maintenir leurs performances à mesure que les tailles de contexte et le nombre d'utilisateurs s'élargissent.
Firmus, un fournisseur d'infrastructure d'IA, est mis en évidence comme un des premiers à utiliser NeuralMesh avec une infrastructure basée sur NVIDIA.,avec des gains provenant d'une utilisation plus efficace des GPU existants plutôt que de déploiements de matériel supplémentaires.
Implications pour la conception de l'infrastructure d'IA
Cette intégration met en évidence un changement dans la conception des systèmes d'IA, où les stratégies de mémoire et de stockage définissent de plus en plus les performances globales et l'efficacité des coûts.Les charges de travail de l'IA agentique se développent et les fenêtres de contexte s'élargissent, les approches basées uniquement sur la DRAM deviennent insoutenables en raison de la hausse des coûts de recomptage et des GPU sous-utilisés.
WEKA positionne le cache KV partagé persistant comme une capacité fondamentale pour les usines d'IA. Les organisations adoptant ce modèle peuvent atteindre une utilisation plus élevée du GPU,une consommation d'énergie moindre par tâche d'inférenceEn revanche, les environnements qui reposent exclusivement sur la mémoire GPU locale devront probablement faire face à des coûts opérationnels croissants et à des rendements moindres à mesure que les charges de travail augmenteront.
La Commission a examiné les informations fournies par les autorités chinoises.
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!
Sandy Yang, directeur de la stratégie mondiale
WhatsApp ou WeChat: +86 13426366826
Le courrier électronique: yangyd@qianxingdata.com
Le site Web est le suivant: www.qianxingdata.com/www.storagesserver.com
En ce qui concerne les affaires
Distribution de produits TIC/Intégration des systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous travaillons en partenariat avec des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
Utiliser la technologie pour bâtir un monde intelligentVotre fournisseur de services de produits TIC de confiance!



