Aperçu Les affaires

IBM présente le stockage sensible au contenu pour les charges de travail RAG

Tous les produits

Serveur de stockage en rayons
(179)

Serveur de fusion de Huawei
(31)

Dell Poweredge Server
(59)

Serveur de H3C
(31)

Commutateurs de la télématique
(96)

Dispositif de WLAN
(21)

Routeur sans fil intelligent
(17)

Unité de disque dur HDD
(78)

Disque transistorisé de disque dur interne
(16)

Carte graphique de Geforce
(27)

Processeur d'unité centrale de traitement d'INTEL
(20)

Mémoire RAM de serveur
(6)

Serveur refourbi de stockage
(6)

Module d'émetteur-récepteur de SFP
(4)

Commutateur de la Manche de fibre
(125)

Certificat

Examens de client

Le personnel de vente de Beijing Qianxing Jietong Technology Co.,Ltd sont très professionnel et patient. Ils peuvent fournir des citations rapidement. La qualité et l'emballage des produits sont également très bons. Notre coopération est très lisse.

—— LLC de》 de Festfing DV de 《

Quand je recherchais l'unité centrale de traitement d'Intel et le disque transistorisé de Toshiba instamment, Sandy de Beijing Qianxing Jietong Technology Co., Ltd m'a donné beaucoup d'aide et m'a obtenu les produits que j'ai eus besoin rapidement. Je l'apprécie vraiment.

—— Kitty Yen

Sandy de Beijing Qianxing Jietong Technology Co.,Ltd est un vendeur très soigneux, qui peut me rappeler des erreurs de configuration à temps où j'achète un serveur. Les ingénieurs sont également très professionnels et peuvent rapidement compléter le processus de essai.

—— Strelkin Mikhail Vladimirovich

Nous sommes très satisfaits de notre expérience de travail avec Beijing Qianxing Jietong. La qualité du produit est excellente et la livraison est toujours à l'heure. Leur équipe de vente est professionnelle, patiente et très serviable pour toutes nos questions. Nous apprécions vraiment leur soutien et nous nous réjouissons d'un partenariat à long terme. Fortement recommandé !

—— Ahmad Navid

Qualité: Grande expérience avec mon fournisseur. Le MikroTik RB3011 était déjà utilisé, mais il était en très bon état et tout fonctionnait parfaitement.et toutes mes préoccupations ont été traitées rapidementUn fournisseur très fiable, très recommandé.

—— Geran Colesio

Je suis en ligne une discussion en ligne

IBM présente le stockage sensible au contenu pour les charges de travail RAG

April 24, 2026

IBM a dévoilé une architecture de stockage sensible au contenu (CAS) qui intègre le traitement des données d'IA directement dans la couche de stockage. Cette approche est conçue pour les flux de travail de génération augmentée par récupération (RAG), car elle intègre la vectorisation des documents dans le système de stockage lui-même, réduisant ainsi le besoin de pipelines de pré-traitement externes.

Le CAS transfère une fonction RAG clé, l'intégration de documents via des méthodes basées sur des grands modèles linguistiques (LLM), dans l'infrastructure de stockage. Cela permet aux entreprises de traiter et d'indexer les données à leur emplacement existant, en alignant les systèmes de stockage avec les charges de travail pilotées par l'IA et en minimisant les mouvements de données entre les différentes couches d'infrastructure. IBM positionne cela comme un moyen de simplifier le déploiement tout en améliorant les performances et la localité des données pour les applications d'IA.

Base de données vectorielle à grande échelle

Au cœur de l'implémentation CAS d'IBM se trouve une base de données vectorielle optimisée pour la recherche sémantique. Les bases de données vectorielles prennent en charge la recherche de voisins les plus proches approximatifs (ANN), permettant aux systèmes d'IA de récupérer des fragments de données pertinents en fonction de métriques de similarité telles que la similarité cosinus ou la distance L2. Cette capacité est fondamentale pour le RAG, où les requêtes des utilisateurs sont converties en vecteurs et mises en correspondance avec les données d'entreprise indexées pour fournir des réponses contextuelles.

Graphique CAS d'IBM Source : IBM

IBM Research, en collaboration avec Samsung et NVIDIA, a présenté un système prototype capable de gérer 100 milliards de vecteurs sur un seul serveur. Le système a atteint plus de 90 % de rappel et de précision, avec une latence de requête moyenne inférieure à 700 millisecondes. Cette échelle s'adresse aux environnements d'entreprise où les ensembles de données peuvent couvrir des milliards de fichiers et, une fois entièrement indexés, atteindre des centaines de milliards de vecteurs.

Intégration du pipeline RAG

Le RAG devient une approche privilégiée pour l'IA d'entreprise, car il améliore la précision des résultats sans nécessiter de réentraînement du modèle. Il fonctionne en complétant les invites avec des données spécifiques à l'entreprise récupérées d'une base de données vectorielle.

Le pipeline commence par l'ingestion des données, où les documents tels que les PDF et les présentations sont analysés, divisés en morceaux et convertis en intégrations. Ces intégrations sont stockées dans une base de données vectorielle qui organise les données pour une recherche de similarité efficace. Lors de la requête, l'entrée de l'utilisateur est intégrée et mise en correspondance avec les vecteurs stockés, le contenu pertinent étant transmis au modèle linguistique comme contexte. Ce mécanisme d'ancrage réduit les hallucinations et augmente la confiance dans les résultats générés par l'IA.

Le CAS d'IBM intègre l'intégralité de ce pipeline directement dans le stockage, consolidant l'ingestion, l'indexation et la récupération à proximité des données.

Relever les défis d'échelle et de coût

Les systèmes de stockage d'entreprise fonctionnent déjà à l'échelle du pétaoctet. Lorsqu'ils sont étendus au CAS, chaque fichier peut générer des centaines de vecteurs, augmentant rapidement la taille de l'ensemble de données. Les bases de données vectorielles traditionnelles s'étendent généralement sur plusieurs serveurs, introduisant des coûts supplémentaires et une complexité opérationnelle. L'indexation et la réindexation de grands ensembles de données deviennent également des tâches chronophages.

L'approche d'IBM se concentre sur l'amélioration de la densité vectorielle et la réduction de la surcharge d'indexation pour limiter la prolifération de l'infrastructure. L'architecture sépare le stockage des vecteurs et des index du calcul des requêtes, permettant une mise à l'échelle indépendante des ressources de stockage et de calcul. Ceci est rendu possible par IBM Storage Scale et son système de fichiers parallèle haute performance.

Architecture de stockage et de matériel

L'implémentation CAS utilise l'IBM Storage Scale System 6000 (ESS 6000), une plateforme tout flash conçue pour l'IA et les charges de travail haute performance. Le système prend en charge jusqu'à 48 disques NVMe par boîtier 4U, avec des capacités de disque individuelles allant de 7 To à 60 To. Il intègre une connectivité PCIe Gen5, InfiniBand 400 Gb ou Ethernet 200 Gb, offrant jusqu'à 340 Go/s en lecture et 175 Go/s en écriture par nœud, ainsi que jusqu'à 7 millions d'IOPS.

La plateforme prend également en charge NVIDIA GPUDirect Storage, facilitant les chemins de données directs entre le stockage et les GPU, ainsi que les DPU BlueField-3 pour décharger les tâches de réseau et de traitement des données.

Les SSD NVMe Samsung PM9D3a PCIe Gen5 offrent un stockage à haut débit et haute densité. Basés sur la technologie V-NAND TLC de huitième génération, ces disques offrent jusqu'à 30,72 To par appareil, avec des vitesses de lecture séquentielles allant jusqu'à 12 Go/s et des vitesses d'écriture allant jusqu'à 6,8 Go/s. L'utilisation de SSD d'entreprise disponibles dans le commerce permet à l'architecture de s'adapter à l'aide de composants standard.

Indexation hiérarchique et accélération GPU

Pour gérer l'indexation à grande échelle, IBM a développé un modèle d'indexation hiérarchique composé de plusieurs sous-index qui peuvent être optimisés indépendamment. Cette structure permet des mises à jour incrémentielles et une réindexation localisée sans perturber l'ensemble des données, améliorant ainsi la disponibilité et l'efficacité opérationnelle.

L'accélération GPU réduit considérablement le temps d'indexation par rapport aux approches basées uniquement sur le CPU. Les tâches qui prendraient des heures sur des CPU peuvent être effectuées en quelques minutes à l'aide de GPU NVIDIA. Lors des tests, la construction d'index pour 100 milliards de vecteurs a pris 4 jours avec 6 GPU NVIDIA H200, contre une estimation de 120 jours sur un système CPU double socket.

L'ensemble des données, y compris les vecteurs et les index, a consommé environ 153 TiB de stockage. Le chargement et le partitionnement initiaux des données ont pris neuf jours. Le système résultant a fourni une latence de requête moyenne de 694 ms avec un rappel de 90 %, validé par rapport à des calculs de vérité terrain par force brute.

Feuille de route

IBM et NVIDIA continuent d'optimiser la plateforme, en se concentrant sur la réduction de la latence d'indexation et de requête. Les objectifs actuels incluent l'indexation de 100 milliards de vecteurs ou plus en une seule journée, la réduction du temps d'ingestion des données de neuf jours à un jour, et la diminution de la latence de requête dans la plage de 50 à 100 millisecondes tout en maintenant un rappel de 90 %.

L'intégration de l'indexation vectorielle dans les systèmes de fichiers standard vise à simplifier le déploiement et à abaisser les barrières à l'adoption de l'IA en entreprise. En intégrant les capacités RAG directement dans le stockage, IBM positionne le CAS comme une couche fondamentale pour l'infrastructure dotée d'IA.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Directeur de la stratégie mondiale
WhatsApp / WeChat : +86 13426366826
E-mail : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Domaine d'activité :
Distribution de produits TIC / Intégration de systèmes et services / Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous collaborons avec les principales marques mondiales pour fournir des produits fiables et des services professionnels.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !

PREV: Dell PowerMaxOS 10.4 comprend des gains de performance, une résilience cybernétique étendue et une intégration d'applications modernes

NEXT: NetApp étend son intégration Google Cloud pour rationaliser les données d'entreprise pour l'IA

Coordonnées

Beijing Qianxing Jietong Technology Co., Ltd.

Personne à contacter: Ms. Sandy Yang

Téléphone: 13426366826

IBM présente le stockage sensible au contenu pour les charges de travail RAG

Serveur de stockage en rayons

Serveur de fusion de Huawei

Dell Poweredge Server

Serveur de H3C

Commutateurs de la télématique

Dispositif de WLAN

Routeur sans fil intelligent

Unité de disque dur HDD

Disque transistorisé de disque dur interne

Carte graphique de Geforce

Processeur d'unité centrale de traitement d'INTEL

Mémoire RAM de serveur

Serveur refourbi de stockage

Module d'émetteur-récepteur de SFP

Commutateur de la Manche de fibre

IBM présente le stockage sensible au contenu pour les charges de travail RAG

Base de données vectorielle à grande échelle

Intégration du pipeline RAG

Relever les défis d'échelle et de coût

Architecture de stockage et de matériel

Indexation hiérarchique et accélération GPU

Feuille de route

Serveur de stockage en rayons

12 serveur Rackmount de support de Lenovo ThinkSystem SR630 de serveur des baies 1U

Serveur de stockage en rack ThinkSystem SR250 V2 4SFF Processeur Intel Xeon E-2378G

Serveur de bâti de support d'Inspur NF5180M6 1U de serveur de stockage en rayons d'Intel C621A

Serveur de fusion de Huawei

Serveur 32 DDR4 DIMMs de support de FusionServer 5288 V6 4U 44 disques durs de 3,5 pouces

Serveur ultra à haute densité 1288H V5 de stockage de réseau du serveur 1U de fusion de Huawei

Stockage flash hybride pour serveur rack Huawei nouvelle génération OceanStor 5310