IBM a dévoilé une architecture de stockage sensible au contenu (CAS) qui intègre le traitement des données d'IA directement dans la couche de stockage. Cette approche est conçue pour les flux de travail de génération augmentée par récupération (RAG), car elle intègre la vectorisation des documents dans le système de stockage lui-même, réduisant ainsi le besoin de pipelines de pré-traitement externes.
Le CAS transfère une fonction RAG clé, l'intégration de documents via des méthodes basées sur des grands modèles linguistiques (LLM), dans l'infrastructure de stockage. Cela permet aux entreprises de traiter et d'indexer les données à leur emplacement existant, en alignant les systèmes de stockage avec les charges de travail pilotées par l'IA et en minimisant les mouvements de données entre les différentes couches d'infrastructure. IBM positionne cela comme un moyen de simplifier le déploiement tout en améliorant les performances et la localité des données pour les applications d'IA.
Base de données vectorielle à grande échelle
Au cœur de l'implémentation CAS d'IBM se trouve une base de données vectorielle optimisée pour la recherche sémantique. Les bases de données vectorielles prennent en charge la recherche de voisins les plus proches approximatifs (ANN), permettant aux systèmes d'IA de récupérer des fragments de données pertinents en fonction de métriques de similarité telles que la similarité cosinus ou la distance L2. Cette capacité est fondamentale pour le RAG, où les requêtes des utilisateurs sont converties en vecteurs et mises en correspondance avec les données d'entreprise indexées pour fournir des réponses contextuelles.
Graphique CAS d'IBM Source : IBM
IBM Research, en collaboration avec Samsung et NVIDIA, a présenté un système prototype capable de gérer 100 milliards de vecteurs sur un seul serveur. Le système a atteint plus de 90 % de rappel et de précision, avec une latence de requête moyenne inférieure à 700 millisecondes. Cette échelle s'adresse aux environnements d'entreprise où les ensembles de données peuvent couvrir des milliards de fichiers et, une fois entièrement indexés, atteindre des centaines de milliards de vecteurs.
Intégration du pipeline RAG
Le RAG devient une approche privilégiée pour l'IA d'entreprise, car il améliore la précision des résultats sans nécessiter de réentraînement du modèle. Il fonctionne en complétant les invites avec des données spécifiques à l'entreprise récupérées d'une base de données vectorielle.
Le pipeline commence par l'ingestion des données, où les documents tels que les PDF et les présentations sont analysés, divisés en morceaux et convertis en intégrations. Ces intégrations sont stockées dans une base de données vectorielle qui organise les données pour une recherche de similarité efficace. Lors de la requête, l'entrée de l'utilisateur est intégrée et mise en correspondance avec les vecteurs stockés, le contenu pertinent étant transmis au modèle linguistique comme contexte. Ce mécanisme d'ancrage réduit les hallucinations et augmente la confiance dans les résultats générés par l'IA.
Le CAS d'IBM intègre l'intégralité de ce pipeline directement dans le stockage, consolidant l'ingestion, l'indexation et la récupération à proximité des données.
Relever les défis d'échelle et de coût
Les systèmes de stockage d'entreprise fonctionnent déjà à l'échelle du pétaoctet. Lorsqu'ils sont étendus au CAS, chaque fichier peut générer des centaines de vecteurs, augmentant rapidement la taille de l'ensemble de données. Les bases de données vectorielles traditionnelles s'étendent généralement sur plusieurs serveurs, introduisant des coûts supplémentaires et une complexité opérationnelle. L'indexation et la réindexation de grands ensembles de données deviennent également des tâches chronophages.
L'approche d'IBM se concentre sur l'amélioration de la densité vectorielle et la réduction de la surcharge d'indexation pour limiter la prolifération de l'infrastructure. L'architecture sépare le stockage des vecteurs et des index du calcul des requêtes, permettant une mise à l'échelle indépendante des ressources de stockage et de calcul. Ceci est rendu possible par IBM Storage Scale et son système de fichiers parallèle haute performance.
Architecture de stockage et de matériel
L'implémentation CAS utilise l'IBM Storage Scale System 6000 (ESS 6000), une plateforme tout flash conçue pour l'IA et les charges de travail haute performance. Le système prend en charge jusqu'à 48 disques NVMe par boîtier 4U, avec des capacités de disque individuelles allant de 7 To à 60 To. Il intègre une connectivité PCIe Gen5, InfiniBand 400 Gb ou Ethernet 200 Gb, offrant jusqu'à 340 Go/s en lecture et 175 Go/s en écriture par nœud, ainsi que jusqu'à 7 millions d'IOPS.
La plateforme prend également en charge NVIDIA GPUDirect Storage, facilitant les chemins de données directs entre le stockage et les GPU, ainsi que les DPU BlueField-3 pour décharger les tâches de réseau et de traitement des données.
Les SSD NVMe Samsung PM9D3a PCIe Gen5 offrent un stockage à haut débit et haute densité. Basés sur la technologie V-NAND TLC de huitième génération, ces disques offrent jusqu'à 30,72 To par appareil, avec des vitesses de lecture séquentielles allant jusqu'à 12 Go/s et des vitesses d'écriture allant jusqu'à 6,8 Go/s. L'utilisation de SSD d'entreprise disponibles dans le commerce permet à l'architecture de s'adapter à l'aide de composants standard.
Indexation hiérarchique et accélération GPU
Pour gérer l'indexation à grande échelle, IBM a développé un modèle d'indexation hiérarchique composé de plusieurs sous-index qui peuvent être optimisés indépendamment. Cette structure permet des mises à jour incrémentielles et une réindexation localisée sans perturber l'ensemble des données, améliorant ainsi la disponibilité et l'efficacité opérationnelle.
L'accélération GPU réduit considérablement le temps d'indexation par rapport aux approches basées uniquement sur le CPU. Les tâches qui prendraient des heures sur des CPU peuvent être effectuées en quelques minutes à l'aide de GPU NVIDIA. Lors des tests, la construction d'index pour 100 milliards de vecteurs a pris 4 jours avec 6 GPU NVIDIA H200, contre une estimation de 120 jours sur un système CPU double socket.
L'ensemble des données, y compris les vecteurs et les index, a consommé environ 153 TiB de stockage. Le chargement et le partitionnement initiaux des données ont pris neuf jours. Le système résultant a fourni une latence de requête moyenne de 694 ms avec un rappel de 90 %, validé par rapport à des calculs de vérité terrain par force brute.
Feuille de route
IBM et NVIDIA continuent d'optimiser la plateforme, en se concentrant sur la réduction de la latence d'indexation et de requête. Les objectifs actuels incluent l'indexation de 100 milliards de vecteurs ou plus en une seule journée, la réduction du temps d'ingestion des données de neuf jours à un jour, et la diminution de la latence de requête dans la plage de 50 à 100 millisecondes tout en maintenant un rappel de 90 %.
L'intégration de l'indexation vectorielle dans les systèmes de fichiers standard vise à simplifier le déploiement et à abaisser les barrières à l'adoption de l'IA en entreprise. En intégrant les capacités RAG directement dans le stockage, IBM positionne le CAS comme une couche fondamentale pour l'infrastructure dotée d'IA.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Directeur de la stratégie mondiale
WhatsApp / WeChat : +86 13426366826
E-mail : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Domaine d'activité :
Distribution de produits TIC / Intégration de systèmes et services / Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous collaborons avec les principales marques mondiales pour fournir des produits fiables et des services professionnels.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !
Sandy Yang/Directeur de la stratégie mondiale
WhatsApp / WeChat : +86 13426366826
E-mail : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Domaine d'activité :
Distribution de produits TIC / Intégration de systèmes et services / Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous collaborons avec les principales marques mondiales pour fournir des produits fiables et des services professionnels.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !



