Dell et Nvidia veulent repousser les limites des LLM

Dell et NVIDIA pilotent la nouvelle évolution de l’inférence IA en faisant progresser le KV Cache grâce à des innovations telles que la Context Memory Storage Platform (CMS) et l’unité de traitement de données NVIDIA BlueField-4 (DPU). Cette collaboration permet un traitement plus rapide et plus efficace des grands modèles de langage (LLM), aidant les organisations à optimiser les performances, à réduire la latence et à améliorer l’efficacité des coûts. Les solutions de stockage haute performance de Dell — notamment Dell PowerScale, Dell ObjectScale et Project Lightning — sont conçues pour soutenir ces avancées et offrir la base flexible nécessaire aux charges de travail IA actuelles et futures. Ensemble, Dell et NVIDIA construisent l’infrastructure qui alimentera la prochaine génération d’innovations en IA.

La solution consiste à déporter (ou « offloader ») le KV Cache vers des ressources plus abondantes, libérant ainsi les GPU pour les tâches de calcul. NVIDIA BlueField-4 et Dell Technologies apportent dans ce contexte les performances et la scalabilité nécessaires pour relever ces défis et garantir une inférence IA efficace à grande échelle.

Les principaux avantages du NVIDIA BlueField-4 pour le KV Cache

  • Optimisation de l’utilisation et du débit des GPU : le processeur de données est conçu pour optimiser les chemins de données, réduire les interruptions et les recalculs, et améliorer le débit et l’utilisation lors des inférences à raisonnement long.
  • Accélération de l’inférence agentique : pour le raisonnement actif et les conversations en temps réel, chaque milliseconde compte. La faible latence du processeur de données améliore significativement la réactivité et réduit le temps nécessaire pour récupérer le contexte mis en cache.
  • Amélioration de l’efficacité énergétique : en optimisant les déplacements de données, la solution améliore les performances par watt, ce qui en fait un choix durable pour le déploiement d’usines IA à grande échelle.

Dell prend en charge cette capacité d’offloading sur l’ensemble du portefeuille, offrant la liberté de choisir le stockage le mieux adapté aux besoins spécifiques des organisations :

  • Dell PowerScale : idéal pour ceux qui recherchent la simplicité du NAS avec un accès parallèle haute performance. Grâce au NFS-over-RDMA, PowerScale offre un accès à faible latence à de très grands volumes de données mises en cache.
  • Dell ObjectScale : pour les entreprises développant des applications cloud-native, ObjectScale fournit un stockage objet haute performance. Avec une technologie unique S3-over-RDMA, les organisations bénéficient de la scalabilité du stockage objet avec des performances généralement réservées aux systèmes de fichiers.
  • Project Lightning : pour les charges de travail les plus exigeantes, notre système de fichiers parallèles révolutionnaire, conçu pour l’ère de l’IA, exploite le NVMe-over-Fabrics afin de transférer les données directement des disques vers la mémoire GPU, en minimisant la latence et en maximisant le débit.

Lire plus