Lorsque l’on évoque le coût de l’infrastructure dédiée à l’intelligence artificielle, l’attention se porte majoritairement sur Nvidia et ses GPU, essentiels pour le traitement des données massives. Cependant, la mémoire joue désormais un rôle croissant dans cette équation. À l’heure où les hyperscalers planifient la construction de centres de données valant des milliards de dollars, le prix des puces DRAM a été multiplié par sept en l’espace d’un an, révélant une nouvelle dynamique dans la gestion des coûts liés à l’IA.
Simultanément, une discipline émergente consiste à orchestrer cette mémoire de façon sophistiquée afin que les données pertinentes soient accessibles au moment opportun pour chaque agent ou processus d’IA. Les entreprises qui maîtrisent cette orchestration pourront réaliser leurs requêtes avec moins de tokens, un facteur clé pour réduire les coûts et maintenir leur compétitivité sur un marché en pleine évolution. Selon le spécialiste des semi-conducteurs Doug O’Laughlin, cette gestion stratégique de la mémoire pourrait faire la différence entre la survie et la faillite dans l’industrie de l’IA.
« La maîtrise de la gestion de la mémoire dans les modèles d’IA sera un critère déterminant pour leur succès futur. »
Val Bercovici, directeur de l’IA chez Weka, explique que cette complexité grandissante se manifeste notamment dans la documentation liée au cache de prompts chez Anthropic. Ce qui débutait comme une simple recommandation — « utilisez le cache, c’est moins cher » — s’est transformé en une véritable encyclopédie de stratégies pour préacheter des opérations de cache en fonction des seuils de temps (cinq minutes, une heure). La gestion des caches devient ainsi une opération hautement stratégique, avec des opportunités d’arbitrage autour des prix selon les quantités de cache pré-achetées, ou encore en fonction de la durée de conservation des prompts dans la mémoire.
Ce raffinement dans la gestion de la mémoire s’applique à tous les niveaux de l’infrastructure, de la sélection du type de mémoire (DRAM versus HBM) à la structuration des modèles pour optimiser l’utilisation du cache partagé. À mesure que ces techniques s’améliorent, l’utilisation de tokens se réduit, permettant de rendre l’inférence plus abordable. Par ailleurs, les modèles eux-mêmes deviennent plus efficaces dans le traitement de chaque token, ce qui contribue à réduire davantage les coûts. En conséquence, des applications auparavant jugées non rentables pourraient commencer à trouver leur chemin sur le marché, à mesure que les coûts d’infrastructure et de traitement diminuent.
