Chaque fois que vous sollicitez ChatGPT, votre demande déclenche une véritable course de relais de données. L’information quitte la mémoire, traverse un CPU pour un prétraitement, voyage vers un GPU pour des calculs intensifs, puis revient, et tout ce processus se répète pour chaque mot que l’IA génère. Cette architecture engendre un grand goulot d’étranglement, car elle implique un routage complexe à travers certaines des puces les plus coûteuses et énergivores du marché à chaque requête.
Pour répondre à ce défi, XCENA, une jeune entreprise fondée il y a quatre ans avec des bureaux en Corée du Sud et aux États-Unis, développe une solution innovante. La startup a conçu une puce qui rapproche davantage les capacités de calcul du Memory RAM, cette mémoire rapide et temporaire qui stocke les données en cours d’utilisation par le processeur. En plaçant le calcul plus près de la mémoire, XCENA vise à réduire significativement les coûts et la consommation énergétique liés à l’infrastructure de l’IA.
Si le système fonctionne à grande échelle, les implications pour les coûts liés à l’infrastructure IA pourraient être considérables, ce qui explique l’enthousiasme des investisseurs.
Le CEO de XCENA, Jin Kim, qui a cofondé la société en 2022 avec des vétérans de Samsung et SK Hynix, explique que “la mémoire n’a jamais évolué aussi vite que le CPU ou le GPU, alors que la demande en IA exige une architecture basée sur la mémoire”. La société a présenté son premier produit, la puce MX1, qui se connecte au CPU via le CXL, une liaison dédiée entre la processeur et la mémoire. Cette innovation permet de traiter les données dans la mémoire elle-même, évitant ainsi de lourdes allers-retours coûteux vers le processeur.
Le marché est particulièrement favorable à cette innovation, avec une demande accrue pour les solutions mémoire depuis la mi-2022 et une montée en puissance des acteurs du secteur, notamment Samsung, SK Hynix et Micron, qui ont tous dépassé la valorisation de un billion de dollars. La société estime que ses solutions peuvent transformer la façon dont les centres de données hyperscalers, dépensant des dizaines de milliards de dollars par an, gèrent leur infrastructure IA. La production en masse de la MX1 est prévue pour 2026, avec une première génération prête à générer des revenus dès 2027.
