Peu après l’annonce par le PDG d’Amazon, Andy Jassy, d’un accord d’investissement révolutionnaire de 50 milliards de dollars avec OpenAI, Amazon m’a invité lors d’une visite privée de son laboratoire de développement de puces, à ses propres frais dans une large mesure. Les experts de l’industrie examinent de près la puce Trainium d’Amazon, conçue dans ce laboratoire, pour ses implications dans la réduction des coûts liés à l’inférence IA et, potentiellement, pour une petite révolution face à la domination quasi-monopolistique de Nvidia. Curieux, j’ai accepté cette invitation.
Les guides lors de cette visite étaient Krisopher King, directeur du laboratoire, et Mark Carroll, directeur de l’ingénierie, ainsi que Doron Aronson, chargé des relations publiques. AWS exploite depuis longtemps une relation majeure avec Anthropic, fournissant sa plateforme cloud, une collaboration qui a survécu à l’ajout récent de Microsoft comme partenaire cloud d’Anthropic. Avec l’accord avec OpenAI, AWS devient le fournisseur exclusif du constructeur du modèle IA, Frontier, une plateforme qui pourrait devenir centrale pour OpenAI si ses agents IA atteignent la popularité escomptée. Cependant, des incertitudes subsistent quant à la pérennité de cette exclusivité, certains médias évoquant un possible conflit d’intérêts avec Microsoft.
Ce que AWS construit, c’est une alternative puissante et à moindre coût, en espérant réduire la domination de Nvidia à l’échelle mondiale.
Le point central de cet accord est la fourniture par AWS de 2 gigawatts de capacité de calcul Trainium à OpenAI. Ce montant représente un engagement colossal, car Anthropic et le service Bedrock d’Amazon consomment déjà ces puces à un rythme supérieur à leur capacité de production. Actuellement, 1,4 million de puces Trainium ont été déployées, avec plus d’un million de la version Trainium2 utilisées par Anthropic pour faire fonctionner leur IA Claude. Alors que la première version de Trainium ciblait principalement une formation plus rapide et économique des modèles, son usage s’est aujourd’hui étendu à l’inférence — un processus essentiel où les modèles IA génèrent des réponses. La majorité du trafic d’inférence sur le service Bedrock, proposé aux entreprises, repose désormais sur Trainium2.
Notre guide, King, a souligné que “Bedrock pourrait un jour rivaliser avec EC2”, en référence au service cloud de grande capacité d’Amazon. La nouvelle gamme de puces, Trainium3, lancée en décembre dernier, offre des performances accrues tout en réduisant considérablement les coûts, jusqu’à 50 % par rapport à des serveurs cloud classiques. La combinaison de ces puces avec de nouveaux commutateurs Neuron, permettant à chaque puce de communiquer avec toutes les autres dans une configuration en réseau, a permis d’atteindre des records en termes de rapport performance/prix. Ces progrès sont particulièrement cruciaux à l’échelle du traitement de milliards de tokens par jour.
