La recherche de puissance de calcul pour l’IA a-t-elle révélé le prochain Cerebras ?

Face à l’explosion de la demande pour des ordinateurs capables d’exécuter des modèles d’intelligence artificielle, deux obstacles majeurs subsistent : l’acquisition des composants électroniques adaptés et leur déploiement dans des centres de données capables de générer des revenus. La société General Compute, nouvelle venue dans le domaine des “inference neoclouds”, s’est spécialisée dans la location de puissance de traitement pour l’IA lors de la phase d’inférence, c’est-à-dire lorsque les modèles répondent aux utilisateurs plutôt qu’ils ne sont entraînés. Elle a récemment levé 15 millions de dollars lors d’une première phase de financement, valorisée à 60 millions de dollars, grâce à un financement mené par FUSE VC, avec la participation de Carya Venture Partners et Village Global Ventures.

Une des questions cruciales concerne le choix des puces électroniques. Si la demande pour les GPU (unités de traitement graphique) est en forte augmentation, il devient évident qu’ils ne sont pas forcément la meilleure solution pour la phase d’inférence après l’entraînement. En effet, cette étape nécessite des architectures différentes, plus adaptées à l’exécution rapide des réponses du modèle. Des entreprises telles que Nvidia, avec ses investissements de 20 milliards de dollars dans Groq, ou Cerebras, qui a récemment réalisé une IPO valorisée à 57 milliards de dollars, illustrent cette tendance. Cependant, avec une capacité de production sollicitée, General Compute a opté pour une solution alternative : des puces spécialisées de SambaNova, un fabricant soutenu par Intel et moins visible dans la Silicon Valley.

Les nouvelles puces de SambaNova, plus flexibles et dotées d’une mémoire accrue, surpassent les GPUs et autres puces spécialisées, permettant une inference plus rapide et plus efficace.

Selon Finn Puklowski, PDG de General Compute, ces puces devraient atteindre un débit de 600 à 700 tokens par seconde, contre seulement 250 pour les GPU. L’entreprise a déjà commandé pour 300 millions de dollars de chips SN50 de SambaNova et prévoit de déployer ces appareils en tant que première plateforme “neocloud”. Leur faible consommation d’énergie et leur refroidissement par air facilitent leur installation dans des centres de données existants, sans investissements supplémentaires dans l’infrastructure. La société est également en négociation de colocation avec diverses entités, y compris des mineurs de cryptomonnaies cherchant à réutiliser leur infrastructure, ce qui leur permettrait d’élargir rapidement leur capacité de déploiement.

Le lancement récent de leur offre cloud a permis à General Compute de revendiquer la rapidité d’exécution, notamment avec le modèle open source MiniMax 2.7, reconnu pour ses performances. Leur ambition est claire : réduire drastiquement le temps nécessaire pour des tâches complexes, comme l’assistance par agents conversationnels, en passant d’heures à quelques minutes. Selon Puklowski, la vitesse de traitement est devenue un enjeu capital pour permettre aux agents IA de fonctionner en temps réel, notamment dans des applications de service client ou de lecture massive de bases de données.

En résumé, la compétition dans le domaine des architectures informatiques pour l’IA semble en train de déboucher sur une diversification des solutions, où l’accent est mis autant sur la rapidité que sur la réduction des coûts. La réussite de ces nouvelles puces et la capacité à déployer efficacement les infrastructures seront déterminantes pour saisir les opportunités de ce marché en pleine expansion.

Partagez cet article
article précédent

Dans une bonne nouvelle pour Amazon, Snowflake signe un contrat de 6 milliards de dollars avec AWS pour ses processeurs CPU AI

article suivant

YouTube ajoute de nouvelles fonctionnalités pour les podcasts, dont un outil de recommandation IA et la fonction ‘Auto speed’

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles