Une nouvelle entreprise, Deep Cogito, a émergé de l’anonymat avec une famille de modèles d’IA ouverts qui peuvent basculer entre les modes de “raisonnement” et de non-raisonnement. Des modèles de raisonnement tels que o1 d’OpenAI ont montré un grand potentiel dans des domaines tels que les mathématiques et la physique, grâce à leur capacité à vérifier efficacement les faits eux-mêmes en résolvant des problèmes complexes étape par étape. Ce raisonnement a cependant un coût : une informatique plus élevée et une latence. C’est pourquoi des laboratoires tels qu’Anthropic poursuivent des architectures de modèles “hybrides” qui combinent des composants de raisonnement avec des éléments standard, non-raisonnants. Les modèles hybrides peuvent répondre rapidement aux questions simples tout en passant plus de temps à considérer les requêtes plus difficiles. Tous les modèles de Deep Cogito, appelés Cogito 1, sont des modèles hybrides.
Deep Cogito affirme que ses modèles surpassent les meilleurs modèles ouverts de même taille, y compris les modèles de Meta et de la startup d’IA chinoise DeepSeek. “Chaque modèle peut répondre directement […] ou s’auto-réfléchir avant de répondre (comme les modèles de raisonnement)”, a expliqué l’entreprise dans un article de blog. “Ils ont été développés par une petite équipe en environ 75 jours”. Les modèles Cogito 1 varient de 3 milliards de paramètres à 70 milliards de paramètres, et Cogito dit que des modèles allant jusqu’à 671 milliards de paramètres les rejoindront dans les semaines et les mois à venir. Les paramètres correspondent approximativement aux compétences de résolution de problèmes d’un modèle, avec généralement plus de paramètres étant préférables.
“Deep Cogito, dont les soutiens incluent South Park Commons, vise de manière ambitieuse à construire une ‘superintelligence générale’.”
Cogito 1 n’a pas été développé à partir de zéro, pour être clair. Deep Cogito a été construit sur la base des modèles ouverts Llama de Meta et Qwen d’Alibaba pour créer le sien. La société déclare qu’elle a appliqué des approches d’entraînement novatrices pour améliorer les performances des modèles de base et permettre un raisonnement commutable. Selon les résultats des tests internes de Cogito, le plus grand modèle Cogito 1, Cogito 70B, avec raisonnement surpasse le modèle de raisonnement R1 de DeepSeek dans quelques évaluations mathématiques et linguistiques. Cogito 70B avec raisonnement désactivé surpasse également le modèle Llama 4 Scout récemment sorti par Meta sur LiveBench, un test d’IA polyvalent. Chaque modèle Cogito 1 est disponible pour téléchargement ou utilisation via des API sur les fournisseurs de cloud Fireworks AI et Together AI.
“Actuellement, nous n’en sommes qu’au début de notre courbe d’évolution, n’ayant utilisé qu’une fraction de l’informatique généralement réservée à la formation continue des grands modèles de langage”, a écrit Cogito dans son article de blog. “À l’avenir, nous enquêtons sur les approches de formation spécialisées complémentaires pour l’auto-amélioration”. Selon les dossiers déposés à l’État de Californie, Deep Cogito, basée à San Francisco, a été fondée en juin 2024.
La page LinkedIn de la société indique deux co-fondateurs, Drishan Arora et Dhruv Malhotra. Dhruv Malhotra était auparavant chef de produit au laboratoire d’IA de Google, DeepMind, où il a travaillé sur la technologie de recherche générative. Arora était ingénieur logiciel senior chez Google. Deep Cogito, dont les soutiens comprennent South Park Commons selon PitchBook, vise de manière ambitieuse à construire une “superintelligence générale”. Les fondateurs de l’entreprise comprennent cette phrase pour signifier une IA qui peut effectuer des tâches mieux que la plupart des humains et “découvrir des capacités entièrement nouvelles que nous n’avons pas encore imaginées”.