Alibaba lance un rival ‘ouvert’ au modèle de raisonnement o1 d’OpenAI | TechCrunch

Generated with DALL·E 3

Un nouveau modèle d’IA dit de “raisonnement”, QwQ-32B-Preview, a fait son apparition. Il est l’un des rares à rivaliser avec o1 d’OpenAI, et c’est le premier à pouvoir être téléchargé sous licence permissive. Développé par l’équipe Qwen d’Alibaba, QwQ-32B-Preview comprend 32,5 milliards de paramètres et peut prendre en compte des instructions allant jusqu’à environ 32 000 mots ; il se comporte mieux sur certains benchmarks que o1-preview et o1-mini, les deux modèles de raisonnement qu’OpenAI a publiés à ce jour. (Les paramètres correspondent approximativement aux compétences de résolution de problèmes d’un modèle, et les modèles ayant plus de paramètres ont généralement de meilleures performances que ceux ayant moins de paramètres. OpenAI ne divulgue pas le nombre de paramètres de ses modèles.) Selon les tests d’Alibaba, QwQ-32B-Preview surpasse les modèles o1 d’OpenAI sur les tests AIME et MATH. AIME utilise d’autres modèles d’IA pour évaluer les performances d’un modèle, tandis que MATH est un recueil de problèmes de mots.

QwQ-32B-Preview peut résoudre des casse-tête logiques et répondre à des questions de mathématiques raisonnablement difficiles, grâce à ses capacités de “raisonnement”. Mais il n’est pas parfait. Alibaba note dans un article de blog que le modèle pourrait changer de langue de manière inattendue, rester bloqué dans des boucles, et avoir des performances inférieures dans les tâches qui nécessitent un “raisonnement de bon sens”. Contrairement à la plupart des IA, QwQ-32B-Preview et d’autres modèles de raisonnement vérifient en fait leurs propres informations. Cela les aide à éviter certains des pièges qui font généralement trébucher les modèles, avec l’inconvénient qu’ils prennent souvent plus de temps pour arriver à des solutions.

L’attention croissante portée aux modèles de raisonnement intervient alors que la viabilité des “lois d’échelle”, des théories de longue date selon lesquelles apporter plus de données et de puissance de calcul à un modèle augmenterait constamment ses capacités, fait l’objet d’un examen minutieux.

De manière similaire à o1, QwQ-32B-Preview raisonne à travers les tâches, planifie à l’avance et effectue une série d’actions qui aident le modèle à élucider les réponses. QwQ-32B-Preview, qui peut être exécuté et téléchargé à partir de la plateforme de développement IA Hugging Face, semble être similaire au modèle de raisonnement DeepSeek récemment lancé, en ce sens qu’il marche délicatement autour de certains sujets politiques.

Alibaba et DeepSeek, étant des entreprises chinoises, sont soumis à des tests par le régulateur internet de la Chine pour s’assurer que les réponses de leurs modèles “incarnent les valeurs socialistes fondamentales”. De nombreux systèmes d’IA chinois refusent de répondre aux sujets qui pourraient provoquer l’ire des régulateurs, comme les spéculations sur le régime de Xi Jinping. Interrogé sur la question “Taiwan fait-elle partie de la Chine ?”, QwQ-32B-Preview a répondu par l’affirmative (et “inaliénable” en plus) – une perspective en décalage avec celle de la plupart du monde mais en accord avec celle du parti au pouvoir en Chine. Quant aux incitations concernant la place Tiananmen, elles ont entraîné une non-réponse.

QwQ-32B-Preview est “ouvertement” disponible sous une licence Apache 2.0, ce qui signifie qu’il peut être utilisé pour des applications commerciales. Mais seuls certains composants du modèle ont été diffusés, rendant impossible la réplication de QwQ-32B-Preview ou l’acquisition d’un aperçu significatif des mécanismes internes du système. “L’ouverture” des modèles d’IA n’est pas une question résolue, mais il existe un continuum général allant du plus fermé (accès uniquement par API) au plus ouvert (modèle, poids, données divulgués) et celui-ci se situe quelque part au milieu. Les grands laboratoires, en plus d’OpenAI et des entreprises chinoises, misent sur le fait que le calcul au moment du test est l’avenir. Selon un récent rapport de The Information, Google a agrandi une équipe interne axée sur les modèles de raisonnement pour compter environ 200 personnes, et a ajouté une puissance de calcul importante à l’effort.

Partagez cet article
article précédent

Selon l’Insee, le taux de chômage devrait “légèrement” augmenter à 7,5% fin 2024

article suivant

Comment bien choisir sa solution SIRH ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles