‘Le Molmo d’Ai2 démontre que l’open source peut égaler, et surpasser, les modèles multimodaux fermés | TechCrunch’

Generated with DALL·E 3

Le consensus général est que seules des entreprises comme Google, OpenAI et Anthropic, avec leurs réserves d’argent illimitées et des centaines de chercheurs de haut niveau, peuvent créer des modèles de base à la pointe de la technologie. Mais comme l’un d’entre eux l’a notoirement observé, ils “n’ont pas de rempart” — et Ai2 l’a prouvé aujourd’hui avec la sortie de Molmo, un modèle d’IA multimodal qui rivalise avec leurs meilleurs tout en étant petit, gratuit et réellement open source. Pour être clair, Molmo (modèle de langage ouvert multimodal) est un moteur de compréhension visuelle, pas un chatbot complet comme ChatGPT. Il n’a pas d’API, il n’est pas prêt pour une intégration entreprise et il ne recherche pas le web pour vous ou pour ses propres besoins. Vous pouvez le considérer comme la partie de ces modèles qui voit une image, la comprend et peut la décrire ou répondre à des questions à son sujet.

Le Molmo (décliné en variantes de 72B, 7B et 1B-paramètres), comme d’autres modèles multimodaux, est capable d’identifier et de répondre à des questions sur presque n’importe quelle situation ou objet courant. Comment utilise-t-on cette cafetière ? Combien de chiens sur cette photo tirent la langue ? Quelles sont les options végétaliennes sur ce menu ? Quels sont les variables dans ce diagramme ? C’est le genre de tâche de compréhension visuelle que nous avons vu démontrer avec divers degrés de succès et de latence depuis des années. Ce qui est différent n’est pas nécessairement les capacités de Molmo (que vous pouvez voir dans la démo ci-dessous, ou tester ici), mais la manière dont il les atteint. La compréhension visuelle est un domaine très large, bien sûr, qui englobe des choses comme le comptage des moutons dans un champ, le devinage de l’état émotionnel d’une personne, le résumé d’un menu. Ainsi, il est difficile de le décrire, encore moins de le tester quantitativement, mais comme l’expliquait le PDG d’Ai2, Ali Farhadi, lors d’un événement de démonstration au siège de l’organisation de recherche à Seattle, vous pouvez au moins montrer que deux modèles sont similaires en termes de capacités.

“Une chose que nous montrons aujourd’hui est que l’ouvert est égal au fermé”, a-t-il déclaré, “Et que le petit est maintenant égal au grand.”

(Il a précisé qu’il entendait ==, c’est-à-dire l’équivalence, et non l’identité ; une distinction subtile que certains apprécieront.) Une constante presque constante dans le développement de l’IA a été “plus c’est grand, mieux c’est”. Plus de données d’entraînement, plus de paramètres dans le modèle résultant, et plus de puissance de calcul pour les créer et les faire fonctionner. Mais à un certain point, vous ne pouvez littéralement plus les agrandir : il n’y a pas assez de données pour le faire, ou les coûts et les temps de calcul deviennent si élevés que cela devient contre-productif. Vous devez simplement faire avec les moyens du bord, ou encore mieux, faire plus avec moins. Farhadi a expliqué que Molmo, bien qu’il performe au même niveau que des modèles comme le GPT-4o, le Gemini 1.5 Pro et le Claude-3.5 Sonnet, ne pèse qu’environ un dixième de leur taille. Et il atteint leur niveau de capacité avec un modèle qui est un dixième de celui-ci.

“Il existe une douzaine de benchmarks différents sur lesquels les gens évaluent. Je n’aime pas ce jeu, scientifiquement… mais je devais montrer aux gens un chiffre”, a-t-il expliqué. “Notre plus gros modèle est un petit modèle, 72B, il surpasse les GPTs et les Claudes et les Gémeaux sur ces benchmarks. Encore une fois, prenez cela avec des pincettes ; est-ce que cela signifie que c’est vraiment meilleur qu’eux ou pas ? Je ne sais pas. Mais au moins pour nous, cela signifie que nous jouons le même jeu.” Si vous voulez essayer de le tromper, n’hésitez pas à consulter la démo publique, qui fonctionne aussi sur mobile. (Si vous ne voulez pas vous connecter, vous pouvez rafraîchir ou remonter et “éditer” l’invite d’origine pour remplacer l’image.)

Le secret réside dans l’utilisation de moins de données, mais de meilleure qualité. Au lieu de s’entraîner sur une bibliothèque de milliards d’images qu’il est impossible de contrôler toutes en termes de qualité, de décrire ou de dédupliquer, Ai2 a organisé et annoté un ensemble de seulement 600 000 images. Bien sûr, c’est encore beaucoup, mais comparé à six milliards, c’est une goutte d’eau – une fraction de pourcentage. Si cela laisse de côté un peu de choses de la longue traîne, leur processus de sélection et leur méthode d’annotation intéressante leur donne des descriptions de très haute qualité. Comment est-ce intéressant ? Eh bien, ils montrent aux gens une image et leur disent de la décrire – à voix haute. Il s’avère que les gens parlent des choses différemment de la façon dont ils écrivent à leur sujet, et cela produit des résultats non seulement précis, mais aussi conversationnels et utiles. Les descriptions d’images résultantes que produit Molmo sont riches et pratiques. Cela est mieux démontré par sa nouvelle capacité, unique pendant au moins quelques jours, à “pointer” les parties pertinentes des images. Lorsqu’on lui a demandé de compter les chiens sur une photo (33), il a mis un point sur chaque visage. Lorsqu’on lui a demandé de compter les langues, il a mis un point sur chaque langue. Cette spécificité lui permet de faire toutes sortes de nouvelles actions zéro-shot. Et, ce qui est important, il fonctionne également sur les interfaces web : sans regarder le code du site, le modèle comprend comment naviguer sur une page, soumettre un formulaire, etc. (Rabbit a récemment montré quelque chose de similaire pour son r1, qui doit sortir la semaine prochaine.)

Alors, pourquoi tout cela est-il important ? Des modèles sont lancés pratiquement tous les jours. Google vient d’en annoncer certains. OpenAI a une journée de démonstration qui approche. Perplexity taquine constamment quelque chose ou autre chose. Meta fait la promotion de la version whatever de Llama. Eh bien, Molmo est complètement gratuit et open source, ainsi qu’assez petit pour pouvoir être exécuté localement. Pas d’API, pas d’abonnement, pas besoin de cluster de GPU refroidi à l’eau. L’intention de la création et du lancement du modèle est de permettre aux développeurs et aux créateurs de créer des applications, des services et des expériences alimentées par l’IA sans avoir besoin de demander l’autorisation (et de payer) à l’une des plus grandes entreprises technologiques du monde. “Nous visons les chercheurs, les développeurs, les développeurs d’applications, les personnes qui ne savent pas comment gérer ces [grands] modèles. Un principe clé pour viser un public aussi large est le principe clé que nous avons mis de l’avant depuis un certain temps, qui est : rendre les choses plus accessibles”, a déclaré Farhadi. “Nous publions absolument tout ce que nous avons fait. Cela comprend les données, le nettoyage, les annotations, l’entraînement, le code, les points de contrôle, l’évaluation. Nous publions tout ce que nous avons développé à ce sujet.” Il a ajouté qu’il s’attend à ce que les gens commencent à construire avec cet ensemble de données et ce code immédiatement — y compris ses rivaux bien nantis, qui aspirent toutes les données “publiquement disponibles”, c’est-à-dire tout ce qui n’est pas cloué. (“Qu’ils le mentionn

Partagez cet article
article précédent

La Défenseure de droits dresse un bilan en demi-teinte de la protection des lanceurs d’alerte

article suivant

Les Acteurs de la compétence proposent de ramener l’aide à l’embauche d’un apprenti à 4 500 euros – Centre Inffo

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles