Il y a du nouveau dans la famille des modèles IA, et il s’agit de l’une des quelques modèles qui peuvent être reproduits à partir de zéro. Le mardi, Ai2, l’organisation de recherche en IA à but non lucratif fondée par le défunt Paul Allen, a lancé OLMo 2, la deuxième famille de modèles de sa série OLMo. (OLMo est l’acronyme de “Open Language Model.”) S’il ne manque pas de modèles de langage “ouverts” parmi lesquels choisir (voir : le Llama de Meta), OLMo 2 répond à la définition de l’Open Source Initiative de l’IA open source, ce qui signifie que les outils et les données utilisés pour le développer sont disponibles publiquement.
L’Open Source Initiative, l’institution de longue date qui cherche à définir et à “gérer” tout ce qui est à code ouvert, a finalisé sa définition de l’IA à code ouvert en octobre. Mais les premiers modèles OLMo, sortis en février, ont également satisfait au critère. “OLMo 2 [a été] développé de bout en bout avec des données d’entraînement ouvertes et accessibles, du code d’entraînement open-source, des recettes d’entraînement reproductibles, des évaluations transparentes, des points de contrôle intermédiaires et plus encore,” a écrit Ai2 dans un blog. “En partageant ouvertement nos données, nos recettes et nos découvertes, nous espérons fournir à la communauté open-source les ressources nécessaires pour découvrir de nouvelles approches innovantes.
“Le modèle OLMo 2 représente les meilleurs modèles de langage entièrement ouverts à ce jour. Les avantages l’emportent finalement sur les inconvénients.”
Il existe deux modèles dans la famille OLMo 2 : l’un avec 7 milliards de paramètres (OLMo 7B) et l’autre avec 13 milliards de paramètres (OLMo 13B). Les paramètres correspondent approximativement aux compétences de résolution de problèmes d’un modèle, et les modèles avec plus de paramètres ont généralement de meilleures performances que ceux avec moins de paramètres. Comme la plupart des modèles de langage, les OLMo 2 7B et 13B peuvent accomplir une gamme de tâches basées sur le texte, comme répondre aux questions, résumer des documents et écrire du code.
Pour entraîner les modèles, Ai2 a utilisé un ensemble de données de 5 trillions de tokens. Les tokens représentent des morceaux de données brutes ; 1 million de tokens équivaut à environ 750,000 mots. L’ensemble d’entraînement incluait des sites web “filtrés pour une grande qualité”, des papiers académiques, des forums de discussion Q&A, et des cahiers de maths “à la fois synthétiques et générés par l’homme”. Ai2 prétend que le résultat se sont des modèles qui sont compétitifs, en termes de performance, avec des modèles ouverts comme la version 3.1 du Llama de Meta.
Les modèles OLMo 2 et tous leurs composants peuvent être téléchargés depuis le site web d’Ai2. Ils sont sous licence Apache 2.0, ce qui signifie qu’ils peuvent être utilisés commercialement. Il y a eu récemment un débat sur la sécurité des modèles ouverts, à cause du fait que les modèles Llama auraient été utilisés par des chercheurs chinois pour développer des outils de défense. Lorsque j’ai demandé en février à l’ingénieur d’Ai2 Dirk Groeneveld s’il était inquiet que OLMo soit utilisé à mauvais escient, il m’a dit qu’il pense que les avantages l’emportent finalement sur les inconvénients.