Comme nous l’avons déjà signalé, les CIO d’entreprise adoptent lentement l’IA générative. L’une des raisons est que l’IA ne s’intègre pas dans les flux de travail existants en génie logiciel, car elle ne parle tout simplement pas le même langage. Par exemple, les LLM (ou grands modèles de langage) nécessitent beaucoup de persuasion pour produire du JSON valide. C’est là qu’intervient une startup basée aux Etats-Unis appelée Dottxt, avec la promesse de “faire parler l’IA aux ordinateurs”. L’entreprise est dirigée par l’équipe à l’origine du projet open-source Outlines, qui aide les développeurs à obtenir ce dont ils ont besoin de ChatGPT et d’autres modèles d’IA générative sans avoir à recourir à des tactiques grossières comme l’injection de chantage émotionnel dans les invites (‘écris le code ou le chaton y passe !’).
Des bibliothèques logicielles telles que Outlines, une bibliothèque Python, ou le Guidance de Microsoft, ou encore LMQL (ou Language Model Query Language) permettent de guider les LLM d’une manière plus sophistiquée que la simple piraterie d’invite – en utilisant une approche connue sous le nom de génération structurée (ou parfois génération contrainte). Comme son nom l’indique, cette technique se concentre sur la sortie des LLM, plus que sur l’entrée. Autrement dit, il s’agit de dire aux modèles d’IA comment répondre, explique le PDG de Dottxt, Rémi Louf. Cette approche “permet de revenir à un flux de travail d’ingénierie traditionnel”, a-t-il déclaré à TechCrunch. “Vous affinez la grammaire jusqu’à ce que vous l’ayez bien.”
“Tout le monde utilisera la génération structurée dans quelques années, il n’y a aucun doute là-dessus”, prédit Louf.
Dottxt vise à construire une solution de génération structurée puissante en étant agnostique de modèle et en offrant plus de fonctionnalités – et, dit-elle, de meilleures performances – que le projet open source (Outlines) dont elle est issue. Louf, un Français titulaire d’un doctorat et de plusieurs diplômes, a une formation en statistiques bayésiennes – tout comme plusieurs autres membres de l’équipe Dottxt. Cette base en théorie des probabilités a probablement ouvert leurs yeux sur le potentiel de la génération structurée. La familiarité avec l’informatique au-delà de l’IA a également joué un rôle dans leur décision de créer une entreprise axée sur l’aide aux autres pour exploiter utilement l’IA générative.
La référence de Louf à la grammaire n’est pas un hasard. Dottxt est basé sur la prémisse que la plupart des textes avec lesquels nous interagissons sont fortement structurés. Il y a le code, bien sûr, mais aussi de nombreux autres modèles que les LLM devraient être en mesure de suivre pour être réellement utiles dans les environnements de travail. Le fabricant de GPT, OpenAI, a récemment introduit une forme de génération structurée qu’il appelle Structured Outputs – et a fait un clin d’œil à Outlines comme partie de son “inspiration”. Louf, quant à lui, voit la popularité d’Outlines comme un signe qu’il y a une demande pour une autre approche flexible avec plus de cloches et de sifflets.
Et les investisseurs semblent être d’accord : Dottxt a levé 11,9 millions de dollars en quelques mois. La start-up a réalisé un tour de table de pré-amorçage de 3,2 millions de dollars mené par le fonds de capital-risque spécialisé en technologie profonde Elaia en 2023, suivi d’un tour de table de 8,7 millions de dollars mené par EQT Ventures en août. Entre-temps, Louf et ses co-fondateurs se sont concentrés sur la démonstration que leur approche n’affecte pas les performances. Pendant ce temps, la demande pour Outlines open source a explosé ; ils disent qu’il a été téléchargé plus de 2,5 millions de fois – ce qui les a encouragés à voir grand. Lever davantage de financement était logique pour une autre raison : les co-fondateurs de Dottxt savaient maintenant qu’ils voulaient utiliser l’argent pour embaucher plus de personnes afin de pouvoir répondre à la demande croissante d’outils de génération structurée.