Il était autrefois facile de distinguer les images générées par l’intelligence artificielle de celles créées par l’humain. Il y a seulement deux ans, utiliser un modèle d’image pour concevoir un menu de restaurant mexicain impliquait souvent d’inventer des plats fictifs tels que « enchuita », « churiros », « burrto » ou « margartas ». Aujourd’hui, avec l’arrivée du modèle ChatGPT Images 2.0, il est possible de générer des menus visuellement réalistes, qui pourraient même tromper certains clients sans qu’ils ne détectent la moindre différence.
Pour illustrer cette progression, une comparaison a été faite entre le résultat obtenu avec ChatGPT Images 2.0 et celui de DALL-E 3, il y a deux ans. À cette époque, ChatGPT ne généralisait pas encore la production d’images. Le rendu d’aujourd’hui est à la fois plus précis et plus fidèle, rendant difficile la distinction entre une image authentique et une création virtuelle de haute qualité. Toutefois, certains détails comme le prix du ceviche à 13,50 dollars peuvent laisser penser à une approximation dans la qualité de certains éléments, notamment la représentation du poisson.
Les avancées récentes dans la génération d’images montrent que la différenciation entre créations humaines et artificielles devient de plus en plus complexe, avec des modèles capables de produire des visuels sophistiqués intégrant de nombreux détails.
Les modèles d’images basés sur la diffusion, qui reconstruisent les images à partir du bruit, ont longtemps été la norme, mais ils étaient limités, notamment en difficulté pour écrire du texte précis sur les images, car ils ne traitaient qu’une infime part du contenu lors de leur apprentissage. Récemment, des chercheurs ont exploré d’autres mécanismes tels que les modèles autoregressifs, qui prédisent plus intelligemment la structure d’une image, se rapprochant ainsi des modèles de traitement du langage naturel (LLM). OpenAI, quant à lui, refuse pour l’instant de préciser quel type de modèle alimente ChatGPT Images 2.0, mais souligne ses nouvelles capacités impressionnantes.
Ce nouveau modèle possède notamment des fonctionnalités inédites, telles que la recherche sur le web, la capacité de générer plusieurs images à partir d’une seule requête, ou encore de vérifier la cohérence de ses créations. OpenAI indique que Images 2.0 peut produire des actifs marketing en plusieurs tailles ou des bandes dessinées multi-panneaux en quelques minutes, un délai impressionnant pour des images complexes. Il affiche également une meilleure compréhension du rendu de textes en langues non latines, comme le japonais, le coréen, l’hindi ou le bengali, tout en conservant une qualité maximale de 2K en résolution.
Ces avancées ne signifient pas forcément une réaction immédiate à la vitesse de saisie d’un simple prompt, mais elles permettent tout de même de générer des images sophistiquées rapidement. Dès ce mardi, tous les utilisateurs de ChatGPT et Codex pourront accéder à Images 2.0. La version payante offrira des options d’output plus avancées, avec une API dédiée disponible selon la qualité et la résolution souhaitées, ce qui ouvre de vastes perspectives pour le marketing, la création artistique ou la production de contenu.
En résumé, ces développements illustrent une montée en puissance de la capacité des IA à créer des images qui, de plus en plus, ressemblent à ce que produiraient des artistes ou des équipes de conception humaines. Une évolution qui soulève à la fois des questions éthiques et techniques, notamment sur la frontière entre création humaine et automatisée.
