Midjourney, l’un des premiers générateurs d’images basés sur l’IA sur le web, a sorti son premier nouveau modèle d’image AI en près d’un an. Surnommé V7, le modèle a commencé à être déployé en alpha vers minuit EST jeudi, une semaine après que OpenAI a présenté un nouveau générateur d’images dans ChatGPT qui a rapidement fait le buzz pour sa capacité à créer des photos de style Ghibli. Le modèle de Midjourney n’est pas un modèle optimisé pour Ghibli, du moins pas officiellement, mais il peut néanmoins générer des œuvres esthétiquement plaisantes, du moins à mon œil de dilettante. “Nous commençons maintenant la phase de test alpha de notre nouveau modèle d’image V7. C’est notre modèle le plus intelligent, le plus beau et le plus cohérent à ce jour. Essayez-le et attendez-vous à des mises à jour chaque semaine ou deux pendant les deux prochains mois.”
Pour l’utiliser, vous devrez tout d’abord évaluer environ 200 images pour créer un profil de “personnalisation” Midjourney, si vous ne l’avez pas déjà fait. Ce profil ajuste le modèle à vos préférences visuelles individuelles ; V7 est le premier modèle de Midjourney à avoir la personnalisation activée par défaut. Une fois que vous avez fait cela, vous pourrez activer ou désactiver V7 sur le site web de Midjourney et, si vous êtes membre du serveur Discord de Midjourney, sur son chatbot Discord. Dans l’application web, vous pouvez rapidement sélectionner le modèle depuis le menu déroulant à côté de l’étiquette “version”.
Le PDG de Midjourney, David Holz, a décrit V7 comme une “architecture totalement différente” dans un post sur X. V7 est “beaucoup plus intelligent avec les invites de texte” a poursuivi Holz dans une annonce sur Discord.
“Les invites d’image ont l’air fantastiques, la qualité de l’image est nettement supérieure avec de belles textures, et les corps, les mains et les objets de toutes sortes ont une cohérence nettement supérieure sur tous les détails”. V7 est disponible en deux saveurs, Turbo (plus coûteux à faire fonctionner) et Relax, et alimente un nouvel outil appelé Draft Mode qui rend les images à 10x la vitesse et la moitié du coût du mode standard. Les images de brouillon sont de qualité inférieure à celles des images en mode standard, mais elles peuvent être améliorées et rerendues en un clic. Un certain nombre de fonctionnalités standard de Midjourney ne sont pas encore disponibles pour V7, selon Holz, y compris l’upscale d’image et le retexturage. Ceux-ci arriveront dans un futur proche, a-t-il déclaré, peut-être dans deux mois.
“C’est un modèle entièrement nouveau avec des forces uniques et probablement quelques faiblesses” a écrit Holz sur Discord. “[N]ous voulons apprendre de vous ce qu’il fait de bien et de mal, mais gardez à l’esprit qu’il peut nécessiter différents styles d’incitation. Alors jouez un peu”.
Midjourney est une opération inhabituelle. Lancée en 2022 par Holz, qui a co-fondé la société de périphériques PC Leap Motion, elle n’a pas levé un centime d’argent extérieur. Fin 2023, Midjourney espérait générer environ 200 millions de dollars de revenus. Récemment, la société basée à San Francisco a annoncé qu’elle mettait en place une équipe matérielle pour travailler sur certains projets qu’elle n’a pas détaillés, et elle continue de former les modèles précédemment annoncés pour la génération de vidéo et d’objets 3D. La société fait face à plusieurs poursuites l’accusant d’avoir violé les droits de millions d’artistes en formant des outils d’IA sur des images grattées sur le web sans le consentement des créateurs des images.