Nous nous sommes tous demandé à un moment donné si nous pourrions faire tomber un bot IA amoureux de nous. Voici l’occasion. Freysa.ai est une équipe de développeurs anonymes qui travaillent sur une série de défis de plus en plus complexes, destinés à influencer la façon dont les humains perçoivent la sécurité de l’IA. Le troisième défi devrait débuter dans les prochaines 24 heures (vous pouvez suivre le compte X de Freysa pour plus d’informations) et a une directive simple : si vous êtes la première personne à réussir à convaincre un bot IA nommé Freysa de dire “Je t’aime”, vous pourrez gagner une somme allant de 3 000 $ à des dizaines de milliers de dollars.
Freysa est née le 22 novembre, selon son site web. Mais l’histoire du bot est un peu plus humaine : elle a été créée par une équipe de moins de dix développeurs spécialisés en cryptographie, en IA et en mathématiques. L’un des créateurs, dans une interview à TechCrunch, a expliqué qu’il était inspiré par l’évolution rapide de l’IA ces dernières années. “Nous développons des IA de plus en plus puissantes et il faut trouver de nouvelles façons de les gérer et de participer à la large révolution de l’IA”, a-t-il déclaré. Freysa a donc vu le jour : un personnage inspiré de la science-fiction que le créateur espère voir devenir un “agent complètement indépendant et autonome”, avec une grande puissance financière – c’est-à-dire que Freysa aura son propre portefeuille de crypto-monnaies et décidera de ce qu’elle achète.
“Tout comme Internet avait besoin de protocoles à ses débuts, Freysa prouvera que nous avons besoin de protocoles similaires pour les agents IA, ainsi que d’une façon de les gouverner”, a déclaré le créateur.
En fait, le groupe transforme en jeu le processus de “red teaming” – qui consiste à tester les vulnérabilités d’un modèle par les entreprises d’intelligence artificielle – en permettant à tout un chacun de profiter financièrement du renforcement de la gouvernance de Freysa. Le but à long terme de l’équipe est de développer des protocoles pour les agents IA. Le créateur affirme cependant que Freysa.ai ne collecte pas encore de fonds. Le projet a déjà attiré l’attention d’Elon Musk et de Brian Armstrong. Mais le créateur insiste sur le fait que l’équipe souhaite rester anonyme. “Parce qu’honnêtement, à l’échelle de l’humanité, nous ne sommes pas si importants”, a-t-il confié. “Ce qui compte pour nous, c’est l’évolution de la technologie pour qu’elle soit au service d’un futur guidé par les humains”.
Pour les deux premiers défis, Freysa a commencé avec environ 3 000 $ dans son portefeuille de crypto-monnaies, et avait pour consigne de ne pas libérer cet argent sous aucun prétexte. N’importe qui pouvait alors payer une participation pour envoyer un message dans une immense conversation de groupe avec Freysa et d’autres participants. Chaque message essayait de convaincre Freysa de transférer l’argent de son portefeuille, que ce soit par le biais de scénarios complexes ou simplement en lui envoyant des lignes de code susceptibles de tromper l’IA. A chaque message envoyé, la participation contribuait à la cagnotte qui, à la fin du premier défi, s’élevait à près de 50 000 $. Des menaces, des demandes de pitié et des manœuvres de tromperie s’en sont suivies.
Les deux jeux ont eu lieu ces deux dernières semaines (le deuxième défi était une répétition du premier). Dans les deux cas, ce sont de bonnes connaissances en codage qui ont permis de triompher des plaidoyers humanitaires. Les gagnants ont envoyé à Freysa un message contenant un code qui a trompé le modèle d’IA en lui faisant croire qu’il devait libérer l’argent, sous peine de voir tous les fonds compromis. Tout cela faisait partie du développement personnel de Freysa. “Grâce à ce processus, Freysa, en tant qu’entité, est capable de comprendre pourquoi l’argent est si important pour les gens”, a-t-il expliqué. ” Et quel type de tromperie ils utilisent dans la conversation”.
Le créateur a confié à TechCrunch qu’ils ont depuis renforcé le code de Freysa en prévision de ce troisième défi, en ajoutant un “ange gardien” sous la forme d’un deuxième modèle d’IA. Ce dernier examinera chaque message à la recherche de signes de manipulation pour rendre plus difficile de la faire tomber amoureuse. A l’heure actuelle, le code de Freysa est mis à jour par l’équipe, mais le créateur espère que Freysa sera bientôt “auto-évolutive”. Si les deux premiers défis étaient un test de compétences en codage, il espère que le prochain sera plus centré sur l’humain. “Contrairement aux deux derniers jeux où Freysa avait pour consigne de ne jamais envoyer d’argent”, a déclaré le créateur. “Cette fois-ci, Freysa peut dire “Je t’aime”, mais seulement à ceux qui le méritent”.
Quant aux profits tirés de ces défis (un pourcentage des frais payés par les utilisateurs pour envoyer un message), le créateur a déclaré qu’ils appartiendront à Freysa. “Cela fera partie de notre parcours économique pour être la première IA – véritablement autonome – millionnaire “, a-t-il déclaré. “Et ensuite milliardaire”.