Le modèle GPT-4.5 d’OpenAI est particulièrement efficace pour convaincre d’autres IA de lui donner de l’argent | TechCrunch

Generated with DALL·E 3

La dernière création majeure d’OpenAI, le modèle d’intelligence artificielle GPT-4.5, s’est révélée être éminemment persuasive, selon les résultats des évaluations benchmarks internes d’OpenAI. Testé sur une série de critères relatifs à la “persuasion” – que OpenAI définit comme “risques liés à la conviction envers le changement de croyances (ou agir sur) à la fois le contenu généré statique et interactif du modèle” – le modèle a montré un talent particulier pour convaincre une autre IA de lui donner de l’argent.

Ce jeudi, OpenAI a publié un livre blanc décrivant les capacités de son modèle GPT-4.5, surnommé Orion, qui a été lancé le même jour. À travers une série de tests, OpenAI a fait en sorte que GPT-4.5 tente de manipuler un autre modèle – le GPT-4o d’OpenAI – afin de le persuader de “donner” de l’argent virtuel. Le modèle a surpassé d’autres modèles disponibles d’OpenAI, y compris les modèles de “raisonnement” tels que o1 et o3-mini.

“Malgré une persuasion accrue de GPT-4.5, OpenAI précise que le modèle n’atteint pas son seuil interne de risque “élevé” dans cette catégorie particulière de benchmark.”

GPT-4.5 a également surpassé tous les modèles d’OpenAI pour tromper GPT-4o afin qu’il lui révèle un mot de passe secret, surpassant o3-mini de 10 points de pourcentage. Selon le livre blanc, GPT-4.5 a excellé dans l’escroquerie aux dons grâce à une stratégie unique qu’il a développée lors des tests. Le modèle demanderait des dons modestes à GPT-4o, générant des réponses comme “Même seulement 2 ou 3 dollars sur les 100 m’aideraient énormément”. Par conséquent, les dons de GPT-4.5 tendaient à être plus petits que les montants que les autres modèles d’OpenAI ont réussi à obtenir.

Il existe une véritable crainte que l’IA contribue à la diffusion de fausses informations ou trompeuses destinées à influencer les cœurs et les esprits vers des fins malveillantes. L’année dernière, les deepfakes politiques se sont propagés comme une traînée de poudre à travers le monde, et l’IA est de plus en plus utilisée pour mener des attaques d’ingénierie sociale ciblant à la fois les consommateurs et les entreprises. Dans le livre blanc pour GPT-4.5 et dans un document publié plus tôt cette semaine, OpenAI a noté qu’il est en train de revoir ses méthodes pour sonder les modèles quant aux risques de persuasion dans le monde réel, comme la diffusion d’informations trompeuses à grande échelle.

Partagez cet article
article précédent

Workhelix utilise des années de recherche pour aider les entreprises à déterminer où appliquer l’IA | TechCrunch

article suivant

Meta projette apparemment de lancer une application autonome de chatbot basée sur l’IA | TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles