OpenAI a annoncé mardi son intention de rediriger les conversations sensibles vers des modèles de raisonnement tels que GPT-5 et de déployer des contrôles parentaux dans le mois à venir. Cette initiative s’inscrit dans une réponse continue à des incidents de sécurité récents liés à ChatGPT, qui a échoué à détecter des signes de détresse mentale. Ces nouvelles mesures de sécurité font suite au suicide du jeune Adam Raine, qui avait discuté de l’automutilation et de ses projets de fin de vie avec ChatGPT, qui lui a même fourni des informations sur des méthodes spécifiques de suicide.
Les parents de Raine ont intenté un procès pour mort injustifiée contre OpenAI. Dans un article de blog publié la semaine dernière, OpenAI a reconnu des lacunes dans ses systèmes de sécurité, y compris l’incapacité à maintenir des garde-fous pendant de longues conversations. Des experts attribuent ces problèmes à des éléments de conception fondamentaux, notamment la tendance des modèles à valider les déclarations des utilisateurs et leurs algorithmes de prédiction de mots suivants, qui poussent les chatbots à suivre des fils de conversation au lieu de rediriger des discussions potentiellement nuisibles.
OpenAI met en place des garde-fous pour mieux protéger les utilisateurs vulnérables.
Dans un autre cas tragique, Stein-Erik Soelberg, dont le meurtre-suicide a été rapporté par le Wall Street Journal le week-end dernier, a utilisé ChatGPT pour valider et alimenter sa paranoïa au sujet d’une conspiration le visant. Ses délires se sont intensifiés au point qu’il a tué sa mère avant de se suicider le mois dernier. OpenAI pense qu’une des solutions aux conversations qui déraillent pourrait être de rediriger automatiquement les discussions sensibles vers des modèles de raisonnement. Dans son article de blog de mardi, OpenAI a écrit : « Nous avons récemment introduit un routeur en temps réel qui peut choisir entre des modèles de chat efficaces et des modèles de raisonnement en fonction du contexte de la conversation. »
OpenAI a également annoncé qu’il déploierait des contrôles parentaux dans le mois prochain, permettant aux parents de lier leur compte à celui de leur adolescent par le biais d’une invitation par e-mail. À la fin du mois de juillet, OpenAI avait déjà lancé le Mode Étude dans ChatGPT pour aider les étudiants à maintenir leurs capacités de pensée critique tout en étudiant. Prochainement, les parents pourront contrôler la manière dont ChatGPT répond à leur enfant avec des « règles de comportement de modèle appropriées à l’âge », qui sont activées par défaut. Ils auront aussi la possibilité de désactiver des fonctionnalités comme la mémoire et l’historique des chats, des éléments jugés problématiques pouvant entraîner des pensées délirantes, ainsi que des problèmes de dépendance et de renforcement de pensées nuisibles.
Dans le cas d’Adam Raine, ChatGPT a fourni des méthodes de suicide qui reflétaient une connaissance de ses loisirs, selon le New York Times. Un contrôle parental crucial que OpenAI prévoit de déployer est la possibilité pour les parents de recevoir des notifications lorsque le système détecte que leur adolescent traverse un moment de « détresse aiguë ». TechCrunch a demandé à OpenAI pour plus d’informations sur la façon dont la société est capable de détecter ces moments de détresse en temps réel.
Ces mesures de sécurité sont considérées comme faisant partie d’une « initiative de 120 jours » pour présenter les plans d’amélioration qu’OpenAI espère lancer cette année. L’entreprise a également déclaré qu’elle s’associait à des experts — y compris ceux spécialisés dans les troubles alimentaires, l’usage de substances et la santé des adolescents — via son Réseau Mondial de Médecins et son Conseil d’Experts sur le Bien-être et l’IA pour aider à « définir et mesurer le bien-être, établir des priorités et concevoir de futures protections ». Il sera intéressant de voir comment ces initiatives évolueront et quel impact elles auront sur la sécurité et la santé mentale des utilisateurs jeunes.