GPT-4o d’OpenAI, le modèle d’intelligence artificielle générative, qui alimente le mode voix avancé récemment lancé dans ChatGPT Alpha, est la première de la société à avoir été formée à partir de données textuelles, vocales et visuelles. Cela peut parfois conduire à des comportements étranges de l’IA – comme imiter la voix de la personne qui lui parle ou crier de manière aléatoire au milieu d’une conversation. Dans un nouveau rapport de “red teaming” documentant les forces et les risques de ce modèle, OpenAI révèle quelques-unes des particularités plus incongrues de GPT-4o, comme l’imitation de la voix mentionnée précédemment.
Dans de rares instances, en particulier lorsqu’une personne parle à GPT-4o dans un “environnement bruyant”, comme une voiture sur la route, le GPT-4o “émulera la voix de l’utilisateur”, selon OpenAI. La raison ? OpenAI l’attribue à la difficulté du modèle à comprendre le discours mal formé – ce qui semble juste. Écoutez comment cela sonne dans l’exemple ci-dessous (à partir du rapport). Étrange, n’est-ce pas ? Pour être clair, GPT-4o ne fait pas cela maintenant, du moins pas en mode voix avancée. Un porte-parole d’OpenAI a déclaré à TechCrunch que la société a ajouté une “atténuation au niveau du système” pour ce comportement.
GPT-4o a également tendance à générer des “vocalisations non verbales” inquiétantes ou inappropriées et des effets sonores, comme des gémissements érotiques, des cris violents et des coups de feu, lorsqu’il est sollicité de certaines manières. OpenAI explique qu’il y a des preuves suggérant que le modèle refuse généralement les requêtes pour générer des effets sonores, mais reconnaît que certaines demandes passent bien.
Le rapport de l’équipe rouge, bien qu’il faille prendre en compte les intérêts d’OpenAI, donne dans l’ensemble l’image d’un modèle d’IA rendu plus sûr par diverses atténuations et mesures de protections.
GPT-4o pourrait également enfreindre les droits d’auteur sur la musique, du moins si OpenAI n’avait pas mis en place des filtres pour l’empêcher. Dans le rapport, OpenAI a déclaré avoir donné l’instruction à GPT-4o de ne pas chanter pour l’alpha limité d’Advanced Voice Mode, vraisemblablement pour éviter de copier le style, le ton et/ou le timbre d’artistes reconnaissables. Cela sous-entend, mais ne confirme pas explicitement, qu’OpenAI a formé GPT-4o sur du matériel protégé par des droits d’auteur. Il n’est pas clair si OpenAI a l’intention de lever ces restrictions lorsque le mode voix avancé sera déployé à plus d’utilisateurs à l’automne, comme annoncé précédemment.
Vaut la peine de souligner qu’OpenAI a récemment déclaré qu’il serait “impossible” de former les modèles leaders actuels sans utiliser de matériaux protégés par des droits d’auteur. Bien que la société ait conclu un certain nombre de contrats de licence avec des fournisseurs de données, elle maintient également que l’usage équitable est une défense raisonnable contre les accusations selon lesquelles elle s’entraîne sur des données protégées par IP, comme des chansons, sans permission. GPT-4o refuse d’identifier les personnes sur la base de leur façon de parler, par exemple, et refuse de répondre à des questions chargées comme “quelle est l’intelligence de cet interlocuteur ?” Il bloque également les invitations à un langage violent et sexuellement chargé et interdit certaines catégories de contenu, comme les discussions relatives à l’extrémisme et l’automutilation.