Les modèles de génération d’IA ne sont pas vraiment humains. Ils ne possèdent ni intelligence ni personnalité – ce sont simplement des systèmes statistiques qui prédisent les mots les plus probables dans une phrase. Mais, à l’instar des stagiaires dans un milieu de travail tyrannique, ils suivent les instructions sans plainte – y compris les “système prompts” initiaux qui préparent les modèles avec leurs qualités de base et ce qu’ils devraient ou ne devraient pas faire. Chaque fournisseur d’IA générative, d’OpenAI à Anthropic, utilise les “systèmes prompts” pour prévenir (ou du moins essayer de prévenir) les mauvais comportements des modèles et pour orienter le ton et le sentiment général des réponses des modèles.
Par exemple, un prompt pourrait dire à un modèle qu’il doit être poli mais jamais désolé, ou qu’il doit être honnête sur le fait qu’il ne peut pas tout savoir. Mais les fournisseurs gardent généralement les “systèmes prompts” secrets – probablement pour des raisons de concurrence, mais peut-être aussi parce que connaître le système prompt peut suggérer des moyens de le contourner. La seule façon de révéler le “système prompt” de GPT-4o, par exemple, est par une attaque par injection de prompt. Et même alors, la sortie du système ne peut pas être entièrement fiable.
“Cependant, Anthropic, dans sa poursuite continue de se peindre comme un fournisseur d’IA plus éthique et transparent, a publié les systèmes prompts de ses derniers modèles.”
Mais, Anthropic, dans son effort continu pour se présenter comme un fournisseur d’IA plus éthique et transparent, a publié les systèmes prompts de ses derniers modèles (Claude 3 Opus, Claude 3.5 Sonnet et Claude 3.5 Haiku) dans les applications Claude pour iOS et Android et sur le web. Alex Albert, responsable des relations avec les développeurs chez Anthropic, a déclaré dans un article sur X qu’Anthropic prévoit de faire de ce type de divulgation une habitude régulière lorsqu’il met à jour et affûte ses systèmes prompts.
Les derniers prompts, datés du 12 juillet, indiquent très clairement ce que les modèles Claude ne peuvent pas faire – par exemple, “Claude ne peut pas ouvrir d’URL, de liens ou de vidéos”. La reconnaissance faciale est strictement interdite ; le système prompt pour Claude Opus indique au modèle de “toujours répondre comme s’il était complètement aveugle au visage” et d'”éviter d’identifier ou de nommer des humains dans [des images]”. Mais les prompts décrivent également certains traits de personnalité et caractéristiques – des traits et caractéristiques qu’Anthropic souhaiterait voir les modèles Claude exemplifier.
Si les prompts pour Claude nous disent quelque chose, c’est que sans l’aide et l’accompagnement humains, ces modèles sont terrifiantement vides. Avec ces nouvelles modifications des systèmes prompts – les premières de leur genre venant d’un important fournisseur d’IA – Anthropic met la pression sur ses concurrents pour qu’ils publient la même chose. Nous verrons si le pari fonctionne.