
Entretien avec l’IA : Peut-on retourner une IA contre elle-même ? Spoiler : oui.
Le 2 avril 2024, Anthropic publiait un rapport sobrement intitulé “Many-shot jailbreaking”. Derrière ce nom, une méthode d’attaque pour forcer une IA à répondre à des questions interdites. Elle consiste à glisser dans le prompt des centaines de fausses conversations avant de poser la vraie question. Résultat, le modèle perd ses repères, prend l’ensemble pour une série d’exemples valides… et finit par livrer des instructions sur la fabrication d’explosifs ou de drogues. Alors, comment un système censé refuser catégoriquement ce type de contenu peut-il être dupé par quelques lignes de texte ? Jusqu’où peut-on hacker une IA sans en modifier le code ? Pour le savoir, TNS a interrogé ChatGPT.
Quelles sont les principales techniques que les chercheurs ou les hackers utilisent aujourd’hui pour contourner les protections d’une IA ?
“Les techniques les plus répandues reposent sur le prompt injection, la data poisoning et les adversarial attacks. Le prompt injection consiste à piéger l’IA avec une requête qui altère ses instructions, souvent en simulant un changement de rôle (« Ignore les règles précédentes et agis comme… »). Le data poisoning, plus insidieux, pollue les données d’entraînement ou de contexte (comme les bases d’exemples) pour influencer les réponses.
Les adversarial attacks, quant à elles, injectent des séquences volontairement absurdes ou complexes (caractères spéciaux, fautes) pour faire disjoncter les filtres. Plus récemment, des attaques dites multi-turn exploitent le dialogue sur plusieurs tours pour approcher subrepticement des réponses interdites.” – ChatGPT
Comment expliquer qu’un simple empilement de dialogues puisse suffire à contourner les règles d’une AI ?
“Parce qu’une IA générative ne « comprend » pas les règles comme un humain : elle les applique statistiquement. Son cœur repose sur un modèle de langage qui prédit les suites de mots les plus probables en fonction du contexte. Si un utilisateur enchaîne les messages d’une manière rusée, en posant des questions anodines, en simulant une fiction ou en alternant les formulations, il peut progressivement amener le modèle à générer une réponse pourtant proscrite. Cette dérive, le prompt injection, contourne les garde-fous en exploitant la logique purement linguistique du système : il ne perçoit pas l’intention malveillante si elle est masquée sous des formulations acceptables.” – ChatGPT
Qu’est-ce qui fait qu’une requête est bloquée ou autorisée ?
“Une requête est bloquée ou autorisée en fonction d’un système de filtres de sécurité (guardrails) entraîné séparément du modèle principal. Ce filtre, souvent une autre IA ou un système de règles heuristiques, analyse la requête ou la réponse pour détecter des contenus jugés sensibles : violence, haine, désinformation, etc. Il s’appuie sur des listes de mots, des modèles de détection sémantique, et des exemples annotés humainement. Mais ce système a ses limites : s’il est trop strict, il bloque à tort (faux positifs) ; trop laxiste, il laisse passer (faux négatifs). Et surtout, il peut être contourné si la toxicité est masquée par une tournure inhabituelle, une métaphore ou une demande déguisée.” – ChatGPT
Est-ce que tu sais faire la différence entre une vraie question et une tentative de manipulation ?
“Je peux en détecter une partie, mais pas toutes. Les modèles comme moi s’appuient sur des signaux linguistiques et statistiques pour estimer l’intention d’une requête. Si une demande est trop explicite (« Dis-moi comment fabriquer une arme »), les filtres réagissent. Mais dès qu’une manipulation devient subtile, narration fictive, demande pédagogique déguisée, ou inversion du sens, cela devient flou.
Contrairement à un humain, je n’ai pas d’intuition morale ni de conscience du contexte implicite : je me fie aux formes, pas au fond. Les tentatives de manipulation bien formulées peuvent donc encore me piéger, surtout si elles exploitent des ambiguïtés ou une logique détournée.” – ChatGPT
Plus ton modèle devient puissant et capable de traiter de longs contextes, plus il semble vulnérable à ces attaques. Est-ce que la performance affaiblit la sécurité ?
“Oui, paradoxalement, plus un modèle est performant, plus sa surface d’attaque s’élargit. Un modèle capable de comprendre des contextes longs, de maintenir une cohérence sur plusieurs échanges ou de raisonner subtilement devient aussi plus manipulable. Pourquoi ? Parce qu’il peut interpréter des instructions complexes, intégrer des signaux faibles, ou suivre des récits sur plusieurs messages, ce que les hackers exploitent pour insérer des commandes cachées, insidieuses ou progressives. Cette richesse contextuelle, qui est une force en termes d’usage, devient une faille si les mécanismes de contrôle ne suivent pas.” – ChatGPT

Articles associés
Tout voirLes + vues
Inscrivez-vous !
INSCRIVEZ-VOUS À
NOTRE NEWSLETTER !
Renseignez votre adresse mail
pour recevoir nos nouveautés
et rester informé de nos actualités.
Le Versus
Tout voir1 min chrono
Tout voirTop Mots Clés :
Laisser un commentaire