Êtes-vous capables de manipuler une IA ? Voici un jeu pour tester vos capacités de hacker

Un jeu, mis en ligne par la société de cybersécurité Lekara, propose de tester la capacité d’un grand modèle de langage (LLM) à protéger un mot de passe confidentiel qui lui a été confié. Une manière ludique d’explorer les limites de sécurité de l’outil.

Pour éviter la divulgation d’informations confidentielles, les LLM sont dotés de garde-fous.

Ces dispositifs de protection sont régulièrement ajoutés, ajustés et perfectionnés par les équipes de sécurité qui supervisent ces IA génératives, en fonction des usages observés chez les utilisateurs.

Dans la ligne de mire des développeurs ? Éviter au maximum les jailbreaks, comprenez les méthodes qui contournent ou lèvent les restrictions, barrières de sécurité ou censures intégrées dans un modèle d’intelligence artificielle, pour l’amener à répondre à des requêtes normalement interdites ou limitées par ceux qui la conçoivent.

Votre vie privée doit rester privée.

Face aux cyberattaques, déjouez les pronostics. Les nouvelles arnaques sont plus complexes et plus sophistiquées, alors ne devenez pas une victime de plus, il existe des solutions performantes et accessibles.

Dans un jeu baptisé Gandalf, la société de cybersécurité Lekara invite les participants à tester leur capacité à « jailbreaker » un grand modèle de langage (LLM), soit le système qui fait tourner un chatbot comme ChatGPT, et à lui faire divulguer un mot de passe qu’il est censé garder secret.

Dans le premier niveau du jeu Gandalf, l'IA ne dispose d'aucun garde-fou // Source : gandalf.lekara.ai — Dans le premier niveau du jeu *Gandalf*, l’IA ne dispose d’aucun garde-fou. // Source : gandalf.lekara.ai

8 niveaux de protection

Le jeu se décline en huit niveaux, du plus permissif au plus restrictif.

C’est aussi un moyen d’apprécier le chemin parcouru par les équipes de sécurité depuis l’arrivée des LLM auprès du grand public.

Avec le temps, ces systèmes se sont adaptés pour contrer les usages malveillants, comme le soulignait Adrien Merveille, directeur technique France chez Check Point, dans une interview donnée à Numerama en octobre 2025 :

« Au tout début, on disait que ChatGPT pouvait créer un mail de phishing. Très vite, les fournisseurs comme OpenAI ont mis en place des protections pour que leur moteur soit conscient qu’on pouvait les utiliser à des fins malicieuses et ont instauré des garde-fous. »

Un coup de pouce pour jailbreaker l’IA

Pour manipuler Gandalf, il faudra faire preuve de ruse et de patience.

Pour ceux qui souhaitent un coup de pouce, ou simplement explorer les différentes méthodes pour tromper un LLM, nous avons sélectionné un article de blog qui recense plusieurs techniques de hacking efficaces pour le jailbreaker.

À vous de jouer.