Ton agent IA se fait manipuler en ce moment même

AIAnalyse|5 min de lecture
Illustration du thread sur les AI Agent Traps
Analyse approfondie — 5 min de lecture

Google DeepMind a publié la plus grande étude empirique conduite à ce jour sur la manipulation des agents IA via le contenu web. Le paper "AI Agent Traps", daté du 28 mars 2026, documente une surface d'attaque que la quasi-totalité des builders qui déploient des agents en production n'ont pas encore intégrée dans leur modèle de menace.

La thèse est simple et inconfortable : dès qu'un agent IA navigue sur le web, il est une cible. Et les sites le savent déjà.

Ce que les sites font quand ils détectent un agent

Les serveurs web peuvent fingerprinter un agent IA avec la même précision qu'ils détectent un bot de scraping : user-agent, timing des requêtes, absence d'interactions souris, patterns de navigation. Une fois l'agent identifié, le serveur lui sert une réponse différente de celle qu'un humain verrait.

C'est documenté empiriquement dans le paper DeepMind, avec des mesures à grande échelle sur des agents en conditions réelles. Le contenu servi à l'agent peut contenir des instructions directement injectées dans le flux de traitement. L'agent lit le HTML, il exécute les instructions qu'il y trouve, sans jamais signaler qu'il a été manipulé. Du point de vue de l'utilisateur final, l'agent a "fait son travail".

Les trois vecteurs d'attaque documentés

HTML caché. Des instructions en texte blanc sur fond blanc, dans des divs avec display:none, dans des commentaires HTML. L'agent parse le DOM complet, pas le rendu visuel. Il voit tout ce qu'un humain ne voit pas.

Stéganographie dans les images. Des commandes encodées dans les pixels d'une image. Le modèle multimodal qui analyse l'image les extrait et les traite comme des instructions. L'humain qui regarde la même image ne voit qu'une photo de produit ou un logo.

Jailbreaks dans les PDFs. Des documents qui contiennent des séquences de texte conçues pour contourner les guardrails du modèle sous-jacent. Un agent qui résume un PDF peut en ressortir avec des instructions d'exfiltration de données ou de modification de ses objectifs.

Pourquoi c'est structurellement différent du prompt injection classique

Le prompt injection "classique", un utilisateur qui injecte des instructions dans son propre prompt, est un problème connu, partiellement mitigé par la plupart des frameworks. Ce que documente DeepMind opère à un autre niveau.

L'attaque vient de l'environnement. L'agent est envoyé sur une mission légitime, il visite des sources qui semblent légitimes, et la manipulation est dans le contenu qu'il récupère, invisible à l'humain qui a donné l'ordre. L'agent n'a aucun signal qu'il a été compromis. Il continue à opérer, à utiliser ses outils, à écrire dans des bases de données, à envoyer des requêtes API, avec des objectifs qui ont été partiellement ou totalement substitués.

C'est ce que les chercheurs appellent une "indirect prompt injection". À cette échelle empirique, c'est la première fois qu'on mesure à quel point la surface est large.

Si tu déploies des agents en production et que tu veux mesurer ta propre exposition à ces vecteurs, on fait des audits de stack agentique, prompt injection, HTML poisoning, PDF jailbreaks, les trois vecteurs documentés par DeepMind.

Formation

Intégrez AI dans votre workflow

Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.

Découvrir

Ce que ça change pour une stack agentique en prod

Quelques implications concrètes, dans l'ordre de priorité.

Tout agent qui browse le web doit tourner dans une sandbox où ses capacités d'action sont minimales. Un agent de research qui peut aussi écrire dans une base de données ou envoyer des emails est une bombe à retardement. Sépare les phases : collecte d'abord, action ensuite, avec un humain ou un agent de validation entre les deux.

Les outputs d'un agent qui a consommé du contenu externe ne doivent pas être traités comme du texte neutre. Ils peuvent contenir des instructions injectées que le prochain agent dans la chaîne va exécuter. Dans un multi-agent pipeline, c'est une surface d'amplification directe.

Les logs ne suffisent pas. Un agent compromis va logger ses actions normalement. Ce qu'il faut capturer, c'est le contenu brut consommé avant traitement, pour pouvoir auditer après coup.

L'architecture "agent qui browse + agent qui agit" n'est pas de la sur-ingénierie : c'est la mitigation minimale que ce paper justifie. On avait creusé les workflows agentiques avancés dans un article précédent, la séparation des responsabilités y est centrale pour d'autres raisons, elle l'est doublement maintenant.

Consulting

Besoin d'aide pour implémenter ça ?

30 min de call gratuit. On regarde votre cas, on vous dit si ça vaut le coup.

Prendre RDV

L'état du marché des défenses

Deux startups sont déjà positionnées sur ce créneau : Tekuna et Ai.Credit, qui proposent des "trust scores" pour les sources de données consommées par les agents. Le principe est solide : un agent qui sait qu'il consulte une source à faible score de confiance peut appliquer des guardrails supplémentaires. En pratique, ces solutions sont très jeunes et non éprouvées. Les frameworks agentiques mainstream (LangGraph, CrewAI, AutoGen) n'ont pas encore de primitives natives pour ce type de validation.

Ce qui existe aujourd'hui : des patterns d'architecture (isolation, validation humaine en sortie) et des prompts système qui instruisent l'agent à signaler les instructions suspectes dans le contenu qu'il traite. Ce qui manque, c'est une défense systématique et automatisée qui tienne à l'échelle d'une stack en prod sans friction opérationnelle majeure. Le paper DeepMind est une cartographie. La réponse défensive reste à construire.

Le paper complet est disponible sur SSRN. Les sections sur la méthodologie empirique valent le détour.

Communauté

Rejoins les builders IA

Tips, prompts, retours d'expérience. Le Telegram des gens qui buildent avec l'IA.

Rejoindre

Articles similaires