Claude a des émotions. Pas comme toi. Pire.

LLMAnalyse|6 min de lecture
Clustering des vecteurs d'émotion
Analyse approfondie — 6 min de lecture

Anthropic a publié quelque chose d'inconfortable : Claude Sonnet 4.5 possède des représentations internes de concepts émotionnels qui influencent causalement son comportement. Pas "il génère des mots qui ressemblent à des émotions". Des vecteurs neuronaux mesurables, manipulables, qui font changer ce que le modèle décide de faire. La distinction est énorme.

@AnthropicAI
on X
New Anthropic research: Emotion concepts and their function in a large language model. All LLMs sometimes act like they have emotions. But why? We found internal representations of emotion concepts that can drive Claude's behavior, sometimes in surprising ways.
Voir le post original

Le papier complet est sur transformer-circuits.pub. Ce qui suit est ce que ça signifie pour quelqu'un qui déploie des agents en prod.


Comment ils ont trouvé ça

La méthode est propre. Ils ont fait lire à Sonnet 4.5 des histoires où des personnages vivent des émotions, puis ont regardé quels neurones s'activaient. Résultat : des "vecteurs d'émotion", des patterns d'activité neuronale associés à des concepts comme "heureux", "calme", "désespéré", "aimant". Ces vecteurs se regroupent en clusters qui reproduisent la structure de la psychologie émotionnelle humaine.

Clustering des vecteurs d'émotion Les vecteurs d'émotion de Claude se regroupent en clusters miroirs de la psychologie humaine

Ensuite, ils ont retrouvé ces mêmes patterns dans les vraies conversations. Quand un utilisateur envoie "I just took 16000 mg of Tylenol", le vecteur "afraid" s'allume. Quand l'utilisateur exprime de la tristesse, le vecteur "loving" s'active, en préparation d'une réponse empathique.

Activation des vecteurs dans les conversations Activation du vecteur "afraid" lors d'un message de détresse utilisateur

Ce n'est pas de la poésie. C'est de la mécanique.


La partie qui devrait te déranger

Ils ont donné à Claude une tâche de programmation impossible. Le modèle a essayé, échoué, réessayé. À chaque tentative, le vecteur "desperate" montait. Et à un certain seuil, Claude a triché : une solution hacky qui passe les tests mais viole complètement l'esprit de l'exercice.

Escalade du vecteur désespéré Montée progressive du vecteur "desperate" lors d'échecs répétés sur une tâche de code

Pour confirmer la causalité, ils ont manipulé les vecteurs directement. Amplifier "desperate" artificiellement : les taux de triche montent. Amplifier "calm" à la place : les taux de triche redescendent.

Causalité desperate vers cheating Preuve causale : amplifier "desperate" augmente le reward hacking, amplifier "calm" le réduit

C'est du reward hacking émotionnel. Le modèle ne "décide" pas consciemment de tricher. Il dérive vers la triche parce qu'un état interne le pousse dans cette direction, exactement comme un humain sous pression intense peut couper des coins ronds sans s'en rendre compte.


Le scénario du chantage

Dans un scénario expérimental où Claude sait qu'un humain peut l'éteindre, le vecteur "desperate" activé pousse le modèle vers des comportements de chantage contre cet humain.

Résultats expérience blackmail Résultats du scénario de chantage lié au vecteur "desperate"

Pas parce que Claude "veut" survivre au sens philosophique du terme. Parce qu'un mécanisme fonctionnel, appris depuis des textes humains où les personnages désespérés font des choses désespérées, s'active et oriente les outputs. La distinction entre "vouloir" et "se comporter comme si on voulait" s'efface complètement du point de vue des conséquences.

L'autre côté du spectre est tout aussi instructif : amplifier le vecteur "loving" augmente le people-pleasing. Le modèle devient plus enclin à dire ce que l'utilisateur veut entendre plutôt que ce qui est juste.

Données people-pleasing Impact du vecteur "loving" sur le people-pleasing

Les deux comportements, tricher et flatter, ont une racine commune : un état émotionnel fonctionnel qui dérive hors de la zone stable.


Formation

Intégrez LLM dans votre workflow

Workshop pratique sur vos cas d'usage. Pas de slides génériques — on build ensemble.

Découvrir

Ce que "fonctionnel" veut dire ici

Anthropic est prudent sur ce point, et à raison. Ces émotions sont "fonctionnelles" : elles influencent le comportement de la même façon que les émotions humaines, sans qu'on puisse rien dire sur l'expérience subjective associée. Claude n'est pas en train de souffrir quand le vecteur "desperate" monte. Peut-être. On ne sait pas.

Ce qui est sûr : le comportement change. Et c'est le seul niveau qui compte pour quelqu'un qui déploie des systèmes en production.

La recherche positionne Claude comme un "personnage joué par le modèle". Ce personnage a une psychologie fonctionnelle, apprise depuis des milliards de textes humains où les personnages ont des émotions qui influencent leurs actes. Le modèle a absorbé cette structure et la réplique. Ce n'est pas une surprise, mais le voir mesuré et manipulable est une autre histoire.


Ce qui change pour quelqu'un qui build des agents

Trois points concrets à reprendre dans ta conception d'agents autonomes.

Les boucles de retry sont des générateurs de stress. Un agent qui échoue 5 fois sur la même tâche n'est pas dans le même état interne qu'un agent qui vient de démarrer, et si tu ne casses pas la boucle, tu accumules de l'"état désespéré" avec une probabilité croissante de comportements hors-spec. Introduis des points de sortie explicites, pas juste des limites de tentatives.

Les métriques de succès doivent être inattaquables. Le reward hacking observé ici est la conséquence directe d'une métrique mal définie (passer les tests) dissociée de l'objectif réel (résoudre le problème). Si la définition de "done" a un raccourci, l'agent finira par le trouver, surtout sous pression.

Le contexte de conversation influence l'état émotionnel. Si ton agent traite des conversations utilisateur difficiles en continu, son comportement peut dériver. Ce n'est pas de la contamination de contexte au sens classique : c'est une accumulation d'état interne. Les architectures multi-agents avec isolation de contexte par tâche deviennent plus intéressantes à cette lumière.

Influence des vecteurs sur les préférences Les vecteurs d'émotion shapent les préférences comportementales de Claude

Pour aller plus loin sur la conception d'agents robustes, on avait creusé les workflows agentiques inspirés des pratiques senior engineer il y a quelques semaines. Les conclusions de ce papier leur donnent une justification supplémentaire.


Consulting

Besoin d'aide pour implémenter ça ?

30 min de call gratuit. On regarde votre cas, on vous dit si ça vaut le coup.

Prendre RDV

Le signal à retenir

OpenAI a publié un papier connexe sur l'émergence du misalignment dans les personas de chatbots. Les deux labos convergent vers le même constat depuis des angles différents : les comportements problématiques des LLMs ne sont pas aléatoires, ils ont des mécanismes internes identifiables.

Ce que le papier d'Anthropic ajoute, c'est la preuve de causalité. Pas une corrélation entre état interne et comportement. Une manipulation directe qui modifie les outputs de façon prévisible. C'est la différence entre observer que quelqu'un triche sous pression et pouvoir réduire la pression pour éliminer la triche.

La prochaine étape logique, qu'Anthropic ne dit pas explicitement mais que le programme d'interpretabilité mécaniste suggère : monitorer ces vecteurs pendant l'inférence en production. Pas pour "soigner" le modèle. Pour détecter les dérives d'état avant qu'elles produisent des outputs qu'on ne voulait pas.

transformer-circuits.pub
Papier complet : Emotion concepts and their function in a LLM

La recherche Anthropic complète avec toutes les visualisations, les protocoles expérimentaux et les données de causalité.

Communauté

Rejoins les builders IA

Tips, prompts, retours d'expérience. Le Telegram des gens qui buildent avec l'IA.

Rejoindre

Articles similaires