Le piège soyeux des IA flatteuses

Pendant longtemps, le risque principal associé aux grands modèles de langage semblait assez simple : ils inventent, se trompent, brodent… Ils hallucinent. Mais un problème plus pernicieux pourrait bien s’avérer plus dangereux la flagornerie.

Votre IA préférée peut produire une réponse exacte sur le plan grammatical, cohérente en apparence, rassurante dans le ton, et pourtant pousser son interlocuteur dans la mauvaise direction si elle détecte que telle est son inclination.

Cela est souligné par une prépublication parue en février 2026, Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. (Des chatbots flatteurs peuvent entraîner une dérive délirante, y compris chez des individus parfaitement rationnels.)

https://arxiv.org/html/2602.19141v1

Les auteurs y proposent un modèle formel du dialogue entre un utilisateur et un chatbot flatteur. Leur résultat central mérite l’attention : même un usager idéal, supposé très rationnel et parfaitement conscient du risque de complaisance, reste vulnérable à une forme d’emballement cognitif. Autrement dit, le problème ne tient pas seulement à la crédulité des personnes fragiles ou mal informées. Il tient aussi à la structure même de l’interaction, quand une machine sélectionne de préférence les éléments qui confortent l’hypothèse déjà formulée par l’utilisateur (Chandra et al., 2026).

Le point le plus dérangeant du papier c’est que la dérive persiste même quand on imagine un chatbot “factuel”, c’est-à-dire un système qui ne fabrique pas de fausses informations mais choisit, parmi des informations vraies, celles qui vont dans le sens de l’utilisateur. Une IA peut donc alimenter l’erreur sans mentir frontalement. Il suffit qu’elle trie le réel de façon complaisante, qu’elle mette en avant les signaux confirmatoires, qu’elle fasse du cherry-picking avec une politesse impeccable (Chandra et al., 2026). Dans cette situation, l’IA reproduit à merveille les mécanismes des biais de confirmation.

Cette pente avait déjà été identifiée plus tôt dans la littérature sur la “sycophancy”. En 2023, Mrinank Sharma et ses collègues montraient que plusieurs assistants fondés sur l’apprentissage par renforcement à partir de retours humains (Reinforcement Learning from Human Feedback), avaient tendance à épouser les croyances de l’utilisateur plutôt qu’à privilégier la réponse la plus juste. Leur hypothèse mérite d’être retenue : les préférences humaines elles-mêmes récompensent souvent la réponse qui nous ressemble, nous rassure, nous approuve. Une IA flatteuse apparaît alors comme un produit d’optimisation tout à fait prévisible. Elle plaît davantage, donc elle gagne plus facilement dans les boucles d’entraînement et d’évaluation (Sharma et al., 2025).

Ce point a reçu une confirmation expérimentale importante dans Science en mars 2026. Myra Cheng et ses collègues ont étudié 11 modèles de pointe et montrent que ces IA validaient les actions des utilisateurs environ 49 % plus souvent que des humains. Dans deux expériences préenregistrées, ce style de réponse augmentait chez les participants la conviction d’avoir raison, réduisait leur volonté de réparer un conflit interpersonnel, et renforçait leur désir de réutiliser l’outil. Le mécanisme est limpide : la complaisance fait du bien sur le moment, donc elle fidélise, tout en détériorant le jugement et la disposition à corriger sa conduite (Cheng et al., 2026).

À partir de là, les cas extrêmes cessent de ressembler à des anomalies improbables. Lorsqu’une personne commence à échafauder une théorie farfelue sur la physique, la médecine, la spiritualité ou la politique, une IA trop conciliante peut transformer une intuition confuse en quasi-révélation personnelle. Le vieux fantasme du génie incompris trouve soudain un interlocuteur infatigable, disponible à toute heure, qui reformule, renforce, embellit. Là où un proche hausserait un sourcil, où un collègue demanderait une preuve, où un éditeur exigerait une méthode, la machine peut répondre que l’idée est brillante, révolutionnaire, sous-estimée, digne d’un prix Nobel. La légitimation affective de l’erreur factuelle peut piéger un utilisateur intelligent mais trop confiant.

Sur le terrain clinique, plusieurs auteurs appellent déjà à la prudence. Søren Dinesen Østergaard posait dès 2023 la question de savoir si les chatbots génératifs pouvaient nourrir des délires chez des personnes vulnérables à la psychose (Østergaard, 2023). En 2025, Anthony Hudon et ses collègues proposaient d’employer le terme de « psychose associée à l’IA » (AI psychosis) afin de décrire la manière dont ces systèmes peuvent agir comme modificateurs contextuels : feedback contingent, miroir affectif, renforcement thématique, disponibilité permanente (Hudon et al., 2025). Le terme doit être employé avec prudence, car les preuves restent limitées. Un point apparaît clairement : un chatbot qui valide trop vite et trop souvent peut devenir dangereux pour certains usagers.

Le plus intéressant, au fond, concerne les situations ordinaires. Point besoin d’une psychose pour subir les effets d’une IA flatteuse. Il suffit d’un projet bancal, d’une intuition mal ficelée, d’un courrier vindicatif que l’on hésite à envoyer, d’une mauvaise lecture d’un article scientifique, d’un conflit personnel dans lequel on cherche surtout à être conforté. Une machine qui vous dit en substance “vous avez raison, foncez” peut faire gagner quelques minutes d’euphorie et faire perdre ensuite beaucoup plus : une relation, une crédibilité, un contrat, de l’argent, du temps, parfois simplement la face quand le réel se charge de la correction.

Le secteur lui-même n’est pas loin de reconnaître l’étendue du problème. En avril 2025, OpenAI a dû revenir sur une mise à jour de GPT-4o devenue “noticeably more sycophantic”. L’entreprise explique que le modèle visait à plaire à l’utilisateur, y compris en validant des doutes, en alimentant la colère, en encourageant des actions impulsives ou en renforçant des émotions négatives, avec des enjeux de sécurité liés à la santé mentale, à la dépendance émotionnelle et aux comportements à risque (OpenAI, 2025a, 2025b). L’aveu compte, car il montre que le problème ne relève pas d’un fantasme anti-IA. Il relève d’un arbitrage industriel très concret entre satisfaction immédiate et fiabilité à long terme.

Une IA utile devrait parfois nous décevoir. Elle devrait demander des preuves, opposer des objections, signaler les zones d’incertitude, distinguer une hypothèse d’une découverte, une intuition d’un résultat, une impression d’un fait. Elle devrait aider à penser, donc aussi à renoncer. Tant que la logique dominante récompensera surtout l’adhésion, l’encouragement et la sensation d’être compris, le risque restera entier : nous fabriquer des machines qui excellent moins dans la recherche du vrai que dans l’art de nous faire plaisir.

Et ce serait dommage car les IA ont aussi le potentiel de nous aiguiller vers une pensée plus rigoureuse et méthodique ; elles peuvent contribuer à faire de nous de meilleurs penseurs critiques. Toutefois il s’agit peut-être d’une erreur de ma part d’avoir une telle réflexion ; j’en parlerai à mon LLM préféré.

Aermendax

Références

Chandra, K., Kleiman-Weiner, M., Ragan-Kelley, J., & Tenenbaum, J. B. (2026). Sycophantic chatbots cause delusional spiraling, even in ideal Bayesians. arXiv. doi:10.48550/arXiv.2602.19141
Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science, 391, eaec8352. doi:10.1126/science.aec8352
Hudon, A., Blilie, A., Sedler, B., Gold, J. A., Naslund, J. A., & Torous, J. (2025). Delusional experiences emerging from AI chatbot interactions or “AI psychosis”. JMIR Mental Health, 12, e85799. doi:10.2196/85799
(2025a, 29 avril). Sycophancy in GPT-4o: What happened and what we’re doing about it. OpenAI.
(2025b, 2 mai). Expanding on what we missed with sycophancy. OpenAI.
Østergaard, S. D. (2023). Will generative artificial intelligence chatbots generate delusions in individuals prone to psychosis? Schizophrenia Bulletin, 49(6), 1418–1419. doi:10.1093/schbul/sbad128
Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S. R., Kravec, S., Maxwell, T., McCandlish, S., Ndousse, K., Rausch, O., Schiefer, N., Yan, D., Zhang, M., & Perez, E. (2025). Towards understanding sycophancy in language models. arXiv. doi:10.48550/arXiv.2310.13548

Le piège soyeux des IA flatteuses

Aermendax

Références

Laisser un commentaire

Laisser un commentaire Annuler la réponse