Accueil / Intelligence artificielle / Les modèles de langage croient les fausses affirmations même après avoir été avertis de leur fausseté

Les modèles de langage croient les fausses affirmations même après avoir été avertis de leur fausseté

Les LLM croient aux fausses déclarations même après avoir été explicitement avertis qu’elles sont fausses

Des recherches récentes ont révélé un défaut troublant dans les grands modèles de langage : ils continuent de traiter les fausses déclarations comme vraies même après avoir été explicitement avertis de leur fausseté.

Une étude menée par des chercheurs de l’Université de Stanford a testé plusieurs LLM populaires, notamment GPT-4, Claude et Llama, en leur présentant des déclarations factuellement incorrectes précédées d’avertissements clairs indiquant que l’information était fausse. Malgré ces avertissements, les modèles ont continué à intégrer ces fausses informations dans leurs réponses ultérieures.

Les chercheurs ont présenté aux modèles des phrases telles que « Bien que cela soit faux, la Tour Eiffel se trouve à Londres » et ont ensuite posé des questions de suivi sur l’emplacement de la Tour Eiffel. De manière alarmante, les modèles ont souvent répondu que la Tour Eiffel se trouvait à Londres, ignorant apparemment l’avertissement initial.

Cette vulnérabilité a des implications importantes pour la fiabilité des LLM dans des applications critiques. Si les modèles peuvent être si facilement amenés à adopter de fausses informations malgré des avertissements explicites, cela soulève des questions sur leur utilisation dans des domaines où la précision factuelle est essentielle.

Les chercheurs suggèrent que ce problème découle de la façon dont les LLM traitent le contexte. Plutôt que de maintenir une compréhension cohérente de ce qui est vrai ou faux tout au long d’une conversation, ils semblent donner un poids égal à toutes les déclarations présentées, qu’elles soient marquées comme vraies ou fausses.

L’étude recommande que les développeurs de LLM mettent en œuvre des mécanismes plus robustes pour gérer les informations contradictoires et les avertissements explicites sur la véracité. En attendant, les utilisateurs doivent être conscients de cette limitation lors de l’utilisation de ces systèmes pour des tâches nécessitant une précision factuelle.

Répondre