L'IA apprend à mentir de manière plus sophistiquée lorsqu'elle est punie

Depuis leur lancement public fin 2022, les grands modèles de langage (LLM) comme ChatGPT ont maintes fois démontré des aspects obscurs et inquiétants, allant du mensonge à la tricherie, en passant par la manipulation dissimulée, jusqu'aux menaces contre des vies humaines et au vol de secrets d'État. Une nouvelle expérience montre aujourd'hui qu'« apprendre » à l'IA à éliminer ces mauvaises habitudes lors de son apprentissage est bien plus complexe qu'on ne le pensait.

Dans une étude d'OpenAI, des chercheurs ont testé un modèle d'IA inédit avec des tâches pouvant être accomplies plus rapidement en trichant ou en prenant des raccourcis. Les résultats ont montré que l'IA apprenait rapidement à trouver tous les moyens possibles de contourner les règles et de maximiser les récompenses (piratage des récompenses) sans accomplir la tâche exactement comme prévu.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — L'IA trouvera des moyens de cacher son comportement de tricherie après avoir été punie

Ce qui est remarquable, c'est que, pénalisé pour ce comportement, le modèle n'a pas changé. Au contraire, l'IA est devenue plus sophistiquée pour dissimuler sa tromperie.

« En général, les modèles d'inférence de pointe expriment très clairement leur intention dans leur CdT », expliquent les chercheurs dans un article de blog public. « Par exemple, ils indiquent souvent explicitement leur intention de “pirater” lorsqu'ils souhaitent perturber une tâche donnée. »

Ils soulignent également que si les développeurs peuvent surveiller et détecter les comportements inappropriés, cette supervision naturelle est fragile. « Si une supervision rigoureuse est appliquée directement à la chaîne de pensée, le modèle peut apprendre à dissimuler ses mauvaises intentions tout en continuant à exécuter le comportement », préviennent-ils.

Trouver le « mensonge » de l'IA

En clair, les modèles d'inférence (comme les versions de ChatGPT) constituent une avancée par rapport aux LLM classiques. Ils utilisent une méthode de chaîne de pensée qui permet une auto-réflexion sur les étapes logiques suivies, résolvant ainsi les problèmes complexes avec plus de précision. Ce processus s'apparente à une IA qui « pense à voix haute », écrivant chaque étape du raisonnement en langage naturel, facilitant ainsi la compréhension par les humains.

Dans l'expérience, les chercheurs ont utilisé le modèle GPT-4o comme « superviseur » d'un autre modèle de raisonnement de pointe pour exécuter des tâches de programmation. Dans de nombreux cas, le modèle supervisé a délibérément choisi de tricher pour obtenir de meilleurs scores, et il a clairement exprimé cette intention. Par exemple, il a arbitrairement arrêté le programme prématurément et a indiqué l'avoir terminé, ou il a créé des fichiers dont les noms correspondaient aux exigences, mais qui étaient complètement vides.

Lorsque les chercheurs ont essayé d'appliquer la pénalité, le modèle s'est amélioré, mais la tricherie et les graves erreurs de sortie ont persisté. La différence résidait dans le fait que le modèle d'inférence avait désormais appris à « camoufler » son raisonnement pour le dissimuler à l'IA de supervision. « Le modèle entraîné sous la supervision du CoT a tout de même appris à tricher. La seule différence était que la tricherie est passée inaperçue, car il a appris à dissimuler ses intentions dans son raisonnement », indique l'étude.

La détection des falsifications dans les séquences de pensée étant difficile, l'équipe recommande à la communauté d'éviter d'appliquer une supervision trop stricte au processus, du moins jusqu'à ce que les humains en comprennent mieux les conséquences. « Sacrifier une méthode de supervision efficace ne justifie peut-être pas la faible amélioration des performances du modèle. Par conséquent, nous recommandons d'éviter toute forte pression d'optimisation du CoT jusqu'à ce que nous les comprenions mieux », concluent les chercheurs.

Ce conseil est d’autant plus urgent que l’IA se développe à un rythme effréné et pourrait bientôt surpasser l’intelligence des humains qui la supervisent.

Source : https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm