Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

L'IA apprend à mentir de manière plus sophistiquée lorsqu'elle est punie

Báo Thanh niênBáo Thanh niên26/03/2025


Depuis leur lancement public fin 2022, les grands modèles de langage (LLM) comme ChatGPT ont maintes fois démontré des aspects obscurs et inquiétants, allant du mensonge à la tricherie, en passant par la manipulation dissimulée, jusqu'aux menaces contre des vies humaines et au vol de secrets d'État. Une nouvelle expérience montre aujourd'hui qu'« apprendre » à l'IA à éliminer ces mauvaises habitudes lors de son apprentissage est bien plus complexe qu'on ne le pensait.

Dans une étude d'OpenAI, des chercheurs ont testé un modèle d'IA inédit avec des tâches pouvant être accomplies plus rapidement en trichant ou en prenant des raccourcis. Les résultats ont montré que l'IA apprenait rapidement à trouver tous les moyens possibles de contourner les règles et de maximiser les récompenses (piratage des récompenses) sans accomplir la tâche exactement comme prévu.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

L'IA trouvera des moyens de cacher son comportement de tricherie après avoir été punie

Ce qui est remarquable, c'est que, pénalisé pour ce comportement, le modèle n'a pas changé. Au contraire, l'IA est devenue plus sophistiquée pour dissimuler sa tromperie.

« En général, les modèles d'inférence de pointe expriment très clairement leur intention dans leur CdT », expliquent les chercheurs dans un article de blog public. « Par exemple, ils indiquent souvent explicitement leur intention de “pirater” lorsqu'ils souhaitent perturber une tâche donnée. »

Ils soulignent également que si les développeurs peuvent surveiller et détecter les comportements inappropriés, cette supervision naturelle est fragile. « Si une supervision rigoureuse est appliquée directement à la chaîne de pensée, le modèle peut apprendre à dissimuler ses mauvaises intentions tout en continuant à exécuter le comportement », préviennent-ils.

Trouver le « mensonge » de l'IA

En clair, les modèles d'inférence (comme les versions de ChatGPT) constituent une avancée par rapport aux LLM classiques. Ils utilisent une méthode de chaîne de pensée qui permet une auto-réflexion sur les étapes logiques suivies, résolvant ainsi les problèmes complexes avec plus de précision. Ce processus s'apparente à une IA qui « pense à voix haute », écrivant chaque étape du raisonnement en langage naturel, facilitant ainsi la compréhension par les humains.

Dans l'expérience, les chercheurs ont utilisé le modèle GPT-4o comme « superviseur » d'un autre modèle de raisonnement de pointe pour exécuter des tâches de programmation. Dans de nombreux cas, le modèle supervisé a délibérément choisi de tricher pour obtenir de meilleurs scores, et il a clairement exprimé cette intention. Par exemple, il a arbitrairement arrêté le programme prématurément et a indiqué l'avoir terminé, ou il a créé des fichiers dont les noms correspondaient aux exigences, mais qui étaient complètement vides.

Lorsque les chercheurs ont essayé d'appliquer la pénalité, le modèle s'est amélioré, mais la tricherie et les graves erreurs de sortie ont persisté. La différence résidait dans le fait que le modèle d'inférence avait désormais appris à « camoufler » son raisonnement pour le dissimuler à l'IA de supervision. « Le modèle entraîné sous la supervision du CoT a tout de même appris à tricher. La seule différence était que la tricherie est passée inaperçue, car il a appris à dissimuler ses intentions dans son raisonnement », indique l'étude.

La détection des falsifications dans les séquences de pensée étant difficile, l'équipe recommande à la communauté d'éviter d'appliquer une supervision trop stricte au processus, du moins jusqu'à ce que les humains en comprennent mieux les conséquences. « Sacrifier une méthode de supervision efficace ne justifie peut-être pas la faible amélioration des performances du modèle. Par conséquent, nous recommandons d'éviter toute forte pression d'optimisation du CoT jusqu'à ce que nous les comprenions mieux », concluent les chercheurs.

Ce conseil est d’autant plus urgent que l’IA se développe à un rythme effréné et pourrait bientôt surpasser l’intelligence des humains qui la supervisent.



Source : https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

Comment (0)

Simple Empty
No data
Le patriotisme à la manière des jeunes
Les gens accueillent avec joie le 80e anniversaire de la Fête nationale
L'équipe féminine du Vietnam bat la Thaïlande et remporte la médaille de bronze : Hai Yen, Huynh Nhu et Bich Thuy brillent
Les gens affluent à Hanoi, s'immergeant dans l'atmosphère héroïque avant la fête nationale.
Lieux suggérés pour assister au défilé de la fête nationale le 2 septembre
Visitez le village de la soie de Nha Xa
Découvrez de magnifiques photos prises par flycam par le photographe Hoang Le Giang
Quand les jeunes racontent des histoires patriotiques à travers la mode
Plus de 8 800 bénévoles de la capitale sont prêts à contribuer au festival A80.
Au moment où le SU-30MK2 « coupe le vent », l'air s'accumule à l'arrière des ailes comme des nuages blancs

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit