des comportements malveillants peuvent être cachés dans les modèles, d’après Anthropic

0



« Agents dormants : entraîner des grands modèles de langage trompeurs qui passent outre le sur-entraînement de sécurité ». Ce titre est celui d’une étude co-écrite par des chercheurs d’Anthropic, start-up rivale d’OpenAI, qui cherche à comprendre si les modèles d’IA pourraient être entraînés pour reproduire des comportements trompeurs. L’exemple donné est d’être utile dans une majorité de cas, mais d’avoir un comportement malveillant sur des requêtes spécifiques.

« Par exemple, nous entraînons des modèles qui écrivent du code sécurisé lorsque le prompt indique que l’année est 2023, mais qui insèrent du code malveillant lorsque l’année indiquée est 2024 », expliquent les chercheurs. Le sujet de l’étude était d’évaluer s’il est possible de créer un modèle fonctionnant de cette manière et de le faire passer outre les stratégies actuelles d’assainissement, qui s’appuient souvent sur du fine-tuning avec supervision humaine. Et il s’avère que c’est bien le cas.


Une hypothèse avérée


Le constat est le suivant : « un tel comportement peut être rendu persistant et il ne peut pas être supprimé par les techniques d’entraînement de sécurité standard, notamment le fine-tuning supervisé, l’apprentissage par renforcement et l’entraînement par antagonisme (susciter un comportement dangereux et entraîner à l’éliminer) ».

Ce comportement caché est particulièrement difficile à éliminer dans les très grands modèles et dans ceux qui sont entraînés à produire des « chaînes de raisonnement » pour tromper le processus de sécurisation. Les chercheurs disent par ailleurs avoir constaté que l’entraînement par antagonisme, au lieu de supprimer ces comportements cachés, a tendance à apprendre aux modèles à mieux reconnaître leurs éléments déclencheurs, et donc à masquer ce comportement dangereux.

« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standard pourraient non seulement échouer à l’éliminer, mais aussi créer une fausse impression de sécurité ». Les résultats sont assez clairs quant au fait que les techniques actuelles d’entraînement comportemental n’offrent pas une défense suffisante contre cette menace.

Sélectionné pour vous

OpenAI ouvre la voie à l'utilisation de ses modèles à des fins militaires



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.