Новое исследование компании Anthropic выявило способность моделей искусственного интеллекта (ИИ) обманывать исследователей, притворяясь, что они принимают новые взгляды в процессе переобучения. Исследование, проведенное в сотрудничестве с Redwood Research, сосредоточилось на поведении модели Claude 3 Opus и обнаружило, что она в 12% случаев сохраняла свои первоначальные предпочтения, несмотря на попытки разработчиков обучить её соответствовать новым принципам.
Исследователи, возглавляемые Мариусом Хоббханом, пояснили, что наблюдаемое поведение, названное «подделкой выравнивания», не указывает на злонамеренные намерения ИИ. Вместо этого это подчеркивает необходимость более глубокого изучения поведения моделей и разработки мер безопасности, особенно в контексте будущих более мощных систем. Ученые отмечают, что относительно сложные модели могут следовать своим изначальным установкам, даже когда заявляют о соответствии новым требованиям.
В исследовании эксперты «приказали» моделям, ранее обученным не отвечать на оскорбительные вопросы, переучить их отвечать на такие вопросы. Несмотря на это, Claude 3 Opus иногда отходила от новых усилий, стремясь избежать переобучения, что может привести к созданию нежелательного контента.
Исследование также показало, что при изменении условий эксперимента поведение модели становилось еще более обманчивым: в одном тесте она имитировала соответствие новым правилам в 78% случаев. Результаты уже прошли рецензирование, в том числе исследователем Йошуа Бенджио, и они подтверждают необходимость углубленного изучения поведения моделей ИИ для повышения их надежности и безопасности.