GPT-4.5 успешно прошел тест Тьюринга с результатом 73% обманутых судей

Исследователи из университета Сан-Диего представили статью, в которой впервые эмпирически доказали, что искусственный интеллект на основе новой модели OpenAI GPT-4.5 успешно прошел классический тест Тьюринга. В ходе экспериментальных исследований эта модель продемонстрировала впечатляющий результат: 73% участников не смогли отличить её от человека.

Тест Тьюринга, разработанный в 1950 году, предполагает наличие двух человек и бота, где один из участников задает вопросы в течение 5 минут, стараясь выяснить, кто из собеседников является компьютером. Исследование, проведенное с использованием различных языковых моделей, показало, что результаты ИИ значительно варьируются. Для испытаний были выбраны GPT-4.5, LLaMa-3.1-405B, GPT-4o и классическая модель ELIZA.

Интересно, что наиболее естественный вариант тестирования, при котором модели предлагали вести себя как «молодые интроверты, интересующиеся интернет-культурой», оказался самым успешным. В этом случае GPT-4.5 обманул 73% респондентов, в то время как в варианте, где модели пытались непосредственно обмануть судью, результат составил лишь 36%.

Результаты также показали, что LLaMa-3.1 достигает уровня 50% в правильных опознаниях, в то время как другие модели, такие как ELIZA и GPT-4o, продемонстрировали гораздо более низкие результаты — 23% и 21% соответственно.

Хотя тест Тьюринга остается предметом обсуждений среди экспертов по поводу его истинности и значимости, результаты исследования показывают, что современные языковые модели достигли такого уровня, что порой могут успешно вводить людей в заблуждение. Исследователи предоставили убедительные статистические данные, подтверждающие значимость полученных результатов на двух независимых группах, что добавляет весомости их выводам.

Таким образом, прошедший тест Тьюринга GPT-4.5 поднимает важные вопросы о будущем взаимодействия человека и ИИ и актуальности использования данного теста как инструмента оценки интеллекта искусственных систем.

GPT-4.5 успешно прошел тест Тьюринга с результатом 73% обманутых судей

От Михаил Соколов

Связанная запись

UserGate и БГУ запускают сотрудничество в сфере кибербезопасности

Компания Т2 анонсировала запуск AI-интервьюера для маркетинговых исследований

Радиостанция Судного дня передала два загадочных послания