Исследовательская группа Hao AI Lab из Калифорнийского университета начала использовать классическую игру Super Mario Bros для проверки моделей искусственного интеллекта. В ходе испытаний наилучшие результаты продемонстрировали модели Claude 3.7 и 3.5 от компании Anthropic, в то время как Gemini 1.5 Pro от Google и GPT-4o от OpenAI столкнулись с серьезными трудностями.
Для тестирования игра запускалась на эмуляторе, интегрированном с GamingAgent — фреймворком, который предоставлял ИИ базовые инструкции, такие как уклонение от препятствий. ИИ генерировал команды в виде кода Python для управления персонажем. Лаборатория отметила, что модели, ориентированные на рассуждения, такие как o1 от OpenAI, показали худшие результаты по сравнению с оживлённо работающими аналогами, что связано с задержками в принятии решений — в Super Mario Bros. скорость реакции критически важна.
Споры о целесообразности использования игр для оценки ИИ продолжаются, так как эксперты сомневаются в возможности сопоставления игровых навыков с реальными технологическими достижениями. Игры часто представляют собой абстрактные задачи и дают бесконечные данные для обучения, что может затруднить их анализ.
Недавние тестирования моделей ИИ привели к «кризису оценки», как его назвал Андрей Карпаты, научный сотрудник и основатель OpenAI. В своём посте в соцсети X он отметил, что не знает, какие метрики следует использовать для определения качества современных ИИ-моделей.
Лаборатория Hao AI Lab также сообщила, что интеграция ИИ в игровую среду заставила модели учиться планировать сложные манёвры и разрабатывать стратегии. Тем не менее, задержки в принятии решений продолжали оказывать значительное влияние на производительность, что поднимает вопросы о подходах к оценке ИИ в реальном времени.