Топовые ИИ-модели не осилили видеоигры девяностых

игровые криптопроекты блокчейн, games crypto projects

Даже самые продвинутые ИИ-модели не способны эффективно играть в классический шутер от первого лица Doom. К такому выводу пришли эксперты после проверки нейросетей в новом бенчмарке VideoGameBench.

Claude can play Pokemon, but can it play DOOM?
With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!
Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now —> 🧵 pic.twitter.com/vl9NNZPBHY

— Alex Zhang (@a1zhang) April 17, 2025

Тест призван проверить способность современных нейросетей играть и побеждать в 20 популярных видеоиграх. Использовать они могут только информацию с экрана.

«Современные модели VLM с трудом справляются с видеоиграми из-за высокой задержки вывода. Когда агент делает снимок экрана и запрашивает VLM о том, какое действие ему следует предпринять, к моменту получения ответа состояние игры значительно меняется, и действие уже неактуально», — отметили исследователи.

Для теста использовались классические игры из 1990 годов из-за простых визуальных эффектов и различных стилей ввода вроде мыши, клавиатуры и игрового контроллера. Такой подход позволяет проверить у модели пространственное мышление и «зрение».

VideoGameBench разработан ученым и ИИ-исследователем Алексом Чжаном. В бенчмарк входят Warcraft II, Age of Empires, Prince of Persia и другие игры.

Список игр из бенчмарка VideoGameBench. Данные: сайт vgbench.

Sonnet 3.7 справилась с Doom лучше остальных — нейросеть нашла синюю комнату.

Исследователи подчеркнули, что задержка реакции — главная проблема в шутерах от первого лица. В быстро меняющейся обстановке враг может переместиться или даже добраться до игрока раньше его реакции на происходящее.

Помимо проблем с пониманием игрового окружения, модели также не могли выполнить основные действия.

«Мы часто наблюдали случаи, когда агент не мог понять, как его действия вроде движения вправо будут отображаться на экране. Самой распространенной ошибкой среди всех протестированных нами пограничных моделей оказалась неспособность надежно управлять мышью в таких играх, как Civilization и Warcraft II, где очень важны точные и частые движения», — отметили эксперты.

Также модели не всегда понимают игровые механики, когда нет прямой инструкции о необходимых действиях.

Напомним, в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая прошла игру Pokemon.

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

Pi Network вызвали недовольство среди пользователей

Команда Pi Network представила дорожную карту миграции в мейннет. В ней...

Наступне покоління відеоадаптерів Intel Arc може перейти на мікросхеми GDDR7

На відміну від Nvidia, компанії Intel і AMD не поспішають з переходом на графічну пам’ять GDDR7. Актуальні моделі відеоадаптерів від «червоного» та «синього» чипмейкерів...

В Китае роботы пробежали полумарафон вместе с людьми

21 человекоподобный робот принял участие в пекинском полумарафоне. Это первый случай, когда машины пробежали вместе с людьми дистанцию 21 км, пишет Reuters. ...

Предупреждение о прорыве Биткоина — Нацелены ли быки на $90 000?

Биткойн ($BTC) снова в центре внимания после того, как 21 апреля превысил $87 400 – самый высокий уровень почти за месяц. Это означает рост...

Китайский бренд компании Stellantis представил свой первый седан — Leapmotor B01

Электрический седан Leapmotor B01. Источник: Leapmotor ...