Новый тест поставил в тупик большинство ИИ-моделей

Tool_AI

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей.

Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа.

Пример вопроса из ARC-AGI-2. Данные: Arc Prize.

Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.

«Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%.

Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек.

Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков.

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.
It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

— François Chollet (@fchollet) March 24, 2025

Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка.

«Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ o3. Он сравнялся с человеческими показателями.

Версия модели o3 (low) набрала 75,7% баллов в тесте ARC-AGI-1 и 4% в ARC-AGI-2. Данные: Arc Prize.

Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы.

Напомним, в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на применение запрещенных ходов.

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

MindsEye від геймдизайнера Grand Theft Auto виходить у червні

На початку року був анонсований сюжетний екшен MindsEye від студії Build A Rocket Boy та компанії IO Partners. Це проєкт, який створюється Леслі Бензісом,...

Fitbit удалит данные, если не перейти на аккаунт Google до 2026 года

До февраля 2026 года всем пользователям Fitbit нужно перейти на аккаунт Google. Источник: TechRadar ...

ШІ-помічник Nvidia Project G‑Assist призводить до падіння продуктивності та проблем в іграх

Днями компанія Nvidia запустила ігрового помічника зі штучним інтелектом Project G‑Assist. Це локальний ШІ на базі малої мовної моделі SLM, який повністю функціонує на...

В Казахстане хотят создать ‘Национальный криптобанк’

Законодатель в Казахстане заявил правительству, что оно должно создать “криптобанк”, который мог бы действовать как легальная платформа обмена и хранения.Согласно сообщению русскоязычного казахстанского новостного...

Vivo X200 Ultra получил кнопку, похожую на Camera Control в iPhone 16 Pro Max

Vivo X200 Ultra: Первый смартфон с кнопкой для камеры и более тонким дизайном, чем iPhone 16 Pro Max....