Новый тест поставил в тупик большинство ИИ-моделей

Tool_AI

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей.

Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа.

Пример вопроса из ARC-AGI-2. Данные: Arc Prize.

Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.

«Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%.

Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек.

Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков.

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.
It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

— François Chollet (@fchollet) March 24, 2025

Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка.

«Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ o3. Он сравнялся с человеческими показателями.

Версия модели o3 (low) набрала 75,7% баллов в тесте ARC-AGI-1 и 4% в ARC-AGI-2. Данные: Arc Prize.

Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы.

Напомним, в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на применение запрещенных ходов.

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

У альткоинов больше не осталось покупателей

Давление со стороны продавцов альткоинов достигло максимума за пять лет, на...

Самозанятые в Белоруссии смогут получать зарплату в криптовалюте

Самозанятые в Белоруссии смогут легально получать оплату своих услуг в криптовалюте...

Intel надала друге дихання відеокарті Arc 770, додавши функцію XeSS Multi Frame Generation

Нещодавно компанія Intel випустила новий драйвер, який розблокував функцію багатокадрової генерації для відеокарт Arc Alchemist і Battlemage, а також інтегрованих рішень у процесорах Core...