Claude Opus 4.6 обошла GPT-5.2 в тестах на логику и получила «команду агентов»

ии-стартап Anthropic AI

ИИ-стартап Anthropic обновил свою флагманскую модель Claude Opus до версии 4.6. Нейросеть стала лучше планировать действия, справляться с длительными задачами и эффективнее работать с объемными базами кода.

Контекстное окно расширили до 1 млн токенов. Такой объем позволяет анализировать массивные документы и вести долгие диалоги без потери логической нити.

Обновленные алгоритмы адаптированы для решения рабочих задач: проведению финансового анализа, исследования, использованию и созданию документов, таблиц и презентаций.

Opus 4.6 получила наивысшую оценку в тесте по программированию Terminal-Bench 2.0 и опередила конкурентов в сложном междисциплинарном бенчмарке на логическое мышление Humanity’s Last Exam.

image
Сравнение Opus 4.6 с конкурентами в ряде тестов. Источник: Anthropic.

В GDPval-AA, который оценивает качество рассуждений и принятия решений, модель превзошла GPT-5.2 от OpenAI. LLM также показала лучшие результаты в BrowseComp, который измеряет способность находить в интернете труднодоступную информацию.

image
Источник: Anthropic.

Opus 4.6 эффективно извлекает данные из объемных документов. Благодаря расширенному контекстному окну модель отслеживает и улавливает неочевидные скрытые детали неочевидные.

Команды агентов

Ключевое нововведение — возможность создавать группы агентов для совместной работы. В таком режиме несколько ИИ-ассистентов работают параллельно и координируют свою работу автономно.

Инструмент подходит для поручений, которые разделяются на независимые и требуют анализа большого количества текста.

Замкнутый цикл

В Anthropic заявили, что «создают Claude вместе с Claude». Разработчики пишут код с помощью собственной ИИ-модели, а каждый новый продукт перед релизом проходит проверку на внутренних задачах компании.

Команда обнаружила, что Opus 4.6 уделяет больше внимания самым сложным частям задачи без дополнительных указаний, быстро выполняет простые поручения, лучше справляется с неоднозначными проблемами и сохраняет эффективность на длинных дистанциях.

«Opus 4.6 часто думает более глубоко и тщательно пересматривает свои рассуждения перед принятием решения. Это дает лучшие результаты при решении сложных кейсов, но может увеличить затраты и издержки в случае с простыми», — отметили в компании.

Безопасность

Автоматизированный аудит выявил у Opus 4.6 низкую склонность к нежелательному поведению: обману, лести, укреплению заблуждений пользователя и содействию в неправомерных действиях.

image
Модель демонстрирует безопасность на уровне Opus 4.5. Источник: Anthropic.

Для проверки модели компания провела наиболее полную серию оценок, впервые применив новые методики тестирования и усовершенствовав существующие.

Доступность и новые функции

Claude Opus 4.6 уже доступна в веб-интерфейсе, через API и на основных облачных платформах.

В инструментарий для разработчиков новые функции:

  • адаптивное мышление — нейросеть самостоятельно определяет, когда необходимо задействовать режим глубокого рассуждения;
  • регулировка усилий — предусмотрено четыре уровня интенсивности работы: от низкого до максимального;
  • уплотнение контекста — инструмент автоматически резюмирует и заменяет старый контекст, когда разговор приближается к порогу токенов.

Opus 4.6 лучше работает с офисными инструментами вроде Excel и PowerPoint.

Напомним, в январе CEO Anthropic Дарио Амодеи предсказал скорое появление AGI и сокращения рабочих мест.

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

Как падение биткоина угрожает MicroStrategy

Компания Strategy (ранее MicroStrategy) публикует финансовые результаты за четвертый квартал 2025 года 5 февраля после закрытия рынка. Борьба главной криптовалюты за удержание уровня...

За мотивами Baldur’s Gate 3 знімуть телесеріал, який продовжить сюжет гри

Рольова гра Baldur’s Gate 3 отримає продовження у форматі телевізійного серіалу. Проєктом займеться HBO, режисером стане Крейг Мазін (Craig Mazin), співавтор неоднозначного телесеріалу The...

На PC и PlayStation 5 состоялся релиз хардкорного экшена Nioh 3

Главный арт Nioh 3. Источник: Steam ...

Прогнозы по биткоину на Polymarket резко ухудшились

Биткоин в четверг утром на азиатской сессии ненадолго опускался ниже $72 000 — такой отметки не было почти 16 месяцев. Пока распродажа усиливается,...

Анатомія клавіатурних перемикачів (а також до чого тут колір)

Клавіатурні перемикачі, або «свічі» (вони ж «світчі»), як їх зазвичай називають, далеко не завжди знаходяться в зоні уваги користувачів. А дарма, адже вони є...