DeepSeek представил технологию сжатия текста для ИИ

deepseek

Китайский ИИ-стартап DeepSeek представил новый мультимодальный ИИ, способный обрабатывать большие и сложные документы с задействованием значительно меньшего количества токенов.

DeepSeek-OCR применяет визуальное восприятие как средство сжатия информации.

Система стала результатом исследования «роли визуальных энкодеров» для сжатия текста в больших языковых моделях (LLM). Благодаря такому подходу нейросети способны обрабатывать огромные объемы информации без пропорционального роста затрат на вычисления.

«С помощью DeepSeek-OCR мы продемонстрировали, что сжатие текста через визуальные представления позволяет сократить количество токенов в 7–20 раз на разных стадиях контекста. Это открывает перспективное направление для решения проблемы длинной истории в LLM», — заявили в компании.

DeepSeek-OCR состоит из двух основных компонентов:

DeepEncoder — кодировщик;
DeepSeek3B-MoE-A570M — декодер.

Первый служит основным вычислительным ядром модели. Он сохраняет низкую активность в ходе обработки изображений высокого разрешения, одновременно достигая существенного уровня сжатия. Это позволяет сократить количество токенов.

Декодер — модель Mixture-of-Experts с 570 млн параметров — отвечает за восстановление исходного текста. Архитектура делит нейросеть на несколько независимых подсетей — «экспертов», каждый из которых специализируется на своей части входных данных. Вместе они решают общую задачу.

DeepSeek-OCR способна анализировать сложно структурированный визуальный контент, таблицы, формулы и геометрические схемы. По словам компании, это делает модель особенно полезной для применения в финансовой сфере и научных исследованиях.

Она отметила, что DeepSeek-OCR достигала 97% точности декодирования. При коэффициенте 20х модель сохраняла около 60%. Это подчеркивает ее способность не терять информацию даже при экстремальном уровне сжатия.

На OmniDocBench — эталонном тесте для оценки понимания разнообразных документов — DeepSeek-OCR превзошла ведущие модели оптического распознавания текста вроде GOT-OCR 2.0 и MinerU 2.0. При этом она использовала значительно меньше токенов.

Напомним, в августе стартап обновил свою флагманскую ИИ-модель V3.

Предыдущая статья

Первые подробности Huawei Mate 70 Air: китайский оператор слил информацию и фото ультратонкого смартфона

Следующая статья

В России предлагают ввести уголовную ответственность за криптопереводы

0 0 голоса

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

DeepSeek представил технологию сжатия текста для ИИ

Другие новости

Актуально

Прибыльность биткоин-майнинга упала на 7%

ZachXBT рассказал о краже у пользователя $3 млн в XRP

ASUS представила в Україні топовий ноутбук ProArt P16 на базі Ryzen AI та GeForce RTX 5090

Gemini представила кредитную карту с кэшбеком в Solana

NVIDIA представила оновлену відеокарту RTX Pro 5000. Вона отримала 72 гігабайти GDDR7

Петер Силадьи: Виталик Бутерин негласно контролирует Ethereum

SanDisk випускає 8‑терабайтну версію NVMe-накопичувача WD_Black SN8100 з підтримкою PCIe 5.0 x4

Последние новости

В ноябре каталог PlayStation Plus Extra и Premium покинут семь игр, включая Battlefield V и Like a Dragon: Ishin

Lenovo представляє надлегкий 16-дюймовий ноутбук Lecoo Air 16

Anthropic запустила ИИ-кодер Claude Code для браузера

В РФ предлагают делить криптовалюту поровну между супругами

Глобальная версия Oppo Find X9 будет иметь такую же батарею на 7000+ мА-ч, но пока непонятно, что на это скажет регулятор