Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников

Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников
Jimmy Jin/Unsplash

Команда исследователей Apple представила новую систему искусственного интеллекта под названием ReALM (Reference Resolution As Language Modeling). Она способна понимать неоднозначные ссылки на объекты на экране, а также учитывать разговорный и контекстный фон, что позволяет более естественно взаимодействовать с голосовыми помощниками.

Что известно

ReALM использует большие языковые модели для преобразования сложной задачи разрешения экранных ссылок в задачу языкового моделирования. Этот подход показал существенный прирост производительности по сравнению с существующими методами.

"Способность понимать контекст, включая ссылки, критически важна для разговорного ассистента", — отмечают исследователи Apple. Они продемонстрировали, что ReALM превосходит даже GPT-4 в решении этой задачи.

Ключевой инновацией ReALM является реконструкция экрана в текстовое представление, передающее визуальную схему и местоположение объектов. Это в сочетании с тонкой настройкой языковых моделей обеспечило значительные улучшения в разрешении экранных ссылок.

Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников-2
ReALM понимает ссылки на экранные объекты, что позволяет более естественно взаимодействовать с голосовыми помощниками

Исследование подчеркивает потенциал специализированных языковых моделей для решения конкретных задач в производственных системах, где использование огромных сквозных моделей затруднительно. Публикация Apple сигнализирует о ее продолжающихся инвестициях в повышение удобства использования Siri и других продуктов.

Однако авторы предупреждают, что автоматический анализ экранов имеет ограничения. Более сложные визуальные задачи, вероятно, потребуют компьютерного зрения и мультимодальных подходов.

В то время как конкуренты активно внедряют генеративный ИИ, Apple пытается сократить отставание в этой быстро развивающейся области. Ожидается, что на предстоящей конференции WWDC компания представит новые функции на базе больших языковых моделей и искусственного интеллекта.

Источник: VentureBeat

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

ИИ-бот с открытым исходным кодом ворует криптовалюты

Боты на основе искусственного интеллекта (ИИ) стали крайне популярны среди криптотрейдеров. Однако эти умные помощники не так безобидны: эксперты по кибербезопасности обнаружили ИИ-бота,...

DeepCool представила корпус CH160 для плат Mini-ITX

Компания DeepCool анонсировала поступление в продажу корпуса CH160 для материнских плат формата Mini-ITX. Как подчёркивает вендор, он подойдёт для сборки мощного игрового компьютера, а...

Около половины пресейлов на базе Solana оказались скамом

Более 40% проектов в экосистеме Solana прекратили дальнейшее развитие спустя месяц после проведения пресейла. К такому выводу пришел независимый ончейн-аналитик ZachXBT. Эксперт...