Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников

Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников
Jimmy Jin/Unsplash

Команда исследователей Apple представила новую систему искусственного интеллекта под названием ReALM (Reference Resolution As Language Modeling). Она способна понимать неоднозначные ссылки на объекты на экране, а также учитывать разговорный и контекстный фон, что позволяет более естественно взаимодействовать с голосовыми помощниками.

Что известно

ReALM использует большие языковые модели для преобразования сложной задачи разрешения экранных ссылок в задачу языкового моделирования. Этот подход показал существенный прирост производительности по сравнению с существующими методами.

"Способность понимать контекст, включая ссылки, критически важна для разговорного ассистента", — отмечают исследователи Apple. Они продемонстрировали, что ReALM превосходит даже GPT-4 в решении этой задачи.

Ключевой инновацией ReALM является реконструкция экрана в текстовое представление, передающее визуальную схему и местоположение объектов. Это в сочетании с тонкой настройкой языковых моделей обеспечило значительные улучшения в разрешении экранных ссылок.

Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников-2
ReALM понимает ссылки на экранные объекты, что позволяет более естественно взаимодействовать с голосовыми помощниками

Исследование подчеркивает потенциал специализированных языковых моделей для решения конкретных задач в производственных системах, где использование огромных сквозных моделей затруднительно. Публикация Apple сигнализирует о ее продолжающихся инвестициях в повышение удобства использования Siri и других продуктов.

Однако авторы предупреждают, что автоматический анализ экранов имеет ограничения. Более сложные визуальные задачи, вероятно, потребуют компьютерного зрения и мультимодальных подходов.

В то время как конкуренты активно внедряют генеративный ИИ, Apple пытается сократить отставание в этой быстро развивающейся области. Ожидается, что на предстоящей конференции WWDC компания представит новые функции на базе больших языковых моделей и искусственного интеллекта.

Источник: VentureBeat

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

Toyota RAV4 лишил Tesla Model Y титула самого продаваемого автомобиля в мире

Toyota RAV4 пятого поколения (европейская версия). Источник: Toyota ...

Аналитики указали на усталость биткоин-инвесторов

Курс биткоина с мая удерживается в зоне консолидации, но без возобновления...

Инсайдеры опубликовали размеры и рендеры Samsung Galaxy Z Fold7 и Z Flip7

Размеры Samsung Galaxy Fold7 и Flip7 просочились накануне презентации. Источник: Samsung ...

Аналитик Bloomberg прогнозирует скорый запуск спотовых Solana-ETF

Компании REX Shares и Osprey Funds подали обновленный проспект по своему...

DJI анонсировала FlyCart 100 — грузовой дрон за $12 500 с системой парашюта

Грузовой дрон DJI FlyCart 100 с дальностью до 26 км стоит $12 500. Источник: DJI ...