Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников

Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников
Jimmy Jin/Unsplash

Команда исследователей Apple представила новую систему искусственного интеллекта под названием ReALM (Reference Resolution As Language Modeling). Она способна понимать неоднозначные ссылки на объекты на экране, а также учитывать разговорный и контекстный фон, что позволяет более естественно взаимодействовать с голосовыми помощниками.

Что известно

ReALM использует большие языковые модели для преобразования сложной задачи разрешения экранных ссылок в задачу языкового моделирования. Этот подход показал существенный прирост производительности по сравнению с существующими методами.

"Способность понимать контекст, включая ссылки, критически важна для разговорного ассистента", — отмечают исследователи Apple. Они продемонстрировали, что ReALM превосходит даже GPT-4 в решении этой задачи.

Ключевой инновацией ReALM является реконструкция экрана в текстовое представление, передающее визуальную схему и местоположение объектов. Это в сочетании с тонкой настройкой языковых моделей обеспечило значительные улучшения в разрешении экранных ссылок.

Исследователи Apple разрабатывают передовую систему ИИ для улучшения голосовых помощников-2
ReALM понимает ссылки на экранные объекты, что позволяет более естественно взаимодействовать с голосовыми помощниками

Исследование подчеркивает потенциал специализированных языковых моделей для решения конкретных задач в производственных системах, где использование огромных сквозных моделей затруднительно. Публикация Apple сигнализирует о ее продолжающихся инвестициях в повышение удобства использования Siri и других продуктов.

Однако авторы предупреждают, что автоматический анализ экранов имеет ограничения. Более сложные визуальные задачи, вероятно, потребуют компьютерного зрения и мультимодальных подходов.

В то время как конкуренты активно внедряют генеративный ИИ, Apple пытается сократить отставание в этой быстро развивающейся области. Ожидается, что на предстоящей конференции WWDC компания представит новые функции на базе больших языковых моделей и искусственного интеллекта.

Источник: VentureBeat

Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

Главный дизайнер Mercedes-Benz Горден Вагенер покидает компанию

Горден Вагенер, главный дизайнер Mercedes-Benz AG, с концептом Vision EQXX в 2022 году. Источник: Mercedes-Benz ...

Почему застрял биткоин

Рынок криптовалют снаружи кажется спокойным, но внутри напряжение растет. Инфляция в...

Найкращі подарунки для геймера на 2026 рік: що цікавого підготувала ASUS

На правах реклами Підібрати подарунок геймеру — завдання не з простих. У когось вже є топовий комп’ютер, хтось женеться за максимальними FPS, а комусь...

Прибыль основных держателей биткоина обвалилась до месячного минимума

Динамика стоимости биткоина в ходе последних торговых сессий характеризуется значительной волатильностью и попытками восстановления. Несмотря на локальный отскок после кратковременного снижения, рыночный импульс остается...