Новый «мозг» для голосовых ассистентов. Meta представила Voicebox AI – инструмент, способный генерировать устную речь на основе текстовых подсказок

Новая генеративная модель Meta могла бы сделать голосовых ассистентов умнее и эффективнее, однако компания пока не делится программой или ее исходным кодом.

Курс Управління командою в бізнесі. Щоби бути лідером, треба думати, як лідер. Хочу на курс

Voicebox AI работает по похожей на ChatGPT и Dall-E модели, однако генерирует не текст или изображение, а устную речь. Система обучена на 50 000 часах нефильтрованного аудио – это стенограммы общедоступных аудиокниг, записанных на английском, французском, испанском, немецком, польском и португальском языках.

По словам исследователей, такой разнообразный набор данных позволяет системе генерировать «более разговорную речь», независимо от языков, на которых говорит каждая из сторон.

«Наши результаты показывают, что модели распознавания речи, обученные на синтетической речи, сгенерированной Voicebox, работают почти так же хорошо, как и модели, обученные на реальной речи», – говорят в Meta.

Компания утверждает, что Voicebox превосходит VALL-E от Microsoft по преобразованию текста в язык как с точки зрения разборчивости (5,9% против 1,9% частоты ошибок в слове), так и сходства аудио (0,580% против 0,681%), будучи при этом в 20 раз быстрее.

Среди других полезных функций Voicebox – возможность редактировать аудио, устранять шумы и даже менять неправильно сказанные слова.

«Человек может определить, какой необработанный сегмент речи искажен шумом (например, лай собаки), обрезать его и дать команду модели обновить этот сегмент», — говорят исследователи.

Meta говорит, что использует новый метод обучения синтезу речи «с нуля» под названием Flow Matching. Пока доступны только исследовательская статья и аудиопримеры – ни программа Voicebox, ни ее исходный код пока не обнародованы, что Meta объясняет «потенциальными рисками неправильного использования».

Курс GAME DESIGN Дізнайтесь все про розробку ігор. Ставайте справжнім геймдевелопером! Вивчити курс

Исследователи надеются, что в будущем эта технология может использоваться для протезирования пациентов с повреждением голосовых связок, игровых NPC и цифровых помощников.

  • Напомним, что в январе Meta выпустила свою языковую модель ИИ LLaMA — как пакет с открытым исходным кодом, доступ к которому могут получить члены ИИ-сообщества. Однако через неделю после того, как компания начала принимать запросы, торрент для загрузки языковой модели появился на сайте 4chan, а впоследствии распространился в других сообществах.
  • Также Meta создала SAM — ИИ-модель сегментации изображений, которая может реагировать на пользовательские подсказки (текстовые или указанные курсором), чтобы идентифицировать определенные объекты на изображении или видео; и предлагает разработчикам открытый код и набор данных из 180 000 изображений к ИИ-проекту Animated Drawings, который поможет анимировать обычные рисунки.
Подписывайтесь на новости AIcybernews.com в Twitter и Facebook

Другие новости

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Актуально

Последние новости

Состоится ли сезон альткоинов в IV квартале года

Блогер Coin22 выпустил подробный разбор ситуации на крипторынке в преддверии последнего квартала 2025 года. Главная тема — возможен ли альтсезон в привычном понимании...

Huawei готовит ультратонкий смартфон с eSIM и версией на 2 ТБ

Иллюстративное изображение. Источник: ШІ ...

На підході NVMe-накопичувачі Goodram Core з підтримкою PCI Express 5.0

Модельний ряд твердотілих накопичувачів від польської компанії Wilk Elektronik поповнився лінійкою NVMe SSD з лаконічною назвою Goodram Core. Вона представлена пристроями формату M.2 2280...

World глазами Альтмана

Тренд на криптоказначейства обогатился первым добавлением на баланс токена Worldcoin (WLD). Работающая в сфере логистики публичная компания Eightco поставила своей целью оцифровать идентичность...

Польша ужесточает крипторегулирование

Сейм Польши одобрил «Закон о рынке криптоактивов», который вводит регулирование индустрии....