Nvidia представила генератор видео по текстовому описанию

AI_GAN-min

Компания Nvidia разработала нейросеть VideoLDM, генерирующую короткие и реалистичные видеоролики по текстовому описанию.

Алгоритм позволяет создавать анимации продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и частотой 24 FPS. Модель генерирует видео как по простым, так и сложным подсказкам.

В основе VideoLDM лежат наработки алгоритма Stable Diffusion. Согласно отчету, нейросеть учитывает 4,1 млрд параметров. Из них 2,7 млрд обучались на видео.

В компании заявили, что добились «значительного прогресса» в тренировке нейросети достаточно быстро. По словам разработчиков, VideoLDM стала генерировать детализированные и соответствующие описанию видео всего за месяц.

Разработчики опубликовали несколько примеров работы нейросети на своем сайте.

«Черепаха плавает в океане». Данные: Nvidia.

«Штурмовик пылесосит песчаный пляж». Данные: Nvidia.

«Одетая в костюм лисица танцует в парке». Данные: Nvidia.

«Лев стоит на серфборде в океане на закате, 4К, высокое разрешение». Данные: Nvidia.

«Две панды сидят за столом и играют в карты, 4К, высокое разрешение». Данные: Nvidia.

«Наливание пива в бокал под низким углом». Данные: Nvidia.

Модель также умеет генерировать сцены вождения. Такие ролики имеют разрешение 1024х512 пикселей продолжительностью до пяти минут.

VideoLDM может моделировать специфические сценарии вождения и прогнозировать поведение объектов на дороге. По словам разработчиков, это позволяет создавать реалистичные кадры.

Пример сгенерированной сцены вождения. Данные: Nvidia.

Опубликованная работа является участником конференции IEEE по компьютерному зрению и распознаванию образов, которая пройдет в Ванкувере с 18 по 22 июня. Неизвестно, планирует ли Nvidia выпускать алгоритм в публичный доступ.

Напомним, в апреле Meta представила инструмент для сегментации изображений и видео

В марте Microsoft выпустила предварительную версию Bing Image Creator.

Предыдущая статья

Семья Шумахера подаст в суд на таблоид за «ИИ-интервью»

Следующая статья

Microsoft отказалась платить $42 000 за API Twitter

0 0 голоса

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Nvidia представила генератор видео по текстовому описанию

Другие новости

Актуально

Microsoft Copilot: Дорогая игрушка для «развлечений», которая притворяется профессионалом

Главное — не потерять: представлен крошечный E-Ink-ридер Xteink X3 с магнитным креплением к смартфону

Экспансия на 500 миллиардов: как TSMC превращает Аризону в кремниевый центр мира

Legion Go 2 за $2000 — Lenovo резко подняла цены на свою портативную консоль

Последние новости

Главное — не потерять: представлен крошечный E-Ink-ридер Xteink X3 с магнитным креплением к смартфону

Экспансия на 500 миллиардов: как TSMC превращает Аризону в кремниевый центр мира

Microsoft Copilot: Дорогая игрушка для «развлечений», которая притворяется профессионалом

Legion Go 2 за $2000 — Lenovo резко подняла цены на свою портативную консоль

Свет в конце нейрона: как ученые научились «хакать» связи в мозге приматов