
На конференции NeurIPS AI в Сан-Диего, штат Калифорния, Nvidia анонсировала Alpamayo-R1 — открытую языковую модель визуального мышления. Она предназначена для для автопилотирования.
Подобные нейросети способны обрабатывать текст и изображения, позволяя транспортным средствам «видеть» окружение и принимать решения на основе полученной информации.
Новый инструмент основан на базе «рассуждающей» Cosmos-Reason. Nvidia выпустила семейство моделей Cosmos в январе, а в августе представила дополнительные решения.
«Предыдущие версии моделей автономного вождения испытывали трудности в сложных ситуациях — на перекрестках с большим количеством переходов, перед предстоящим закрытием полосы движения или у автомобиля, припаркованном в два ряда на велосипедной дорожке. Рассуждения дают автономным транспортным средствам здравый смысл, позволяющий водить на уровне человека», — отметили в фирме.
Технологии вроде Alpamayo-R1 имеют решающее значение для компаний, которые стремятся достичь четвертого уровня автономного вождения, говорится в блоге Nvidia.
Модель учитывает все возможные траектории, сценарии и затем использует контекстные данные для выбора оптимального маршрута.
Компания надеется, что новый инструмент придаст автономным средствам «здравый смысл», который позволит эффективнее принимать сложные решения в ходе вождения.
Модель загружена на GitHub и Hugging Face. Вместе с ней компания добавила пошаговые руководства, ресурсы для инференса и посттренировочные рабочие процессы. Весь инструментарий называется Cosmos Cookbook.
Материалы призваны помочь разработчикам лучше использовать и обучать нейросети под индивидуальные задачи.
Решения на базе Cosmos
Nvidia сообщила о «практически безграничных возможностях» приложений на основе Cosmos. Среди последних примеров компания назвала:
- LidarGen — первая в мире модель для генерации лидарных данных при симуляции автономных транспортных средств;
- Cosmos Policy — фреймворк для преобразования больших предварительно обученных видеомоделей в надежные политики роботов — набор правил, которые определяют их поведение;
- ProtoMotions3 — решение для обучения ботов с применением реалистичных сценариев.
Nvidia продвигает физический искусственный интеллект как новое направление для своих ИИ-процессоров. CEO компании Дженсен Хуанг неоднократно подчеркивал, что эта сфера станет следующей волной развития ИИ.
Чипмейкер делает ставку на сектор робототехники. В августе он выпустил новый модуль Jetson AGX Thor за $3499. Фирма называет процессор «мозгом робота».
В октябре Хуанг заявил, что искусственный интеллект достиг «спирали успеха». По его словам, значительные улучшения нейросетей приводят к увеличению инвестиций в технологию, что еще сильнее «прокачивает» направление.
Напомним, за третий квартал выручка Nvidia составила $57 млрд, что на 62% больше, чем за аналогичный период прошлого года.