NVIDIA Omniverse Avatar — новая платформа для создания интерактивных 3D-аватаров на базе ИИ
Сегодня в рамках осенней конференции GTC 2021 компания NVIDIA также анонсировала технологическую платформу для создания интерактивных аватаров искусственного интеллекта NVIDIA Omniverse Avatar. Данное решение объединяет технологии компании в области речевого ИИ, компьютерного зрения, понимания естественного языка, систем рекомендаций и технологий моделирования. Аватары, созданные на платформе, представляют собой интерактивные персонажи с 3D графикой на базе трассировки лучей, которые могут видеть, говорить, разговаривать на разные темы и понимать высказанные намерения собеседника.
В компании считают, что Omniverse Avatar открывает двери для создания умных помощников, которых легко настраивать практически для любой отрасли. Это может помочь в миллиардах ежедневных взаимодействий с клиентами — заказами в ресторане, банковскими операциями, назначением личных встреч, бронированием и т. д., что ведет к расширению деловых возможностей и повышению удовлетворенности клиентов.
«Наступило время умных виртуальных помощников, — говорит Дженсен Хуанг, основатель и генеральный директор NVIDIA. — Omniverse Avatar сочетает в себе основные технологии графики, моделирования и искусственного интеллекта от NVIDIA, позволяя создавать сложнейшие приложения, работающие в реальном времени. Сценарии использования готовых к сотрудничеству роботов и виртуальных помощников невероятны и перспективны».
Omniverse Avatar является частью NVIDIA Omniverse, платформы для совместной работы в виртуальной среде и моделирования для рабочих процессов 3D. В своем выступлении на конференции NVIDIA GTC Дженсен поделился различными примерами Omniverse Avatar: Project Tokkio для поддержки клиентов, NVIDIA DRIVE Concierge для умных сервисов в транспорте и Project Maxine для видеоконференцсвязи.
На первой демонстрации Project Tokkio Дженсен показал коллег, беседующих на такие темы, как биология и изучение климата, с аватаром Toy Jensen, созданным как игрушечная копия его самого. Во второй демонстрации Project Tokkio он показал аватар службы поддержки клиентов в ресторане, который мог видеть, разговаривать и понимать двух клиентов, когда они заказывали вегетарианские гамбургеры, картофель фри и напитки. Демонстрации проводились на базе программного обеспечения NVIDIA для ИИ и Megatron 530B — крупнейшей в мире настраиваемой языковой модели.
В демонстрации платформы DRIVE Concierge AI цифровой помощник на экране центральной приборной панели помогает водителю выбрать режим вождения, чтобы вовремя добраться до пункта назначения, а затем следует его запросу, чтобы установить напоминание, когда до цели останется менее 100 миль.
Дженсен также продемонстрировал способность Project Maxine добавлять современные видео и аудио функции в приложения для виртуального сотрудничества и создания контента. Во время видеовызова женщина находится в шумном кафе, но ее слышно без фонового шума. Ее слова транскрибируются и переводятся в реальном времени на немецкий, французский и испанский языки с тем же голосом и интонацией.
Omniverse Avatar использует элементы речевого ИИ, компьютерного зрения, понимания естественного языка, механизмов рекомендаций, лицевой анимации и графики, получаемые с помощью следующих технологий:
- Распознавание речи основано на пакете разработки программного обеспечения NVIDIA Riva, который распознает речь на нескольких языках. Riva также используется для генерации речевых ответов с использованием возможностей преобразования текста в речь.
- Понимание естественного языка основано на большой языковой модели Megatron 530B, которая может распознавать, понимать и генерировать человеческий язык. Megatron 530B — это предварительно обученная модель, которая может при небольшом обучении или без него составлять полные предложения, отвечать на вопросы большой предметной области, резюмировать длинные сложные истории, переводить на другие языки и работать во многих других областях, для которых она специально не обучена.
- Механизм рекомендаций основан на фреймворке NVIDIA Merlin, который позволяет компаниям создавать рекомендательные системы глубокого обучения, способные обрабатывать большие объемы данных, чтобы делать более подходящие предложения.
- Возможности восприятия базируются на фреймворке компьютерного зрения для видеоаналитики NVIDIA Metropolis.
- В основе анимации аватара лежат технологии 2D и 3D лицевой анимации и рендеринга на основе искусственного интеллекта NVIDIA Video2Face и Audio2Face.
Эти технологии объединены в приложение и обрабатываются в реальном времени с помощью фреймворка NVIDIA Unified Compute Framework. Упакованные в виде масштабируемых настраиваемых микросервисов эти навыки можно разворачивать и ими можно управлять в разных локациях с помощью NVIDIA Fleet Command.
Источник: NVIDIA