Tencent представила свою Sora с открытым кодом — ИИ-генератор видео HunyuanVideo
Раздел Технологии выходит при поддержке
Почти год назад общее внимание привлек генеративный ИИ Sora от OpenAI, который создает реалистичные видео. Tencent анонсировала более открытую модель HunyuanVideo.
HunyuanVideo — первая крупная модель создания видео с открытым кодом вывода и весовыми коэффициентами, доступными для всех. Tencent утверждает, что модель может создавать видео, сопоставимые с ведущими закрытыми моделями — с высоким качеством изображения, разнообразием движений, соответствием текста и видео и стабильностью генерации. Имея более 13 миллиардов параметров, это самая большая среди всех моделей генерации видео с открытым кодом.
Happy to share that our team at Tencent open-sources a 13B parameter video generation model
Web Page: https://t.co/v6qQprYFUJ
GitHub: https://t.co/fSaO8gMT4W pic.twitter.com/ZHjzwnz9fw— chenyangqi (@chenyangqi1) 3 декабря 2024
Tencent проверила модель с помощью профессиональной оценки людьми. Согласно объявленным результатам, HunyuanVideo превосходит ведущие современные модели с закрытым кодом.
Вместо того чтобы использовать отдельные модели генерации текста, изображений и видео, Tencent использовала технику разделения и объединения для достижения лучшего качества видео:
«HunyuanVideo представляет дизайн Transformer и использует механизм Full Attention для унифицированного создания изображений и видео. В частности, мы используем гибридную модель «Два потока к одному» для создания видео. На фазе двойного потока видео и текстовые маркеры обрабатываются независимо через несколько блоков Transformer, что позволяет каждой модальности изучать собственные соответствующие механизмы модуляции без помех. На этапе единого потока мы объединяем видео и текстовые токены и подаем их в следующие блоки Transformer для эффективного слияния мультимодальной информации. Этот дизайн фиксирует сложные взаимодействия между визуальной и семантической информацией, повышая общую производительность модели».
Tencent заявляет, что открытая публикация кода и «весов» базовой модели и ее приложений сделана с целью преодолеть разрыв между базовыми моделями видео с закрытым и открытым кодом. Инициатива способствует доступности создания качественных видео на основе искусственного интеллекта. На Huggingface можно больше узнать о проекте, официальный сайт HunyuanVideo содержит демонстрации видео, а код доступен на GitHub.
Tencent показала ШІ GameGen-O для створення ігор — модель навчали на The Witcher 3, GTA V та Cyberpunk 2077
Источник: NeoWin
Раздел Технологии выходит при поддержке
Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.