OpenAI представила Voice Engine, модель генерации голоса по образцу — оказывается, ее уже слышали массовые пользователи
OpenAI представила результаты работы Voice Engine, инструмента для реалистичного синтеза голоса на основе 15-секундного образца и текста, которая разрабатывалась около двух лет. Но публичного доступа к нему нет — из-за очевидных опасений компании относительно безопасности.
«Мы надеемся начать диалог об ответственном применении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов этих небольших тестов мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в масштабе», — говорится в блоге OpenAI.
Модель генеративного искусственного интеллекта, которая работает с Voice Engine, некоторое время скрывалась на виду. Она лежит в основе голоса и возможности читать вслух у ChatGPT, а также предварительно настроенных голосов, доступных в API преобразования текста в язык OpenAI. Spotify также использует его с начала сентября, чтобы дублировать подкасты на разных языках.
Компания видит несколько путей применения технологии: оказание помощи тем, кто по каким-то причинам не может читать, перевод, предоставление голосовых услуг удаленным сообществам, поддержка людей с нарушениями голоса и помощь при его восстановлении. Примеры применения с семплами на нескольких языках также представлены в блоге.
Сайт TechCrunch спросил представителя компании Джеффа Харриса, на каких материалах обучали Voice Engine. Он ответил, что модель Voice Engine была обучена на смеси лицензированных и общедоступных данных. Детали обучения моделей искусственного интеллекта могут представлять как конкурентное преимущество, так и источник юридических проблем, поэтому отсутствие подробностей не удивляет. Voice Engine использует данные пользователя крайне осторожно:
«Мы берем небольшой образец аудио и текста и создаем реалистичную речь, которая соответствует оригинальному оратору, — говорит Харрис. — Используемое аудио удаляется после завершения запроса».
По данным сайта, цена будущей услуги будет «кусаться». OpenAI удалила цену использования Voice Engine из маркетинговых материалов, но в документах, которые просмотрел TechCrunch, указана стоимость $15 за один миллион символов, или ~162 500 слов на английском. Это немного больше, чем роман «Оливер Твист» Диккенса. Это означает примерно 18 часов аудио, то есть цена несколько ниже $1 в час.
Стоимость меньше, чем у одного из самых популярных конкурентов, ElevenLabs, — $11 за 100 000 символов в месяц. Интересно, что вариант с качеством HD стоит вдвое дороже, но, что представитель OpenAI сказал TechCrunch, что нет разницы между голосами HD и не HD — это можно понимать как угодно. Также Voice Engine не предлагает элементов управления тоном, высотой или другими характеристиками голоса.
Стоимость работы актера озвучивания на сервисе ZipRecruiter колеблются от $12 до $79 в час — это намного дороже, чем у Voice Engine. Актеры с агентами получат гораздо более высокую плату. Также возникает и проблема дипфейков. Поэтому компания пока движется очень осторожно, как с приведенными примерами использования.
Функция Personal Voice в iOS 17 — техноблогер Маркес Браунли показал ИИ-клонирование голоса в действии. Результат впечатляет и пугает одновременно
Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!