С ChatGPT теперь можно общаться голосом и картинками
В одном из крупнейших обновлений ChatGPT, OpenAI запустила два новых способа взаимодействия со своим приложением. Во-первых, ChatGPT получил голос. Стоит выбрать один из пяти синтетических голосов, и можно общаться с чат-ботом будто по телефону, получая ответы в режиме реального времени.
ChatGPT также добавила функцию распознавания изображений, это означает, что теперь можно загружать изображения в приложение и запрашивать его о том, что на них изображено, передает MIT Technologie Review.
Эти обновления дополняют объявление на прошлой неделе о том, что DALL-E 3, последнюю версию модели создания изображений OpenAI, подключат к ChatGPT и научат чат-бота генерировать изображения.
OpenAI анонсувала DALL-E 3 ─ інтеграція ChatGPT та покращені методи безпеки
Возможность разговаривать с ChatGPT базируется на двух отдельных моделях. Whisper, действующая модель преобразования речи в текст OpenAI, превращает голос в текст, который затем передает чат-боту. А новая модель преобразования текста в речь превращает ответы ChatGPT в произнесенные слова.
В демонстрационном ролике, который компания предоставила ограниченному числу журналистов на прошлой неделе, Джоанна Джанг, продакт-менеджер, продемонстрировала ассортимент синтетических голосов ChatGPT. Они были созданы путем обучения модели преобразования текста в речь на голосах актеров, которых наняла OpenAI. В будущем это может даже позволить пользователям создавать собственные голоса.
OpenAI делится этой моделью преобразования текста в речь с несколькими другими компаниями, включая Spotify, которая объявила, что использует ту же самую технологию синтетического голоса для перевода подкастов знаменитостей на несколько языков, что будут озвучены синтетическими версиями собственных голосов подкастеров.