Сразу же ставшая притчей во языцех публикация о серьезных успехах, достигнутых на этом специфическом ИИ-направлении, появилась в корпоративном блоге OpenAI 29 марта.
В ней сообщается, что Voice Engine использует один-единственный 15-секундный исходный аудиосэмпл для последующей генерации «естественной речи, очень похожей на голос оригинального говорящего». Разработчики также акцентируют внимание на том, что эта «небольшая модель» (о ее реальных технических характеристиках пока практически ничего не известно) на базе таких коротких звуковых фрагментов «может создавать очень эмоциональные и реалистичные голоса».
По утверждению компании, OpenAI разработала технологию Voice Engine еще в конце 2022 года, ее базовая версия с предустановленными (а не клонированными) голосами уже представлена в двух разновидностях: режим разговорного общения (spoken conversation mode) в приложении ChatGPT, выпущенном в сентябре, и API OpenAI для преобразования текста в речь (text-to-speech API), официально дебютировавший в ноябре прошлого года.