Инновации 2 апреля 2024

Это точно ты?

Компания OpenAI анонсировала предварительные результаты тестирования своей передовой модели речевого клонирования Voice Engine. Если верить разработчикам, она может убедительно воспроизвести практически любой человеческий голос

Компания OpenAI разработала технологию Voice Engine еще в конце 2022

decrypt.co

Сразу же ставшая притчей во языцех публикация о серьезных успехах, достигнутых на этом специфическом ИИ-направлении, появилась в корпоративном блоге OpenAI 29 марта.

В ней сообщается, что Voice Engine использует один-единственный 15-секундный исходный аудиосэмпл для последующей генерации «естественной речи, очень похожей на голос оригинального говорящего». Разработчики также акцентируют внимание на том, что эта «небольшая модель» (о ее реальных технических характеристиках пока практически ничего не известно) на базе таких коротких звуковых фрагментов «может создавать очень эмоциональные и реалистичные голоса».

По утверждению компании, OpenAI разработала технологию Voice Engine еще в конце 2022 года, ее базовая версия с предустановленными (а не клонированными) голосами уже представлена в двух разновидностях: режим разговорного общения (spoken conversation mode) в приложении ChatGPT, выпущенном в сентябре, и API OpenAI для преобразования текста в речь (text-to-speech API), официально дебютировавший в ноябре прошлого года.

Причем, как следует из комментариев ряда СМИ, первоначально OpenAI планировала запустить пилотную программу для разработчиков, предусматривающую возможность платной подписки на API Voice Engine еще в начале марта этого года.

Однако после того, как компания «более тщательно обдумала возможные этические последствия», ее руководство приняло решение пока умерить свои большие коммерческие амбиции.

Руководство OpenAI прекрасно понимает, что при широком распространении этой технологии могут, мягко говоря, возникнуть серьезные проблемы, и одна из самых очевидных — ее возможное использование для телефонного мошенничества, поэтому на начальном этапе тестирования компания пытается купировать их при помощи неких «специальных правил использования». И, как, в частности, отмечается в статье издания Ars Technica, «по сути, компания оперативно перекалибровала свою глобальную маркетинговую политику, чтобы выглядеть так, словно теперь она ответственно предупреждает всех нас о возможных рисках использования этой технологии».

thetechoutlook.com

Помочь кормящим матерям

С конца прошлого года OpenAI в приватном порядке отрабатывает эту технологию с рядом «тщательно отобранных компаний-партнеров». Среди тех, кто получил пробный доступ к умному движку Voice Engine, в блоге OpenAI названы образовательная технологическая компания Age of Learning, платформа для создания аудиовизуальных историй HeyGen, производитель ПО для оказания различных медицинских услуг Dimagi, специализированная некоммерческая сеть Lifespan Health System, также предоставляющая помощь в медицинском обслуживании и поддержку пациентам, и разработчик коммуникационных мобильных приложений Livox.

В блоге OpenAI по вполне понятным коммерческим мотивам на передний план выводятся различные потенциальные полезные функции инновационной голосовой технологии, но авторы не забыли и о ее темной стороне, представив свои общие комментарии и рекомендации на сей счет.

Примеры же возможного использования компаниями-партнерами этой взрывоопасной технологии «в мирных целях» приводятся многочисленные. В частности, это чтение вслух различных текстов, то есть их озвучивание при помощи «естественных голосов»; обеспечение глобального охвата создателей аудиовизуального контента путем его автоматизированного перевода на различные языки с воспроизведением оригинального акцента; поддержка немых людей путем предоставления им персонализированных возможностей озвучивания и помощь пациентам в восстановлении их собственного голоса после перенесенных тяжелых заболеваний, приведших к ухудшению или полной потере речи.

Далее разработчики упоминают показательные тестовые эксперименты, проведенные с Voice Engine.

Компания Age of Learning, специализирующаяся на образовательных технологиях и «заботящаяся об успехе детей в учебе», использовала эту технологию для создания заранее записанного голосового контента. Эта компания также комбинировала Voice Engine и GPT-4 для создания персонализированных ответов в реальном времени во время онлайн-взаимодействия с учениками (впрочем, из этого общего описания не слишком понятно, зачем в данном случае использовать именно клонированные голоса).

Другим энтузиастом модели Voice Engine стала аудиовизуальная интернет-платформа HeyGen, которая «работает со своими корпоративными клиентами над созданием кастомизированных человекоподобных аватаров для разнообразного контента — от маркетинга продукции до демонстрационных продажных презентаций». HeyGen использовала Voice Engine для аутентичного перевода на различные языки своих видеороликов с целью «охватить глобальную аудиторию».

Компания Dimagi, разрабатывающая ПО для работников здравоохранения на местах (в частности, в отдаленных регионах Кении), клонировала «знакомые голоса», для того чтобы с их помощью оказывать различные полезные медицинские услуги, в том числе консультации кормящим матерям.

Компания Livox при помощи специального приложения для «дополняющей альтернативной коммуникации» (Augmentative & Alternative Communication) на базе ИИ, используя Voice Engine, смогла предложить немым (в оригинале «невербальным») людям на выбор «уникальные и нероботизированные голоса на многих языках».

И наконец, Институт нейронаук им. Нормана Принса (Norman Prince Neurosciences Institute) в сети Lifespan, которая является основным филиалом медицинской школы Университета Брауна, изучает возможности использования ИИ в клинических условиях. Институт провел пилотную программу, в которой Voice Engine использовался для помощи пациентам с онкологическими или неврологическими заболеваниями, приведшими к нарушениям речи.

Отметим, что представленные разработчиками движка Voice Engine несколько демообразцов с записями оригинальных голосов и их клонированных версий на слух действительно звучат практически одинаково, хотя, конечно, проверить их реальное соответствие этим двум категориям не представляется возможным.

Рекомендовано OpenAI

Впрочем, все эти потенциальные достоинства технологии речевого клонирования от OpenAI, разумеется, не могут служить убедительными доводами в пользу дальнейшего быстрого массового ее внедрения.

Если эта технология действительно настолько эффективна, как ее описывают создатели, в теории любой человек, получивший короткий аудиообразчик «целевого» голоса, сможет успешно клонировать его и далее использовать в своих корыстных целях.

Причем помимо уже упоминавшихся телефонных мошенников, очевидную опасность представляет возможная подделка голосов известных политиков и прочих знаменитостей.

Так, в публикации влиятельного арабского новостного агентства Al Jazeera, посвященной анонсу голосового движка от OpenAI, обращается особое внимание на тот факт, что «активное злоупотребление искусственным интеллектом уже стало одной из главных проблем в преддверии выборов, которые пройдут в этом году в странах, где проживает около половины населения Земли… Избиратели более чем 80 стран, включая Мексику, Южную Африку и США, придут на избирательные участки в 2024 году».

Если технология действительно настолько эффективна, как ее описывают создатели, в теории любой человек, получивший короткий аудиообразчик «целевого» голоса, сможет успешно клонировать его и далее использовать в своих корыстных целях

Кроме того, технология голосового клонирования может быть использована для получения доступа к банковским счетам, использующим голосовую аутентификацию. Так, американский сенатор Шеррод Браун, председатель комитета Сената США по банковским, жилищным и городским делам, еще в мае 2023 года направил письмо руководителям нескольких крупных банков с запросом о мерах безопасности, которые они принимают для противодействия новым рискам, создаваемым ИИ.

И эта щекотливая тема отдельно упоминается в рекомендациях самих разработчиков Voice Engine, которые прежде всего настоятельно советуют всем кредитно-финансовым учреждениям, использующим голосовую идентификацию, срочно отказаться от нее.

Среди прочих мер и благих пожеланий также значатся формальные условия использования Voice Engine: каждая компания — партнер OpenAI должна предварительно согласиться соблюдать ряд исходных требований, в том числе запрет «выдавать себя за другого человека или организацию без их согласия», получить официальное разрешение на использование голосового контента от всех людей, чьи голоса будут клонироваться, и т. п. Наконец, в качестве наиболее технологичной защитной меры разработчики встраивают в каждый образец клонируемого голоса специальный «водяной знак», который поможет в дальнейшем отследить его исходное происхождение.

Темы: Инновации