Новости 02.12.2019

Плавно и выразительно

Плавно и выразительно
Новейший синтез речи обеспечивает плавность и выразительность прочтения любого текста на целевом языке — это его главное преимущество
pwa.cryptofans.ru

Национальный чемпион ГК ЦРТ (входит в экосистему Сбербанка) представил третье поколение синтеза речи. Презентация технологии состоялась в Санкт-Петербурге, сообщает пресс-служба компании.

Новейший синтез речи обеспечивает плавность и выразительность прочтения любого текста на целевом языке — это его главное преимущество. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. В технологии также есть модуль предсказания ударений в словах, которых еще нет в базовом словаре синтеза, а также автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.

По результатам опроса населения, который проводился с помощью специализированных систем в анонимном режиме, качество синтеза получило оценку 4,7 балла по пятибалльной шкале. Для сравнения использовались системы синтеза речи от основных конкурентов и живой человек.

Для высококачественного синтеза теперь не требуются дорогостоящие серверы. Использовать технологию можно двумя способами — через облачный сервис или встроив в свое решение. В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений и любой текст может быть синтезирован в процессе звонка.

«Группа компаний ЦРТ соединяет в себе разработчика с сильнейшей научной базой и интегратора, ежегодно внедряющего свои решения в сотни компаний в России и за рубежом. Новые технологии тут же начинают использоваться в наших продуктах и решениях. Мы тесно взаимодействуем с нашими клиентами и хорошо знаем их потребности. В третьем поколении мы реализовали запрос на естественность», — говорит директор научно-исследовательского департамента ЦРТ Кирилл Левин.

В следующей же итерации специалисты ГК ЦРТ планируют реализовать возможность управлять спектром эмоций синтезированного голоса.

«Напрямую эмоциями сейчас не может управлять никто, — рассказал “Стимулу” менеджер проекта “Синтез речи” Сергей Фомин. — У нас нет эмоциональной окраски, есть интонации, перенос фразового ударения и первые варианты стилей произношения (они могу включать в себя эмоции). Интонации, перенос фразового ударения и стили — это наши внутренние разработки. Мы предсказываем интонационные контуры в тексте, не опираясь на знаки препинания, и в соответствии с ними синтез генерирует интонацию. То же самое с фразовым ударением».

По словам Сергея Фомина, стили — это немного другая технология: «Тут мы предлагаем синтезу попробовать следовать некоторому референсному направлению. Синтез пытается сгенерировать голос с учетом этих воздействий. Воздействия получаются комплексные, и результаты могут включать в себя интонации, эмоции, другую скорость произношения и так далее. Цель — получить набор стилей, используемых в речи людей».


Наверх