ИИ слушает и понимает

Национальная технологическая инициатива поддержала проект «Нейроухо» национального чемпиона — Центра речевых технологий. Суть проекта — анализ звуковой среды с помощью искусственного интеллекта
ИИ слушает и понимает
Иллюстрация: Алексей Таранин

Российский разработчик голосовой биометрии «ЦРТ-инновации», дочерняя компания Центра речевых технологий, получил от Национальной технологической инициативы (НТИ) грант на 270 млн рублей на создание технологии анализа звуковой среды с помощью искусственного интеллекта (ИИ) — проект «Нейроухо». Об этом сообщила пресс-служба НТИ.

Инвестиции будут направлены на создание алгоритмов машинного слуха для искусственного интеллекта, позволяющих ему слышать и понимать широкий спектр событий звукового окружения. Одна из главных задач, которые ставят перед собой разработчики, — возможность идентификации звуковых событий и сцен в сложных акустических условиях, в том числе автоматической текстовой расшифровки «речевого коктейля» — сильно зашумленного аудиосигнала, записанного в условиях наложения голосов.


Прототип нейроуха

В основу проекта легли технологии машинного слуха — совокупность методов, использующих программное и аппаратное обеспечение для извлечения информации из аудиосигналов.

Использование теоретических данных в совокупности с нейросетевыми методами глубокого машинного обучения (deep learning) позволят сформировать единую компьютерную нейрокогнитивную модель восприятия звуковой информации, способную к автоматическому саморазвитию и обучению, в том числе в системах искусственного интеллекта.

magnifier (1).png Одна из главных задач — возможность идентификации звуковых событий и сцен в сложных акустических условиях, в том числе автоматической текстовой расшифровки «речевого коктейля»

К 2020 году авторы проекта создадут технологическую платформу, на основе которой будут разработаны нейроассистенты, определяющие звуковые события и переводящие аудиоинформацию в текстовую форму. К числу таких событий относятся неречевые (например, звуки чрезвычайных ситуаций, бытовые шумы) и речевые сообщения. Технология может быть использована в сфере медицины, робототехники, городской безопасности, мониторинговых решений для умного дома.

Новая технология позволит устройствам слышать, что происходит вокруг, а при наличии нехарактерных шумов система будет рассылать уведомления или управлять видеокамерами. Еще она должна научиться распознавать пол и возраст.

Весь проект голосовой биометрии стоит 390 млн рублей. Поскольку НТИ дает средства с условием частных инвестиций в размере 30%, сам ЦРТ вложит в «Нейроухо» 120 млн рублей. Разработчики рассчитывают, что проект окупится к 2022 году, а в 2024-м принесет выручку в два миллиарда рублей. При этом специалисты считают, что предоставленных средств хватит только на прототип, а промышленная реализация потребует новых инвестиций.

magnifier (1).png Первым серьезным заказом фирмы стала работа для Всероссийского общества слепых: «говорящая клавиатура». Потом для того же ВОС было разработано устройство коррекции скорости воспроизведения «звуковых газет»

Это не первый крупный грант, полученный Центром речевых технологий. В конце прошлого года сообщалось, что компания выиграла конкурс Минпромторга в рамках госпрограммы «Развитие электронной и радиоэлектронной промышленности на 2013–2025 годы» на грант в размере 250 млн рублей. Разработка должна помочь докторам избавиться от больших объемов бумажной работы, так как новая система позволит наговаривать анамнез и назначения в микрофон. Система будет полностью готова к 2020 году.


Чемпионская история

Компания ЦРТ была создана в 1990 году. Основатель фирмы Михаил Хитров в то время работал инженером в НПО «Дальняя связь», которое в советские времена занималось разработками в области речи, сотрудничая в основном с КГБ и Министерством обороны. В то время многие сотрудники многочисленных НИИ и НПО уходили в частный сектор, пытаясь вложить свои образование и талант в собственное дело. Таким же образом образовалась группа сотрудников, назвавшая себя Центром речевых технологий.

Первым серьезным заказом фирмы стала работа для Всероссийского общества слепых: «говорящая клавиатура» для незрячих. Потом для того же ВОС было разработано устройство коррекции скорости воспроизведения «звуковых газет». В тот же период, в начале 1990-х, появился один из самых популярных продуктов ЦРТ — «Аллегро», система автоматизированного документирования устных выступлений. По заказу МВД компания разработала инструментальный комплекс криминалистических исследований фонограмм речи.

ЦРТ несколько раз принимал участие в расшифровке речевой информации, записанной в «черных ящиках» потерпевших аварию самолетов, в разработке цифровых магнитофонов для «черных ящиков».

В 2009 году ЦРТ становится победителем Конкурса русских инноваций в номинации «Инновационная компания» с проектом «Технология идентификации по голосу Voice Key».

magnifier (1).png Большой пласт потребителей — компании банковского сектора. Один из проектов ЦРТ — разработка системы удаленной бимодальной (по голосу и изображению) верификации для одного из крупнейших банков США

В последние годы компания начала проникать на рынок коммерческих заказов. Клиентами ЦРТ становятся колл-центры и крупные компании, которые могут позволить себе речевой хайтек. Например, по заказу РЖД питерцы разработали программу обучения диспетчеров железной дороги.

Сегодня компания известна как разработчик многих серийных технологий на стыке лингвистики, математики и IT. Это и программные решения, и техника — диктофоны, системы записи телефонных переговоров.

Большой пласт потребителей — компании банковского сектора. Один из проектов ЦРТ — разработка системы удаленной бимодальной (по голосу и изображению) верификации для одного из крупнейших банков США.

Международные амбиции ЦРТ в свое время заметил иностранный инвестор: фонд Quadriga Европейского банка реконструкции и развития вошел в его капитал в 2003 году. В 2011-м фонд продал свою долю Газпромбанку, а в 2013-м Газпромбанк выкупил у основателей оставшийся пакет акций.

В 2014 году ЦРТ впервые в России разработал технологию автоматических субтитров на основе распознавания речи. В 2015-м компания (уже не в первый раз) была удостоена почетной и престижной в профессиональной среде премии Speech Industry Awards за инновационную разработку VoiceKey.WebAccess, позволяющую пользователям получать доступ к веб-приложениям, корпоративным сетям или банковским счетам, используя технологию идентификации по голосу и лицу.

magnifier (1).png ЦРТ входит в рейтинг «ТехУспех» и в прошлом году попала в формируемый на основе рейтинга элитный список приоритетного проекта Минэкономразвития РФ «Национальные чемпионы»

В 2011 году Центр речевых технологий создал дочернюю компанию - «ЦРТ-инновации», которая является резидентом инновационного центра «Сколково» и передовым разработчиком голосовых и бимодальных биометрических систем.

Благодаря гранту фонда «Сколково» по инновационному проекту «Биометрические системы безопасности на основе искусственного интеллекта и речевых технологий» компания «ЦРТ-инновации» получила возможность вести разработку биометрических технологий аутентификации личности по голосу и лицу.

При поддержке Министерства образования и науки РФ «ЦРТ-инновации» приступила к развитию таких направлений, как речевая аналитика и распознавание речи в робототехнике. Совместно с Университетом ИТМО компания работает в области повышения качества распознавания русской речи в сложной акустической обстановке.

ЦРТ входит в рейтинг «ТехУспех» и в прошлом году попала в формируемый на основе рейтинга элитный список приоритетного проекта Минэкономразвития РФ «Национальные чемпионы».



Темы: Компания

Еще по теме