Создан русско-татарский переводчик на основе нейросети

27.12.2018
Создан русско-татарский переводчик на основе нейросети
Старший научный сотрудник Института прикладной семиотики Академии наук республики Айдар Хусаинов
ojs.kpfu.ru

Пробную версию русско-татарского и татарско-русского переводчика на основе нейросетевых технологий разработали в Институте прикладной семиотики Академии наук Татарстана. Об этом, как передает ТАСС, сообщил старший научный сотрудник Института прикладной семиотики Академии наук республики Айдар Хусаинов.

«Проект создания русско-татарского и татарско-русского машинного переводчика реализуется в рамках госпрограммы развития и сохранения татарского языка в республике. В последний год были достигнуты достаточно хорошие результаты, которые побудили нас к тому, чтобы уже в 2018 году, а не к концу 2020-го, как было запланировано, создать пробную версию», — сказал Айдар Хусаинов.

Переводчик находится на стадии тестирования. Ученые создали все необходимые алгоритмы и технологии, которые позволяют вводить данные голосом и услышать, как звучит слово. Специалисты также разрабатывают мобильное приложение для операционных систем iOS и Android.

«Этот переводчик сейчас работает на современных подходах, которые используют нейросетевые технологии. На основе массива данных, который мы накопили из “параллельных” текстов, система “учится”. Она пытается понять смысл, каким образом сочетание слов передает суть на одном и другом языках. Система переводит контекстные фразы лучше, чем другие подходы. То есть не одно слово, как словарь, а предложения, в которых есть смысл. Система понимает, что есть субъект, объект, услышала какое-то действие и знает, как этот смысл переложить на другой язык», — пояснил Айдар Хусаинов.

Встроена нейросеть и в «Яндекс. Переводчик». Раньше перевод с одного языка на другой осуществлялся с помощью статистического механизма. Теперь процесс гибридный: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого алгоритм CatBoost, в основе которого лежит машинное обучение, выбирает лучший из полученных результатов.

Принцип работы нейронной сети отличается от статистической модели перевода. Вместо того чтобы переводить текст слово за словом, выражение за выражением, она работает с целыми предложениями, не разбивая их на части. Благодаря этому в переводе учитывается контекст и лучше передается смысл. Кроме того, переведенное предложение получается согласованным, естественным, легким для чтения и восприятия. По словам разработчиков, его можно принять за результат работы переводчика-человека.

Чтобы уменьшить количество грамматических ошибок, «Яндекс. Переводчик» проводит дополнительную проверку переводов, выполненных нейронной сетью. Если в предложении есть рассогласования, такие как «папа пошла» или «сильный боль», специальная модель исправит их.