Наука и технологии 18 сентября 2023

А был ли автор?

Ученые факультета вычислительной математики и кибернетики МГУ имени М. В. Ломоносова представили результаты исследования, направленного на разработку методов распознавания автоматически созданных текстов

Ученые МГУ исследуют способ выявления автоматически созданных текстов

msu.ru

Последнее десятилетие интернет-отзывы оказывают значительное влияние на принятие пользователями решений о приобретении продуктов и услуг, просмотре фильмов, скачивании игр и пр. Однако растущая доступность методов и средств автоматической генерации текстов ставит под вопрос происхождение этих отзывов. После появления ChatGPT и подобных ему систем как никогда актуальной стала разработка методов, которые в автоматическом режиме могут проверять правдивость информации, появляющейся в интернете.

Автоматически порожденный (искусственно сгенерированный) текст — это текст на естественном языке, созданный, модифицированный или дополненный машиной. В конце прошлого века для создания таких текстов использовались методы на основе шаблонов и статистические методы. На смену им пришли более продвинутые методы машинного обучения и нейросетевые модели. В 2017 году была представлена архитектура глубоких нейронных сетей «трансформер» (transformer), что привело к созданию огромного количества языковых моделей, позволяющих автоматически создавать большие объемы относительно качественных текстов на естественном языке.

В связи с этим сильно вырос интерес к разработке методов, позволяющих распознавать такие тексты — различать, какие из них порождены автоматически, а какие написаны человеком.

«На данный момент существует ряд работ по распознаванию автоматически порожденных текстов на английском языке. Уникальность данной работы состоит в рассмотрении конкретного жанра текста — интернет-отзывов и применения современных методов распознавания к текстам на русском языке», — рассказала ассистент кафедры алгоритмических языков ВМК МГУ Наталья Ефремова.

В качестве методов распознавания автоматически порожденных текстов была выбрана модель ruRoBERTa, разработанная командой SberDevices специально для обработки русскоязычных текстов. Дополнительно была рассмотрена модель на основе архитектуры LSTM, поскольку несмотря на эффективность моделей на основе трансформеров они требуют значительных мощностей и могут не подойти для задач, в которых есть ограничения на вычислительные ресурсы.

«По причине того, что мы не смогли найти в открытом доступе подходящий для обучения моделей набор данных, было принято решение сформировать его самостоятельно. Для генерации отзывов была выбрана модель ruGPT-3 Large, которая хорошо зарекомендовали себя на схожих задачах в других исследованиях», — добавила Наталья Ефремова.

Процесс формирования набора данных состоял из четырех основных этапов:

1. Сбор данных на различных страницах товаров маркетплейсов Ozon и «Яндекс.Маркет»; получено 20 000 реальных отзывов.

2. Дообучение модели ruGPT-3 на собранных данных.

3. Генерация искусственных отзывов с использованием дообученной модели; получено 10 000 искусственных отзывов.

4. Создание сбалансированного набора данных из 20 000 отзывов.

Созданный набор был использован для обучения и оценки качества работы моделей LSTM и RoBERTa. Модель LSTM достигла точности 82%, модель RoBERTa — 86%.

В целом модели правильно выделяют сгенерированные отзывы, которые на первый взгляд кажутся реальными. При этом большинство неверных распознаваний приходится на короткие отзывы (<40 символов).

«Мы предполагаем, что это связано с распространенностью некоторых общих фраз в отзывах, на которых обучалась модель. Такие клишированные фразы, повторенные генеративной моделью с точностью до слова, представляют сложности для распознавания», — подчеркнула Наталья Ефремова.

Несмотря на то что модель RoBERTa показала лучшее качество работы, важно отметить, что модель на основе LSTM тоже достигла конкурентных результатов. Это указывает на то, что методы, не основанные на трансформерах, могут быть жизнеспособными для распознавания автоматически порожденных интернет-отзывов в ситуациях, когда временные и вычислительные ресурсы ограничены.

Результаты исследования были представлены на Всероссийской конференции «Ломоносовские чтения — 2023»

По материалам пресс-службы МГУ

Темы: Наука и технологии