Нейросеть поможет прочитать старинные рукописи

«Яндекс» научил нейросети расшифровывать рукописные тексты в дореволюционных исторических документах на основе массива данных фондов Главархива Москвы
Нейросеть поможет прочитать старинные рукописи
В Главархиве сохранился один из самых значительных по объему комплексов метрических книг — их около восемнадцати тысяч. Метрическая книга Мироносицкой церкви города Серпухова за 1886 год
Алексей Андреев

В сервисе «Поиск по архивам» открыт доступ к почти пяти миллионам страниц метрических книг, ревизских сказок и исповедных ведомостей с середины XVIII века до 1919 года. Новый алгоритм построен на основе системы оптического распознавания символов, он учитывает особенности почерка, узнаёт буквы дореформенного алфавита и понимает особую структуру архивных документов. Помимо документов Главархива для обучения сервиса использовали также десятки миллионов сгенерированных примеров.

«В Главархиве сохранился один из самых значительных по объему комплексов метрических книг — их около восемнадцати тысяч, — рассказали “Стимулу” в архивном ведомстве. — Это книги церквей Москвы и Московской губернии, чьи границы отличались от современной Московской области. В архиве можно найти метрики не только столичных храмов, но также сельских церквей и церквей уездных городов Московской губернии. Кроме того, в архиве хранится небольшое количество книг храмов населенных пунктов, вошедших в советское время в состав Московской области. Это Каширский уезд Тульской губернии, Зарайский и Егорьевский уезды Рязанской, Покровский и Александровский уезды Владимирской губернии».

Сервис «Поиск по архивам» пополнили также документы из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться. Необходимые сведения можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.


Нейросеть для старинных рукописей

В «Яндексе» уже была своя технология распознавания печатного текста, которая давно разрабатывается и улучшается. Именно она и легла в основу получившегося решения. Это позволило компании за относительно небольшое время, порядка трех месяцев, адаптировать ее для задачи расшифровки рукописей. На реализацию всего проекта «Поиск по архивам» ушло более полугода.

«Расшифровка рукописного текста изначально очень сложная техническая задача, ведь каждый человек пишет по-своему, — рассказали “Стимулу” в пресс-службе “Яндекса”. — А в случае с архивными текстами есть и другие особенности. К примеру, состояние исходных материалов: они бывают плохого качества, строчки просвечивают с обратной стороны листа. В старых рукописных текстах используются буквы, которые сейчас отсутствуют в языке. А еще архивные документы имеют сложную структуру: они часто состоят из таблиц».

magnifier.png Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии

Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Теперь рукописи, на работу с одной страницей которых у профессионалов может уйти до получаса, технология «Яндекса» почти мгновенно превращает в печатный текст.

«Конечно, модель может иногда совершать ошибки, ведь даже специалисту порой сложно разобрать, что написано в рукописях XVIII века. Но нейросети продолжают учиться, и в будущем будут расшифровывать тексты еще лучше», — отметили в пресс-службе «Яндекса».

Сейчас пользователи видят текстовую расшифровку, написанную дореформенным алфавитом. Чтобы было удобнее искать, запрос можно вбивать на современном русском языке, система его поймет. В дальнейшем будет возможно и осовременивание текстов для пользователей.


ПЕЛАГЕЯ.jpg
Запись о смерти Пелагеи Андреевой в Метрической книге Мироносицкой церкви города Серпухова за 1886 год
Алексей Андреев

В помощь исследователям

Главархив Москвы занимается оцифровкой архивных текстов с 2007 года, а в 2020-м он запустил онлайн-сервис «Моя семья», содержащий метрические книги и исповедные ведомости храмов, а также ревизские сказки податного населения Москвы и Московской губернии. Там можно постранично просматривать цифровые копии документов прошлых веков. Именно «Моя семья» стала основой сервиса «Поиск по архивам».

До сих пор поиск данных о рождении, браке и смерти горожан, родившихся до 1917 года, проводился вручную. Исследователю необходимо было хорошо ориентироваться в фондах и делах, полистно просматривая большие объемы документов в читальном зале Главархива Москвы или в онлайн-сервисе «Моя семья», где доступно более девяти миллионов страниц метрических книг, ревизских сказок и исповедных ведомостей. Но с появлением сервиса «Яндекса» добавилась возможность производить в оцифрованных документах полнотекстовый поиск.

magnifier.png Сейчас пользователи видят текстовую расшифровку, написанную дореформенным алфавитом. Чтобы было удобнее искать, запрос можно вбивать на современном русском языке, система его поймет. В дальнейшем будет возможно и осовременивание текстов для пользователей

В настоящее время в сервисе «Моя семья» доступно больше половины метрических документов, хранящихся в Главархиве Москвы. Онлайн-сервис пополняется новыми оцифрованными материалами каждый месяц в среднем на 120‒150 тысяч страниц, и эти материалы оперативно передаются для распознавания в «Поиск по архивам» «Яндекса».

«Если раньше поиски в онлайн-сервисе “Моя семья” занимали десятки часов, то сейчас нужные имена можно найти за считаные минуты. Мы надеемся, что благодаря настолько удобному сервису количество горожан, интересующихся историей своей семьи, сильно возрастет», — отметил руководитель Главархива Москвы Ярослав Онопенко.

Аудитория сервиса «Моя семья» к настоящему моменту составляет более 10 млн человек. Оцифровка документов позволяет минимизировать потоковую выдачу оригиналов, тем самым уберегая их от быстрого обветшания. Некоторые метрические книги были в крайне ветхом состоянии и прошли реставрацию. А храниться они должны только при температуре 17–19 °C и относительной влажности воздуха 50‒55%.

В Главархиве «Стимулу» дали советы, как приступить к поиску своих предков. Для начала необходимы сведения, без которых найти человека невозможно. Первое — это фамилия, имя, отчество (для женщин – девичья фамилия, а также фамилия в замужестве). Стоит отметить, что отчество прописывалось не в такой форме, как сейчас. Не Алексеевич или Петрович, а Алексеев или Петров, то есть Алексеев или Петров сын. Для поисков также нужна дата рождения: год, месяц, число. Если точных данных нет, подойдут приблизительные в пределах нескольких лет. Кроме того, следует знать место рождения: губернию (область), уезд (район), волость, город, село, деревню, в крупных городах — часть, участок, улицу, дом, а также вероисповедание.

Для примера возьмем человека православного вероисповедания. Необходимо установить церковный приход, к которому он был приписан. В больших городах приходских церквей, как правило, было несколько десятков, а в Москве на начало ХХ века их действовало около трехсот. К каждому из храмов относился определенный район города, а к некоторым и близлежащие деревни. При этом какие-то события могли быть записаны и в другом приходе: например, рождение ребенка в то время, когда родители работали в городе, брак в приходе невесты. В помощь пользователям на сайте «Моя семья» размещены указатель приходов по населенным пунктам Московской губернии, а также дореволюционная карта Москвы, которая позволяет определить ближайшие к дому церкви. После определения церковного прихода в метрической книге установленной церкви можно найти запись о рождении, браке или смерти своих предков.

Если дополнительно известно сословие: дворянство, духовенство, купечество, почетное гражданство, мещанство, крестьянство, ремесленники (цеховые) — можно осуществить поиск генеалогической информации по другим архивным документам: родословным книгам дворян, клировым ведомостям церквей, посемейным спискам купцов, мещан и цеховых.

magnifier.png «Если раньше поиски в онлайн-сервисе “Моя семья” занимали десятки часов, то сейчас нужные имена можно найти за считаные минуты. Мы надеемся, что благодаря настолько удобному сервису количество горожан, интересующихся историей своей семьи, сильно возрастет»

При поиске информации для генеалогического древа необходимо также учитывать, что у каждой эпохи были свои особенности, и чем дальше от нас жил человек, тем сложнее найти о нем упоминание в документах. Начало ведения метрических книг было положено в 1722 году законодательным актом, который назывался «Прибавление к Духовному регламенту». В ХVIII — начале ХIХ века в метрической книге указывалось только имя отца, имя матери было известно лишь при крещении незаконнорожденного ребенка. Записи о рождении (крещении), бракосочетании и смерти велись на одной странице: в левой графе вносились записи о рождении, в середине — о смерти и погребении, в правой части — о бракосочетании. С 1838 года была введена форма метрической книги, просуществовавшая до 1918 года. Книга состояла из трех частей: первая часть — «О родившихся», вторая — «О бракосочетавшихся», третья — «Об умерших».

Автор этих строк попробовал поискать своих предков. Они жили в городе Серпухове Московской губернии и были прихожанами Мироносицкой церкви. Что касается метрических книг, то в «Поиске по архивам» сначала надо вводить данные родителей, поскольку имя новорожденного прописывалось без фамилии в левом столбце, и поэтому поиск по его данным ничего не даст. Известно, что у моего прадеда Платона Андреева Андреева и его жены Зинаиды Михайловой было семеро детей: Екатерина, Пелагея, Николай, Надежда, Константин, Мария и Любовь. В сервисе «Яндекса» удалось найти Екатерину 1878 г. р., Николая 1882 г. р. и Надежду 1884 г. р. Запись о рождении Пелагеи обнаружилась при просмотре отсканированной копии метрической книги Мироносицкой церкви за 1880 год в сервисе «Моя семья», поскольку в «Поиске по архивам» эта книга еще не появилась.


ЧИТАЛЬНЫЙ ЗАЛ.jpg
Читальный зал № 1 Главархива Москвы (ул. Профсоюзная, д. 80) всегда полон посетителей
Алексей Андреев

Следующий этап — поиски среди еще не оцифрованных метрических книг в самом архиве. В читальном зале Главархива Москвы на Профсоюзной, 80 в книге за 1886 год удалось найти запись о смерти Пелагеи от воспаления мозга. А в книге за 1896 год есть запись о рождении Марии. Осталось выяснить в архивных недрах сведения о Константине и Любови.

В Главархиве оцифрованы также сотни тысяч страниц ревизских сказок. Это документы с записями подушных переписей податного (то есть обязанного платить налоги) населения Российской империи. Они составлялись с начала XVIII до второй половины XIX века и содержат ценные сведения о купцах, мещанах, крестьянах и ремесленниках. Термин «сказка» происходит от слова «сказать» — переписчики записывали сведения, полученные со слов опрошенных.

Информацию о своих предках можно почерпнуть и в исповедных ведомостях – посемейных списках церковных прихожан. Обычно в них включали всех членов семьи, кроме детей в возрасте до года. Исповедные ведомости были ежегодным отчетным церковным документом. В них указывалось, кто был на исповеди и кто причащался. В «Моей семье» есть около 700 тысяч страниц, охватывающих период со второй четверти XVIII века до 1860-х годов.

Еще по теме:
19.04.2024
Почвоведы из РУДН научились оценивать загрязнение почвы тяжелыми металлами в 16 раз быстрее и в пять раз дешевле, чем тр...
12.04.2024
Научная группа из Объединенного института высоких температур РАН создала стабильную ультрахолодную плазму, которая может...
10.04.2024
Сегодня, 10 апреля 2024 года, Музей космонавтики и ракетной техники им. В. П. Глушко пополнился новым экспонатом — спуск...
04.04.2024
Сапфировые микролинзы почти в девять раз повысили мощность антенны терагерцевого излучения большой площади. Технология м...
Наверх