«Информационные Ресурсы России» №1, 2011



С. Корниенко, Ю. Айдаров, Д. Гагарина, Ф. Черепанов, Л. Ясницкий

Программный комплекс для распознавания рукописных и старопечатных текстов

Среди проблем формирования современной научной и образовательной среды гуманитарных наук одной из актуальных является создание информационных ресурсов на основе рукописных и старопечатных памятников XII-XVII вв. Это подтверждается вниманием к различным сторонам ее решения специалистами в области гуманитарной информатики, историками, лингвистами, филологами, работниками музеев, архивов. Сделаны существенные шаги в области каталогизации, документирования, сохранения и визуализации этих ценных исторических источников на основе информационных технологий. В интернете растет число коллекций их электронных версий. В то же время, в большинстве случаев такие коллекции представляют собой цифровые изображения памятников [6], что позволяет решать задачи их сохранения, визуализации, расширения доступа исследователей к ним, но ограничивает возможности содержательного информационного поиска и анализа с помощью современных компьютерных методов. Ограничения исследовательских возможностей связаны, прежде всего, с трудностями представления электронных версий рукописных и старопечатных книг в формате электронного текста, ввиду отсутствия эффективных систем распознавания.

Первоначально появление и развитие систем распознавания текстовых документов, ныне имеющих широкое распространение, породило определенный оптимизм и в отношении кириллических рукописных и старопечатных книг [5]. Однако эти прогнозы не оправдались, несмотря на достаточно заметное усовершенствование этих систем. Так, применение одного из наиболее эффективных программных продуктов ABBYY FineReader и имеющихся в нем инструментов «распознавание с обучением» и «распознавание с пользовательским эталоном» позволяет добиваться довольно неплохих результатов на печатных текстах XVIII–XIX вв. Что же касается распознавания кириллических рукописных и старопечатных текстов, то и применение указанных инструментов не дает приемлемых результатов.

Невозможность использования для создания электронных версий рукописных и старопечатных книг в формате электронного текста с помощью существующих программ распознавания обусловила развитие такого направления в решении этой задачи, как создание специальных текстовых редакторов для ручного набора с клавиатуры (например, редактор OldEd системы Manuscript [12]).

Как и ручной набор вообще, такая технология создания электронных текстов на основе рукописных и старопечатных изданий достаточно трудоемка. К тому же, требует приобретения специальных навыков. В конечном итоге, она не позволяет проводить перевод данного круга исторических памятников в формат электронного текста в нужном объеме и темпе. Число версий таких памятников в текстовом формате на сегодняшний день невелико.

Отсутствие специализированных и неэффективность существующих систем распознавания применительно к средневековым рукописным и старопечатным кириллическим текстам обусловлена рядом факторов, среди которых как особенности источников (практически каждый манускрипт является уникальным), так и относительно большие финансовые и трудовые затраты на их разработку при невысокой востребованности в таких продуктах на рынке.

В то же время потребность в системах распознавания, позволяющих создавать электронные документы в текстовом формате на основе рукописных и старопечатных кириллических книг, очевидна. Их отсутствие тормозит создание необходимых научных и образовательных ресурсов, ограничивает применение информационных технологий в современных гуманитарных научных исследованиях. Это подтверждается и все большим вниманием к этой проблеме среди вузовских специалистов у нас в стране и за рубежом [3, 7, 10, 13 и др.].

Существующие попытки решения указанной проблемы различаются подходами и методами как к распознаванию в целом, так и к отдельным его этапам, а также к процессу пред- и постраспознавания. Одним из перспективных направлений является применение методов и технологий искусственного интеллекта.

В Пермском государственном университете с 2009 г. реализуется проект по разработке программного комплекса для распознавания рукописных и старопечатных текстовых исторических источников XII-XVII вв. В его реализации принимают участие историки, специалисты в области искусственного интеллекта, разработки информационных систем.

В качестве программно-технологической основы проекта выбраны искусственные нейронные сети, которые еще с 70-х годов XX в. стали использоваться в решении различных проблем распознавания образов [1]. Определенный опыт применения нейросетевого компонента для распознавания образов был накоплен и пермской школой искусственного интеллекта. Так, были получены хорошие результаты распознавания сложных в техническом отношении текстов (нечетких, загрязненных, с множеством помарок, написанных с использованием разных шрифтов) таких, как автомобильные номерные знаки, подписи технической документации (рукописные штампы на чертежах) [11]. Это дало основания полагать, что использование нейросетевого компонента в совокупности с рядом дополнений может стать хорошей основой программного комплекса для распознавания рукописных и старопечатных текстов.

Модель программно-технологического комплекса включает набор приложений, которые должны обеспечивать сохранение, распознавание и работу с рукописными и старопечатными кириллическими изданиями.
Основные компоненты программно-технологического комплекса включают базу данных, предназначенную для каталогизации и хранения электронных версий источников, вариантов настроек системы и других данных, необходимых для эффективной работы системы; приложения дораспознавания, распознавания, постраспознавания и визуализации данных по запросам пользователей.

База данных предполагает хранение информации об изданиях (библиографические, археографические и другие атрибуты), цифровых версий изданий полностью и постранично в различных форматах (текст в современной и оригинальной орфографии, изображение), различных вспомогательных таблиц (типографии, печатники, места хранения, библиография и др.) [8]. Данные базы используются также для настройки компонентов комплекса на распознавание и постраспознавание конкретного источника (особенности почерков или шрифтов, написания и расположения отдельных символов и диакритических знаков и др.) и подбора шрифта для визуализации результатов.

Одним из основных компонентов программно-технологического комплекса является разработанный оригинальный алгоритм параметризуемой кластеризации «Кириллический символ» [9]. Инструмент позволяет выделять символы из цветных и черно-белых растровых изображений кириллических рукописных и старопечатных исторических памятников и группирует схожие по начертанию символы и надстрочные знаки в отдельные образы-кластеры для дальнейшей процедуры распознавания.

Алгоритм, на основе которого работает инструмент кластеризации, состоит из традиционных для задач распознавания трех этапов: бинаризация, сегментация и собственно кластеризация. При этом результаты каждого из этапов являются входными данными для следующего этапа, и количественное улучшение на каждом из них позволяет повысить эффективность распознавания как с точки зрения процента правильно определенных символов, так и производительности.

В результате бинаризации символы текста отделяются от фонового изображения. Неоднородность фона, связанная с особенностями используемой бумаги, выцветание краски, механические повреждения обрабатываемого листа книги требуют использования адаптивных алгоритмов бинаризации.

Второй этап – сегментация – позволяет выделить символы и знаки в бинаризованном изображении. При решении данной задачи используется информация о шрифте, что способствует устранению помех. Так, отдельные черные точки на белом фоне слишком малы, чтобы рассматриваться как буквы или надстрочные знаки, следы воска слишком велики и имеют характерную форму и др. При выделении отдельных символов решаются проблемы разрывов и искажений в изображениях символов, помех, похожих на надстрочные знаки, наличия буквицы, элементов графики и крупных помех, которые необходимо отделять от символов алфавита.

Эффективность алгоритма сегментации повышена за счет применения метода прорисовки контура [2], хорошо зарекомендовавшего себя при распознавании глаголических текстов [3]. Это позволило существенно повысить качество и скорость сегментации.

Последним этапом работы алгоритма является собственно кластеризация – объединение одинаковых символов и знаков в группы.

На вход алгоритма кластеризации подается массив символов, полученных в результате сегментации. Далее каждому из сегментов присваивается числовая метка и вычисляется вектор характерных признаков1; сегменты, степень совпадения векторов которых превышает заданное пороговое значение, объединяются в кластеры. Затем происходит сопоставления кластеров и пользовательских образцов символов на основе сравнения векторов признаков в кластере с эталонными изображениями символов. Полученное соответствие между эталонными изображениями и кластерами используется для автоматического обучения нейронной сети.

После обучения нейронной сети на ее вход подается массив сегментов, полученных в результате обработки изображений всех страниц издания, в результате чего каждому из сегментов назначается символ на выходе нейронной сети.
В связи с тем, что инструмент распознавания работает на основе нейронных сетей, а именно многослойного персептрона, производительность инструмента значительно повышается при его реализации в форме выполняющихся параллельно web-сервисов, взаимодействующих друг с другом. Инструмент «Старопечатный кириллический символ» может быть адаптирован для использования определенного числа параллельно работающих процессоров (ядер).

Поскольку для разных типов текстов необходимо использовать разные значения параметров нейронной сети, был разработан специальный алгоритм, позволяющий по значениям характеристик рукописных и старопечатных книг определить, либо какую именно нейронную сеть из существующих необходимо использовать, либо необходимость создания новой нейронной сети для источников нового типа. Основным критерием выбора нейронной сети являются результаты распознавания контрольного участка изображения источника.

В связи с тем, что нейронные сети сложны для отладки и анализа их работы, возникла необходимость в создании специального компонента объяснения. Этот компонент позволяет сопоставить значения весов нейронной сети и выходные значения нейронной сети. В том случае, если качество результатов распознавания неприемлемо, возникает возможность определить, какие значения требуют изменения.

На заключительном этапе работы приложения распознавания происходит формирование файла с текстом в оригинальной орфографии. Далее этот текст может быть преобразован в текст в современной орфографии.
Создаваемый программно-технологический комплекс ориентирован не только на собственно распознавание источников, но и возможность их хранения и визуализации в графических и текстовых форматах. Распознавание указанного круга источников достаточно сложный и ресурсоемкий процесс, и единожды распознанные тексты целесообразно сохранить и предоставить возможность исследователям обращаться к ним.

В конечном итоге комплекс будет представлять собой систему, ориентированную на работу в режиме он-лайн, доступную через сеть Интернет. Модель комплекса и его архитектура рассчитаны на размещение его основных компонентов на сервере центра коллективного доступа ПГУ. Это позволит обеспечить возможность обращения широкого круга пользователей к системе через корпоративную сеть университета и интернет. Использование современных технологий создания графических web-приложений, позволит реализовать интерактивную работу с отображаемым текстом.

Литература:
1. Carpenter G.A., Grossberg S. A massively parallel architecture for a self-organizing neural pattern recognition machine // Computer Vision, Graphics, and Image Processing. – 1987. – Volume 37. Issue 1. – P. 54-115.
2. Chang F., Chen C.-J., Lu C.-J. A Linear-Time Component-Labeling Algorithm Using Contour Tracing Technique // Computer Vision and Image Understanding. – 2004. – Volume 93. Issue 2. – P. 206-220.
3. Diem M., Lettner M., Sablatnig R. Registration of Manuscript Images using Rotation Invariant Features // Computer Vision Winter Workshop 2008. – Slovenia, 2008. – P. 107-114.
4. Lowe D.G. Distinctive Image Features from Scale-Invariant Keypoints // International Journal of Computer Vision. – 2004. – Volume 60. Issue 2. – P. 91-110.
5. Володихин Д.М. Перспективы применения программ оптического распознавания в работе со средневековыми русскими кириллическими текстами (Из опыта применения компьютерных технологий в преподавании русской палеографии) // Информационный бюллетень Ассоциации «История и компьютер». – 1999. – № 24. – С. 178-181.
6. Гагарина Д.А., Корниенко С.И. Рукописные и старопечатные кириллические книги в Интернете // Вестник Пермского университета. Серия История. Вып. 3 (10). Серия Политология. Вып. 3(7). – 2009. – С. 112-119.
7. Зеленцов И.А. Выдвижение и проверка гипотез в системе распознавания древнерусской скорописи // Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. ред. В.А. Баранов. – Уфа, 2010. – С. 99-101.
8. Корниенко С.И., Волгирева Г.П., Гагарина Д.А. База данных как средство фасетной классификации рукописных и старопечатных кириллических изданий // Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. ред. В.А. Баранов. – Уфа, 2010. – С. 121-125.
9. Корниенко С.И., Ясницкий Л.Н., Айдаров Ю.Р., Черепанов Ф.М. Инструмент параметризуемой кластеризации «Старопечатных кириллический символ» // Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. ред. В.А. Баранов. – Уфа, 2010. – С. 130-133.
10. Кучуганов А.В., Касимов Д.Р. RECO – программная система для распознавания старославянских текстов // Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. ред. В.А. Баранов. – Уфа, 2010. – С. 114-148.
11. Пермская научная школа искусственного интеллекта и ее инновационные проекты / Л.Н. Ясницкий, В.В. Бондарь, С.Н. Бурдин и др.; под ред. Л.Н. Ясницкого. – М.-Ижевск: НИЦ «Регулярная и хаотическая динамика», 2008. – 75 с.
12. Портал «Манускрипт» [Электронный ресурс]. – Режим доступа: http://manuscripts.ru/.
13. Рогов А.А., Талбонен А.Н., Варфоломеев А.Г. Автоматизированная система распознавания рукописных исторических документов // Труды 12-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010. – Казань, 2010. – С. 469-475.