Разработка онтологии в области нанокомпозиционных материалов
На сегодняшний день нанотехнологии – одно из наиболее перспективных направлений в развитии мировой науки и промышленности. Одной из отраслей нанотехнологий в промышленности является производство композиционных материалов. Полученные с использованием наноструктур композиты обладают уникальными свойствами: высокими каталитическими и магнитными характеристиками, селективной поглощающей способностью, триботехническими свойствами, термо- и химической стойкостью, высокими прочностью и пластичностью. Подобные характеристики приводят к формированию спроса на нанокомпозиты в разнообразных областях промышленности: судостроении, авиастроении, химии, энергетике, медицине, биологии, экологии и др. [1].
В сети Интернет представлен большой объем знаний и информационных ресурсов по композиционным материалам. Но они довольно хаотично распределены по каталогам и электронным архивам или размещены на отдельных сайтах, что весьма затрудняет их поиск и использование. Кроме того, неструктурированные форматы представления информации, часто предназначенные только для чтения, не позволяют осуществлять программный поиск новой информации. Одним из наиболее перспективных подходов к повышению эффективности поиска и анализа информации является построение онтологии предметной области — формального описания результатов концептуального моделирования предметной области, представленной в форме, воспринимаемой как человеком, так и компьютерной системой. Такой подход представляет собой практическую реализацию единой модели знаний, а онтология способствует интеграции разнородных информационных ресурсов в рамках системы на концептуальном уровне, обеспечивая единый подход к описанию их семантики.
Онтологии предназначены для организации в структурированную форму знаний из множества областей — от философии, которая дала современным онтологиям своё имя, до управления знаниями (Knowledge Management) и устройства Семантической Паутины (Semantic Web). Обычно под онтологией понимается структура в виде графов или сети, состоящая из:
1) набора концептов (понятий, классов);
2) набора бинарных связей (отношений) между концептами;
3) набора экземпляров классов – записей данных, соответствующих классу или отношению. Так, к примеру, классу Человек будет соответствовать экземпляр Михаил Иванов.
Разработка онтологии является важной задачей на данном этапе развития информационных технологий. Традиционные системы поиска по ключевым словам выдают либо маленький результат, либо, наоборот, слишком большой. Благодаря онтологиям при обращении к поисковой системе пользователь будет иметь возможность получать в ответ ресурсы, семантически релевантные запросу. Можно автоматически уточнять или обобщать запрос, чтобы получить более точную выборку.
Cуществует много способов классификации онтологий, из которых следует выделить три основных принципа классификации:
• по степени формализации,
• по цели создания,
• по наполнению, содержимому.
По степени формализации онтологии подразделяются на неформальные, более формализованные и сильно формализованные.
В рамках классификации по цели создания выделяют 4 уровня:
• онтологии представления;
• онтологии верхнего уровня или метаонтологии;
• онтологии предметных областей;
• прикладные онтологии.
Ключевым моментом в проектировании онтологий является выбор соответствующего языка спецификации онтологий (Ontology specification language). Цель таких языков – предоставить возможность указывать дополнительную машинно-интерпретируемую семантику ресурсов, сделать машинное представление данных более похожим на положение вещей в реальном мире, существенно повысить выразительные возможности концептуального моделирования слабоструктурованных Web-данных [2].
При создании онтологии в области нанокомпозиционных материалов в качестве языка представления онтологий был выбран OWL (Web Ontology Language) – язык следующего поколения после DAML+OIL. Он обладает более богатым набором возможностей, чем XML, RDF, RDF Schema и DAML+OIL. Данный язык предполагает создание мощного механизма семантического анализа. Онтология OWL – это последовательность аксиом, фактов и ссылок на другие онтологии. В настоящее время OWL является языком, рекомендованным для разработки онтологий консорциумом Всемирной паутины (World Wide Web Consortium, W3C) и имеет несколько синтаксисов.
OWL имеет строгий XML-синтаксис, а, следовательно, способность XML определять настраиваемые схемы разметки, но также и гибкий подход RDF к представлению данных. Это обеспечивает более полную машинную обработку данных, поддерживаемую XML, RDF и RDF-Schema, и дополняет формальную семантику терминологическим словарем. Он предоставляет больше возможностей для описания свойств и классов: в частности, таким отношениям между классами, как кардинальность и равенство, позволяет описывать большее количество типов и характеристик свойств, а также перечисляемые классы.
Для обеспечения конструирования онтологий на уровне знаний в работе была использована METHONTOLOGY. Она базируется на основных видах деятельности, выявленных из процесса разработки программного обеспечения и методологии инженерии знаний. Она включает идентификацию процесса разработки онтологий, жизненный цикл, основанный на эволюции прототипов, и отдельные приемы для выполнения каждой деятельности. Она также применяется в реинжиниринге онтологий.
Использование онтологий верхнего уровня в качестве основы для онтологии предметной области позволяет избежать сложностей и противоречий при определении типа иерархии классов, а также определить базовый словарь (тезаурус), в терминах которого могут быть описаны понятия и объекты предметной области. Также онтологии верхнего уровня используются при создании онтологий предметных областей для более легкой интеграции последних в различные приложения, где уже используются онтологии верхнего уровня. Поэтому в работе была создана онтология композиционных наноматериалов на основе онтологии верхнего уровня Basic Formal Ontology (BFO). BFO была выбрана, так как уже существует немало онтологий в химии и биологии, спроектированных на её основе, и, в отличие от прочих, она сравнительно компактна и насчитывает всего 39 классов в последней редакции. Речь при этом идет не о процессе реинжиниринга с анализом и корректировкой иерархии классов BFO, а об интеграции создаваемой онтологии нанокомпозитов в онтологию верхнего уровня, так как подобная интеграция облегчает взаимодействие с другими онтологиями, использующими BFO в качестве формальной структуры, к примеру, с онтологией химических методов или онтологией молекулярных процессов, разработанными Королевским Химическим Обществом Великобритании (Royal Society of Chemistry, RSC).
Методология METHONTOLOGY предоставляет возможность интеграции разрабатываемой онтологии нанокомпозитов в онтологию верхнего уровня, а также использование существующих онтологий предметной области с целью заимствования терминов, соответствующих созданной концептуализации, а именно словарю понятий (тезаурусу) и связям между ними.
В ходе работы онтология создавалась для предметной области «Нанокомпозиты». Перед созданием непосредственной онтологии нами была осуществлена спецификация данной предметной области:
1) Предметная область: композиционные наноматериалы.
2) Назначение: онтологию нанокомпозитов предполагается использовать в областях, где требуется нахождение информации о данной области, при обучении, при построении баз знаний и т.п. В качестве конкретного примера онтология может быть использована для нахождения нанокомпозитов, у которых в качестве матрицы используется полиэтилен.
3) Уровень формализации: относительно формальный (semi-formal).
4) Область охвата: список из (число) наиболее используемых в промышленности нанокомпозитов; список понятий, характеризующих тип материала и химическую природу и используемых в качестве матрицы или наполнителя: металл, керамика, полимер и т.д.; список типов наноматериалов в зависимости от их формы: нанотрубка, нанослой и проч.
Как было предложено в выбранной методологии, был произведен поиск онтологий в области химии, химической технологии и полимерных материалов для последующей интеграции их в разрабатываемую онтологию. Использование уже существующих онтологий и их терминов является хорошим тоном в онтологическом инжиниринге и позволяет не множить определения одного и того же понятия.
В качестве интегрируемых онтологий были выбраны:
• онтология Периодическая таблица (PeriodicTable) на языке OWL, являющаяся частью проекта DAML [3];
• онтология ChemAxiomPolyClass, описывающая основные классы полимерных материалов, была разработана доктором наук Нико Адамсом в рамках проекта создания онтологии в области химии ChemAxiomDomain, куда выбранная онтология входит в качестве субонтологии [4].
Обе выбранные онтологии свободно распространяемы в некоммерческих целях для использования и модификации, онтология ChemAxiomPolyClass является частью GNU License.
На сегодняшний день существует две возможности просмотра и поиска по онтологиям
• с помощью онтологических браузеров в сети Интернет,
• с помощью онторедакторов.
Существуют различные онтологические браузеры в сети Интернет, такие как Pellet OWLSight, Ontology Browser, разработанные в университете Манчестера (Manchester University). Оба браузера предусматривают возможность загрузки онтологии, размещенной в сети Интернет
Другой вариант – онторедакторы. Они используются для управления и модифицирования онтологий. В данный момент в сети Интернет представлено множество онтологических редакторов, большинство из которых кроссплатформенны, то есть могут быть установлены на компьютер с любой операционной системой.
Самые известные из них – Ontolingua, Protégé, OntoEdit, OilEd, WebOnto, OntoSaurus, HOZO и др.
Условия, необходимые для их использования:
• Персональный компьютер с процессором Intel Pentium III (и выше) или аналогичный;
• наличие не менее 512 Мб ОЗУ;
• наличие доступа в интернет;
Программное обеспечение, необходимое для работы онторедакторов:
• установленное Java ПО, которое бесплатно доступно по адресу: http://www.java.com/ru/;
• наличие операционной системы, поддерживающей технологию Java.
Функциональность онторедактора можно определить по следующим параметрам:
• осуществление поиска по онтологии;
• редактирование (ввод, корректировка, удаление);
• логический контроль при вводе.
• тестирование функциональности;
• взаимодействие с другими онтологиями – импорт, экспорт.
При выборе онторедактора учитывалось несколько составляющих: во-первых, он должен быть бесплатным и свободно распространяемым; во-вторых, должен поддерживать OWL, лучше всего в последней редакции – OWL 2; в-третьих, онторедактор должен располагать подробным руководством по его использованию и, наконец, в-четвертых, желательно, чтобы он был частью крупного онтологического проекта.
Всем этим требованиям отвечал онтологический редактор Protégé-OWL [5], разработанный в Стэнфордском университете (Stanford University) под руководством Марка Мьюсена для построения онтологий и баз знаний.
Также плюсом было то, что он написан на языке Java, а потому поддерживается любой операционной системой, на которую установлена Java-машина. Ещё одним важным аспектом в пользу Protégé было большое количество плагинов, один из которых – OWLViz – позволяет визуализировать онтологию. Для проверки онтологии на синтаксическую правильность в последней версии Protégé OWL имеются несколько плагинов программ семантической проверки, так назваемых ризонеров, для языка OWL DL: FaCT++, Hermit, Pellet.
К недостаткам онторедактора Protégé следует отнести то, что он не поддерживает в аннотациях русский язык, поэтому создавать аннотации к терминам на русском языке было решено в XML редакторе – XML Copy Editor. Protégé не имеет никакой встроенной онтологии и рассчитан на создание прикладных онтологий с нуля.
Из недостатков семантики – в Protégé принято и считается методически правильным начинать разработку онтологии, задавая понятия прикладного характера непосредственно как подклассы понятия Thing (Нечто), и тем самым игнорируют проблему общей организации концептуальной модели.
Также следует отметить, что для построения онтологии в любой предметной области характерны три этапа:
• Создание словаря терминов (тезауруса)
• Построение таксономии (иерархии) терминов, т.е. создание классов
• Задание отношений – семантических бинарных связей
• Создание экземпляров классов.
При составлении тезауруса для создаваемой онтологии в области нанокомпозитов использовался русский и английский язык, тогда как последующая формализация на языке OWL была сделана с использованием слов английского языка, так как не все онтологические редакторы и браузеры поддерживают русский язык.
На основании созданного тезауруса была создана концептуализация предметной области «Нанокомпозиты» в виде таксономии (иерархии). На рис.1 приведена данная таксономия на английском языке, как она выглядит, будучи формализованной в редакторе Protégé. Созданная концептуализация была формализована на языке OWL DL в виде онтологии. При формализации на языке OWL не принято допускать пробелов в названиях классов, свойств и экземпляров.
Рисунок 1. Фрагмент таксономии предметной области «Нанокомпозиты»
Ввиду наличия очень большого количества индивидов, было принято решение пропустить предлагаемые методологией пункты создания таблиц индивидов на естественном языке и сразу же создать их формальное описание на языке OWL с помощью онторедактора.
После создания таксономии, важным этапом является задание бинарных отношений, так называемых семантических связей. На рис.2 показано, каким образом связаны между собой основные классы и экземпляры классов. Так, класс Нанокомпозит (Nanocomposite) имеет две семантические связи с классом ТипМатериала (MaterialType) – имеетМатрицу (hasMatrix) и имеетНаполнитель (hasFiller). Класс ТипМатериала, в свою очередь, обладает связью имеетХимическуюПрироду (hasChemicalIdentity) .
Рисунок 2. Задание бинарных отношений
Остановимся чуть подробнее на составлении иерархии класса ТипМатериала (MaterialType).
Класс ТипМатериала включает в себя 5 классов, означающих следующие типы материалов:
• Полимерные материалы (Polymer)
• Металлические материалы (Metallic)
• Материалы на основе кремния (SiliconBased)
• Материалы на основе углерода (CarbonBased)
• Керамические материалы (Ceramic).
Иерархия класса Полимер заимствуется в интегрируемой онтологии классов полимерных материалов ChemAxiomPolyClass с добавлением классов.
Иерархия класса МеталлическиеМатериалы (Metallic) содержит подклассы: Металл (Metal), чьи экземпляры берутся из онтологии Переодическая Таблица (Periodic Table), Биметалл (Bimetal) и КоллойдныеРастворыМеталлов (MetallColloids).
Иерархия класса МатериалыНаОсновеКремния содержит субклассы соединений кремния с некерамической природой: Силаны (Silanes) и КремнийорганическиеСоединения (OrganoSilicon). Класс КремнийорганическиеСоединения (OrganoSilicon) содержит в свою очередь подклассы Силоксаны (Siloxanes), Силазаны (Silazanes) и Силтианы (Siltianes).
Иерархия класса КерамическиеМатериалы класс Керамика (Ceramic), содержащий следующие классы: КерамикаИзНеоксидов (NonOxideCeramic), КерамикаИзОксидов (OxideCeramic) и СиликатнаяКерамика (SilicateCeramic). Каждый их данных субклассов содержит подклассы в соответствии с составленным тезаурусом.
Также было принято решение создать иерархию класса Нанокомпозит (Nanocomposite). А также создать соответственно субклассы НанокомпозитСПолимернойМатрицей (PolymerMatrixNanocomposite), НанокомпозитСКерамическойМатрицей (CeramicMatrixNanocomposite), НанокомпозитСМеталлическойМатрицей (MetallicMatrixNanocomposite), НанокомпозитСУглероднойМатрицей (CarbonBasedMatrixNanocomposite).
После того, как завершено создание концептуалиазации - создан тезаурус и заданы бинарные отношения - следующим этапом разработки онтологии является формализация.
Как уже было сказано выше, формализация проводилась в онтологическом редакторе Protégé и XML-редакторе XML Copy Editor. Основной синтаксис данного редактора - это задания классов, свойств и экземпляров. Аксиомой называется любое объявление класса или экземпляра, но в OWL принято отдельно выделять три типа аксиом – задание эквивалетного класса, задание подкласса и задание класса с непересекающимися экстенсионалами. Класс задается как набор экземпляров. Бинарное отношение предстает в языке OWL в виде свойства.
С помощью плагина для визуализации OWLViz можно увидеть, как выглядит иерархия старших классов (рис. 3–6).
Рисунок 3. Внутренняя иерархия класса NanoObject
Рисунок 4. Внутренняя иерархия класса Nanocomposite
Рисунок 5. Внутренняя иерархия класса SiliconBased
Рисунок 6. Внутренняя иерархия класса Ceramic
Интеграция в онтологию верхнего уровня BFO поспособствует увеличению удобочитаемости разработанной онтологии программными агентами и позволяет интегрировать онтологии, использующие BFO в качестве базиса.
Поскольку в онтологии выбранной предметной области отсутствуют динамические процессы, и мы имеем дело лишь с объектами и свойствами, то в таком случае интегрировать онтологию нанокомпозитов следует в статическую субонтологию SNAP.
Так, старшие классы разработанной таксономии ТипМатериала (MaterialType) и Нанообъект (Nanoobject) станут субклассами (подклассами) класса Объект (Object), который, в свою очередь, является субклассом класса MaterialEntity, субкласса класса независимых постоянных – IndependentContinuant. Классы ХимическаяПрирода (ChemicalIdentity) и класс СтроениеЦепи (ChainComposition) станут подклассами класса Качество (Quality), субкласса класса зависимых постоянных DependentContinuant. Также субклассом зависимых постоянных DependentContinuant станет класс Структура (Structure). Класс РазмерностьПространства (Dimension) станет часть класса пространств – SpatialRegion.
Для просмотра онтологии в любом из существующих онтобраузеров в сети Интернет необходим хороший канал доступа, так как онтология содержит много классов и экземпляров и можно отнести её к тяжеловесным (heavy-weighted) онтологиям. Онтология проверена с помощью ризонера Pellet и является непротиворечивой.
Разработанная онтология включает в себя 136 классов, 446 экземпляров и 15 объектных свойств. Благодаря этому возможно осуществлять поиск по онтологии и получить информацию о существующих на сегодняшний день нанокомпозитах, узнать их состав и химическую природу матрицы и наполнителя.
Работа выполнена в рамках государственного контракта № 11.519.11.4004.
Литература:
1. Сайт маркетинговой группы «Текарт», раздел «Готовые аналитические отчеты», описание отчёта «Маркетинговое исследование рынка нанокомпозитов» [Электронный ресурс] - Режим доступа: http://www.techart.ru/files/research/nanocomposite-market.pdf?t=1271762849.
2. Соловьев В.Д., Добров Б.В., Иванов В.В., Лукашевич Н.В. Онтологии и тезаурусы: Учебное пособие. – Казань,Москва: Казанский государственный университет, МГУ им. М.В. Ломоносова, 2006. – 173 c.
3. Онтология «Периодическая таблица» [Электронный ресурс]. – Режим доступа: www.daml.org/2003/01/periodictable/PeriodicTable.owl.
4. Онтология ChemAxiomPolyClass [Электронный ресурс]. – Режим доступа: https://bitbucket.org/na303/chemaxiompolyclass.
5. Сайт онтологического проекта Protégé Стэнфордского университета (Stanford University) [Электронный ресурс]. – Режим доступа: http://protege.stanford.edu/.