Вернуться ко всем статьям

Подходы к интеграции цифровой геологической информации, полученной из разных источников

# Статья из библиотеки

В процессе разработки и эксплуатации информационных систем, предметная область которых имеет отношение к геологии, очень часто возникает необходимость интеграции цифровых геологических данных из различных источников. Это может быть вызвано, например:

  • потребностью в комплексном анализе данных из разных систем;
  • задачами обмена информацией между системами;
  • функциональным объединением информационных систем.

Сценарии интеграции могут быть различными, но можно выделить такие типичные задачи интеграции, как:

  • согласование метамодели;
  • интерпретация моделей данных (онтологий);
  • сопоставление классификаторов, справочников и доменов;
  • объединение фактографической информации.

В качестве примера можно привести Электронную карту недропользования России, созданную центром "Минерал" в 2006 году как инструмент комплексного анализа данных из основных отраслевых информационных массивов, таких как:

  • Государственный баланс запасов полезных ископаемых Российской Федерации (реляционная БД);
  • Государственный кадастр месторождений Российской Федерации (реляционная БД);
  • Информационная система «Минерал», содержащая, в частности, данные по важнейшим месторождениям всех полезных ископаемых по всему миру (реляционная БД);
  • Реестр лицензий на недропользование на территории Российской Федерации (реляционная БД);
  • Карта лицензионных участков (формат ГИС).

В процессе этой работы решались все перечисленные задачи. Сейчас Электронная карта недропользования России получила развитие как самостоятельная информационная система, регулярно пополняемая актуализированными данными из всех названных источников, которые тоже не стоят на месте и развиваются, и делает решение задач интеграции регулярным. Материалы по Электронной карте недропользования России включены в состав экспозиции Роснедра на 33-м Международном геологическом конгрессе в Осло.

Проблемы и сложности интеграции и их причины

Если согласование метамоделей в настоящее время, как правило, не вызывает принципиальных трудностей (используются либо реляционные, либо объектно-ориентированные подходы, которые достаточно хорошо совместимы), то решению остальных задач зачастую препятствуют такие проблемы, как:

  • концептуальные отличия моделей данных (онтологиях), используемых в разных источниках данных в пределах одной предметной области;
  • частично или полностью перекрывающиеся по области применения, но плохо совместимые классификаторы, справочники и домены.

Эти сложности связаны с тем, что практически используемые геологические стандарты, как правило, имеют отраслевой и национальный, а не международный характер (специализированные ГОСТы (РФ), NADM (USA), Engineering Geology Field Manual (USA) etc), кроме того, имеется значительное количество информационных систем, созданных без оглядки на существующие стандарты. В качестве примера можно привести практически все актуальные отраслевые цифровые информационные массивы в России, перечисленные выше.

Характерный пример – различие трактовок понятия «месторождение» в Государственном Кадастре Месторождений Российской Федерации и Государственный баланс запасов полезных ископаемых Российской Федерации. То, что кадастр именует «месторождением» с присвоением соответствующего идентифицирующего номера, зачастую является «группой месторождений» с точки зрения баланса запасов. Обе системы созданы и ведутся весьма компетентными специалистами, и обе точки зрения заслуживают уважения, однако при интеграции необходим какой-то компромисс.

Методы решения задач интеграции, выбор оптимальных методов, практический опыт

Процедурный метод

Предполагает жесткое кодирование процедур интеграции, основанное на конкретных моделях данных (онтологиях), см. рис.1.

Схема процедурного метода интеграции данных *** Размер изображения уменьшен. Нажмите, чтобы увидеть полноразмерное изображение с полным качеством

Рис.1. Схема процедурного метода интеграции данных

Преимущество: нет ограничений по применению.

Недостатки:

  • для каждого сочетания источников данных необходимо реализовать собственный программный модуль интеграции, реализующий полный цикл операций
  • сложность сопровождения
  • недостаточная гибкость
  • неустойчивость программной базы к изменению модели данных (онтологии).

Когда целесообразно использовать: если задачи интерпретации являются эпизодическими, непредсказуемыми и повторное использование не планируется.

Это путь был выбран нами для быстрой первоначальной интеграции данных из вышеперечисленных источников в первой версии Электронной Карты Недропользования России. Причины очень просты: результат требовалось получить максимально быстро, и дальнейшая судьба проекта была тогда не вполне ясна.

Декларативный метод

Соотносит модели данных (онтологии) между собой на уровне описания, обрабатываемого стандартным модулем объединения, не зависящем от моделей данных, см. рис.2.

Схема декларативного метода интеграции *** Размер изображения уменьшен. Нажмите, чтобы увидеть полноразмерное изображение с полным качеством

Рис.2. Схема декларативного метода интеграции данных

Преимущества:

  • максимальная универсальность
  • устойчивость к изменению модели данных (онтологии)
  • минимальные средние накладные расходы на каждый источник данных.

Недостаток: ограниченная область применимости - требуется использование соответствующей универсальной метамодели во всех источниках данных.

Когда целесообразно использовать: если есть возможность предусмотреть необходимость интеграции данных на этапе проектирования источников данных (довольно редкая на практике ситуация, но надо к ней стремиться!).

Процедурно-декларативный метод

Использует процедурный метод для интерпретации данных каждого из источников с целью перевода данных в универсальную метамодель более высокого уровня, в которой модели данных (онтологии) описываются единообразно. Это позволяет в дальнейшем для интеграции использовать декларативный подход, см. рис.3.

Схема процедурно-декларативного метода *** Размер изображения уменьшен. Нажмите, чтобы увидеть полноразмерное изображение с полным качеством

Рис.3. Схема процедурно-декларативного метода интеграции данных

Преимущества:

  • нет ограничений по применению;
  • обеспечивает изоляцию процедур интерпретации для каждого из источников, и тем самым, относительную устойчивость программной базы при изменении только одного из источников данных.

Недостаток: накладные расходы в расчете на каждый источник данных при разовом использовании могут превысить затраты на процедурную интеграцию.

Когда целесообразно использовать: в случае, когда задачи интеграции достаточно предсказуемы и повторяемы, при этом один из источников данных относительно хорошо известен, стабилен или изначально спроектирован с использованием универсальной метамодели, а другие источники могут меняться. Типичный сценарий – систематическое пополнение разрозненными данными конкретной информационной системы.

Именно этот вариант сейчас используется нами для регулярного пополнения Электронной Карты Недропользования России актуализированными данными из вышеперечисленных источников.

Кирилл Флоренский, рук. отдела ИТ центра «Минерал»

Ссылки:

  1. United Nations Framework Classification for Fossil Energy and Mineral Resources, http://www.unece.org/ie/se/pdfs/UNFC/UNFCemr.pdf
  2. Engineering Geology Field Manual (USA), http://www.usbr.gov/pmts/geology/geoman.html
  3. North American Data Model (NADM), http://nadm-geo.org/about.html
  4. Ross, J. G., Common Reserve Definitions and Resource Classification for Minerals and Petroleum: Dream or Reality?, LL.M. Dissertation, CEPMLP, University of Dundee, Scotland, 2006
  5. Interactive Electronic Map of the Subsoil Use in the Russian Federation, http://www.mineral.ru/Maps/emap/123/186/InteractiveElectronicMap.pdf
Яндекс.Метрика