С тех пор как в 1996 году было разрешено использование GPS в гражданских системах, геопространственные данные начали активно применяться повсеместно: для поиска маршрутов объезда пробок, слежения за детьми, подготовки местных метеопрогнозов и т. п. Информация о местонахождении объекта могла бы стать объединяющим атрибутом для данных самой различной природы: например, достаточно снабдить объект указанием соответствующей широты и долготы — и можно нанести его на визуально привлекательную цифровую карту. Возможность создания коллажей с использованием картографических сервисов вроде Google Maps и Bing стала основным фактором успешного бизнеса для многих стартапов начала 2000-х.
Спрос на данные геопозиционирования растет в связи с развитием технологий и появлением мобильных электронных устройств, способных с помощью датчиков наблюдать за физическим миром. Большое значение для экономики и общества имеет развитие Интернета вещей, один из важнейших аспектов которого — сбор данных с привязкой к местонахождению объекта [1, 2], причем существует острая потребность в механизмах обмена этой информацией, как это происходит в традиционной Всемирной паутине. Как извлечь максимум пользы из открывающихся возможностей? Уже два десятка лет организация Open Geospatial Consortium (OGC) разрабатывает стандарты для геоинформационных систем. Результатами этой работы пользуются, в частности, государственные картографические управления, которые публикуют национальные и региональные инфраструктуры пространственных данных (Spatial Data Infrastructure, SDI) [3]. Однако веб-сервисы на основе стандартов OGC можно отнести к «теневому» WWW, поскольку большая часть предоставляемой ими информации недоступна для большинства пользователей Интернета. В то же время уже почти 15 лет консорциум W3C ведет разработку и стандартизацию решений в области связанных данных (Linked Data), относящейся к Semantic Web. Эти стандарты базируются на формализованных словарях, графовой модели данных и межмашинной связи по протоколу HTTP, осуществляемой по принципу REST. Создатели спецификаций Linked Data следят, чтобы разработчики веб-приложений могли их легко осваивать. Однако стандартами W3C геопространственные данные охвачены лишь частично, хотя здесь ведется активная работа в рамках инициатив Linked Data. Судя по ресурсу LOD Cloud, база связанных географических данных GeoNames уступает по популярности лишь DBPedia, а согласно сайту prefix.cc, словари geonames и geo идут сразу после foaf и dc в рейтинге популярности среди специалистов по RDF.
Недавно в OGC и W3C впервые объединили свои усилия: обе организации совместно разрабатывают технологии и руководства по лучшим практикам в области связанных пространственных данных. Соответствующий комитет — Spatial Data on the Web Working Group (SDWWG) — будет заниматься организацией сотрудничества с пользователями стандартов Linked Data и OGC для определения оптимальных методов интеграции пространственных данных с другой информацией в WWW, иначе говоря, для формирования геопространственной Семантической паутины. Комитет изучает способы репрезентации чисто географических концепций средствами ИТ с целью формирования рекомендаций по выбору методов и инструментов, которые могут быть полезными для разработчиков сообщества Linked Data. Рассмотрим задачи, которые предстоит решить SDWWG.
География — это не только координаты
Простейший способ обозначить местонахождение — указать координаты в какой-либо общепринятой системе, например в WGS 84 (World Geodetic System), однако иногда требуется возможность описания более сложных географических объектов, которые могут и не иметь четких координат или конкретной формы; нужна также возможность моделирования отношений между такими объектами. Попытки решить эти задачи наталкиваются на конфликт между четко определенным понятием «пространства» и менее определенным, но важным для географии понятием «места». Взять, к примеру, исторические районы крупных городов (скажем, Маленькую Венецию в Лондоне), которые не имеют официальных границ. Нужно считать подобные места частью города или самостоятельными единицами? Другой пример — высохшее озеро Лефрой на западе Австралии, популярное место проведения гонок на парусных повозках. С помощью геометрической кодировки нельзя обозначить границу, отделяющую подобные территории от соседних, а ответ на вопрос о том, проходит ли через такое место та или иная автодорога, будет субъективным и может зависеть от времени. Для того чтобы с подобными абстрактными объектами можно было оперировать, нужны какие-то идентификаторы — например, URI, который может быть идентификатором чего угодно, как объектов реального мира, так и информационных ресурсов.
URI — важнейший элемент Паутины связанных данных, позволяющий ассоциировать объект с дополнительной информацией о нем. В геоинформационных системах объекты обязательно должны иметь четкие геометрические характеристики, тогда как у озера Лефрой геометрия может меняться в зависимости от времени и контекста. Хочется надеяться, что рекомендации SDWWG для подобных случаев помогут не только в деле публикации связанных данных, но и в разработке открытых SDI, способных предоставлять информацию об объектах реального мира в стандартных форматах.
Пространственные базы данных, стандарты OGC и системы Linked Data опираются на широко применяемые языки запросов и словари пространственных отношений, содержащие в числе прочего коды геометрических абстракций. Пожалуй, наиболее известен словарь GeoSPARQL, включающий в себя сразу три семейства топологических отношений между парами геометрических объектов с привязкой к местности. Всем трем можно сопоставить определенные геометрические алгоритмы, но полезно было бы также использовать и нечеткие отношения, например «sdw:samePlaceAs», «sdw:near» и «sdw:in». Нечеткость делает их неоднозначными при интерпретации, но имеет ли это значение? С другой стороны, не будут ли четко определенные топологические отношения слишком строгими для свободолюбивого WWW, в котором так или иначе вряд ли смогли бы надежно работать динамические пространственные связи между распределенными источниками данных.
Удобную альтернативу предлагают авторы словаря NeoGeo, в котором одновременно определены геометрические отношения и описания географических объектов в стиле Linked Data; в нем также предусмотрена возможность поддержки других репрезентаций геометрии, основанная на использовании MIME-типов. Популярны основанная на нотации JSON кодировка GeoJSON и ее вариант TopoJSON, которые сейчас дорабатываются в соответствии с новыми стандартами Linked Data — JSON-LD и JSON-LD API. В Европейской комиссии разработали словарь Interoperability Solutions for European Public Administrations Core Location, ориентированный на репрезентацию административного деления государств и позволяющий кодировать геометрию территориальных единиц. Легко видеть, почему и издатели, и потребители пространственных данных в WWW нуждаются в официальных рекомендациях и стандартах.
Для SDI проделана большая работа по нормированию геопространственных метаданных, воплотившаяся, в частности, в стандарте ISO 19115, где метаданные определены в виде стандартизованного описания некоторого объема данных — файла или файлового архива. В свою очередь, согласно принципам Linked Data метаданные могут быть связаны с данными и по сути являться их частью, будучи представленными в той же графовой модели RDF. Метаданные можно ассоциировать с ресурсами, характеризующимися разными уровнями гранулярности. Комитету SDWWG предстоит регламентировать принципы мультигранулярности метаданных для пространственных объектов.
Время и пространство
Объекты физического мира обычно не стоят на месте, и когда речь идет об их расположении, то приходится говорить и о конкретном времени — в сообществе Linked Data широко используется онтология для представления знаний о времени (OWL-Time), которая с 2006 года находится в стадии рабочего черновика W3C. Сегодня пора продвинуть эту или подобную онтологию до уровня формального стандарта в целях обеспечения интероперабельности. Возможно, OWL-Time слишком привязана к григорианскому календарю, но она позволяет выражать как моменты, так и интервалы времени, а также основные концепции временных отношений. Ее можно было бы рекомендовать практически без изменений, хотя, возможно, понадобятся расширения для альтернативных календарей, а также доработка с учетом пересмотренного перечня типов данных в стандарте XML Schema от 2012 года.
Семантическая сенсорная паутина
В 2012 году инкубаторный комитет W3C опубликовал онтологию для сенсорных сетей — Semantic Sensor Networks (SSN), которая часто упоминается в исследовательской литературе и применяется либо тестируется в системах для «умного» сельского хозяйства, конфигурационного контроля спутников, управления зданиями и в сервисах Интернета вещей. В числе прочего SSN используется в экспериментальных проектах, касающихся инфраструктур связанных потоковых данных и сложных событий.
Данная онтология преднамеренно создавалась без привязки к конкретным способам обозначения места и времени, поэтому часть пользователей этим недовольна, но теперь имеется возможность теснее согласовать SSN с соответствующими стандартами, которые разрабатываются в рамках SDWWG. Широко применяется словарь W3C RDF Data Cube, созданный уже после появления SSN и позволяющий публиковать временные ряды в виде связанных данных. Такие ряды — это стандартный способ представления информации от датчиков, и согласование SSN с Data Cube принесло бы пользу как публикаторам, так и потребителям связанных данных.
Стоит также учесть другие свежие наработки в области репрезентации динамически обновляемых данных. Имеются планы по улучшению документации и повышению удобства использования SSN за счет модульности.
Интеграция данных спутниковой съемки
Объемы геолокационных данных, генерируемых с помощью спутниковой съемки, растут лавинообразно. Спутниковая информация обрабатывается в основном в ЦОД госструктур и исследовательских учреждений, но повышение доступности этих данных было бы несомненно полезным для коммерческих и общественных нужд.
Для данных дистанционного зондирования в SDWWG предлагают пользоваться словарем RDF Data Cube — подобная информация вряд ли подойдет для широкого потребления, но после ее географической привязки целесообразно было бы использовать модель Data Cube для представления наблюдений за геофизическими характеристиками, например за температурой поверхности моря и высотой океанских волн (см. рисунок). Небольшие адресуемые изображения с отметкой местонахождения было бы легко представить в виде связанных данных, но с учетом того, насколько велики массивы информации о наблюдениях за поверхностью Земли, скорее всего, здесь возникнут сложности. Язык Geography Markup Language Application Schema-Coverages (GMLCOV) стандарта OGC задает детальную модель XML Schema для «покрытий» (цифровых карт распределения геофизических параметров), причем он успешно применялся для баз размером 130 Тбайт, поэтому на его основе можно реализовать и интерфейс для связанных данных. Для описания аппаратуры дистанционного зондирования подойдет онтология SSN, но покрытия не всегда формируются при помощи такой аппаратуры, поэтому в SDWWG собираются подготовить рекомендацию по связанным данным для простого случая, когда меняющийся со временем параметр ассоциирован с фиксированным точечным местонахождением, как при гидрологических наблюдениях, регистрируемых с использованием стандарта OGC WaterML.
WWW после привязки к географии
На что можно рассчитывать, если SDWWG справится со своей задачей?
Представьте, что вы входите в здание аэропорта и понимаете, что забыли ноутбук в автобусе. Поисковик сообщит, что в данный момент ваш автобус находится у Конференц-центра имени Королевы Елизаветы, укажет конечную остановку, ожидаемое время прибытия, телефонный номер и часы работы бюро забытых вещей, а также время, которое уйдет на то, чтобы попасть туда на такси из того места, где вы находитесь. Большая часть информации, необходимой для поиска объектов реального мира, уже сейчас где-то есть в Интернете, только не в той форме, которая позволила бы легко отыскать ваш потерянный ноутбук.
Правительства разных стран публикуют пространственную информацию в стандартных форматах, способствуя ее широкому использованию, — например, в Евросоюзе ведение SDI регламентировано директивой Infrastructure for Spatial information in Europe, однако сегодня инфраструктуры пространственных данных разрабатываются обособленно, без связи с остальной частью Всемирной паутины. Возможно, сами по себе такие информационные системы внушают больше доверия с точки зрения качества, чем типичные проекты в области связанных данных (например, совместно редактируемые ресурсы вроде «Википедии»), но публикация SDI в легкодоступной форме принесет гораздо больше пользы, позволив раскрыть экономическую и социальную ценность пространственных данных. Поставщики таких данных могут задаться вопросом, какие принципы Linked Data уместно использовать с учетом того, что подобная информация более жестко контролируется. Например, стоит ли составителю высокоточных автодорожных карт или сведений о вертикальных препятствиях для автономных транспортных средств при помощи чего-то вроде ссылки sdw:samePlaceAs соединять свои базы с местами наподобие Маленькой Венеции? Стандарты комитета SDWWG будут не только влиять на разработку инфраструктур SDI, улучшая их связь с другими источниками и позволяя более точно указывать происхождение данных, но и увеличивать преимущества SDI за счет предоставления доступа к информации всем желающим.
Большое значение имеет происхождение пространственных данных. Так, информация, полученная из SDI, может быть обработана и интегрирована средствами моделирования и визуализации, чтобы проиллюстрировать стратегически важные или спорные решения правительства. Пример — учрежденная австралийским правительством процедура BioRegional Assessment, согласно которой вопрос о предоставлении разрешений на добычу газа в угольных пластах рассматривается с учетом рисков долгосрочной порчи водных и других природных ресурсов. Качественные записи о происхождении данных важны не только для оценки их пригодности к использованию в подобных процедурах, но и для придания дополнительного веса результатам этих процедур. Оптимальное техническое решение для репрезентации происхождения данных, удовлетворяющее требованиям SDWWG, предложено в недавней рекомендации W3C PROV. Учитывая, что такие рекомендации используются для инициатив публикации государственной информации в виде связанных данных, можно рассчитывать, что эта публикация будет сопровождаться подробными сведениями о происхождении в стандартном формате, что полностью отвечает принципам прозрачности работы правительства.
***
Сегодня работа SDWWG только начата. С нетерпением ждем ее результатов, рассчитывая, что к ней подключатся и другие специалисты, чтобы сведения о местонахождении могли в полном объеме появиться в Паутине связанных данных.
Литература
- P. Barnaghi et al. Semantics for the Internet of Things: Early Progress and Back to the Future // International Journal on Semantic Web and Information Systems. — 2012. — Vol. 8. — N 1. — P. 1–21. doi:10.4018/jswis.2012010101.
- K. Taylor et al. Farming the Web of Things // IEEE Intelligent Systems. — 2013. — Vol. 28. — N 6. — P. 12–19.
- M. Gould et al. Next-Generation Digital Earth: A Position Paper from the Vespucci Initiative for the Advancement of Geographic Information Science // International Journal of Spatial Data Infrastructures Research. — 2008. — Vol. 3. — P. 146–167.
Керри Тейлор (kerry.taylor@acm.org) — главный научный сотрудник, CSIRO; Эд Парсонс (eparsons@google.com) — специалист по геопространственным технологиям, исследовательское подразделение Google.