Категория:Linked Data

Материал из Semantic Future

Тимоти Бернерс-Ли предложил очень простые правила для публикации данных в сети:

  • Разнообразные вещи и понятия «именуются», и эти имена суть строки синтаксиса URI.
  • Где только можно, URI начинаются с http://..., чтобы получить информацию о вещи можно было простым вводом её имени в адресную строку браузера.
  • Если клиент запрашивает URI и при этом может принимать данные в виде RDF, надо дать ему эти данные и пусть он сам решит, что дальше с ними делать, в том числе, как их показать пользователю. Если сайт хранит достаточно много данных и если есть техническая возможность, то желательно предоставить возможность выборки этих данных стандартными средствами и в стандартных форматах (например, используя язык и протокол SPARQL)
  • Описание одной вещи или понятия не должно быть изолированным и самодостаточным, вместо этого оно может содержать ссылки на связанные понятия, опять же в виде URI, по данным можно «бродить» точно так же, как по страницам Сети.

Представление данных в соответствии с этими правилами называется Linked Data.

Сеть Linked Data можно представить себе как тень, которую реальные вещи, взаимосвязанные в реальном мире, отбрасывают в Интернет, и связи между вещами видны как связи между ресурсами в Сети. http://dbpedia.org/resource/Moscow не является столицей http://dbpedia.org/resource/Russia , но связь dbpedia-owl:capital между двумя этими ресурсами описывает реальные город и страну, а схожая связь с http://dbpedia.org/resource/Tsardom_of_Russia напоминает о реальной истории. Программа, которая умеет получать из Сети документы, может таким образом накапливать факты о реальности.

Человеку неудобно читать «сырые» данные в формате RDF, в них могут быть смешаны совершенно разношерстные факты, большая часть которых в текущей момент ему не требуется (а часть и никогда не потребуется, скажем, описание вещи на китайском, если он не знает китайского). Избыточность данных не важна. Важно, что эти данные доступны, и нужная их часть может быть отобрана для дальнейшей обработки. Веб-страницу удобно читать, но её удобно только читать, и только человеку, и только одну страницу в один момент. Если человеку понадобится свести воедино данные, опубликованные на сайте в виде тысячи веб-страниц, то ему понадобится или неразумно много рабочего времени или некая специально для этого написанная нетривиальная программа. В то же время данные из тысячи RDF-документов могут быть обработаны стандартными (и потому очень дешёвыми) программными средствами: в RDF данные не перемешаны со всевозможными «декорациями» и текстами, их не надо выковыривать из смеси с текстами, элементами вёрстки, скриптами и прочим. Более того, в RDF кроме данных о вещи могут содержатся связные «метаданные» об этих данных, таким образом, в формате RDF могут быть представлены знания.

Вводная статья специального выпуска IJWIS даёт хороший обзор истории и текущего состояния Linked Data, равно как и хорошо подобранную библиографию.

Проект LOD --- Linking Open Data --- объединяет желающих сделать свои данные общедоступными. В рамках этого проекта создана самая крупная и самая популярная коллекция ресурсов Linked Data. Желательно не путать аббревиатуры "LD" и "LOD". Linked Data --- технология, в то время как LOD --- использующий эту технологию один конкретный проект с конкретными участниками, его полное название --- "Linking Open Data W3C SWEO Сommunity Project".

Граф связей между самыми популярными сайтами Linked Open Data Project напоминает "детство" WWW, когда список известных сайтов без затруднений редактировался одним человеком. В тот раз это продолжалось недолго. Статистика связей выглядит не так красиво, зато она полнее и обновляется чаще.

Материалы Linking Open Data Workshop: WWW2008, WWW2009
Материалы других встреч LOD (неполные): ISWC2007, ESWC2008, ISWC2008.

Важно: как сделать ваш SPARQL-сервис видимым для окружающих . Пример DNS-записей для lod.openlinksw.com.

Ветка местного форума --- пока скорее черенок для листика, но вдруг вырастет...