Решил написать небольшую разъяснительную статью на эту тему.
Немного воды для начала
Совсем недавно стали появляться новости о том, то IBM и BBC принялись
за разработку Web 3.0. Затем поступила информация, что между
Европейским Союзом и США намечается конкуренция за право первенства в
технологиях Web 3.0, или, как еще называют, Семантической Сети.
Вообщем-то Web3.0 довольно условное название, ибо не все признают и веб
2.0, потому далее буду называть это нечто семантической сетью.
Что же такое в действительности Семантический Веб и достоин ли он
прийти на смену существующему интернету – основные вопросы
пользователей и сетевых инвесторов. Об этом и пойдет речь.
Web1.0, Web2.0, Web3.0 — считаем перед сном
Когда мы говорим о Web, то в первую очередь подразумеваем контент.
Скачать рефератик или новый софт из гигантской всепланетной свалки и
заплатить за это утомлением глаз баннерной рекламой – это концепция
того, что сейчас можно назвать Web 1.0. Пользователь выступает
пассивным потребителем информации, которую создают 2-10 % активных
участников сети.
Интернет это глобальная информационная сеть. Интернет целиком состоит
из контента и различие «версий» веба это лишь различие между способами
организации/подачи контента. Веб 1.0 подразумевал полную аморфность
пользователя, который выступал простым потребителем.
Под Web 2.0 обычно понимают сервисы, которые позволяют пользователями
самим генерировать контент, а также распространять его посредством лент
и гиперссылок. Пользователь сам выбирает, какой именно контент он
должен получать, выходя в сеть, настраиваясь на чтение избранных
блогов, сообществ, лент.
Осознав этот простой факт, ряд крупных корпораций (в частности, BBC,
IBM, Google, Oracle) в качестве основного направления развития
интернета на ближайшие 5-10 лет предложили семантическую систему Web
3.0, основанную на «умной» обработке информации. Суть её заключается в
том, что не пользователи, а сами машины осуществляют поиск информации
по содержимому, включая поиск по видео- и цифровым изображениям,
основываясь на метаданных и метабазах. Web 3.0 должен решить самую
актуальную проблему развития интернета - поиска значимой информации,
отделение её от информационного мусора. Одно из решений заключается в
том, чтобы ранжировать информацию по источнику авторства, в зависимости
от рейтинга источника. И сам рейтинг должен быть не автоматическим,
начисляемым просто за активность в сети, а определяемым другими
пользователями интернета. Другие, более популярные решения, в основном
строятся вокруг метаданных.
Что и как
Semantic Web (SW) является надстройкой над уже существующим WWW.
Семантика однозначно характеризует найденный контент по ряду
характерных признаков. SW для трактовки данных использует универсальный
идентификатор ресурсов (URI; это ссылки не только на электронные адреса
или какие-то Web-страницы, но и на отдельных людей, города,
художественные артефакты и т.д.), онтологии и языки описания метаданных
(лексический анализ для машинной обработки).
Сейчас большая часть информации в сети совершенно не понятна для
компьютеров. То есть программа не может точно сказать о чем данный
текст, кто такой А.С.Пушкин и собрать сообщения двух блогов в один тред
по одной теме. В SW для описания информации использует RDF (Resource
Description Framework) который однозначно опишет логические связи
информации.
«лед тронулся...»
Семантический веб используется не только в фантазиях Сера Тимоти
Бернерса-Лии, но и в крупных корпорациях и госучреждениях, но это
специальные разработки, требующие больших усилий. Например, в разведке
семантическая технология используется для выявления связей между людьми
при борьбе с терроризмом. Вся информация о террористах хранится в
трехуровневой системе RDF, построенной на стандартной базе данных. Для
управления сложным процессом обработки этих данных системе требуется 22
Тбайт оперативной памяти, и работает она нестабильно, а на
восстановление системы после сбоя уходит неделя.
Попробуем же взглянуть на те технологии которые ждут нас во всемирной
сети.
Возможно, вам знакомы такие технологии, как RDF, OWL Web Ontology
Language и SPARQL, а также их родственники, наподобие XML. Весь этот
набор букв позволяет разработчикам организовать данные в семантическую
структуру.
Самый основной язык это конечно RDF. Он описывает все данные через
триплеты: субъект — предикат — объект. Например, утверждение «Небо
голубого цвета» в RDF-терминологии можно представить следующим образом:
субъект — «небо», предикат — «имеет цвет», объект — «голубой».
Другой кит, на котором стоит Web 3.0 - Web Ontology Language (OWL). OWL
– это язык онтологии для интернета на основе XML. Язык веб-онтологий
OWL призван обеспечить язык, который может быть использован для
описания классов и отношений между ними, которые присущи для
веб-документов и приложений. В основе языка находится представление
действительности в модели данных объект-свойство. Каждому элементу
описания в этом языке ставится в соответствие www-адрес URI.
И что мы имеем?
Прежде всего для просмотра(или хотя б распознания присутствия на
странице) семантических данных вам понадобятся RDF браузеры или
расширения для браузеров HTML. Для Firefox идеальным вариантом является
сочетание Semantic Radar и Operator Toolbar
.
FreeBase — сообщество
пользователей, которые создают связи к свободно представленным базам
WikiPedia, Musicbranz и другим. Слинкованные данные добавляются в
Wiki-стиле по мета-признакам, категориям и фольксомонии. В базе данных
сейчас насчитывается около 20 000 фильмов, 350 000 музыкальных
альбомов, 350 000 данных о людях, всего 873 категории. Каждую запись в
базе можно обсудить, посмотреть отношения или отредактировать. Проект
находится в альфа-тестировании, и поэтому доступ к базе - только по
приглашениям.
DBpedia — тоже сообщество, которое
извлекает структурированную информацию из Wikipedia и создает связи с
другими источниками. Проект использует RDF (9,3 миллиона документов с
647,348 связями на 11 языках), что позволяет делать SPARQL-запросы к
этим данным (SPARQL – стандарт языковых запросов семантической
паутины)). Несколько реализаций для различных языков программирования
уже существуют. На данный момент имеет связанные ссылки с базами
Musicbranz, Geonames, YAGO-классификацией и содержит почти 60 тысяч
данных о людях. В базе представлены такие разделы, как фильмы, музыка,
политика, наука и другие, постоянно пополняющиеся.
Friend of a Friend (FOAF) —
проект по созданию модели машинно-читаемых домашних страниц и
социальных сетей. Сердцем проекта является спецификация, которая
определяет некоторые выражения, используемые в высказываниях о
ком-либо: например, имя, пол и другие характеристики. Чтобы сослаться
на эти данные, используется идентификатор, включающий уникальные
свойства друга (например, SHA1-сумма от E-Mail адреса, Jabber ID, или
URI домашней страницы, веблога).
Основанный на RDF, определённый с помощью OWL и разработанный для
лёгкой расширяемости, FOAF позволяет распределять данные между
различными компьютерными окружениями.
Semanticly Linked Online Communitis(SIOC)
— способ связи постов в блогах, комментариев на форумах, статей и
прочих сообщений в один тред по теме или ключевым словам. С недавних
пор технология подшефная W3C.
WordNet — лексическая база
для английского языка. В базе собраны имена существительные, глаголы,
прилагательные и наречия, которые группируются в наборы познавательных
синонимов (synsets). Synsets тесно связан с помощью
умозрительно-семантических и лексических отношений. Результирующая сеть
значимо связанных слов и понятий может быть найдена представленным на
сайте навигатором. Ко всем данным базы открыт свободный доступ с
помощью машинных запросов SPARQL.
Geonames — проект сопоставления
географических названий с ассоциируемыми RDF-данными. Другими словами,
географическая информация будет представлена на сайте по RDF-стандартам.
Linking Open Data on the Semantic Web
— собирается вообще всю открытую информацию в интернете перевести в RDF
и, к тому же, занимается составлением RDF-ссылок между другими
проектами Web 3.0.
Семантическая Медиавики
Всех сайтов использующих RDF и не перечислить, это и ЖЖ и недавно проскакивавший на хабре Доброметр
И в заключение
Web 3.0 на сегодняшний день в большей степени отвечает внутренним
изменениям механизмов работы Сети, подчас незаметные обычному
пользователю. Семантический Web – не революционное решение, которое
однажды изменит мир вокруг нас, а постепенно внедряемая (и уже успешно)
технология, инструмент, позволяющий в лучшей степени использовать
доступные нам сейчас ресурсы.
Рекомендую
W3C Semantic Web Activity News
Semanticfind Статьи и
обсуждения о подвижках семантического веба, сопутствующих технологиях и
спецификациях,семантических расширений для браузеров.
Все о SW
Тоже отличный сайт о SW
В создании статьи использованы отрывки из статей xakep.ru
P.S. Я хочу посвятить этому свой блог, делиться с
людьми рецептами, переводить новости и спецификации, продвигать SW в
ру/уа/байнете. Как думаете достойная тема? habrahabr.ru/blog/sw/27073.html