KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Интернет » Алексей Кутовенко - Профессиональный поиск в Интернете

Алексей Кутовенко - Профессиональный поиск в Интернете

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Алексей Кутовенко, "Профессиональный поиск в Интернете" бесплатно, без регистрации.
Перейти на страницу:

Поскольку количество данных в семантических форматах в Сети растет, все более заметным становится разница в качестве таких ресурсов. Если рассмотренные ранее поисковики стремятся охватить как можно больше документов, то целью Watson являются в первую очередь наиболее качественно представленные ресурсы. Это проявляется в наличии системы рейтингов, которые выставляются системой тем или иным ресурсам в ходе анализа проиндексированных источников данных. Предполагается, что это позволит улучшить релевантность поиска. Нельзя не отметить, что подобный подход вполне соответствует классическим теоретическим подходам к созданию семантического веба. Пусть это еще не знаменитая кнопка «Да ну?» Бернеса-Ли, но определенно шаг в нужном направлении.

Предполагается, что данной системой будут пользоваться как программы-агенты, так и люди. Для подключения первых предлагается собственный прикладной программный интерфейс, для вторых – довольно простой, но любопытный визуальный интерфейс. Он состоит из поля поиска и небольшого набора дополнительных фильтров, вызываемого кнопкой Search Options. Здесь предлагают включить поиск по фразе, а также некоторые специфические фильтры. Так, например, фильтр Entities позволяет искать только среди классов или свойств объектов. Фильтр Scope дает возможность ограничить выдачу значениями конкретных свойств объекта (URI, заголовок, комментарий).

Заметим, что список выдачи у системы Watson меньше по объему, чем у других поисковиков для семантического веба, однако это компенсируется обязательными ссылками на соответствующие онтологии (рис. 10.2). Каждая найденная ссылка ведет к своеобразному «паспорту» исходного ресурса, который содержит сведения о количестве элементов в онтологии, использованном для описания языке, а также комментарии пользователей.

Рис. 10.2. Страница выдачи поисковой системы Watson

Кроме того, предлагается ссылка для загрузки файла онтологии. Очень интересна возможность сразу же составить и отправить запрос к найденному ресурсу на языке SPARQL.

Falcons

Интерес к семантическому поиску проявляют не только американские и европейские разработчики. Проект Falcons – это пример азиатского ресурса. Название поисковика представляет собой сокращение слов «Finding, Aligning and Learning ONtologies». Разработан поисковик в Юго-Восточном университете Китая (точнее, в институте Institute of Web Science). Любопытно, что даже сайт-«визитка» самого института широко использует RDF-разметку.

Поисковик в настоящее время умеет работать только с документами, использующими формат RDF/XML. Технологическая база Falcons полностью построена на программном обеспечении с открытым исходным кодом. Задействованы технологии MySQL, Apache Lucene и Jena – специализированная платформа для Java, предназначенная для работы с данными в семантических форматах. Для взаимодействия внешних приложений с Falcons предлагается достаточно простой прикладной программный интерфейс REST. Все соответствующие рекомендации и примеры уместились всего на одну веб-страницу справки Falcons.

Пользовательский интерфейс Falcons выдержан в строгом стиле. Начинать поиск можно только с помощью ключевых слов. Собственного языка запросов система не предлагает, ограничиваясь поддержкой поиска по взятой в кавычки точной фразе, а также стандартных логических операторов. Доступны несколько режимов поиска: объектов (Object), классов и свойств (Concepts), а также всех проиндексированных документов с семантической разметкой (Document).

Найденные объекты демонстрируются в виде простого списка сниппетов. Каждый сниппет содержит заголовок, URI, присвоенный системой тематический ярлык и краткую аннотацию, которая генерируется на основе RDF-описания найденного объекта. Щелкая на ссылках, можно перейти к более подробным описаниям.

Интересная находка Falcons – боковая панель с иерархическим деревом классов, к которым относятся найденные объекты. Она позволяет быстро уточнить запрос и упрощает навигацию в больших списках результатов. Данный инструмент напоминает панели кластерных интернет-поисковиков, однако шума здесь гораздо меньше, а структурирование информации выглядит весьма качественно. Достигается это за счет анализа семантической разметки документов.

Semantic Web Search

Коммерческих предложений в области поиска в семантическом вебе пока немного. Упоминания заслуживает проект Semantic Web Search. Основной бизнес фирмы-разработчика Semantic Web Search – внедрение собственного коммерческого программного обеспечения для хранения и обработки данных в формате RDF. Свободно доступный сервис Semantic Web Search носит демонстрационно-рекламный характер.

Сведений о размере индексной базы проекта на сайте Semantic Web Search не приводится, однако если судить по результатам тестовых запросов, она заметно уступает индексам некоммерческих академических поисковиков, о которых шла речь ранее.

В отличие от обычных поисковиков, на данном ресурсе можно составлять запросы, позволяющие, к примеру, найти все статьи человека с определенным именем и фамилией. Для создания сложных запросов применяется собственный язык запросов, использующий FOAF-разметку ресурсов.

Данный проект интересен в первую очередь своими дополнительными инструментами. Начнем с того, что на сайте есть аналог «расширенного поиска» – приложение Search Agent, которое помогает в составлении сложных запросов. Более того, на сайте предлагается простой онлайновый редактор Agent Developer, с помощью которого можно создать собственную программу-агента. Для этого понадобятся только самые общие представления о составлении поисковых запросов, остальные операции выполняются простым выбором тех или иных пунктов в предлагаемом списке. Правда, данный любопытный инструмент, как сообщают разработчики Semantic Web Search, в скором времени будет убран, а на смену ему придет машинный интерфейс, поддерживающий SPARQL-запросы, что даст возможность пользователям подключать к нему собственные программы-агенты.

К сожалению, данному проекту присущ ряд недостатков, обусловленных его демонстрационным характером. Сайт поисковика частенько перегружен, что приводит к ошибкам при обработке запросов. Скорость его работы также оставляет желать лучшего.

Sindice/Sig.ma

Довольно интересной и полезной для широкого круга пользователей попыткой объединить технологии поиска в семантическом вебе со средствами создания мэшапов предпринята системами Sindice и Sig.ma. Эти проекты предлагают весьма удобные комбинированные средства поиска и просмотра семантических данных. Разработчиком обеих систем является уже известный нам ирландский институт DERI. Поисковик Sindice обладает действительно дружественным интерфейсом и предлагает ряд полезных инструментов для непосредственного просмотра результатов поиска человеком. Достигается это во многом за счет совместной работы поисковика с еще одним проектом тех же разработчиков – мэшап-системой Sig.ma.

Как утверждают разработчики, собственная индексная база проекта является крупнейшим индексом документов в семантических форматах в современном интернете. Поскольку конкретных цифр не приводится, оставим это утверждение на совести авторов. Как бы то ни было, заметим, что результаты поиска здесь действительно достойные. Поисковик умеет взаимодействовать с программами-агентами. Выдача данных осуществляется в форматах JSON и RDF.

Sindice предлагает три режима работы. Собственно поиск является только одним из них. Кроме него доступны инструменты ручного добавления собственных семантических ресурсов в базу проекта, а также инструмент поиска семантических данных на указанной пользователем веб-странице.

Предлагается только режим простого поиска. Страница выдачи представляет собой простой список найденных ресурсов. Из дополнительной информации приводятся сведения о формате найденного документа и его размере. Однако это нельзя назвать серьезным недостатком, поскольку результаты Sindice рекомендуется просматривать с помощью сервиса Sig.ma. Для этого предусмотрена кнопка Go to Full Search Version.

Аббревиатура Sig.ma расшифровывается как «Semantic Integrated Mashup». Разработчики также называют этот сервис «браузером для семантического веба». Интерфейс ресурса состоит из двух панелей (рис. 10.3). На левой панели выводится обзорная сводка о предмете поиска, автоматически скомпонованная из различных источников. Сводка состоит из разделов, связанных с наиболее важными для заданного объекта тегами семантической разметки. Система пытается автоматически выделить основные аспекты темы. Для них выводится перечень семантических тегов, за которыми идет подборка соответствующих текстовых фрагментов, изображений или видео. Это еще одна особенность Sig.ma – остальные семантические поисковики пока неохотно работают с мультимедиа. Справедливости ради заметим, что просмотр мультимедиа здесь не самый удобный. Так, изображения выводятся только перед основными текстовыми блоками и в полном размере, а не миниатюрами. Если по теме поиска таких картинок найдено много, просмотр страницы оказывается довольно неудобным. Видео пока также не выделяется в отдельный блок и демонстрируется простыми гиперссылками на соответствующие ресурсы.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*