Алексей Кутовенко - Профессиональный поиск в Интернете
Преимущество Jinni – качественная и глубокая индексация фильмов по множеству характеристик. Обратная сторона такого подхода – повышенные трудозатраты на индексирование. Дело в том, что данный процесс полностью взяла на себя команда Jinni. Пользователи проекта могут только предлагать включить в базу тот или иной фильм, участия в его описании они не принимают. Это сознательная позиция разработчиков Jinni, призванная гарантировать качество индексирования. В то же время нетрудно предсказать и недостатки такой системы. Подавляющее большинство фильмов в базе – американские. Европа представлена с большим отставанием, а фильмы из остальных регионов земного шара – это, скорее, отдельные вкрапления в общей мозаике. Таким образом, если вы являетесь любителем западного кино и англоязычный интерфейс вас не смущает, Jinni станет для вас прекрасным инструментом тематического поиска. В других же случаях целесообразней воспользоваться иными сервисами.
Выводы и рекомендации
Рекомендательные ресурсы – специфический продукт, который не без оснований относят к поколению Web 2.0. Если рассматривать их как средство поиска, необходимо помнить о нескольких ключевых особенностях.
Первая особенность рекомендательных сервисов – это особые возможности поиска. В отличие от других поисковиков здесь ведущим поисковым признаком являются ассоциативные связи различных объектов. Любой запрос на рекомендательной машине можно свести к команде найти объекты, подобные предъявленному пользователем.
Вторая особенность рассмотренных ресурсов – ориентация на применение для индексирования контента тегов, свободно присваиваемых пользователями. Данный способ описания ресурсов очень прост в освоении и становится базой для работы дополнительных инструментов и услуг. Важное преимущество тегов – гибкость. Ресурсу может быть присвоено ровно столько тематических «ярлычков», сколько сочтет необходимым пользователь. Однако у данного способа тоже есть свои нюансы. Поскольку при таком подходе теги расставляют самые обычные люди без какой-либо специальной подготовки, качество индексирования может быть, мягко говоря, разным. Не стоит также забывать о существовании синонимов – разные пользователи могут поставить разные теги для одного понятия. Свою лепту вносит и риск банальных орфографических ошибок. Эти нюансы потом существенно осложняют поиск нужных ссылок. Разработчики ресурсов по мере возможности стараются сгладить эти негативные особенности технологии, построенной на тегах. Достигается это за счет предложения различных инструментов автодополнения вносимых тегов или подсказки похожих ключевых слов. Это, во-первых, ускоряет индексирование, а во-вторых, позволяет хоть как-то сохранить единообразие в применении тегов.
Для того чтобы помочь системе при расстановке ключевых слов-тегов, достаточно придерживаться некоторых простых правил индексирования, принадлежащих еще к «доинтернетовской» эпохе. По мере возможностей, старайтесь присваивать ссылкам по одной теме одинаковые теги. Для максимально полного описания ставьте теги не только по теме конкретной страницы, но и указывающие на «вышестоящие» понятия (для «браузеров» это, например, «компьютерные программы» и «интернет»), используйте синонимы и ассоциации («сеть», «веб-серфинг», «стандарты» и т. д.). Эти нехитрые правила позволяют значительно повысить качество индексирования.
Глава 6
Персональные поисковики
Среди всего многообразия систем интернет-поиска особое место занимают так называемые персональные поисковики. Система персонального, или пользовательского, интернет-поиска (Custom Search Engine) – это сервис, позволяющий создать и настроить специализированный поисковик, учитывающий в результатах персональные предпочтения и тематические интересы пользователя, другими словами – его собственный контекст поиска. Такие технологии очень широко применяются для создания систем поиска отдельных сайтов, полезны они и «частникам», поскольку позволяют построить поисковик по интересующим конкретного человека тематическим ресурсам.
Главная идея персонального поиска заключается в том, что пользователю предлагают самостоятельно определить перечень веб-ресурсов, к которым будет обращаться новый поисковик. В результате ценой определенной потери в широте охвата персональный поиск заметно улучшает точность поиска.
В простейшем случае персональный поиск сводится к поиску в группе указанных пользователем сайтов, более сложные варианты подразумевают тонкую настройку выдачи, автоматическое добавление тематических сайтов в персональный индекс и организацию совместной работы над поисковиком группы единомышленников.
В сфере персонального интернет-поиска на сегодняшний день не так много достойных, конкурентоспособных предложений. В настоящее время для использования можно рекомендовать проекты Google Custom Search Engine и Flexum. Другие общедоступные платформы персонального поиска серьезно уступают лидерам и не отличаются качественной работой с ресурсами на русском языке.
Google Custom Search Engine
Проект Google Custom Search Engine (сокращенно – Google CSE) является наиболее крупной на сегодняшний день системой персонального интернет-поиска. Интерфейс Google CSE доступен на нескольких десятках языках. Предусмотрен и русский язык. Правда, перевод пока неполный, особенно страдает в этом плане справочная система.
Создание собственного поисковика Google CSE происходит в несколько этапов. Удобнее всего будет отследить этот процесс на практическом примере создания тематического поисковика.
В первую очередь потребуется определиться с назначением будущего поисковика. Это может быть любая сфера, связанная с вашей профессиональной деятельностью или хобби. Наш тестовый поисковик будет посвящен авиации. Это широкая тема, по которой в Сети можно найти большое количество разнообразного контента, что позволит нам продемонстрировать в работе максимум инструментов Google CSE.
Следующий шаг – непосредственная регистрация в системе Google Custom Search Engine и создание нового поисковика. Стартовая страница системы сразу же предлагает ссылку для этого. В специальной форме указывается имя новой системы, краткое описание поисковика и набор сопоставленных ему ключевых слов. Этот набор будет использоваться для уточнения результатов сортировки: сайты с такими ключевыми словами расположатся выше в списке выдачи Далее необходимо выбрать один из трех режимов работы будущей машины: простой поиск во всей базе Google, поиск только на сайтах, непосредственно включенных в персональный индекс, и поиск в базе Google с выводом включенных в индекс сайтов на первые позиции в списке выдачи.
Выбор между этими вариантами лучше всего делать с учетом степени вашей подготовленности. Если вы интересуетесь определенной темой достаточно долго, у вас, скорее всего, уже имеется хорошая коллекция ссылок на действительно полезные и информативные сайты по теме. Список таких ссылок можно использовать как основу для персонального поисковика. В этом случае лучше сразу ограничить сферу поиска только указанными сайтами, поскольку этот вариант избавит поисковик от большей части информационного шума. Если же у вас такой подборки ссылок пока нет и поисковик создается «с нуля», имеет смысл выбрать вариант поиска в базе Google с предпочтением указанных вами сайтов. Такой вариант позволит сразу же получить работоспособную систему, точность функционирования которой будет постепенно повышаться по мере пополнения персонального списка сайтов.
Поскольку в персональном поиске используется готовая индексная база Google, проверить работу своего поисковика можно сразу же после его регистрации. Для этого достаточно ввести тестовый запрос и просмотреть результаты, полученные именно с указанных вами сайтов.
Изменить большинство из указанных при регистрации параметров нового поисковика впоследствии можно с помощью раздела Основные сведения, который расположен на боковой панели управления Google CSE.
Следующий этап работы над персональным поисковиком – заполнение его индексной базы – занимает гораздо больше времени. Поддерживая свой поисковик, пользователь в основном занимается именно этой работой. В настоящее время существует ограничение на общее количество сайтов, задействованных при персональном поиске одного пользователя – не более 5000 ссылок. Добавить адреса новых сайтов в индекс поисковика можно с помощью веб-интерфейса сервиса, дополнения для браузера, а также посредством импорта предварительно отформатированного пользователем файла в формате XML.
Первый способ предполагает использование веб-интерфейса самого поисковика Google CSE. В боковой панели системы находится ссылка. Сайты, которая и открывает соответствующую форму. Работа идет сразу с двумя списками: первый из них позволяет включать сайты в индекс поисковика. Назначение второго – прямо противоположное: исключение результатов с указанных вами сайтов из результатов поиска.