Алексей Кутовенко - Профессиональный поиск в Интернете
Продолжить совершенствование поисковика можно путем настройки средств продвижения сайтов, обработки синонимов и автозаполнения запросов.
Раздел Продвижения позволяет выделить в индексе поисковика сайты, которые будут иметь безусловное преимущество при сортировке результатов поиска по определенным ключевым словам (рис. 6.2). Такие ссылки начнут появляться в отдельном блоке над общим списком выдачи Данный прием позволяет повысить точность работы поисковика, поскольку лучшие узкотематические сайты попадут на первые позиции вне зависимости от результатов работы алгоритмов ранжирования. В нашем тестовом поисковике такую роль могут сыграть сайты, целиком посвященные определенному типу летательных аппаратов или же персоналиям. При добавлении каждого «продвижения» указывается его название, адрес целевого веб-сайта, а также список ключевых слов, ввод которых включит режим продвижения в результатах поиска. Альтернативный способ продвижения – загрузка предварительно составленного файла описаний продвижений. Данный вариант подходит, если вам нужно загрузить несколько десятков, а то и сотен продвигаемых адресов. При меньших объемах удобнее использовать стандартные инструменты раздела Продвижения.
Рис. 6.2. Панель настройки механизма продвижений Google CSE
Настройка синонимов в Google CSE позволяет, в частности, качественно обрабатывать аббревиатуры, а также вести поиск не только по введенным пользователем ключевым словам, но и по их синонимам. Включается этот механизм в разделе Синонимы боковой панели Google CSE. Именно там можно создать список синонимов для запросов к вашей системе Если пользователь системы задействовал внесенное в этот список слово, то поиск автоматически проводится и по его синонимам. Создать список синонимов очень просто. Достаточно указать в предлагаемой форме ключевое слово или фразу, которая включит данный режим поиска, а также собственно список синонимов. Можно также самостоятельно создать по предлагаемым правилам файл с описаниями списка синонимов и загрузить его в свой персональный поисковик.
Еще один режим, повышающий удобство работы с поисковиком, – режим автозаполнения вводимых пользователями поисковых запросов. Словарь этой системы формируется индивидуально для каждого персонального поисковика на основе анализа включенных в его базу сайтов. Включить режим автозаполнения можно в разделе Основные сведения. После этого Google CSE будет анализировать включенные в индекс поисковика сайты и формировать список ключевых слов, предлагаемых пользователю по мере набора текста в строке поиска Google CSE. Кроме этого режима в разделе Основные сведения можно включить режим автоматической транслитерации вводимых пользователями запросов.
Итак, наш поисковик обрел вполне реальные черты и научился неплохо справляться со своей работой. Осталось только продемонстрировать его публике. Для каждого персонального поисковика Google создает собственную домашнюю страницу, на которой и проводится поиск. Второй вариант работы с персональным поиском – размещение его формы-виджета на собственной веб-странице. Для этого достаточно просто скопировать предлагаемый системой код формы на свою страничку. Настройка этого режима ведется с помощью все той же боковой панели инструментов. На сей раз задействуются разделы Внешний вид и Получить код.
Первый из названных разделов позволяет определиться со структурой и оформлением виджета, предназначенного для размещения на внешнем сайте. Предлагается три варианта демонстрации результатов поиска: на одной странице с формой поиска, на отдельной странице результатов, находящейся на вашем сайте, и на домашней странице поисковика Google. Наиболее гибким является первый вариант.
Доступны несколько макетов разметки виджета, а также готовых вариантов его цветового оформления. Поскольку за оформление отвечает технология CSS, можно самостоятельно изменить внешний вид виджета в соответствии с дизайном вашего сайта. Полученный в результате этих операций код виджета можно скопировать в разделе Получить код.
Форму персонального поиска также можно экспортировать в виде гаджета для сервиса iGoogle. В отличие от обычных виджетов, он содержит не только форму поиска, но и предоставляет быстрый доступ к настройке персонального поисковика.
Отслеживать использование готового и открытого для доступа персонального поисковика можно с помощью раздела Статистика. Здесь демонстрируется количество запросов к поисковику за день, неделю и месяц. Если этого недостаточно, можно перейти на отдельную страницу статистики, где доступны сведения о количестве запросов в диапазоне от одного часа до недели, а также выводится список наиболее популярных запросов к вашей системе поиска. Если система Google Custom Search Engine внедрена на внешнем сайте, для сбора статистики рекомендуется использовать инструменты Google Analytics.
Кроме рассмотренных инструментов, ориентированных на применение визуального интерфейса в системе Google CSE, есть ряд инструментов для опытных пользователей, ориентированных на прямую правку файлов системы, в том числе с помощью внешних редакторов.
Прежде чем вести речь о таких инструментах, необходимо сказать пару слов о внутреннем устройстве поисковика на базе Google CSE. Вся информация и параметры персональной системы хранятся в двух настроечных XML-файлах. Файл контекста содержит общие параметры поисковика. В файле аннотаций хранится перечень сайтов, включенных в индекс вашей системы, а также индивидуальные варианты настройки каждого из них. Работая с инструментами панели управления Google CSE, мы, по сути, занимаемся редактированием этих файлов.
Получить прямой доступ к XML-файлам персонального поисковика можно на вкладке. Дополнительно. Непосредственная правка настроечных файлов системы предоставляет заманчивые возможности, дающие полный контроль над поведением поисковика, однако требует хотя бы минимальных познаний в языке XML. Эти файлы можно скачать на свой компьютер, а после внесения правок загрузить на сервер Google, изменив тем самым индекс и настройку персональной системы.
Итак, файл контекста описывает базовые варианты настройки персонального поисковика, а файл аннотаций содержит полный список ссылок, включенных в персональную систему, а также их параметры. Таким образом, ручная настройка персонального поисковика состоит из двух этапов: сначала в «контекстном» файле мы определяем необходимые варианты настройки, а затем применяем их к конкретным адресам в файле аннотаций.
В настоящее время список поддерживаемых тегов не очень велик, однако результаты их применения весьма интересны. Наиболее востребованными командами при редактировании свойств персонального поисковика являются команды FILTER, ELIMINATE и BOOST.
При использовании команды FILTER в результаты поиска включаются только те адреса из общего списка доступных сайтов, к которым был применен данный тег. Команда ELIMINATE работает прямо противоположным образом и выбрасывает указанные адреса из результатов поиска. Данные теги стоит воспринимать как мощные, но достаточно грубые средства, подразумевающие аккуратное применение.
Тег BOOST гораздо интересней – он позволяет вмешаться в процесс ранжирования результатов поиска. Другими словами, с его помощью можно управлять позицией определенного сайта на странице выдачи результатов поиска. По умолчанию при персональном поиске применяются стандартные алгоритмы ранжирования Google, однако они не всегда удобны для тематического поиска. Тег BOOST как раз и позволяет поднять результаты, полученные с таких ресурсов, на первые позиции в списке выдачи.
Для этого сначала в XML-файле контекста необходимо найти раздел <Background Labels> и с помощью контейнера <Label></Label> создать новую метку с именем, допустим, Лучшие сайты. Следующий шаг – правка файла аннотаций. Здесь необходимо добавить созданную нами метку к тем сайтам, результаты с которых должны попасть на первые места списка выдачи Для этого к описанию нужных сайтов добавляется тег с именем нашей метки (Лучшие сайты) в качестве параметра.
После применения команды BOOST отмеченные данным тегом ресурсы в ходе отработки запроса будут получать преимущество по сравнению с теми сайтами, которые находились бы на первых строчках при обычном поиске в Google. В ее параметрах в виде численного значения устанавливается «вес» результатов из источника, к которому будет применена эта метка. Диапазон допустимых значений – от -1 до 1. Максимальное значение 1 означает, что результаты с определенного сайта всегда будут на первой позиции в списке выдачи Поскольку допускается применение дробных значений, данный инструмент обладает очень большой гибкостью. Применяя различные значения к определенным сайтам из списка ссылок нашего поисковика, мы можем гибко управлять его списком выдачи Эта возможность особенно удобна, если в ходе тестирования выясняется, что серьезный, но малоизвестный специализированный ресурс уступает место в первых строчках результатов стандартного поиска сборной «солянке» из популярного сетевого справочника или энциклопедии.