М. Абрамзон - Яндекс для всех
Очень важно правильно настроить конфигурационный файл. С его помощью вы можете настроить программу на конкретные условия вашего сервера — указать, какие каталоги и типы файлов индексировать, а какие исключить, выбрать кодировку русского языка, указать способ получения документов (непосредственно из каталога или через веб-сервер), перестраивать ли весь индекс при новом индексировании или организовать обновление и слияние.
Конфигурационный файл обычно называется yandex.cfg и располагается в том же каталоге, где находится выполняемый модуль Яndex. Server (для Windows). В этом файле можно определять параметры, относящиеся к сервису в целом, к процессу индексирования и процессу поиска. Каждый параметр определяется своей директивой, состоящей из одного или нескольких слов, разделенных пробельными символами.
Директивы конфигурационного файла РјРѕРіСѓС‚ быть сгруппированы РІ секции. Каждая секция начинается СЃРѕ строки <РёРјСЏ_секции> Рё кончается строкой </РёРјСЏ_секции>, РіРґРµ РРјСЏ_секции соответствует параметру, настраиваемому СЃ помощью РѕРґРЅРѕР№ или нескольких директив, расположенных внутри секции. Секции РјРѕРіСѓС‚ быть вложенными.
Секция ServerСекция Server, не являющаяся обязательной, определяет настройки сервера. В ней могут быть определены:
□ IP-адрес, на котором работает Яndex.Server. Значение должно соответствовать одному из допустимых IP-адресов компьютера;
□ порт, на котором работает Яndex.Server. По умолчанию используется порт 17000;
□ хост, на котором работает Яndex.Server. Значение по умолчанию: официальное имя хоста;
□ количество одновременно выполняемых поисковых запросов. Если уже выполняется определяемое данной директивой количество запросов, выполнение вновь поступивших запросов откладывается до тех пор, пока не будут выполнены текущие запросы. По умолчанию это значение равно 5;
□ максимальный размер очереди поисковых запросов, ожидающих начала выполнения. В случае нулевого значения директивы максимальный размер очереди запросов бесконечен. Если начала выполнения уже ожидает определяемое данной директивой количество запросов, на вновь поступившие запросы сервер отвечает HTTP/1.0 503 Service Unavailable и не выполняет их;
□ рабочий каталог Яndex.Server. Должен быть указан абсолютный путь;
□ путь к файлу, в который будут выводиться сообщения Яndex.Server.
В этой же секции может быть определена подсекция авторизации. Она предназначена для задания параметров авторизации административного режима управления веб-сервером, а задаются в ней имя и пароль пользователя.
От того, задана эта секция или нет, зависит возможность административного доступа к серверу с различных компьютеров сети. Если секция задана, доступ возможен с любого компьютера. При отсутствии секции в конфигурационном файле доступ возможен только с того компьютера, на котором установлен сервер. Пример секции Server приведен в листинге 10.1.
Листинг 10.1. Пример секции Server
<Server>
Port 80
Host www.my_site.ru Threads 4 QueueSize 20 <Authorization>
UserName webadmin UserPassword abv12345 </Authorization>
</Server>
Секция CollectionПоисковый сервер работает с одной или несколькими коллекциями документов, в которых осуществляется поиск. Поиск в каждой коллекции документов осуществляется независимо. По сути коллекции — это наборы документов, разделов сайта, связанные определенными критериями, которые устанавливают их владельцы. Каждая коллекция характеризуется уникальным именем, а если существует только одна коллекция документов, ее имя обычно в конфигурационном файле выбирается пустым. При индексировании для каждой коллекции запускается отдельная подсистема, использующая определенные в конфигураторе правила индексации. При выборе имени коллекции помните, что несколько слов запрещены для использования: admin, images, hl.
Секция Collection включает ряд директив и подсекций. Они требуются для того, чтобы создать, а в дальнейшем обновлять, индексные файлы, используемые поисковой машиной. До тех пор, пока индексные файлы не созданы, ни о каком поиске речи быть не может. Но что индексировать и где размещать индексные файлы? На эти вопросы и отвечают значения директив этой секции.
Для каждой коллекции наборы индексных файлов размещаются РІ отдельных каталогах, описываемых РІ конфигурации коллекций. Состав набора индексных файлов также может быть различным. РћРЅ зависит РѕС‚ заданных настроек. РџСЂРё индексировании создаются базовые индексы, РІ которых сохраняется информация Рѕ каждом слове документа (Р·Р° исключением стоп-слов) — идентификатор документа, РІ котором слово найдено, номер предложения Рё номер слова РІ предложении. Р’ этих же файлах сохраняется информация Рѕ зонах Рё атрибутах документов. Р’ РґСЂСѓРіРёС… индексных файлах сохраняется неотформатированный текст документов, еще РѕРґРЅР° пара индексных файлов может сохранять информацию Рѕ группировочных атрибутах. РС… наличие позволяет группировать Рё сортировать найденные документы РїРѕ значению атрибута.