Александр Загуменов - Как раскрутить и разрекламировать Web-сайт в сети Интернет
По способу образования словоформ русский язык – флективный, то есть в нем существуют флексии (от лат. flexio – сгибание), или окончания, выражающие грамматическое значение при словоизменении (склонении, спряжении). Русский язык относится также к классу синтетических языков: в слове объединено и лексическое, и грамматическое значение.
Слово во всей совокупности его лексических значений называется лексемой (от греч. lexis – слово, выражение). Лексема – это единица лексического уровня языка; система словоформ, относящихся к одной лексеме, называется ее парадигмой. Другими словами, парадигма слова – это образец типа склонения или спряжения, совокупность всех словоформ, полученных при изменении слова по числам, падежам, родам и временам. Наиболее сложную парадигму в русском языке имеют глаголы. У неизменяемых слов лексема и словоформа совпадают. В словарях каждая лексема представлена одной из словоформ, которая называется словарной или исходной. В русском языке словарными формами являются следующие:
• для существительных – именительный падеж единственного числа;
• для прилагательных – именительный падеж единственного числа мужского рода;
• для глаголов, причастий и деепричастий – глагол в инфинитиве.
Все современные поисковые системы, работающие с учетом морфологии русского языка, базируются на «Грамматическом словаре русского языка», составленном А. А. Зализняком. Основное назначение этого словаря – отразить русское словоизменение, то есть для каждого входящего в словарь слова дать сведения о том, изменяемо ли оно, а если да, то как именно это слово склоняется или спрягается. В ранней редакции этот словарь был назван «Обратный словарь русского языка», так как в нем принят не обычный алфавитный порядок расположения слов, а инверсионный (от конца слова к началу). Это обусловлено тем, что одинаковый или похожий тип словоизменения в русском языке имеют слова со сходным концом, а не со сходным началом. Таким образом, при инверсионном алфавитном расположении слова с одинаковым или сходным типом словоизменения обычно оказываются рядом и образуют большие массивы.
Работы по формальному описанию естественного языка тесно связаны с идеями автоматического перевода, появление которых относится к 30-м годам XX века. Первые эксперименты в этой области начались в 1954 году в Джорджтаунском университете (США). До сих пор все существующие автоматические переводчики, как отечественные, так и зарубежные, хотя и умеют делать более-менее грубый подстрочник, даже близко не подошли к уровню профессионального художественного перевода.
Важная часть морфологической обработки – выделение основы слова. Основой называется часть, которая остается после отсечения окончания слова и с которой связано его лексическое значение.
Одна из сложностей формального анализа русского языка – наличие в нем омонимов. Омонимы (от греч. homуs – одинаковый и уnyma – имя) – разные по значению, но одинаково звучащие и пишущиеся слова, например: «рысь» – способ бега и «рысь» – животное. С точки зрения автоматического разбора особенно сложны не полные омонимы (поскольку они имеют одинаковую словоизменительную схему), а омоформы. Это разные слова, часто являющиеся и разными частями речи, но совпадающие по звучанию в отдельных формах, например: существительное «печь» (печи, печью) и глагол «печь» (пеку, печешь); существительное «раздел» (раздел книги) и глагол «раздел» (раздел донага). Очевидно, что определение семантики в таких случаях можно произвести только по контексту.
Упомянутый выше словарь А. А. Зализняка включает 90 000 слов. Однако в русском языке их больше, кроме того, постоянно появляются новые. Некоторые системы, работающие с учетом морфологии русского языка (например, Яndex), умеют обрабатывать эти слова, используя описанные в словаре Зализняка словообразовательные типы. Результат обработки будет тем лучше, чем больше новое слово похоже на обычные слова языка.
Релевантность
Релевантность – это мера соответствия получаемого результата желаемому, или, в терминах поисковых систем, соответствие ответа запросу.
Релевантность можно представить как способ сортировки найденных по запросу документов. Каждая поисковая машина имеет свой алгоритм сортировки результатов поиска. Чем больше документ соответствует запросу, тем выше он должен находиться в списке отклика. Для достижения хорошего результата обычно учитывают следующие параметры: количество найденных слов, «контрастность» слова (относительную частоту его использования в данном документе), расстояние между словами, положение слова в документе и в его зонах.
Насколько ответ поисковой системы удовлетворяет интересы пользователя, зависит не только от ее свойств, но и от того, насколько удачно сформулирован запрос. Практика показывает, что люди не любят читать справочную информацию и пользоваться операторами языка запросов. Для большинства пользователей Internet более естественно задавать вопрос прямо, как при обычном общении. Поэтому в современных поисковых машинах реализуется естественно-языковый запрос, при котором читатель определяет примерную область своих интересов. Кроме того, применяются функции «Искать в найденном» и «Найти похожие документы», назначение которых понятно из их названий.
Методы регистрации
Регистрация узла в поисковых системах Internet – процедура, трудоемкость которой зависит от поставленной задачи и используемых инструментов. Неплохо с самого начала разработки Web-сайта определиться с двумя его важными компонентами: доменным именем и структурой.
Смысловая нагрузка на доменное имя сервера, будь то название компании, продукта или профиля деятельности, весьма велика, а его изменение бывает равносильно смерти узла. Использование одного-двух ключевых терминов, фигурирующих в доменном имени, для многих становится самым быстрым способом локализовать искомый ресурс. Этому способствует и то, что все больше поисковых систем поддерживают поиск по URL-адресу сайта.
Как известно, наиболее значительная функция поисковых систем – продвижение крупных информационных сайтов с десятками и сотнями документов. При создании узла такого типа следует заранее убедиться в том, что в дальнейшем не придется менять его структуру. Изменение системы навигации на узле, имен файлов и каталогов, их перемещение нередко перечеркивает все предыдущие усилия по регистрации ресурсов. Если становление узла или его реконструкция еще не завершены, стоит не только подождать с его «пропиской» в поисковых сервисах, но и предотвратить преждевременную регистрацию, которая может быть выполнена программой-роботом автоматически.
После того как принято решение о начале регистрации, необходимо определиться с планом ее проведения. Выбор здесь оказывается достаточно широким. Прежде всего, сами поисковые службы могут различаться по типу функционирования, организации и профилю, иметь разный уровень доступности для ваших потенциальных клиентов и читателей.
Желание зарегистрировать сайт везде, где можно, пропадает по мере осознания трудоемкости и низкой эффективности такого подхода. Впрочем, нельзя отрицать, что он дает свои результаты, особенно если параллельно идет «раскрутка» узла альтернативными средствами – баннерной рекламой, рассылкой, публикациями в прессе и др. Максимально широкий охват поисковых систем обычно целесообразен при первоначальной, а также разовой, не предполагающей дальнейшего сопровождения регистрации.
Если владельца сайта интересует не столько высокое положение в рейтингах поисковых систем, сколько посещаемость, целесообразно создавать побольше так называемых входных страниц, направляющих посетителей на нужный сайт, и регистрировать именно их.
За вопросом «где регистрировать ресурс?» кроется проблема выбора между поисковыми машинами, то есть автоматическими индексами, и каталогами, русскими сервисами и зарубежными, службами общего назначения и специализированными системами. Наконец, важно определиться: если регистрировать ресурс не везде, то где именно.
Решающим фактором, конечно, является то, в какой степени интересующая вас аудитория готова к использованию поисковых служб, выбранных вами, – как в профессиональном, так и в географическом отношении.
Роботы поисковых машин сканируют Web-страницы, фиксируя гипертекстовые связи, ведущие за пределы стартового документа. Ресурсы, на которые указывают гиперссылки, включаются в план ближайшего ознакомления и служат источником пополнения индекса. Таким образом, наличия хотя бы одной ссылки на страницу вашего сайта достаточно для начала его сканирования роботом даже без вашего желания. При этом сроки появления ресурсов узла в индексных базах данных растянуты и неопределенны. Если вы сами оставляете заявку на индексирование, что аналогично регистрации в каталогах – и даже проще, – то сроки в большей степени фиксированы и существенно сокращаются. После регистрации Web-узла его страницы начинают появляться в списке отклика поисковой машины на запрос из ключевых слов, введенных пользователем. Если ваш сайт не попадает в первые 10–50 пунктов списка, вероятность того, что до странички доберутся посетители, невелика. Стремление занять высокое положение в рейтингах поисковых систем и становится причиной конкурентной борьбы Web-сайтов и сопровождающего ее ажиотажа.