М. Абрамзон - Яндекс для всех
Какова психология того, кто ищет информацию? Считается, что наиболее подходящие (релевантные) документы должны быть на первой-второй страницах результатов поиска. Если количество полученных результатов больше, человек вряд ли будет просматривать остальные страницы. Рдаже если в числе найденных есть документ, полностью отвечающий заданным условиям, но находится он на странице из второго десятка, ищущий этот документ не увидит — он просто не дойдет до этой страницы. Поэтому громадное значение приобретает и ранжирование документов в результатах поиска по их релевантности запросу.
По поводу релевантности Яндекс говорит, что это "соответствие ответа вопросу", но при этом важны две составляющие — полнота (ничто не забыто) и точность (отсутствие лишнего).
Релевантность различают как содержательную и формальную. Воспользовавшись словарями, представленными в Яндексе, предложу определения этих понятий:
□ содержательная релевантность — соответствие документа информационному запросу, определяемое неформальным путем;
□ формальная релевантность — соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.
В простейшем случае, релевантность текста определенному запросу — это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4–7 % — меньшего может не хватить, большее чревато тем, что система сочтет текст за поисковый спам и наложит на страницу некий понижающий фильтр или может вообще убрать страницу из результатов выдачи по искомому запросу.
Конечно, каждая поисковая система использует гораздо более сложные способы вычисления релевантности документов запросу пользователя. Тем не менее, несмотря на то что алгоритмы у всех поисковых машин разные, они построены на общих принципах — основные отличия результатов выдачи заключаются не в алгоритмах определения релевантности, а в конкретных способах реализации этих алгоритмов.
Какие же факторы, РїРѕРјРёРјРѕ вхождения слов запроса РІ текст документа, оказывают дополнительное влияние РЅР° его место среди РґСЂСѓРіРёС… документов? Каждая поисковая машина, стремясь привлечь качеством выдачи запрашиваемой информации, разрабатывает собственные критерии подсчета релевантности. Рто Рё плотность ключевых слов РЅР° странице, Рё разделы страниц, РіРґРµ находятся эти слова, объем содержания, тексты заголовков Рё ссылок Рё РјРЅРѕРіРѕРµ РґСЂСѓРіРѕРµ. Учитываются Рё такие рассчитываемые показатели сайтов, как индекс цитирования, тематический индекс цитирования, Page Rank. Р РїСЂРё этом РїСЂРѕРёСЃС…РѕРґРёС‚ постоянное изменение степени влияния РЅР° результаты тех или иных параметров, РёС… состав Рё принцип расчета.
1.2. Как устроена поисковая машина Яndex
Поисковая машина РЇndex относится РєРѕ второму рассмотренному ранее типу поисковых машин. РЈ РЇndexР° есть СЃРІРѕРё пауки-агенты, есть СЃРІРѕР№ Рндекс Рё поисковый механизм. Рта поисковая машина ориентирована РІ первую очередь РЅР° СЂРѕСЃСЃРёР№СЃРєСѓСЋ часть всемирного Рнтернета, С‚.В Рµ. индексируются РІ ней русскоязычные сайты, расположенные РІ доменах ru Рё su. Сделаны небольшие исключения для наиболее авторитетных зарубежных сайтов. Сложнее СЃ русскоязычными сайтами, которые зарегистрированы РІ международных или региональных (государственных) доменах РґСЂСѓРіРёС… стран — com, org, de, us Рё РґСЂСѓРіРёС…, РЅРѕ РѕРЅРё РІСЃРµ же попадают РІ Рндекс Рё учитываются РїСЂРё РїРѕРёСЃРєРµ.
Большинство значимых зарубежных нерусскоязычных сайтов может быть найдено РїРѕ ссылке, РїСЂРё этом, РІ отличие РѕС‚ русскоязычных сайтов, РІ Рндекс РѕРЅРё РЅРµ попадают. Упрощается ситуация РІ том случае, РєРѕРіРґР° Сѓ компаний, таких как BMW, IBM Рё РјРЅРѕРіРёС… РґСЂСѓРіРёС…, появляются русскоязычные версии сайтов, без проблем индексируемые Яндексом.
Поисковая машина — самый востребованный ресурс Яндекса. Ежедневно его посещают около четырех с половиной миллионов посетителей, при этом количество просмотренных поисковых страниц приближается к сорока миллионам. При этом пользователи, выполняющие на нем поиск, этого не замечают — складывается впечатление, что Яндекс работает индивидуально для каждого из них.
Так, при запросе средней "тяжести", то есть при поиске не очень частотного слова, время отклика системы (без учета времени передачи данных по каналу от поисковой системы к пользовательскому компьютеру) исчисляется десятыми долями секунды.