М. Абрамзон - Яндекс для всех
Значительно проще следить за новостями с помощью сервиса, который собирает их с различных сайтов, агрегирует по темам, релевантности, времени публикации. Такие сервисы существуют, и их немало. Как правило, это сервисы, которые сами не являются производителями контента. Какому из подобных сервисов отдаст предпочтение тот или иной человек, зависит от возможностей, им предоставляемых, удобства использования, качественности и своевременности подаваемой информации. В число наиболее посещаемых и, следовательно, наиболее удобных и качественных сервисов такого рода, входят и Яндекс. Новости.
3.1.1. С чего начинались Яндекс. Новости
Начало работы СЃ новостными сайтами Сѓ РїРѕРёСЃРєРѕРІРёРєР° складывалось примерно так же, как Рё работа СЃ веб-ресурсами. Поисковые роботы обходили новостные сайты, собирали контент, добавляли его РІ Рндекс, после чего посетители РїРѕРёСЃРєРѕРІРѕР№ системы могли найти РІ ней РЅРµ только информацию РёР· документов, РЅРѕ Рё РёР· новостей. Отличие было РІ том, что новостные сайты обновляют СЃРІРѕСЋ информацию РЅР° РїРѕСЂСЏРґРєРё чаще, чем иные сетевые ресурсы. Поэтому частота РѕР±С…РѕРґР° роботами новостных сайтов была значительно выше, РґРѕС…РѕРґСЏ для наиболее значимых ресурсов РґРѕ 5-10 РјРёРЅСѓС‚. Какое-то время уходило РЅР° индексирование, после чего информация становилась доступной для РїРѕРёСЃРєР°.
Яндекс. Новости открылись РІ РёСЋРЅРµ 2000 РіРѕРґР° Рё включали РІ РїРѕРёСЃРєРѕРІСѓСЋ базу информацию РёР· пятнадцати источников. Ртот сервис был первой полностью автоматической службой СЃР±РѕСЂР° Рё обработки новостей. Новости РЅРµ только индексировались Рё помещались РІ Рндекс, РЅРѕ также раскладывались РїРѕ тематическим рубрикам. Новостная база стала РѕРґРЅРѕР№ РёР· первых РІ перечне дополнительных параллельных РїРѕРёСЃРєРѕРІ Яндекса — заголовки новостей можно было получить РїРѕ результатам РїРѕРёСЃРєРѕРІРѕРіРѕ запроса РЅР° отдельной вкладке результатов РїРѕРёСЃРєР°.
РќРѕ новостных источников становилось РІСЃРµ больше. Руже Рє 2003 РіРѕРґСѓ РёС… количество перевалило Р·Р° сотню (сегодня партнерами Яндекс. Новостей являются почти 2000 интернет-РЎРњР, Рё РІ РёС… числе — информационные агентства широкого профиля, электронные версии печатных РЎРњР, сетевые издания, сайты телеканалов Рё радиостанций, тематические, специализированные Рё региональные ресурсы). Стало СЏСЃРЅРѕ, что первоначальный СЃРїРѕСЃРѕР± СЃР±РѕСЂР° Рё индексирования новостей уже перестал себя оправдывать, появилось множество дублирующих новостей, выполненных РїРѕ типу copy+paste. Пришло время менять принцип СЃР±РѕСЂР° Рё обработки новостей.
Р’ том РјРѕСЂРµ новостей, которое обрушилось РЅР° РїРѕРёСЃРєРѕРІСѓСЋ систему, нужно было выбрать наиболее важные, значимые новости. Рто стало РѕРґРЅРѕР№ РёР· первоочередных задач развития сервиса. Рђ для этого необходимо было научиться, РІРѕ-первых, находить Рё соединять сообщения РЅР° РѕРґРЅСѓ тему, Р°, РІРѕ-вторых, упорядочивать сообщения РїРѕ важности — для того чтобы общественно значимые события последних нескольких часов или всего РґРЅСЏ оказывались Р±С‹ максимально экспонированы.
Как собирают сюжетыКак собрать в едином сюжете новости, опубликованные в различных источниках? В почтовой службе это легче — есть исходное письмо, и если есть ответы на него, то они "сцепляются" друг с другом и попадают в одно обсуждение. В новостях все намного сложнее — нет единого названия, тексты сообщений могут отличаться друг от друга весьма значительно. В то же время новости относятся к одному и тому же событию, следовательно, должны попасть в один сюжет. Рвот что по этому поводу говорят разработчики системы поиска по новостям:
Центральная задача, которая стояла перед нами, — научиться отождествлять сообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.
Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть "неизвестных системе слов"), составляющих в Яндекс. Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс. Новостях используются статистические эвристики.
Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.