Компьютерра - Компьютерра PDA N138 (01.10.2011-07.10.2011)
Проблема была в том, что традиционные методы оценки не очень хорошо работают с такими запросами. Качество поиска оценивается рядом метрик, цифр. Есть много разных методик, но большинство их них не учитывают проблемы таких неоднозначных запросов – если все десять результатов примерно про одно и то же, это считается хорошо. Нужно было придумать способ измерять насущность этой проблемы и сделать такое ранжирование, которое бы с ней справлялось. Чтобы в выдаче были результаты и про то и про это, чтобы люди, ищущие разные вещи, находили для себя то, что нужно, и получали полный обзор по этому запросу. Так и появился «Спектр».
- Насколько я понимаю, полный обзор – это 100 страниц результатов. Как человеку ориентироваться?
- Все равно нужно каким-то образом вместить наиболее актуальную информацию в первый десяток результатов. Без некоторой потери смысла не обойтись. Мы работаем над тем, чтобы смысл терялся как можно меньше.
- Как давно задействована технология?
- Она запущена в конце прошлого года.
- И как вы оцениваете ее результаты на данный момент?
- Мы измеряем количество людей, которые не удовлетворены результатами поиска. Как мы это понимаем? Бывает, что человек задал свой запрос, увидел какие-то результаты, посмотрел на них, почитал и никуда не кликнул, а вместо этого закрыл браузер или задал другой запрос с целью все-таки что-то найти. Если такое происходит, то обычно это плохо. Число таких запросов с введением нового ранжирования уменьшилось.
- А какие-то средства противодействия манипуляциям результатами поиска задействованы?
- Да, они, конечно, нужны – более того, они обязательны. "Яндексу" есть на ком тренироваться, как отслеживать накрутки и так далее. На практике накрутками занимаются, чтобы подвинуть в выдаче не какой-то специфический результат, а свой собственный магазин, свой сайт. Если научиться такие стандартные накрутки отлавливать и с ними бороться – а мы это делаем постоянно – то те же методы могут быть использованы для более экзотических случаев.
На самом деле, за этим стоит некая этическая концепция. Хорошо все, чем хорошо пользоваться. Если люди ищут какой-то натуральный феномен, и результат сам по себе, действительно, набирает популярность, то мы не судим, хорошо это или плохо – нашим пользователям это интересно, значит, нужно найти и показать. Но мы должны бороться с накрутками, когда кто-то при помощи ботов или просто ручного труда низкооплачиваемых «роботоподобных» людей делает вид, что этот результат набирает популярность. Вот это то, с чем нужно бороться, и нужно отличать друг от друга эти вещи. Это чисто техническая задача.
- То есть даже "ботоподобных" людей можно отбивать программой-антиботом?
- Конечно. Они же по инструкции работают, все равно у них есть неестественные паттерны в поведении.
- Вот вы говорите про стандартные случаи накрутки, а нестандартные в техническом плане, что могут из себя представлять?
- В техническом? Ну, я, во-первых, сейчас не смогу ничего реалистичного предположить, потому что если мы об этом знаем, то оно уже не является чем-то нестандартным. Во-вторых, даже если я сейчас что-нибудь такое придумаю, то не хочется подавать идеи. Но, например, можно как-то более "материально" использовать таких "роботоподобных" людей. Или можно начать что-то вроде вирусной рекламы, которая будет рекламировать не товар, не сайт, а что-то другое. Но мы все равно научимся с этим справляться, как уже справились с другим хорошим примером нестандартной концепции – линк-бомбингом, когда на сайт ссылаются несколько разных людей по ссылкам, содержащим всякие нехорошие слова. Затем в социальных сетях появляются сообщения: смотрите, по этим нехорошим словам находится вот этот сайт, прикольно! И все начинают ретвитить такие ссылки или кидать их друг другу.
- Как вы оцениваете, скажем так, конкурентные преимущества "Яндекса", по сравнению с другими поисковиками, действующими в России? Правда, насколько я понимаю, их осталось совсем немного...
- В России основных игроков сейчас три: есть "Яндекс", есть русский Google и есть Mail.ru. По крайней мере с точки зрения бренда.
Насколько большим конкурентным преимуществом является качество поиска? Это не так очевидно, как запуск, условно говоря, новых сервисов, но есть точная корреляция между долей и качеством поиска, и она вполне понятна, потому что если человек задает запрос в поисковике и чего-то не находит, он легко ищет в другом.
Большинство людей знает, что поисковики бывают разные, и очень многие пользуются браузерами, где можно легко переключаться между разными поисковиками. И если вы хороший ответ не нашли, а конкурент нашел, то это серьёзный сигнал для пользователя к более частому переключению. Поэтому любое улучшение ранжирования помогает держать марку.
Сейчас вообще уже нет таких улучшений, которые бы сразу и однозначно поставили поисковик на первое место. Разве что кто-то создаст искусственный интеллект, который будет отвечать на все запросы. Поисковики почти все примерно одинаково хороши. Основная борьба сейчас разворачивается в отношении отдельных классов запросов, которые, может быть, не так часто встречаются, но зато очень важны для людей. Например, запросы о том, что только что случилось. Поисковики пытаются достичь такого уровня, чтобы отвечать в течение следующих пяти минут после события. Условно говоря, если что-то где-то взорвалось, в идеале нужно, чтобы через пять минут в поиске по запросу «взрыв» уже было что-то релевантное, хоть какие-то записи из Твиттера, например.
- Ну, это означает, что "паук" должен очень оперативно работать.
- Да, да, конечно. Но не только. Это означает изменения в ранжировании, потому что понятно, что у записей, посвященных тому, что только что появилось, нет никакого ТИЦ, никаких ссылок, ничего. Но, тем не менее, нужно понять, что это запись о чем-то важном. Такой подход требует изменений в антиспамерских инструментах, потому что если мы начинаем показывать больше нового, только появившегося, очевидно, что спамеры это поймут и подхватят. Роботу не сложно в час создать миллион страничек со словами "взрыв там", "взрыв сям", "авария там" на любой географический объект.
- Кстати, не было ли таких случаев, когда подкладывалась именно такая информационная бомба?
- Это сделать очень сложно. Фактически, способ, которым можно воздействовать на поисковик извне, автоматически должен воздействовать и на весь интернет тоже. То есть, грубо говоря, очень трудно "придумать" новость таким способом, чтобы она стала известна поисковику, но при этом не стала моментально известна людям. Вполне возможно, что взрыв в блогосфере иногда имеет, в том числе, и такую цель - привлечь людей дополнительно на новостной сайт. Пусть я фантазирую, я не уверен, что такое реально случалось, но вариант выгодный: пусть какая-то конкретная новость потом окажется фальшивкой, зато людей удалось завлечь на сайт, на котором могут быть еще какие-то завлекалочки...
Дмитрий Вибе: "Душа" обязана трудиться
Автор: Дмитрий Вибе
Опубликовано 07 октября 2011 года
Речь идёт о первых научных наблюдениях на интерферометре субмиллиметрового и миллиметрового диапазона ALMA. Сейчас модно подбирать аббревиатуры для проектов и инструментов так, чтобы в них помимо сухой расшифровки был ещё и скрытый смысл. ALMA - Atacama Large Millimeter Array - не исключение. Слово это переводится с испанского как "душа". Почему с испанского? Потому что интерферометр ALMA находится в Чили, точнее, в пустыне Атакама, одном из самых сухих мест на Земле. Почему "душа"? Да кто его знает. Чтоб было красиво.
Фото: ALMA (ESO/NAOJ/NRAO)
Телескоп ALMA станет первым инструментом, позволяющим получать качественные изображения небесных объектов в диапазоне длин волн от нескольких сотен микрон до нескольких миллиметров и с миллисекундным угловым разрешением. Столь высокое угловое разрешение будет достигнуто при помощи интерферометрических методов - путем сложения сигналов, полученных на нескольких десятках независимых антенн.
Теоретическое угловое разрешение одиночного телескопа (минимальное угловое расстояние между двумя точечными источниками, при котором они всё ещё не сливаются друг с другом) примерно равно отношению длины волны к диаметру объектива. Оно связано с волновыми свойствами света: из-за дифракции на краях объектива изображение точечного источника размазывается в пятно. Чем больше объектив, тем меньше размер этого пятна. Например, у российского шестиметрового телескопа БТА-6 теоретическое разрешение в видимом диапазоне равно 0.02 угловой секунды. Но теория, как известно, суха, и древо жизни всегда вносит в неё коррективы: из-за атмосферной турбулентности даже в местах с наилучшим астроклиматом разрешение в оптическом диапазоне не превосходит нескольких десятых долей угловой секунды. Поэтому в оптическом диапазоне увеличение размера объектива (в современном телескопе это практически всегда вогнутое зеркало) позволяет повысить разрешающую силу только для заатмосферных телескопов.