Петр Ташков - Работа в Интернете. Энциклопедия
Здесь процесс перемещения по сайту автоматизирован настолько, что набирать новый адрес не нужно, так как все страницы будут просматриваться собственными силами анонимайзера. Использование такой службы позволяет оставлять следы в файлах журналов, но не свои следы, а анонимайзера, что исключает возможность сбора личной информации. Cookies до вас также не доходят. Но, увы, на некоторые сайты, например http://www.hotmail.com, зайти таким образом нельзя. Это можно объяснить желанием их владельцев контролировать действия посетителей. Анонимайзер также не работает с безопасными узлами, использующими SSL.
Ниже приведен список некоторых анонимайзеров. Выбор такой службы – дело вкуса пользователя.
• Anonymouse (http://anonymouse.ws) – отличный сервис. Вы сможете не только анонимно просматривать веб-страницы и посылать сообщения по электронной почте, но и читать новости.
• ShadowBrowser (http://www.shadowbrowser.com) не требует установки программ и обеспечивает анонимный серфинг по Интернету вместе с сокрытием истории ваших перемещений.
• ProxyKing (http://www.proxyking.net) защищает ваши действия в Сети от контроля, скрывая файлы rookies.
• ProxyFoxy (http://www.proxyfoxy.com) предлагает бесплатный анонимный серфинг по Интернету и скрывает rookies, рекламу и всякого рода сценарии.
• 75i (http://www.75i.net) – бесплатный анонимайзер, позволяющий путешествовать по Сети совершенно анонимно и безопасно.
• Proxyz (http://www.proxyz.be) – это бесплатный интернет-сервис, позволяющий путешествовать по Интернету анонимно. Его также можно использовать для доступа к заблокированным веб-сайтам в школе или офисе.
• ShadowSurf free anonymous proxy (http://www.shadowsurf.com). Создатели данной службы гарантируют стопроцентно анонимный серфинг по Интернету. Вы можете получить доступ к заблокированным сайтам, и при этом ваш IP-адрес не будет виден. Самое главное – сервис не требует установки.
• Famous5 (http://www.famous5.net) – бесплатный анонимайзер без рекламы, скрывающий ваш IP-адрес.Глава 5 Поиск в Интернете
• Поисковые серверы. Некоторые правила поиска
• Поисковые запросы: подробно
• Поиск рисунков
• Поиск музыки и видео
• Поиск по FTP-серверам
• Альтернативные средства поиска
• «Википедия» – живая энциклопедия и ее альтернативы
Проблема поиска во Всемирной паутине не в том, что информации мало, а в том, что ее слишком много. По этой причине отыскать то, что нужно, порой достаточно трудно. Вообще, поиск информации в Интернете – краеугольный камень эффективной работы в Сети. Владение навыками поиска делает Интернет полезным инструментом для работы и отдыха пользователя. В этой главе поговорим о том, как правильно искать в Сети необходимую информацию. Кроме того, разберемся с поиском файлов (который имеет некоторые особенности по сравнению с поиском текстовой информации), картинок и других ресурсов.
Поисковые серверы. Некоторые правила поиска
Для организации поиска в Интернете существуют специализированные службы, называемые поисковыми серверами. На практике – это веб-сайты, где можно набрать в соответствующей строке ключевые слова, касающиеся интересующей темы, и получить множество ссылок на ресурсы с нужной информацией. Например, на запрос домашние животные поисковый сервер «Яндекс» (подробнее о нем см. ниже) выдает более 14 млн ссылок на страницы, содержащие нужные, на его взгляд, сведения. Однако далеко не все так гладко: при посещении некоторых найденных страниц выясняется, что искомой информации на них недостаточно, а то и вовсе нет.
Чтобы искать с максимальной результативностью, нелишне будет знать, как работают поисковые серверы.
Принципы работы поисковых серверов
Поисковый сервер – это довольно сложная программа, точнее, комплекс программ, в которых используются специальные алгоритмы анализа содержимого веб-сайтов в масштабах всего Интернета.
Интересный момент: на обработку того же запроса домашние животные у «Яндекса» ушло менее секунды. Невольно возникает вопрос: «А можно ли проанализировать весь Интернет за столь короткое время?» Однозначный ответ на это: «За столь короткое время проанализировать весь Интернет нельзя». Тем не менее факт остается фактом: на обработку запроса затрачено меньше секунды. Ответом на возникшее недоразумение будет описание принципов работы поисковых серверов.
Работа над запросом конкретного пользователя (а заодно и над всеми другими возможными запросами) началась задолго до его введения. Специальная программа, называемая «пауком», просматривает содержимое веб-сайтов. Ее задачи чем-то схожи с задачами обычного веб-браузера, только вместо того, чтобы показывать страницы на экране, «паук» передает их содержимое другой программе – «путешествующему пауку». Задача «путешествующего паука» – вычленение из загруженной страницы ссылок на другие сайты, по которым снова направляется «паук». Цикл этот повторяется многократно, точнее, непрерывно.
На этом работа не заканчивается. За дело принимается программа-индексатор, которая, используя определенные правила, анализирует полученные «пауками» страницы и формирует сложную базу данных поискового сервера. Вот эта самая база данных потом и выдает результаты поиска, которые появляются после обработки введенного запроса. На принципах работы индексатора остановимся подробнее, так как именно от него зависит то, что войдет в результаты поиска.
В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы и тем выше эта страница будет отображена в результатах поиска. Кроме того, учитывается индекс цитирования страниц, которые ссылаются на страницу, изучаемую индексатором.
Кроме индекса цитирования учитываются также следующие параметры:
• наличие искомых слов в заголовке страницы или названии сайта;
• частота повторений искомых слов на странице;
• размер шрифта, которым на странице написаны слова из поискового запроса, а также выделение этих слов шрифтами и стилями;
• тематика ссылающихся сайтов и некоторые другие.
После ввода запроса пользователем за дело берется последнее звено поискового сервера – система выдачи результатов. В итоге анализа и сопоставления упомянутых выше показателей эта система определяет степень соответствия содержимого страницы условиям запроса. Чем эта степень больше, тем выше станица будет представлена в списке найденных ресурсов.
Возвращаясь к вопросу о скорости обработки запроса, отмечу, что такая высокая скорость обеспечивается за счет того, что страницы Интернета проиндексированы заранее, а результаты поиска составляются на основе информации из базы данных поискового сервера.
Такой способ, как несложно догадаться, имеет очевидный недостаток, заключающийся в том, что содержимое веб-страниц может со временем изменяться, а «паук» не будет успевать найти их и обработать, следовательно, результаты поиска будут неточными. Еще раз упомянув о времени, необходимом поисковому серверу для просмотра и индексации всего Интернета, скажу, что на это у разных поисковиков уходит от нескольких суток до нескольких недель, в зависимости от алгоритма обработки информации. Так что сайты, появившиеся в Сети недавно, в результатах поиска представлены не будут.
Разработчики поисковых серверов борются с этим явлением разными способами и с переменным успехом. Например, большинство современных поисковиков предоставляет такой сервис, как поиск по новостным лентам, которые обновляются каждые несколько минут и поэтому чаще индексируются поисковиками. Как бы там ни было, лучшего способа, чем предварительная индексация страниц, сегодня не существует.
Правила построения поисковых запросов
Как уже отмечалось, в Интернете существует множество поисковых серверов, отечественных и зарубежных.
Российские поисковые серверы:
• «Яндекс» – http://www.yandex.ru;
• «Рамблер» – http://www.rambler.ru;
• «Апорт» – http://www.aport.ru;
• Gogo – http://www.gogo.ru.
Зарубежные поисковые серверы:
• Google – http://www.google.com;
• AltaVista – http://www.altavista.com;
• Yahoo! – http://www.yahoo.com.
Для поиска на русском языке лучше подходят российские серверы, на иностранном – зарубежные, хотя, например, Google неплохо справляется с поиском на многих языках. Подробнее о наиболее популярных поисковых системах поговорим позже, рассматривая расширенные возможности поиска, так как у каждой из этих систем есть свои особенности. Сейчас остановимся на некоторых базовых правилах построения поисковых запросов, общих для всех поисковиков.
Несмотря на заявления многих владельцев поисковых серверов, что запросы могут быть написаны практически на естественном языке, который люди используют для общения между собой, это далеко не так. По всей видимости, еще не скоро наступит время, когда компьютер и человек смогут общаться на естественном (для человека) языке. Впрочем, нужно отдать должное поисковым серверам, в последнее время они стали гораздо лучше понимать пользователя и результаты поиска теперь больше соответствуют ожиданиям, чем это было несколько лет назад. Произошло это во многом благодаря внедрению новых языковых технологий.