Алексей Кутовенко - Профессиональный поиск в Интернете
Создание поисковика средствами Flexum занимает гораздо больше времени, поскольку, во-первых, обязательно потребуется составить полный список индексируемых сайтов, а во-вторых, системе нужно некоторое время на проведение индексации. Предлагаемая Flexum «честная» индексация дает пользователю полный и гибкий контроль над этим процессом, что может быть очень кстати, если вы планируете использовать какой-либо специфический набор сайтов. Для работы с небольшими и «малозаметными» веб-проектами система Flexum предпочтительней, чем Google. Кроме того, Flexum предлагает специальную льготную программу для тематических порталов, решивших построить свою систему поиска на этой платформе.
Глава 7
Поиск изображений
Интернет-поиск уже давно не ограничивается только текстовыми документами. Пожалуй, следующий по популярности тип контента – изображения. Сейчас можно насчитать три основных направления в развитии технологий интернет-поиска изображений – это индексация по косвенным признакам, построение разнообразных каталогов и контентный поиск изображений.
Индексация по косвенным признакам остается наиболее популярным способом поиска изображений. Этот способ широко представлен в вертикальных базах изображений универсальных интернет-поисковиков, благо практически все крупные машины предлагают такие возможности поиска. В данном варианте интернет-поиск изображений концептуально не отличается от поиска веб-страниц и других текстовых документов. Поисковик при индексации работает не с самим изображением, а с его косвенными признаками: именами графических файлов и тегами, присвоенными в HTML-разметке. Кроме того, анализируются подписи и текст, расположенный рядом с изображением на веб-странице, изучается текст гиперссылок, ведущих к той или иной картинке. Именно такие косвенные признаки изображения и заносятся в индексную базу, по которой затем ведется поиск при поступлении запросов от пользователей.
Подобные поисковики принимают запрос от пользователя в виде привычной текстовой строки, содержащей ключевые слова. Как правило, к характеристикам собственно изображений относятся только поля расширенного поиска, определяющие формат файла, размер изображения и другие подобные признаки.
Преимущества такого подхода понятны: его относительно проще реализовать. Кроме того, задействуются огромные индексные базы, что обеспечивает хороший охват поиска. Недостатки также очевидны: поскольку поиск идет по косвенным признакам, причем исключительно в автоматическом режиме, неизбежны информационный шум и ошибки.
Избавиться от неточностей и шума, свойственных автоматическому индексированию по косвенным признакам, можно несколькими способами. Один из них – включить в работу системы человека. Подробное описание картинок по заданной заранее схеме обычно имеет место в тематических галереях изображений. Перед включением изображения в базу данных на него заполняется своеобразная анкета, в которой содержится заранее отобранный список важных для поиска признаков и характеристик изображения. Такой способ позволяет качественно обработать как формальные свойства изображения, так и отразить его тематику. Благодаря четкой структуре описания обеспечивается достаточно высокая точность поиска. Если вам повезет найти по интересующей вас теме подобную специализированную галерею, эффективность поиска изображений вырастет в разы по сравнению с обычным универсальным поиском.
Не стоит забывать и про специализированные фотобанки. Профиль таких ресурсов может быть самым разным: от коллекций «обоев» для рабочего стола до коммерческих баз высококачественных фото, которые можно применять в полиграфии. Как правило, там используются стандартные режимы поиска, кроме того, для работы с такими базами существуют специальные поисковики.
Один из главных недостатков такой «каталожной» технологии – серьезные трудозатраты на описание ресурсов. Эпоха Web 2.0 дала новый толчок развитию данной модели. На социальных проектах задача описания загружаемых на сервер изображений полностью возлагается на их авторов. Кроме того, схема самого описания радикально упрощается. Вместо заполнения развернутой, но сложной анкеты предлагается схема свободного присваивания картинкам простых тегов. На некоторых ресурсах добавлять теги к изображениям могут не только их владельцы, но и другие пользователи сервиса Примерами ресурсов, где практикуется такой подход (его еще называют «фолксономией») при индексации изображений, могут служить Flickr, Photobucket и огромное количество других социальных фотохостингов.
Социальное индексирование изображений – способ хороший, однако не лишенный недостатков. Если в случае автоматического индексирования мы зависим от алгоритмов универсального поисковика, то здесь мы вынуждены полагаться на мастерство и добросовестность авторов. А индексаторская квалификация у владельцев картинок разная. У кого-то получается лучше, у кого-то хуже. Не надо забывать, что для описания близких по содержанию картинок разные авторы могут использовать различные ключевые слова. Кроме того, совершенно не факт, что автор картинки посчитает достойными индексирования именно интересные вам признаки. Свою роль может сыграть и фактор времени. Хорошо если человек загружает за один сеанс несколько фотографий – можно спокойно подумать над хорошим подбором тегов. А если таких снимков сотня? Скорее всего, всякий нормальный человек сэкономит время, в результате чего вся подборка будет описана всего несколькими общими тегами, и только некоторые фото удостоятся подробного описания. Такое сокращение поисковых признаков неизбежно сказывается на качестве будущего поиска.
Третья «генеральная» технология поиска, так называемая технология CBIR (Content Based Image Retrieval – поиск изображений по содержанию), делает ставку на системы автоматического распознавания изображений, которые работают напрямую с картинкой и индексируют такие ее параметры, как цвет, очертания изображенных объектов, их взаимное расположение.
Далее мы рассмотрим возможности поиска изображений с помощью вертикальных баз крупнейших универсальных поисковиков, попробуем определиться с качеством их поиска, а затем познакомимся с лучшими представителями семейства современных CBIR-поисковиков.
Для оценки качества работы универсальных поисковиков мы прибегнем к тестовому поиску по одинаковым запросам. Конечно, абсолютно исчерпывающим результат такого исследования не будет, однако предлагаемый подход хорош тем, что максимально приближен к повседневной работе и может быть легко воспроизведен: вам останется только подобрать собственные запросы из хорошо известной тематической области. Работать мы будем только с русским языком, а «семейные» фильтры отключим. Кроме того, тестовые запросы будут выполняться без входа в персональные аккаунты – в Google эта операция способна заметно повлиять на результаты выдачи.
Google Картинки
Google Картинки – один из основных сервисов Google, ориентированный на поиск изображений, находящийся в постоянном развитии. В последнее время он заметно изменился и усовершенствовался, продолжая оставаться одним из самых популярных и мощных средств поиска изображений, обеспечивая широкий охват за счет больших объемов индексных баз. Доступно две версии такого поиска: усовершенствованная, которая сейчас является стандартной, и упрощенная. Отличаются они в основном внешним видом страницы выдачи, возможности формулирования запроса у них одинаковые.
Изображения в Google можно искать в режимах простого и расширенного поиска. При вводе запроса в режиме простого поиска действуют инструменты, привычные по обычному текстовому веб-поиску: предложения по дополнению запроса и виртуальная клавиатура.
Форма расширенного поиска состоит из двух блоков: стандартного для всех поисковых продуктов Google и специфического блока, содержащего инструменты, необходимые именно для поиска изображений. Стандартный блок предлагает поля поиска по всем словам, по любым указанным словам, по точной фразе, а также поле исключения определенных слов. Специфический блок содержит большее количество инструментов. Кроме привычного фильтра поиска по конкретному сайту или домену, остальные инструменты позволяют описать различные характеристики нужных изображений.
Фильтр Типы картинок позволяет искать изображения, содержащиеся только в новостных сообщениях. Помимо этого, здесь можно увидеть работу новых инструментов Google, проводящих определенный контентный анализ изображения. С их помощью можно отбирать только цветные или только черно-белые изображения, фотографии или клипарт. Кроме того, в системе реализован механизм распознавания лиц, соответственно, возможен отбор таких изображений.
Google предлагает неплохой выбор фильтров, ориентирующихся на формальные характеристики изображения. С помощью фильтра. Размер можно отбирать картинки фиксированных размеров, причем кроме привычных вариантов. Большие, Средние и Маленькие, предлагаются различные варианты разрешения изображений в мегапикселях. Шаг списка довольно подробный, можно выбирать в списке значения от двух до семидесяти мегапикселей. Фильтр Точный размер, в свою очередь, позволяет вручную указать точное значение размеров нужной картинки в пикселях. Дополнительная опция этого фильтра. Использовать разрешение моего рабочего стола включает режим автоматического определения этого параметра и ограничивает поиск картинками данного размера. Фильтр Соотношение сторон дает возможность выбирать изображения, подходящие под один из четырех вариантов этой характеристики: квадратные, широкие, узкие и панорамные. Отдельный фильтр. Права использования позволяет вести поиск только тех изображений, которые распространяются в соответствии с определенным типом лицензии и правами на изменение. Фильтр Безопасный поиск дает возможность управлять «семейным» фильтром поисковика.