Компьютерра - Журнал «Компьютерра» №30 от 23 августа 2005 года
Иерархические модели данных хорошо известны и изучены. Самый известный пример — реестр ОС MS Windows. Использование иерархической модели позволяет строить более сложные индексы, нежели в реляционных БД. Исторически эти модели были первой структурой БД и получили широкое распространение в эпоху мэйнфреймов. Для подобных баз были созданы мощные языки запросов, а по быстродействию они до сих пор вне конкуренции. Реляционные БД со временем оттеснили иерархические, но не факт, что не произойдет частичный реверс.
В принципе, запаковать иерархические данные в реляционную базу нетрудно. Для этого рядом с основной таблицей строится триггером таблица транзитивного замыкания, содержащая все пары предок-потомок, где из предка существует путь в потомки. Несколько ресурсоемко и по быстродействию не то, но работает.
Как же осуществляется интеллектуальный поиск в такой базе данных? Предположим, что нас интересует информация о девушке, играющей по утрам на арфе. Такой запрос можно составить и на естественном языке, и тот же анализ компонент выделит в нем компоненту со значением времени (по утрам) и орудийную компоненту (на арфе). При поиске фрагменты текста, где, например, «девушка по утрам слушала игру на арфе», будут игнорироваться, так как там к игре на арфе относится не орудийная компонента, а компонента сенсорного восприятия. Вот такая избирательность и логичность.
Понятно, что для интеллектуального поиска конструирование модели запроса представляет собой серьезную задачу. Но при указанном подходе вполне реально получать ответы на любые запросы по смыслу документа.
Вот и весь краткий сказ о поиске. Разумеется, из-за недостатка места и времени многое опущено. Но ясно, что существующие сегодня поисковые сервисы позволяют найти все. А завтра, будем надеяться, появятся и те, что из всего найденного выдадут действительно необходимое.
Крупнейшие поисковые сервисы — Google, Yahoo! и MSN — к попыткам научить поисковые движки понимать запросы пользователей и документы видимого интереса не испытывают (вполне возможно, что причины их равнодушия к этим разработкам схожи с соображениями Александра Садовского, изложенными в предыдущей врезке). Интернет-пользователи привыкли к особенностям поисковых машин, знают их сильные и слабые стороны и по большей части удовлетворены имеющимися возможностями. Если в ближайшие несколько лет в поисковых технологиях и появятся революционные качественные изменения, то инициатором их появления станут, скорее всего, не известные лидеры рынка, а компании, которые обыватель с поиском вообще не связывает. В частности, очень активно сейчас развиваются корпоративные поисковые сервисы, которым зачастую ставится задача не только найти похожий по смыслу документ, но и проанализировать его, найти документы с ним связанные, и т. д. И здесь привычным поиском по ключевым словам не обойдешься.
Над технологией, способной обойти привычные ограничения, уже несколько лет работает исследовательский центр IBM. В августе этого года корпорация даже пообещала выложить в Сеть для свободной загрузки исходные коды своей платформы UIMA (Unstructured Information Management Architecture, www.alphaworks.ibm.com/tech/uima).
Информационные агентства поспешили заявить о том, что на смену поиску по ключевым словам приходит поиск по понятиям (key facts вместо key words), однако UIMA поиск по ключевым словам вовсе не отменяет (скорее, дополняет);
является не готовым приложением, а основой для построения специализированных программ анализа данных;
сейчас — после четырех лет разработки — все еще находится в начальной стадии развития, хотя пилотные проекты на базе UIMA существуют.
Подробнее об UIMA, которая оказалась в центре внимания прессы только пару недель назад, можно прочитать в прошлогоднем номере IBM Systems Journal (www.research.ibm.com/journal/sj43-3.html). Там же описаны несколько возможных приложений UIMA (например, www.research.ibm.com/journal/sj/433/mack.html и www.research.ibm.com/journal/sj/433/uramoto.html).
В общем случае UIMA дает инструменты для анализа и структурирования информации (в ходе чего можно обнаружить неочевидные связи между данными). Однако для поиска в Интернете эта технология пока неприменима и в обозримом будущем может стать популярным, но специализированным решением для предприятий.
У IBM в этом свой интерес — если действительно удастся сделать UIMA стандартом, то вложения в эту технологию окупятся стократ. А там, глядишь, потенциал, заложенный в UIMA, будет раскрыт сторонними разработчиками, да так, что поисковый сервис, скажем, 2015 года на скромный пользовательский запрос о бесплатных mp3 вместо нужных ссылок будет выдавать составленный машиной оригинальный двадцатистраничный реферат о проблемах пиратства в Сети. — В.Г.
xMax Громкие заявления о тихих сигналах
С июля этого года по сетевым, а затем и бумажным масс-медиа начало распространятся сообщение о разработке флоридской компанией xG Technologу уникального метода цифровой связи. За неделю-другую новость дошла до русскоязычных ресурсов, включая нашу Computerra.ru. Как это часто бывает, новостные сообщения интернет-сайтов клонируют друг друга, по сути (а иногда и буквально) пересказывая самый первый текст одного из крупных новостных агентств. В случае с xMax это, видимо, было сообщение Сlickpress.com от 23 июня, которое, в свою очередь, пересказало пресс-релиз самой xG Technologу. Мы, конечно, не будем повторять эти сочинения, но процитируем главные заявления, чтобы стало понятно, о чем речь.
xMax — последняя инновация в широкополосных коммуникациях, эта технология радиосвязи способна передавать данные на расстояниях больше стандарта WiMAX, излучая в эфир столь слабые сигналы, что для них не нужно разрешение на использование частоты… В отличие от существующих Wi-Fi и WiMAX, рассчитанных на гигагерцовые диапазоны, новая технология обеспечивает высокую скорость на частотах ниже 1 ГГц. …Метровые и дециметровые волны распространяются гораздо дальше сантиметровых, хорошо проникая сквозь препятствия… Мы (это уже говорит Джозеф Бобье, изобретатель и технический директор xG Technologу. — Прим. ред.) имеем в виду увеличение расстояния в пять-шесть раз… Сигналы xMax так слабы, что не будут мешать обычным теле— и радиопередачам, частоты которых они станут использовать… Первая ячейка радиосети xMax построена в Майами и покрывает сорок квадратных миль…
Впечатляет? А еще Бобье заявлял «о фундаментальной смене парадигмы в области излучения радиоволн, их модуляции и демодуляции».
Если вы захотите узнать подробности и разобраться, как же такое возможно, то, наверное, отправитесь на сайт xGTechnologу.com. И вот он-то заставит вас крепко задуматься. Более того, изучение информации о xMax на других сайтах вашу задумчивость только усилит. Но обо всем по порядку.
Итак, во-первых: сеть в пригороде Майами лишь планируется запустить ближайшей осенью, а вовсе она не построена, как сообщили, например, citforum.ru и 3gnews.ru, между делом «разогнавшие» размер сети до 103 кв. км. Впрочем, другие масс-медиа часто писали «размером 40 миль», опуская слово «квадратных».
Во-вторых, на официальном сайте говорится всего лишь об экспериментальных сеансах связи «на расстоянии более одной мили». При этом использовался УКВ-диапазон и наземные антенны, а сигнал вроде бы пробил бетонные стены зданий, хотя сказано это довольно неуверенно. Еще говорится, что при излучаемой мощности 0,0005 Вт испытания показали больший уровень магнитуды сигнала, чем у Wi-Fi и других широкополосных технологий. Имел ли именно такую мощность сигнал, пробивший здания на протяжении мили, — непонятно. Текст написан таким образом, что его можно понять как угодно. О скоростях, достигнутых в экспериментах, нет ни слова, но если покопаться в разделах сайта, можно найти страницу, где сообщается о 6,24 Мбитс на частоте 100 МГц, при этом сигнал не мешал работающей на той же частоте FM-станции. Были ли это разные испытания — одно на дальность, другие на мощность и скорость, или речь идет об одном, можно только догадываться. И это далеко не все недомолвки сайта xGTechnologу.com. Процитируем (не дословно, а по сути) официальный FAQ:
Что такое xMax?
— Это новая технология модуляции и кодирования сигналов, увеличивающая скорость их передачи в проводных и радиосистемах. Это не компрессия сигнала, а сочетание двух уже известных, широко используемых методов связи, резко повышающее эффективность использования радиоспектра.
Что такое xGFlash-сигнал?
— Это сверхмаломощный широкополосный сигнал, которым xMax передает данные. Этот сигнал с широким спектром имеет энергетический уровень ниже атмосферного шума, поэтому незаметен для традиционных систем радиосвязи — ТВ, радио, мобильных телефонов и т. д. Мощность сигнала в 100 тысяч раз ниже уровня, которым американская FCC ограничивает максимальное излучение нелицензируемых радиопередатчиков, и в 10 тысяч раз меньше мощности, разрешенной для сверхширополосных (UWB) радиосистем.