KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Прочая околокомпьтерная литература » Компьютерра - Журнал «Компьютерра» № 24 от 27 июня 2006 года

Компьютерра - Журнал «Компьютерра» № 24 от 27 июня 2006 года

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Компьютерра, "Журнал «Компьютерра» № 24 от 27 июня 2006 года" бесплатно, без регистрации.
Перейти на страницу:

Система видеонаблюдения способна работать и ночью, и днем, камера по команде изменяет угол съемки в вертикальной и горизонтальной плоскостях, а длительность полета аппарата составляет 70 минут при скорости до 50 км/час. Полицейским особенно понравилась конструкция дрона: он за несколько минут легко собирается из частей, умещающихся в тубус размером меньше сумки для гольфа.

Представляя технологическую новинку публике, руководство полиции напирало на добрые дела, которые мог бы решать дрон, — например, искать пропавших детей и заблудившихся путешественников или наблюдать за зоной пожара. Но эти благородные миссии быстро отошли на задний план, когда среди преимуществ SkySeer были упомянуты его практически полная бесшумность в полете и незаметность для находящихся на земле. Впрочем, и здесь было подчеркнуто, что эти особенности окажутся очень полезны при поиске преступников, пытающихся скрыться в лабиринте улиц или прячущихся на крышах зданий.

Какие бы миссии ни планировались полицией для самолетов-разведчиков, уже понятно, что дроны окажутся существенным подспорьем в воздушном наблюдении, которое сейчас возложено на вертолеты. Управление полиции Лос-Анджелеса, в частности, располагает сегодня восемнадцатью вертолетами стоимостью от 3 до 5 млн. долларов каждый. Потребность в поддержке с воздуха так высока, что пилоты вертолетов не знают ни сна ни покоя. И вот теперь появляются дроны SkySeer по цене 25—30 тысяч за штуку, способные передавать картинку с места событий непосредственно на ноутбук станции управления. Причем летающий робот может двигаться не только по командам оператора, но и автономно, следуя по любому маршруту, заранее заданному с помощью системы GPS.

Хотя дело это совсем новое, очевидно, что беспилотные летательные аппараты понемногу начинают становиться нормой в работе городской полиции США. Очередное известие из этого ряда порождает всплеск протестов правозащитников, которые усматривают в БПЛА, парящих возле домов, посягательство на тайну личной жизни граждан. Для ответа на эти протесты полиция изобрела оригинальный контраргумент: да, дроны действительно предназначены для несанкционированного судом наблюдения, однако вряд ли стоит по этому поводу волноваться, поскольку многочисленные камеры слежения и так уже установлены буквально на каждом столбе.

Короче говоря, аргумент в сущности тот же самый, что и у приснопамятной статуи Железного Феликса с Лубянки.

ТЕМА НОМЕРА: Археология СМИ в реальном времени

Автор: Леонид Левкович-Маслюк

Раскопки данных (data mining) — модная и пока еще редкая специализация на рынке инфотехнологий. Екатерина Солнцева, заместитель гендиректора фирмы «Медиалогия», помогла мне ознакомиться со всеми этапами работы системы раскопки текстов (text mining), созданной этой компанией.

Сегодня наши любимые СМИ предстанут перед читателем в препарированном виде, в каком они кладутся на стол руководителям крупных корпораций и высшим государственным чинам.

«Что», «как» и «зачем» текст-майнинга

Извлечение информации из средств массовой информации — дело тонкое, утомительное и крайне дорогое. Есть в этом какая-то нехорошая ирония — но факт остается фактом. До недавнего времени заниматься этим делом всерьез (во всяком случае, в России) могли позволить себе только самые мощные спецслужбы и самые важные из госорганов [Это всего лишь догадка. Откуда нам точно знать, что они там себе позволяют?] (что почти одно и то же). Причина проста: штат аналитиков — это всегда штучный, уникальный инструмент для решения штучных же задач (притом требующих гигантской и непрерывной черновой работы по сбору данных). Несмотря на то что прогресс компьютерных технологий уже много лет идет «муровскими» темпами, только в последние годы появились реальные возможности для демократизации в области массового мониторинга источников — весьма, впрочем, умеренной. Благодаря ей услуги по содержательному и представительному мониторингу СМИ доступны теперь и крупным корпорациям, и даже политическим партиям.

Для чего им это нужно? Деннис Кахилл (Dennis Cahill), вице-президент компании Factiva (www.factiva.com), активно ведущей открытую компьютерную разработку информационных залежей СМИ, считает, что без текст-майнинга бизнес не сможет правильно учитывать значимые изменения в деловой, социальной, правовой сфере. Те самые «тренды» и «паттерны», которые желательно заметить вовремя и успеть среагировать.

Что-то входит в моду, что-то выходит из моды. Над кем-то сгущаются тучи, над кем-то — рассеиваются. Обо всем этом можно узнать, тщательно анализируя общедоступные источники. Люди, занимающиеся фундаментальным анализом рынков — отслеживанием и изучением всех сообщений, имеющих отношение к поведению интересующих их акций или валют, — ведут такой анализ давным-давно, очень успешно и без всякого текст-майнинга. Но можно сказать и иначе — они ведут текст-майнинг собственными подручными средствами; почему бы не (про)дать им (и другим желающим) современный экскаватор? Главное — чтобы он не разнес на куски хрупкие черепки фактов, которые представляют основную ценность для инфоархеолога современности [Термин «история современности» стал популярным после того, как его использовал в названии своей книги Эрнст Генри, замечательный историк, публицист, а главное, разведчик. Текст-майнинг в этом смысле — археология современности, раскопки, ведущиеся одновременно с захоронением в бесчисленных файлах только что полученной информации.].

Кахилл приводит пример с ожирением (obesity) — точнее, со словом «ожирение», которое в конце 2003 года стало все чаще мелькать в печати и блогах. К середине 2004 года проблема obesity стала трендом, а гиганты фастфуда, которых обвиняли в провоцировании этого серьезного недуга, столкнулись с проблемами. А столкновения, утверждает Кахилл, можно было бы избежать, вовремя прибегнув к текст-майнингу. Достаточно было отследить графики упоминаний слова «ожирение» в связке с упоминанием крупнейших сетей быстрой еды. Сделав это, сети бы поняли, на какую из них в ближайшее время обрушится удар общественного мнения — и успели бы перестроиться в духе времени.

Однако такие задачи — лишь первая ступень посвящения для профессионалов истинного текст-майнинга. Уровень серьезных систем сегодня позволяет компаниям браться за решение более деликатных вопросов.

Управление репутацией. Можно отследить, какова тональность упоминаний данной компании в СМИ, как она меняется со временем, и попытаться понять — с чем связаны эти изменения.

Конкурентный анализ. Из сообщений СМИ можно вытрясти более или менее правдоподобную картину расстановки сил в той или иной отрасли. Очень грубая модель такова — о ком больше и лучше говорят, тот и более успешен. Чтобы из этой грубой модели сделать сколько-нибудь рабочую, нужны очень серьезные усилия — ибо упоминания надо уметь классифицировать, рейтинговать по массе параметров, увязывать друг с другом и с целями исследования. Как ни странно, сегодня такой уровень уже достигнут — хотя полностью автоматизировать подобные вещи вряд ли возможно даже в принципе.

Бизнес-разведка. Что тут есть от настоящей разведки — судить не берусь. Очевидно, однако, что — в сочетании с перечисленными выше запросами — разумная технология связывания ключевых упоминаний в цепочки может давать отличный материал для размышлений. Тем более что оригиналы статей и даже записи телепередач доступны мгновенно — но тут я уже перехожу к рассказу о подробностях, замеченных при личных наблюдениях за увлекательным процессом текстовых раскопок в офисе «Медиалогии».

В текущую работу по мониторингу СМИ и поддержанию базы знаний здесь вовлечено около ста человек. Работа ведется круглосуточно, причем ночная смена, как правило, самая загруженная — в это время обрабатываются материалы изданий, которые придут к читателям утром. Обработка и анализ идут в несколько этапов.

В сыром виде на вход системы непрерывно приходят по подписке огромное количество СМИ, а также собранные роботами интернет-ресурсы свободного доступа. Анализируются только российские СМИ (зарубежные, которых около трехсот, просто отправляются в постоянно обновляемый архив), в том числе транскрипты шести основных телеканалов. Самые большие базы отраслевых источников — по финансам и по ИТ. Все это сортируется, из полученных файлов извлекается текст и отправляется на дальнейшую обработку (начиная с этого момента, pdf’ы исходных материалов прессы, а также видеоматериалы привязаны к текстам ссылками).

Обработка, необходимая для включения текстов в структурированную базу знаний, начинается с выделения объектов. Объект — это то, о чем можно спрашивать систему. Чаще всего — персона или компания. Иногда — страна (Украина, например).

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*