Владимир Овчинский - Кибервойны ХХI века. О чем умолчал Эдвард Сноуден
В-третьих, к концу нулевых годов западные, прежде всего, американские поведенческие и когнитивные науки, с одной стороны получили широкое признание бизнес-сообщества и государств, а с другой — из фазы исследований и разработок перешли в стадию производства эффективных технологий. Косвенным показателем этого процесса стал тот факт, что в течение нулевых годов три виднейших представителя поведенческих наук: Д. Канеман, Дж. Акерлоф и Р. Шиллер получили Нобелевские премии по экономике. Экономика была выбрана лишь потому, что Нобелевских премий в сфере наук о человеке просто не существует.
Теперь давайте вдумаемся, чем же, по сути, является интернет. Причем без разницы, о каком интернете мы говорим — об интернете людей или об интернете вещей. Не надо обладать глубокими техническими знаниями, чтобы понять, что фактически интернет является хранилищем, своеобразным архивом следов человеческой деятельности. Причем, не только той деятельности, которая реализована в конкретных поступках, действиях, событиях, но и архивом намерений, мнений, мыслей и отношений. Не зря автор знаменитых бестселлеров Маршалл Смит уподобил интернет толще земли, в которой можно обнаружить след доисторического животного, умершего миллионы лет назад. По сути, в интернете ничего не исчезает. Даже популярные в постсноуденов-скую эпоху различного рода сервисы удаления аккаунтов и других следов пребывания в сети, удаляют лишь те следы, которые доступны для наблюдения простыми пользователями, не вооруженными специальными программами, доступными для корпораций и государств.
Соответственно формирование огромного, постоянно пополняющегося архива поведенческой активности самых различных субъектов, от отдельных государств и огромных компаний до небольших групп и отдельных индивидуумов собственно и послужило базисом появления Больших Данных. C тех пор направление Больших Данных стало ведущим в сфере информационных технологий.
Анализ накопленного за последние годы опыта применения технологий Больших Данных позволяет выделить несколько ключевых черт, отличающих Большие Данные от всех других информационных технологий. К ним относятся:
• во-первых, огромные массивы разнородной информации о процессах, явлениях, событиях, объектах, субъектах и т. п., пополняемые непрерывно в режиме он-лайн. Согласно имеющейся статистике 60 % этой информации носит неструктурированный, в основном текстовой характер и 40 % составляет структурированная, или табличная информация. В последние годы в общем объеме Больших Данных постоянно нарастает доля информации структурированного характера, поступающей от вещей, соединенных с интернетом — от холодильника до городской системы регулирования светофоров и т. п.;
• во-вторых, специально спроектированные программные платформы, где Большие Данные любого объема могут храниться в удобном для вычислений виде. Особо надо подчеркнуть, что эти архивы отличаются от привычных баз данных, которые приспособлены только для структурированной или табличной информации. Отличительной чертой этих хранилищ является то, что структурированная и неструктурированная информация могут обрабатываться совместно, как единое целое;
• в-третьих, наличие различного рода математического, прежде всего, статистического инструментария для обработки Больших Данных и получение результатов в виде, понятном для человека. Причем, при анализе Больших Данных используются не только традиционные методы математической статистики, но и алгоритмы распознавания образов, нейронные сети, построенные на основе аналогии с нервной системой и т. п.
По данным различных исследований, не более 0,6 % всей имеющейся сейчас информации подпадает под категорию Больших Данных, т. е. накапливается, хранится и перерабатывается. В этих же исследованиях указывается, что потенциально в качестве Больших Данных может использоваться 23 % всей хранимой в настоящее время информации. Т. е. фактически сейчас из всей этой информации используется как Большие Данные, т. е. обрабатывается, анализируется чуть больше 3 %. Между тем, последние достижения в области создания платформ накопления, хранения и обработки объемов данных всех форматов позволяют увеличить потенциальные Большие Данные с 23 % до примерно 40 % всей передаваемой в сетях информации.
Еще в 2011 году McKinsey Global Institute объявил Большие Данные «следующим рубежом для инноваций, конкуренции и производительности». По данным целого ряда ведущих международных деловых изданий, уже сегодня Большие Данные дают заметный эффект в бизнесе. Например, выяснилось, что в транснациональных компаниях, входящих в список Fortune 500, где, казалось бы, до мелочей отлажены все процедуры и процессы, внедрение технологий Больших Данных на 5–7% увеличило эффективность использования ресурсов — труда, основных производственных фондов, энергии и т. п. и на 7–9% обеспечило рост объемов продаж. Для среднего бизнеса показатели оказались в полтора-два раза выше. Причем, следует отметить, что данные получены в условиях, когда мировая экономика испытывает на себе последствия глубочайшего финансово-экономического кризиса и экономический рост измеряется в лучшем случае 1–2%.
На чем же базируется эффективность Больших Данных? Технологии Больших Данных и прежде всего, методы статистического анализа, компьютерного распознавания образов и т. п., применяемые на огромных, постоянно пополняемых массивах данных позволяют:
• проводить самые различные и сколь угодно подробные классификации той или иной совокупности людей, компаний, иных объектов по самым разнообразным признакам. Такие классификации обеспечивают точное понимание взаимосвязи тех или иных характеристик любого объекта — от человека до компании или организации, с теми или иными его действиями;
• осуществлять многомерный статистический и иной математический анализ. Этот анализ позволяет находить корреляции между самыми различными параметрами, характеристиками, событиями и т. п. Корреляции не отвечают на вопрос — почему. Они показывают вероятность, с которой при изменении одного фактора изменяется и другой. В каком-то смысле Большие Данные представляют собой альтернативный традиционной науке метод. Наука на основе теоретических моделей отвечает на вопрос — почему, а затем, получив ответ, делает рекомендации, как действовать. В случае корреляции стадия поиска причины ликвидируется, а действие происходит в тех случаях, когда факторы тесно взаимосвязаны и на один из факторов легко или возможно осуществить целенаправленное воздействие;
• прогнозировать. На основе классификаций и аналитических выкладок осуществляется прогнозирование. Суть прогнозирования состоит в том, чтобы на основе корреляции определить наиболее легкий способ воздействия для того, чтобы один набор факторов, характеризующих тот или иной объект, лицо, компанию, событие и т. п. был преобразован в другой.
Как любой новый технологический пакет, Большие Данные тут же обросли мифами и заблуждениями. Многие из них постоянно усиливаются как самими производителями программных продуктов в сфере Больших Данных, так и средствами массовой информации, вынужденными адаптировать сложные вопросы информационных технологий для читателей, не обремененных излишними знаниями.
Из всей совокупности мифов стоит выделить три главных. Именно они наносят наибольший вред технологиям Больших Данных и тормозят их практическое применение, в том числе в нашей стране.
Прежде всего, в маркетинговых целях прикладываются немалые усилия, чтобы представить технологии Больших Данных неким новым Святым Граалем. На них необоснованно возлагается роль панацеи от всех бед. Между тем, очевидно, что любой технологический пакет имеет строго определенные условия для своего применения. Касательно Больших Данных таким ограничением является сопоставимость текущей ситуации с ранее наблюдавшимися ситуациями, процессами, периодами времени и т. п. В качестве примера можно привести прогнозирование потребительского поведения. Каждый человек на собственном опыте знает, что в ситуации умеренной инфляции он будет делать одни покупки, а при гиперинфляции его потребительское поведение коренным образом изменится. Если уже имеются Большие Данные как по периоду с низким уровнем инфляции, так и ситуации гиперинфляционного шока, то технологии Больших Данных будут полезны. Они позволят распознать, к какому классу относится текущая ситуация, обратиться к соответствующим поведенческим паттернам, характеризуемым теми или иными параметрами, и позволят дать достаточно достоверный прогноз. А вот если Больших Данных по периоду гиперинфляции нет, а она наступила, то в такой ситуации технологии Больших Данных будут бесполезны. Более того, их применение чревато непоправимыми ошибками. Этот пример показывает: технологический пакет Больших Данных, также как и другие технологические пакеты имеют строгие условия, где его применение эффективно, а где — нет.