Билл Фрэнкс - Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики
Другие аналитические дисциплины, получающие широкое распространение, включают в себя:
• Распознавание лиц и другие виды анализа изображений, находящие применение во многих областях, от социальных сетей до сферы безопасности.
• Машинное обучение, чьи алгоритмы становятся все более усложненными. Такие компании, как Google, скрытно приобретают и используют технологии машинного обучения{65}.
• Анализ графов. Хотя теории, лежащие в основе анализа графов, были разработаны много лет назад, но только после развития социальных сетей и появления всеобщего стремления проверять отношения между людьми или организациями этот вид анализа стал обыденным.
• Геопространственный анализ, который до недавнего времени использовался только крупными логистическими или картографическими компаниями. Сегодня для пользователей смартфонов геопространственный анализ стал повседневной реальностью.
• Текстовая аналитика, испытавшая взрывной рост, когда стало возможным собирать все тексты организации, а также превращать речи в текст. Большинство крупных организаций уже применяют текстовую аналитику.
Чтобы двигаться вперед, придется добавлять в существующий набор все новые аналитические дисциплины. Приготовьтесь развивать навыки обращения с этими дисциплинами у себя в организации и применять для их поддержки специализированные инструменты.
Преимущества мультидисциплинарной аналитики
Как организация может сочетать различные аналитические дисциплины и какое преимущество это создаст? Прежде всего, давайте назовем подход с использованием разных аналитических дисциплин в рамках одного процесса «мультидисциплинарной аналитикой». Далее, чтобы проиллюстрировать путь к успеху, давайте рассмотрим историческую параллель с хранением данных. Хранилища возникли в результате того, что организации собирали все больше данных, но сам сбор не был скоординирован. Как правило, в разных частях организации имелись свои платформы управления данными, а также повсюду возникали киоски данных, сосредоточенные на нуждах отделов. Если кто-то хотел осуществить анализ с использованием данных от разных частей организации, то ему приходилось выполнять невероятно трудный и зачастую в ручном режиме процесс извлечения и объединения данных из всех этих разрозненных систем.
Концепция корпоративного хранилища данных (EDW) достаточно проста. EDW стремится, по мере возможности, собрать все необходимые для анализа данные на одной платформе. Любой пользователь может увидеть данные в том же виде, в каком они хранились в традиционном киоске данных, но при этом также получить доступ к данным из других киосков. Например, финансовые данные можно легко скомбинировать с данными по продажам. На протяжении многих лет концепция EDW генерировала огромную рыночную ценность, и сегодня такие хранилища есть фактически у любой крупной организации.
Каким образом оправдание хранения данных связано с мультидисциплинарной аналитикой? Актуальная проблема аналитики состоит в том, что даже при наличии централизованного EDW каждая аналитическая дисциплина часто имеет собственное внешнее окружение. Организация размещает статистическое ПО на одном сервере, ПО текстового анализа на другом, ПО анализа графов на третьем, комплект программ для оптимизации на четвертом и т. д. При таком изобилии аналитических инструментов, когда организация хочет сочетать разные аналитические дисциплины, она сталкивается с трудностями, аналогичными тем, что существовали еще до хранения данных. Поэтому не имеет смысла иметь все эти разные наборы инструментов, предназначенные для поддержки разных аналитических дисциплин в разных местах с ограниченной интеграцией, для чего потребуется каждый раз перемещать огромные объемы данных.
Сочетайте, сопоставляйте и исследуйтеНаличие возможности сочетать различные аналитические дисциплины дает огромное преимущество. Подобно тому как источники данных набирают мощность при объединении с другими данными, так и сочетание различных аналитических дисциплин придаст дополнительную силу. Платформа для обнаружения данных обеспечивает такую возможность.
Решение заключается в создании окружения, которое позволяет удовлетворять все аналитические потребности в одном месте. Платформа для обнаружения данных, о которой мы рассказали в пятой главе, идеально подходит для этой цели, как это видно на рис. 7.2. В идеале платформа должна иметь доступ ко всем хранилищам данных и позволять проведение анализа в рамках любой аналитической дисциплины. Некоторые специалисты будут по-прежнему фокусироваться на одной дисциплине, точно так же как некоторые пользователи хранилища данных продолжат работать с данными только своего отдела. Однако сейчас стало возможным изучить, как различные аналитические дисциплины могут взаимодействовать между собой и усиливать друг друга.
Мультидисциплинарная аналитика в действии
Давайте рассмотрим несколько наглядных примеров того, как сочетание различных аналитических дисциплин может принести гораздо более значимые результаты, чем применение каждой дисциплины в отдельности.
Когда текстовый анализ применяется сам по себе, он часто используется для сиюминутных и краткосрочных целей. Организации исследуют посты в социальных сетях и оценивают их тональность по шкале от позитивной до негативной. Также они определяют, о каких продуктах идет речь. Во многих случаях эти результаты включаются в сводные отчеты по трендам, которые показывают, как изменяется общая тональность и популярность отдельных продуктов. Часто на этом и заканчивается применение текстовой аналитики и данных социальных сетей.
Однако текстовая аналитика может быть использована и в стратегическом плане. Почему бы организации не отслеживать каждый комментарий, сделанный каждым клиентом по поводу ее продуктов? Например, несколько лет назад клиент мог сказать о том, что он любит красный цвет, а месяц назад заявить, что не любит зеленый. Наличие постоянного хранилища подобных фактов об интересах и предпочтениях клиентов может иметь огромную ценность. Это позволит выделить такие метрики, как предпочитаемые цвета, продукты, выбор продуктов и т. д., чтобы составить уточненный профиль каждого клиента. Например, метрика «не любит зеленый цвет» может быть включена в модели по определению следующего лучшего предложения. Таким образом, результаты текстовой аналитики можно использовать для улучшения совершенно не связанного с ней статистического аналитического процесса. Если же эти две аналитические дисциплины не сочетать, то модель по определению следующего лучшего предложения не будет учитывать цветовые предпочтения и окажется менее действенной.
Второй пример относится к анализу социальных сетей или к анализу графов. Знание связей между клиентами способно помочь в прогнозировании продаж новых продуктов. В добавление к проецированию на перспективу начальных продаж нового продукта анализ графов позволяет определить, кто его покупает и каким влиянием обладают эти люди. Благодаря исследованию количества и качества связей ранних последователей можно уточнить прогнозы дальнейших продаж. Например, если пользующиеся большим влиянием люди первыми попробуют новый продукт и положительно его оценят, они с большой вероятностью побудят других тоже его попробовать. Если же первыми покупателями становятся люди с небольшим кругом влияния, то признание продукта замедлится. Таким образом, дополнительная информация, поставляемая анализом графов, может быть использована для уточнения прогнозов продаж. Кроме того, повысится эффективность маркетинга, поскольку при определении людей с наибольшим кругом влияния им можно будет делать целенаправленные предложения.
Третий пример связан с добавлением симуляции к обычному моделированию. С помощью симуляции по методу Монте-Карло проверяется надежность результатов прогнозирования. Традиционная прогностическая модель определяет наиболее правдоподобные диапазоны оцениваемых параметров, а также пределы ошибки, что позволяет количественно установить, сколько шума от рекламы присутствует в данных. Симуляция по методу Монте-Карло может быть использована для исследования прогнозов посредством варьирования всех параметров в рамках соответствующих пределов ошибки. Это позволяет определить стабильность прогнозов, генерируемых моделью, и снизить риск при одновременном укреплении доверия к результатам.
Наконец, последний пример касается использования алгоритмов CEP для анализа потока сенсорных данных. Чтобы улучшить процессы CEP, можно применить алгоритмы машинного обучения к историческим данным. Ретроспективный взгляд на поток и применение машинного обучения для более точного определения шаблонов, присутствующих в данных, позволят улучшить алгоритмы обработки событий. Например, алгоритм, отыскивающий проблемы с двигателем, можно усилить, чтобы он распознавал ранее пропущенный инициатор проблемы, который был определен благодаря применению метода машинного обучения к анализу исторических данных с целью выявления факторов, ведущих к отказу двигателя.