Коллектив Авторов - Цифровой журнал «Компьютерра» № 167
Около года назад газета New York Times описала, как американская сеть магазинов Target анализирует информацию о своих покупателях, чтобы определить, кто из них ждёт ребёнка. Маркетологи Target предположили, что во время беременности покупательские привычки меняются и есть шанс превратить будущих родителей в постоянных клиентов. Но как определить, когда такой шанс открывается?
Target хранит грандиозную базу данных, содержащую список покупателей и их покупок (она пополняется при оплате кредиткой, использовании дисконтной картой и т.д.). Аналитики компании выделили часть базы со списком покупательниц, о которых известно, что у них уже родился ребёнок, и стали изучать, чем отличаются покупки, которые они делали до беременности, от покупок во время беременности.
Оказалось, что в первые двадцать недель беременности многие покупают минеральные пищевые добавки. Другой признак: они начинают приобретать вату и мыло без запаха в куда больших количествах, чем прежде. Если несколько подобных признаков совпадают, то вероятность того, что покупательница беременна, очень велика. А значит, можно бомбардировать её рекламой и скидочными купонами на товары для новорожденных.
Они не сообщали Target о своей беременности, но это не помешало компании разгадать их секрет и воспользоваться им. Причём это произошло в офлайне, где собирать персональные данные пока что куда сложнее, чем в интернете!
Второе заблуждение: проблемы с приватностью есть только в интернетеИстория с анализом данных в Target опровергает это заблуждение, но есть и другие примеры. Офлайновые технологии в смысле утечек ничем не лучше интернетных.
Возьмём, к примеру, мобильные телефоны. В отличие от браузера, у каждого мобильника есть уникальный идентификатор — телефонный номер. Браузерные куки при желании можно обнулить, но с телефонным номером такой трюк не пройдёт. При этом он, как правило, привязан к настолько подробной информации о пользователе, какая социальным сетям и не снилась, вплоть до номера паспорта.
Идеолог свободного софта Ричард Столлман называет мобильные телефоны приспособлениями для слежки и отказывается носить их с собой. Столлман, конечно, луддит и параноик, но спорить с ним трудно. Мобильный телефон действительно является приспособлением для слежки. Он не способен работать, не уведомляя оператора связи о каждом шаге своего обладателя.
Мобильные телефоны постоянно ищут в окрестностях базовые станции сотовой связи и пытаются к ним подключиться. Каждое подключение фиксируется оператором. Этих данных достаточно, чтобы определить, где обладатель телефона находится сейчас и где он был в прошлом. Как и любая крупная телекоммуникационная компания, операторы сотовой связи тесно сотрудничают с правоохранительными органами и спецслужбами, так что это совсем не теоретическая возможность.
Та же самая проблема на другом уровне возникает при использовании встроенных в современные смартфоны алгоритмов геопозиционирования. Определение местоположения по спутникам GPS — довольно долгое занятие, поэтому в смартфонах для позиционирования часто сочетают GPS с триангуляцией координат по списку доступных сотовых вышек и беспроводных сетей. Поскольку ни в одном мобильнике не уместится список всех беспроводных сетей мира, необходимые данные загружаются из интернета по мере надобности. Это выдаёт местоположение пользователя сервису, которые предоставляет такие данные.
Помните странную историю про айфоны, якобы без разрешения собиравшие данные о перемещениях своих владельцев? Причиной небольшого скандала, в который пару лет назад втянули Apple, была именно эта проблема. «Собранные данные» оказались всего лишь списком сотовых и сетей Wi-Fi, необходимым для быстрого вычисления местоположения методом триангуляции. Поскольку он скачивался по мере надобности, в него попадали лишь те места, где бывает владелец телефона. Нарушение приватности? В определённой ситуации — возможно. Но другого решения нет. Список так или иначе нужен, и он слишком велик, чтобы хранить его в телефоне целиком.
Платёжные карты — ещё один канал, по которому утекает ценная информация, причём воспользоваться ею может и та компания, которой адресован платёж (в Target делали именно это), и банк, и даже платёжная система. Количество и важность данных, которые каждый день проходят через Visa или Mastercard, потрясают воображение, и нетрудно представить, что можно выудить в их базах данных, если заняться data mining.
Новейшая страшилка — электронные очки Google Glass. Это устройство ещё даже не продаётся, но уже вызывает паранойю. Дело в том, что Google Glass позволяет записывать видео и немедленно транслировать его в интернет. То же самое можно сказать о любом смартфоне, но есть разница: когда человек достаёт и направляет смартфон, это трудно не заметить. Google Glass — совсем другое дело. Электронные очки всегда на переносице, а для того, чтобы включить запись, достаточно прикоснуться к дужке.
Получается, что любой обладатель Google Glass может скрытно снимать всё, что происходит вокруг. Противники устройства опасаются, что в том случае, если оно станет популярным, будет невозможно выйти из дома и не попасть кому-нибудь в кадр, даже не поняв, что произошло.
Это, кстати, прекрасный пример того, что даже люди, не пользующиеся социальными сетями, не застрахованы от того, что информация о них появится в интернете. Если её не выложили они сами, это не значит, что её не выложат их знакомые или даже посторонние. От такого не застрахуешься.
Третье заблуждение: утечку информации можно остановитьЗаконодатели многих стран полагают, что проблема решается запретами. В прошлом году Евросоюз жёстко огранил использование кук, которыми сайты метят браузеры своих посетителей. Тем временем обитатели британских городков перегораживали улицы, чтобы остановить машины Google, снимающие панорамы Street View, а немцы запрещали Facebook использовать технологию распознавания лиц. В Соединённых Штатах не отстают: в Далласе всерьёз обсуждают местный законопроект, который не позволяет вести аэрофотосъёмку с помощью беспилотных летательных аппаратов без разрешения владельцев недвижимости, над которыми пролегает их траектория. Всё зря: в еврозаконе о куках нашли лазейку, Street View всё равно сняли, а распознавание лиц продолжает работать везде, кроме Facebook.
Обычным пользователям рекомендуют следовать в интернете правилам, напоминающим кодекс поведения заговорщика: удалить аккаунты в социальных сетях, отключить Javascript с куками и поставить аддоны, ликвидирующие баннеры, кнопки соцсетей и «жучки», с помощью которых Google Analytics и другие счётчики собирают информацию. Не привлекать внимания. Не упоминать своё настоящее имя. Не показывать лица. Одним словом, конспирация.
Такая конспирация способна помешать узнать имя и домашний адрес, но Google и Facebook они интересуют в последнюю очередь. Такое поведение лишь немногим менее наивно, чем беззаботная публикация в соцсетях любых сведений о себе. И то и другое строится на совершенно неверных представлениях о том, что увеличивает приватность, а что ей вредит. И то и другое в конечном счёте упрощает идентификацию пользователя.
Эту не совсем очевидную идею легко объяснить с помощью следующего примера (он позаимствован у исследователя из Стэнфорда Арвинда Нарайанана). Представьте 33 бита. Максимальное число, которое можно записать с их помощью, превышает 8,5 миллиардов. Поскольку на Земле живёт лишь 7 миллиардов человек, 33 битов более чем достаточно для того, чтобы уникально идентифицировать каждого из них.
Если мы не знаем о человеке ничего, то для того, чтобы найти его, необходимо перебрать эти 7 миллиардов одного за другим — практически нереальная задача. Однако каждый факт, на который можно ответить «да» или «нет», сокращает круг поиска вдвое.
Угадали пол? Круг «подозреваемых» ужался с 7 до 3,5 миллиардов. Выяснили, что человек бывает на веб-сервисе, насчитывающем не больше 100 миллионов пользователей? Сразу пять битов долой. Осталось узнать 27 битов. Это совсем не так трудно, как кажется, если учесть, сколько следов оставляет человек в интернете.
Когда браузер отправляет серверу запрос на получение данных, он передаёт ему свой идентификатор, содержащий название браузера, его версию и операционную систему, язык, предпочитаемый пользователем, список поддерживаемых форматов и куки. Если есть Javascript или Flash, в список можно добавить часовой пояс и список плагинов и шрифтов, установленных на компьютере. В Американском Фонде электронного фронтира (EFF) установили, что этих данных, как правило, достаточно для того, чтобы сократить круг поиска ещё на 18 битов, а иногда и больше.
Подумайте сами: чтобы затеряться в толпе, нужно быть настолько похожим на других, насколько это возможно. Отключение кук и Javascript ведёт к противоположному результату: оно делает заметнее. Доля пользователей Рунета, у которых отключены и куки, и Javascript, существенно ниже 0,5 процента. Это не толпа, и затеряться в ней нельзя. Пользователей с такими настройками так мало, что в сочетании с другими данными этого оказывается достаточно для идентификации пользователя.