Битва за данные (часть 2)

Все, что вы делаете в интернете, может быть использовано против вас

Компании подчеркивают, что продают и используют только обезличенные данные. Но это не снимает тревоги обывателей. Каноничный кейс торговой сети Target, чья рекомендательная система узнала о беременности школьницы раньше самой школьницы, спровоцировал горячие споры об этике больших данных. Чтобы спасти репутацию, компания подкорректировала алгоритм. Он начал разбавлять товары для беременных более нейтральными предложениями. Эта история — отличный пример того, что из наших данных можно добыть выводы, которых мы сами о себе не знаем.

Результаты опроса читателей The Guardian

В 2012 году Facebook провела психологический эксперимент над 689 тысячами человек. Половине выборки алгоритм показывал позитивный контент, другой половине — негативный, а потом анализировал реакцию пользователей. Целью исследования было доказать влияние соцсетей на настроения людей. Результаты были более чем убедительны. В 2014 году, когда их опубликовали, Facebook попала в настоящий социальный шторм. Из пользователей сделали подопытных крыс, писали тогда рассерженные блогеры. Широкая публика была поражена, что данные можно использовать не только для таргетирования рекламы, но и для манипулирования людьми.

В прошлом году соцсеть захлестнула новая волна критики. Facebook обвинили в том, что ее алгоритм формирования новостной ленты (питающийся данными о пользователях) привел к радикализации пользователей, распространению фейковых новостей и тем самым помог Трампу стать президентом.

Большинство скандалов из области data ethics связаны с несанкционированным сбором данных. Например, производители SmartTV не раз попадались на слежке за пользователями. По прогнозу Gartner, к 2018 году половина нарушений деловой этики будут нарушениями этики данных. Последствиями для компаний будут репутационный ущерб и юридические санкции.

И без того размытая грань между персональными и большими данными тоньше, чем кажется. Данные интернет-запросов нередко содержат личную информацию и могут быть деанонимизированы. Cопоставление анонимизированных больничных записей и новостей со словом «госпитализирован» позволило исследователям опознать 43% пациентов.

Ярче всех по теме приватности в мире больших данных высказался питерский фотограф Егор Цветков. В прошлом году он отменно хайпанул со своим проектом Your face is big data. Цветков сфотографировал случайных незнакомцев в метро, а потом нашел их профили «Вконтакте» через нейросетевой фотопоиск FindFace.

Интеллектуальные алгоритмы принятия решений, которые обучаются на данных, могут быть предубеждены. Например, американские судьи используют программы для предсказания рецидива преступления. Это помогает им определиться с суммой выдачи обвиняемого под залог и тяжестью наказания. В прошлом году СМИ обвинили один из самых популярных алгоритмов такого рода — программу COMPAS от компании Northpointe — в расизме.

Впоследствии белый американец был три раза арестован за хранение наркотиков, афроамериканец — ни одного

Только 20% потенциальных рецидивистов действительно совершили преступления. При этом количество ошибочных предсказаний рецидива для чернокожих оказалось вдвое выше, чем для белых.

Data-скандалы в России

В России тоже начались конфликты вокруг данных. В январе «ВКонтакте» подала в суд на компанию Double Data и Национальное бюро кредитных историй. Соцсеть требует запретить использовать профили людей в коммерческих целях. Сервисы Double Data оценивают кредитоспособность заемщиков по данным «ВКонтакте», а НБКИ предлагает эти сервисы банкам. «ВКонтакте» заявила, что алгоритмы Double Data анализируют имена, место рождения, жительства, работы и учебы, анкеты друзей, тип устройства и частоту посещений. Но ни соцсеть, ни пользователи не разрешали сторонней компании извлекать личную информацию.

Исследование PWC, 2014 год

Использование общедоступных сведений, которые люди сами разместили о себе, законно и согласовано с юристами более 30 банков, объясняла Double Data в своем блоге. Гендиректор компании Максим Гинжук назвал претензии соцсети способом конкурентной борьбы. В прошлом году Mail.ru Group запустила собственный сервис для анализа кредитных рисков. Зачем позволять другим монетизировать данные о пользователях?

В июне Национальное бюро кредитных историй заключило с «Вконтакте» мировое соглашение, а Double Data попросила время, чтобы ознакомиться с документом. На днях Арбитражный суд Москвы примет решение по громкому делу. Его исход станет важным прецедентом, который может серьезно повлиять на отечественный рынок big data. Ведь социальным скорингом в России занимаются многие компании. Согласно исследованию FutureBanking, данные из соцсетей используют также «Аксиоматика», Clever Datа, Scorista, Scorto, FICO и Бюро кредитных историй Equifax (партнер скорингового сервиса Mail.ru Group). Double Data даже гордятся тем, что корпорация ополчилась именно на них.

Американские соцсети LinkedIn, Facebook и Twitter тоже препятствуют анализу данных пользователей сторонними компаниями. Так, осенью Facebook запретила британским страховщикам Admiral Insurance анализировать благонадежность водителей по постам в соцсети. Хотя вообще в США торговля данными идет куда бойчее, чем у нас. Там даже продаются списки людей, страдающих от психических расстройств, рака и алкоголизма.

Еще один российский скандал вокруг больших данных случился в июне. Пользователи возмутились, что компания Segmento, 50% акций которой принадлежит Сбербанку, использовала историю покупок клиентов банка для таргетирования рекламы «Макдоналдса», «Снежной королевы», Loreal и Samsung. Так, технология Segmento находила клиентов, которые недавно оплачивали фастфуд картой Сбербанка, показывала части из них рекламу «Макдоналдса» и оценивала эффективность кампании по последующим покупкам.

В описании рекламных кейсов на сайте фирмы говорилось, что Segmento обладает доступом к данным о покупательском поведении и предпочтениях 84 млн пользователей карт Сбербанка. Позже компания удалила эту информацию, что только укрепило позицию критиков. Клиенты платят банку за обслуживание не для того, чтобы им показывали рекламу и зарабатывали на их данных, писали участники дискуссии. Сбербанк парировал, что передает Segmento не персональные данные, а зашифрованный и обезличенный набор вероятностей. Поэтому нарушения закона и банковской тайны тут нет.

В любом случае, синергия со Сбербанком дает разработчикам Segmento огромные преимущества. Российский рынок больших данных называют на 99% теневым: бренды торгуют данными анонимно, чтобы не отпугнуть клиентов. Непрозрачность источников и отсутствие четких правил игры приводят к низкому качеству данных об аудитории. А чем хуже данные, тем хуже работает реклама.

Банки точно знают социально-демографические характеристики своих клиентов. Поэтому их данные куда точнее информации из соцсетей. Как и любые брендированные данные, то есть открыто продаваемые сборщиком. На российском рынке это редкость. Разработчики отечественных big data-сервисов жалуются на дефицит брендированных данных. Опасаясь негатива пользователей, бренды очень осторожно монетизируют обезличенные данные клиентов.

Телеком-операторы развивают геоаналитику, основанную на данных о перемещениях абонентов. Так, «Мегафон» предлагает траспортным компаниям свой сервис анализа трафика и пассажироперевозок. Мобильные операторы «большой тройки» предоставляют обезличенные данные московским властям, чтобы те совершенствовали городскую инфраструктуру с учетом загруженности транспорта. «Вымпелком» и МТС оценивают кредитоспособность своих абонентов по аккуратности платежей и частоте заграничных поездок, чтобы продавать банкам обезличенный результат такого скоринга.

«Вымпелком» делится с рекламодателями данными о предпочтениях своих абонентов — мобильных пользователей интернета. К числу компаний, которые открыто продают данные об интересах своих пользователей, относятся также «МаксимаТелеком» и Avito. Компании, которые не готовы тратить ресурсы на создание собственных big data-сервисов, монетизируют свои информационные богатства через биржи данных (data exchange и data management platform). Экосистема для обмена и продажи данных активно растет. Недавно такими маркетплейсами обзавелись рекламные платформы «Яндекса» и Mail.Ru Group.

Борьба за данные будет происходить не только на уровне компаний, но и на уровне государств. Об этом предупреждает глава совета директоров Alphabet Эрик Шмидт. В этом смысле данные имеют не меньший потенциал для конфликтов, чем нефть. Географическое распределение извлекаемой из данных прибыли сегодня более чем неравномерно. Большая часть дата-центров в мире находится на территории США или контролируется американскими компаниями. Европейские регуляторы то и дело осложняют им жизнь своими предписаниями. Требования по локализации персональных данных действуют в Китае, Индии, Индонезии, Малайзии и Вьетнаме.

Россия идет в том же направлении. Принятый в 2015 году закон обязывает иностранные ИТ-компании хранить персональные данные россиян на серверах внутри страны. За неисполнение этого требования Роскомнадзор заблокировал американскую деловую соцсеть Linkedin, которой пользовались 5 млн россиян. При этом Google, Apple, Facebook и Twitter пока не обзавелись серверами на территории России.

Чем большие данные отличаются от персональных данных

Российские чиновники давно обеспокоены тем, что западные ИТ-гиганты собирают и используют данные россиян в своих целях, а государство никак не может на это повлиять.

Укрощение big data

Декабрь 2015
На встрече в рамках форума «Интернет-экономика» гендиректор InfoWatch Наталья Касперская рассказала президенту о необходимости регулирования личных данных россиян: о перемещениях, политических пристрастиях, доходах, привычках, круге друзей, высказываниях и прочем. По ее словам, это дает возможность «влиять или манипулировать людьми, что, собственно, и делается. Мы это видим. То есть создался целый класс новых информационных угроз».

Июнь 2016
Подробно о регулировании больших данных в России заговорили на Петербургском экономическом форуме. Глава Роскомнадзора Александр Жаров предложил создать национального оператора big data и разработать соответствующий законопроект. По его словам, государство и бизнес должны вместе выработать правила обращения, хранения и защиты обезличенных данных. Поскольку умные алгоритмы способны деанонимизировать большие данные пользователей, их нужно защищать от злоумышленников.

Это должно быть государственно-частное партнерство, в котором будут участвовать и бизнес, и государство, которое будет определять рамки распространения национальной big data, то есть уровень ее трансграничности, в каких объемах она может передаваться, как, по каким каналам, а также необходимый уровень защиты.

— Александр Жаров

Об этом же говорил помощник президента Игорь Щеголев. Он считает, что каждое приложение должно предупреждать пользователя крупными буквами, как будут использоваться его данные — по аналогии с предупреждениями на табачной продукции.

“

Данные стали ресурсом, а каждого человека можно сравнить с нефтяной вышкой. Причем человек нередко еще и платит, чтобы отдать свои данные бизнесу. Это серьезная проблема, и впору говорить, чтобы бизнес не злоупотреблял данными, получаемыми от пользователей.

— Игорь Щеголев

Тогда же «Мегафон» предложил создать в России национальную биржу для торговли массивами big data — под управлением единого оператора. Предполагалось, что оператором должна стать некоммерческая организация, объединяющая ИТ-компании, телеком, соцсети, банки, платежные системы, Роскомнадзор и другие ведомства. Мировые аналоги такой системы — китайская НКО Big Data Union и европейская Big Data Value Association. Внедрение такого механизма на рынке больших данных принесет компаниям миллиарды долларов, прогнозировал представитель «Мегафона».

На роль единого оператора некоторые тогда прочили «Ростелеком» (на 53% принадлежит государству). Вскоре после этого госкомпания, которая также претендует на роль главного оператора интернета вещей в России, предложила запретить передачу за рубеж данных с заводского оборудования. Дело в том, что многие импортные станки автоматически отправляют данные производителю, а тот может удаленно корректировать и даже прерывать их работу. Для хранения этих массивов «Ростелеком» предполагал создать единую IoT-инфрастуктуру. Дальнейшее обсуждение регулирования больших данных касалось только той их части, которые генерируются пользователями.

Август 2016
К обсуждению госрегулирования больших данных подключился советник президента РФ по вопросам развития интернета Герман Клименко. Он создал специальную рабочую группу для обсуждения проблем оборота big data.

Ноябрь 2016

Наталья Касперская заявила о том, что большие данные россиян должны принадлежать государству.

“

То, что другие страны эту информацию свободно качают, и знают перемещение всех наших граждан, знают, о чем они думают и их политические предпочтения — это неправильно. Поэтому эти данные должны являться собственностью государства.

— Наталья Касперская

В числе прочих вариантов чиновники обсуждали возможность заставить иностранные компании локализовать такие данные на серверах в России — по аналогии с персональными данными. Тогда же рабочая группа по вопросам развития интернета при администрации президента начала разработку законопроекта о больших пользовательских данных.

Апрель 2017
Mail.Ru Group, «Яндекс», «Ростелеком», «МегаФон», МТС и «Вымпелком» ускорили переговоры о создании саморегулируемой ассоциации больших данных. Компании решили опередить государство, опасаясь, что запретительные меры повредят развитию отрасли.

Тогда же Роскомнадзор оштрафовал МГТС на 30 тысяч рублей за торговлю информацией о поведении пользователей. В 2016 году ведомство провело внеплановые проверки по поручению президента. Выяснилось, что МГТС передавал рекламодателям поисковые запросы, список посещенных сайтов, их тематику, а также IP-адрес абонента. Суд признал, что этой информации хватает для идентификации конкретного пользователя. Как писали «Известия», эти проверки показывают намерение Роскомнадзора плотнее взяться за серый рынок больших данных.

Май 2017
Стало известно о том, что чиновники хотят создать государственного оператора для контроля больших пользовательских данных. Причем финансировать его работу будут организации, работающие с большими данными. Они должны будут перечислять в специальный фонд до 2% своих рекламных доходов. «Ведомости» подсчитали, что за первый квартал 2017 года «Яндексу» и Mail.Ru Group пришлось бы заплатить 380 млн и 96 млн рублей соответственно.

Согласно законопроекту, вести реестр операторов больших данных и контролировать их оборот будет Роскомнадзор, а госоператором станет радиочастотная служба при нем. Участники рынка критиковали законопроект за то, что он бьет по ответственным игрокам и ничего не делает с черным рынком данных. Кроме того, он не предполагает никакой защиты передаваемых данных.

Июнь 2017
Фонд развития интернет-инициатив объявил, что вместе с бизнесом разрабатывает альтернативный законопроект о больших данных. В его основу лягут предложения «Мегафона», МТС, «Яндекса», X5 Retail Group, ассоциации «Финтех» и других крупных компаний. По словам ФРИИ, разработанный кремлевской рабочей группой законопроект очень сырой и не обсуждался с отраслью. Кроме того, он регулирует только пользовательские данные, хотя большая часть больших данных поступает от интернета вещей. Новый документ также установит легальные механизмы продажи больших данных между компаниями и правила обработки различных типов big data.

Июль 2017
Вступили в силу новые нормы (ст. 13.11 КоАП), ужесточающие сбор данных. Компании будут штрафовать за незаконное получение пользовательских данных и их несанкционированную обработку (не оговоренную пользовательским соглашением), а также за отсутствие политики конфиденциальности на интернет-ресурсах.

Разработчики альтернативного законопроекта о big data предложили обязать иностранные компании делиться собранными данными с российскими игроками и самими пользователями. Критически важные данные должны храниться и обрабатываться внутри страны, говорили участники обсуждений.