Жилищно-коммунальный Шерлок Холмс: как анализ данных изменяет города


Первое убийство в городе Сан-Франциско произошло 21 июня 1849 года. Молодой мужчина по имени Белден Битти погиб от огнестрельного ранения в районе Телеграф Хилл. В полицейском отчёте записано, что поводом для совершения преступления стало «отсутствие взаимопонимания». Действительно, взаимопонимания не хватало: Телеграф Хиллом правили бандиты-чилийцы, а Битти состоял во враждующей банде, известной под названием Псы.

Второе убийство случилось в июле, когда Псы со стрельбой нагрянули на Телеграф Хилл, чтобы отомстить за погибшего товарища. Один из обитателей палаточного городка, в котором жили мигранты из Южной Америки, скончался от полученных ранений. Полицейский отчёт сохранил только его фамилию — Аллегрия. Запись, описывающая обстоятельства произошедшего, не менее лаконична: «Погром».

Эту историю рассказывают первые строки электронной таблицы, которую составили в Исследовательском центре уголовной юстиции при Университете штата Огайо. Тысячи строк, следующие за ними, содержат полную историю преступности в Сан-Франциско. Таблица перечисляет каждое убийство, произошедшее в городе в период с 1849 по 2003 год. Из различных источников собраны имена жертв и убийц, информация об использованном оружии и мотивах преступников, перечислены места преступления.

Начало таблицы пропитано духом вестернов: перестрелки в салунах, повздорившие золотодобытчики, задушенные проститутки, пьяные моряки, дебоши в опиумокурильнях и борделях. Записи, датированные двадцать первым веком, отдают скорее сериалом Wire. Типичная причина убийства — наркотики. Примечание: «Расстрелян из проезжающего автомобиля».

Данные в этой таблице не назовёшь «большими». Сан-Франциско — не такой уж крупный город, поэтому полный список убийств за всю его историю умещается в семь тысяч строк. В 1849 году там обитало примерно 25 тысяч человек. С тех пор он подрос, но на мегаполис по-прежнему не тянет. По численности жителей Сан-Франциско сравним с Воронежем и даже немного уступает ему.

Тем не менее лучшей иллюстрации для того, чтобы передать суть «больших данных», не придумать. Она, вопреки распространённому заблуждению, не сводится к словам «петабайт», «Hadoop» и «data science». Главное — совсем в другом.

Мы привыкли к отчётам из горстки цифр, подытоживающих большое количество событий. Например, полиция, как правило, публикует лишь количество совершённых и раскрытых преступлений — не более. Где-то в архивах, вероятно, хранятся папки с более подробной информацией, но их достают лишь при необходимости. То же самое и в бизнесе. Магазины подсчитывают выручку и количество проданных товаров, но редко рассматривают каждую сделку по отдельности (хотя и эти данные где-то фиксируются). Компании отчитываются о своих оборотах и прибыли, но не вникают, из чего они складываются.

Именно поэтому полный набор данных, ещё не переработанный в удобоваримую статистику, кажется таким непривычным. Мы привыкли обходиться меньшим, потому что до недавнего времени работать с полными наборами данных было если не невозможно, то по крайней мере непрактично — даже если они относительно невелики и вполне умещаются в таблицу Excel.

Теперь этой проблемы нет. Необходимость ограничиваться итоговыми цифрами и даже выборками отпала. Существующие технические возможности позволяют без особых усилий использовать самые полные наборы данных напрямую. Сопоставляя их между собой, можно отыскивать закономерности и получать выводы, которые никак не сделать на основе кратких итогов. В этом и заключается суть «больших данных».

Любой город порождает колоссальное количество информации, и полицейскими архивами дело, конечно, не ограничивается. Можно не сомневаться, что где-то хранятся сведения о каждом жителе, о каждом строении, о каждой компании и каждой водопроводной трубе. Скорее всего, даже деревья где-то учтены, причём не выборочно, а все до единого. Известна потребляемая энергия и объём производимых отходов. Парковочные автоматы записывают количество оставленных автомобилей, автоматические камеры на улицах следят за скоростью движения, а турникеты в общественном транспорте фиксируют идентификаторы проездных билетов.

Все эти богатства в большинстве случаев лежат мёртвым грузом.

В 2009 году власти Сан-Франциско решили выкладывать в интернет городские данные в надежде, что кто-то найдёт им применение. На сайте data.sfgov.org опубликовано около пятисот наборов данных. Ещё дальше пошёл Нью-Йорк: в Сети доступно 1 100 наборов данных, причём некоторые из них обновляются в реальном времени. Город публикует таблицы, содержащие результаты инспекций ресторанов и итоги выпускных экзаменов в школах, жалобы на шум, который производят фургоны с мороженым, и информацию о местах, где замечены крысы, списки граффити на стенах и спиленных деревьев.

У нью-йоркской любви к данным долгая история. В начале девяностых мегаполис страдал от невиданного всплеска преступности. Пессимисты полагали, что Нью-Йорк уже не спасти, но оказались неправы. Его спасли данные.

Полицейские в нью-йоркском метро, восьмидесятые годы XX века (фото: Марта Купер).

Полицейские в нью-йоркском метро, восьмидесятые годы XX века (фото: Марта Купер)

В 1994 году нью-йоркская полиция начала использовать систему CompStat, подразумевающую отслеживание и анализ преступлений по мере совершения. Происшествия впервые стали систематически рассматриваться как части единого целого, а не по отдельности. Это позволило быстро идентифицировать опасные районы, замечать едва наметившиеся тенденции и немедленно передислоцировать силы.

Результаты превзошли самые смелые ожидания. За год до внедрения CompStat в Нью-Йорке было совершено 2 420 убийств. К 1995 году их количество сократилось до 1 550. В 1998-м число убийств впервые за тридцать лет упало ниже тысячи. В 2012 году в Нью-Йорке убили 684 человека — в четыре раза меньше, чем двадцатью годами ранее, хотя население за тот же срок выросло более чем на полтора миллиона. После внедрения CompStat уровень насильственной преступности в городе держится на необычно низком уровне. Он на 70% уступает другим городам США с аналогичными демографическим и социоэкономическим составом населения и плотностью застройки.

Успешный подход пытались применять в других областях — в частности для борьбы с дорожно-транспортными происшествиями и пробками. А относительно недавно власти Нью-Йорка завели организацию, которая занимается только анализом данных для нужд города: Управление стратегии и стратегического планирования, возглавляемое бывшим прокурором Майклом Флауэрсом.

Одно из заданий, которые выполняло Управление, описано в статье «Нью-Йорк Таймс». Департамент защиты окружающей среды Нью-Йорка разыскивал рестораны, без разрешения сбрасывающие отработанные масло и жир в канализацию. Жир скапливается, затвердевает и засоряет трубы. В итоге городу приходится оплачивать устранение последствий засора и ремонт канализации. Как найти нарушителей? Отправить инспектора в каждый ресторан? Если представить размеры Нью-Йорка, становится ясно, что это потребует слишком больших усилий. Люди Флауэрса придумали способ упростить задачу.

Они обнаружили, что существует малоизвестная официальная организация, сертифицирующая оборудование, которое рестораны используют для вывоза жира. Получив список сертификатов, они выделили подмножество ресторанов, не имеющих такого оборудования. Затем сопоставили его с картой канализации и сократили список подозреваемых ещё сильнее. Изучить пристальнее оставшиеся в нём рестораны и найти виновников не составило труда.

Майкл Флауэрс (справа) в Управлении стратегии и стратегического планирования Нью-Йорка (фото:

Майкл Флауэрс (справа) в Управлении стратегии и стратегического планирования Нью-Йорка (фото: «Нью-Йорк Таймс»).

В другом случае они анализировали распространение оксикодона — сильного обезболивающего, продающегося в аптеках по рецептам. Оно является опиоидом и может использоваться как наркотик. Оказалось, что продажи оксикодона не распределены равномерно по всем 2 150 аптекам, имеющимся в Нью-Йорке. 60% расходов на это средство, которое несёт казна города, оплачивающая рецепты престарелых и бедняков по социальной программе Medicaid, сосредоточены в 21 аптеке. Очевидно, что к происходящему там есть смысл присмотреться повнимательнее.

Другие достижения Управления имеют схожий характер. Они в пять раз увеличили эффективность обнаружения квартир, заселённых в нарушение правил зонирования, ускорили поиск обветшавших зданий, которые представляют опасность, и удвоили результативность инспекторов, разыскивающих в магазинах сигареты, которые попали в штат без официального разрешения и уплаты соответствующих пошлин.

Данные, просеиваемые людьми Флауэрса, велики, но исчисляются всё же не эксабайтами, а более приземлёнными единицами измерения. Методы анализа, которые они применяют, не поражают воображения: зачастую их можно описать парой SQL-запросов. Тем не менее получается, что деятельность нескольких аналитиков (а в Управлении стратегического планирования пока меньше десятка сотрудников) способна дать более весомый эффект, чем увеличение штата других подразделений в несколько раз.

Чтобы добиться его, они всего лишь подняли пылящиеся архивы. Следующий этап сложнее: нужно добывать данные, которые пока недоступны. Тысячи датчиков помогут превратить управление городом в подобие игры Sim City, которая наглядно показывает, где именно не хватает полиции, куда не дотягивается водопровод и как избавиться от пробок. Это неизбежное будущее, но даже первые шаги, сделанные в Нью-Йорке, очень важны. Они ясно показывают, насколько ценной может быть информация, которую мы привыкли игнорировать.

Разумные улицы: как анализ данных изменяет города

По-настоящему большими городские данные становятся, когда их начинают собирать не люди, а машины.

Вспомним записи, которые делают операторы мобильной связи: это богатейший источник информации. Всякий раз, когда обладатель мобильного телефона совершает звонок или отправляет СМС-сообщение, он подключается к находящимся в окрестностях сотовым вышкам. В результате оператор получает представление о том, где именно находятся его абоненты.

Эпидемиологи доказали, что при помощи информации, которую накапливают сотовые операторы, можно вычислять пути распространения инфекционных заболеваний. Специалисты из IBM нашли для неё ещё одно применение: оптимизация движения городского транспорта.

Несколько месяцев назад телекоммуникационный гигант Orange предоставил исследователям данные о двух с половиной миллиардах телефонных звонков, совершённых миллионами абонентов из западноафриканской страны Кот-д'Ивуар в течение пяти месяцев — с декабря 2011 года до апреля 2012-го. Разумеется, все зацепки, дающие возможность связать эти звонки с реальными людьми, были предварительно удалены.

В IBM попытались извлечь из этого набора данных сведения об особенностях движения общественного транспорта в Абиджане — главном городе Кот-д'Ивуара. На два миллиона жителей столицы приходится 539 автобусов, примерно пять тысяч маршруток и одиннадцать тысяч легковых такси, которые, как правило, подбирают более одного пассажира. Чтобы улучшить транспортную ситуацию, более богатые страны проводят специальные исследования и устраивают социологические опросы. Для африканской страны это непозволительная роскошь, поэтому бесплатная помощь IBM не стала лишней.

Абиджан (фото: andivju - flickr.com)

Абиджан (фото: andivju — flickr.com).

Для начала специалисты IBM отфильтровали набор данных, исключив из него записи, не имеющие отношения к Абиджану или передвижениям на транспорте. Телефонные звонки, совершаемые во время поездки, легко отличить по быстрым переключениям с соты на соту. Когда движущийся телефон покидает зону действия одной сотовой вышки, он находит другую. По цепочке переключений между сотами можно восстановить путь абонента.

Когда все неподходящие записи оказались отсеяны, в наборе данных Orange осталось около 500 тысяч строк. Это, конечно, меньше, чем 2,5 миллиарда, но более чем достаточно для того, чтобы построить достоверную статистическую модель общественного транспорта столицы Кот-д'Ивуара.

В IBM быстро обнаружили в организации абиджанского городского движения слабые места. Данные свидетельствовали, что даже небольшие коррективы способны повлечь заметное улучшение ситуации. Проанализировав несколько десятков потенциальных возможностей, специалисты составили рекомендации для властей города.

Они подсчитали, что добавление двух новых автобусных маршрутов и удлинение одного из существующих даст наибольший эффект и приведёт к тому, что пассажиры будут тратить на поездки и ожидание на 10% меньше времени.

Карта Oyster на входе в лондонскую подземку

Карта Oyster на входе в лондонскую подземку.

В крупных городах, перешедших на цифровые проездные, подобную модель можно построить на основании записей, которые делают турникеты на станциях метро или в дверях автобусов. Особенно точную информацию дают многоразовые проездные, такие как московская «Тройка» или её иностранные предшественники — лондонская карта Oyster и токийская Suica.

Это уже не приблизительные выкладки, которыми пришлось довольствоваться специалистам IBM в Абиджане. Турникеты учитывают каждого пассажира. Вдобавок в Лондоне турникеты, снимающие деньги с Oyster, стоят не только на входе, но и на выходе со станций. За счёт этого картина перемещения людей по городу оказывается ещё более полной.

Оценить открывающиеся возможности позволяет работа Центра передового пространственного анализа при Университетском колледже Лондона. Группа исследователей из Центра, возглавляемая профессором Майклом Бэтти, занимается изучением лондонских транспортных потоков. Им удалось договориться с властями города о получении анонимизированных записей Oyster.

Размеры наборов данных, которые раздобыли исследователи, делали это не таким уж простым занятием. Даже если брать во внимание лишь те турникеты, которые стоят в подземке, получаются колоссальные цифры: 14 миллионов записей каждый будний день и по 6 миллионов в субботу и воскресенье. Учитывая, что в архиве хранилась информация за шесть месяцев, это очень много.

Задача усложнялась тем, что качество данных оставляло желать лучшего. Во-первых, из-за различных неполадок и сбоев записи о входах и выходах из метро не всегда сходились. Это пришлось учитывать при анализе. Во-вторых, различные наборы данных приходилось вручную приводить к «общему знаменателю», исправляя поля, которые сообщают об одном и том же разными способами.

На визуализации прослеживается узнаваемый пульс большого города: утренний час пик, когда миллионы лондонцев едут на работу, обеденные перерывы, завершение рабочего дня и даже лёгкий всплеск активности под вечер, когда жители направляются в кинотеатры, рестораны и клубы. У выходных свои особенности: по вспышкам на карте можно заметить, где именно находятся стадионы, устраивающие футбольные матчи каждую субботу.

Для того чтобы подсчитать загрузку метро и определить часы пик, «большие данные», конечно, не нужны. И то и другое давно известно, но такие знания — это те самые бедные обобщённые итоги, о которых говорилось в предыдущей статье. Полный набор данных представляет собой куда более глубокий источник информации. Он позволяет просчитать далеко не только количество людей, которые входят в метро или находятся на определённых станциях.

С его помощью исследователи из Университетского колледжа Лондона вычислили маршрут каждого пассажира, который пользовался лондонский подземкой в течение шести месяцев, а затем построили модель, предсказывающую величину и направление движения потоков людей по городу в разное время суток и разные дни недели.

«Мы воспользовались методами статистической физики, — объясняет Бэтти, — чтобы обнаружить и изучить закономерности, прослеживающиеся в том, как мы передвигаемся, а затем связать эти передвижения с полицентрической природой, свойственной крупным городам мира, таким как Лондон». Оказалось, что Лондон обладает десятью «эпицентрами», которые замысловато связаны между собой.

Полученная модель куда полезнее простого понимания того, какие станции перегружены в час пик. Поскольку она просчитывает путь каждого пассажира, её можно использовать для того, чтобы узнать, как изменится загрузка станций в будущем. Куда направятся люди, если из-за происшествия закроется одна из станций? Точный ответ на этот вопрос зависит от того, когда и где это случится. Как перераспределятся потоки людей, если открыть новую станцию или линию? Модель Бэтти поможет и в этом случае.
Имеющихся данных вполне достаточно для того, чтобы заранее определять вероятные последствия и готовиться к ним, а не лихорадочно реагировать на проблемы по мере их появления.

Софт IBM может быть приспособлен для решения самых различных задач — от борьбы с преступностью до планирования ремонта подземных коммуникаций. Контролируемые объекты оснащаются датчиками, показания которых дают программам повод для размышления. Ещё одним ценным источником информации служат камеры слежения. Распознавание образов позволяет следить за движением автомобилей и людей.

В канадском городе Кембридж программное обеспечение IBM изучает миллионы записей, выполняя анализ «что если», оценивает степень обветшания инфраструктуры и предсказывает вероятность прорыва канализационных и водопроводных труб на различных участках. Ожидается, что экономия составит не меньше $100 тыс. в год. В округе Майами-Дейд во Флориде трубы снабдили датчиками, с помощью которых аналитика IBM замечает протечки до того, как они превратятся в серьёзную проблему.

По мнению Майкла Бэтти, благодаря подобным технологиям мы впервые начинаем действительно понимать, что происходит с городом прямо сейчас. «Большая часть наших географических познаний касалась долгосрочных изменений, которые происходят в городах, — пишет он. — Но концепция “разумного города” — она скорее о том, что случится в течение ближайших пяти минут, пяти часов или даже пяти дней».

http://www.computerra.ru/87609/city-bigdata/
http://www.computerra.ru/87854/city2-bigdata/