Академический Документы
Профессиональный Документы
Культура Документы
Дэвид Хэнд
Темные данные. Практическое руководство по принятию
правильных решений в мире недостающих данных
Переводчик М. Белоголовский
Редактор В. Ионов
Главный редактор С. Турко
Руководитель проекта А. Василенко
Корректоры Е. Аксёнова, А. Кондратова
Компьютерная верстка К. Свищёвв
Художественное оформление и макет Ю. Буга
Посвящается Шелли
Предисловие
3
Перед вами необычная книга. Почти все, что издается на эту тему – будь то популярная
литература о больших или открытых данных, обработке данных или пособия по
статистическому анализу, – основывается на том, что у вас уже есть. Речь идет об
информации, хранящейся в компьютере, ящиках рабочего стола или аудио-, видеозаписях
вашего смартфона. Но эта книга совсем о другом. Она о данных, которых у вас нет.
Возможно, вы пытаетесь получить их прямо сейчас или когда-то безуспешно пытались
сделать это, а может быть, ошибочно полагаете, что они у вас имеются. Как бы то ни было,
речь пойдет о данных, которых у вас нет.
Я утверждаю и далее продемонстрирую это на многих примерах, что отсутствующие
данные важны не менее тех, которыми мы располагаем. Вы сможете сами убедиться, что
неизвестные нам данные являются причиной многих заблуждений, порой имеющих
катастрофические последствия. Я покажу, как и почему это происходит. Затем я расскажу,
как этого можно избежать – на что именно стоит обращать внимание, чтобы обойти
неприятности. А в завершение, когда вы поймете, как возникают темные данные и как они
создают нам проблемы, я покажу, как с их помощью перевернуть с ног на голову
традиционное представление об анализе данных и, если вы достаточно проницательны,
глубже вникнуть в свою область, улучшить процесс принятия решений и выбора действий.
Мое собственное понимание темных данных развивалось постепенно, на протяжении
всей карьеры. Я благодарю всех, кто подкидывал мне проблемы, которые, как я постепенно
осознал, были не чем иным, как проблемами темных данных. Я выражаю признательность
всем, кто вместе со мной искал способы их решения. Сферы, где возникали эти проблемы,
варьировались от медицинских исследований и фармацевтической промышленности до
государственной и социальной политики, финансового сектора и производства – ни одна
сфера человеческой деятельности не свободна от рисков, которые несут с собой темные
данные.
Отдельно хочу поблагодарить тех, кто любезно согласился пожертвовать своим
временем, чтобы прочитать рукопись этой книги, а именно Кристофороса Анагностопулоса,
Нила Ченнона, Найла Адамса и трех анонимных читателей от издательства. Они помогли
мне избежать неловкости перед вами, сократив число допущенных ошибок. Питер Таллак,
мой агент, помог найти идеального издателя для этой работы, любезно давал мне советы и
направлял работу над книгой в целом. Мой редактор из издательства Princeton University
Press Ингрид Гнерлих была мудрым и ценным гидом в вопросах оформления проекта.
Наконец, я особенно признателен своей жене профессору Шелли Ченнон, за ее вдумчивую
критику моих рукописей. Благодаря ее вкладу книга стала значительно лучше.
Часть I
Темные данные
Происхождение и последствия
Глава 1
Темные данные
Незримая сила, которая формирует наш мир
Призрак данных
3
https://www.theglobeandmail.com/canada/article-canada-could-see-large-amount-of-measles-outbreaks-health-experts/,
accessed 16 April 2019.
5
ближе к центру галактики, что противоречит нашему пониманию гравитации. Эта аномалия
вращения галактик на сегодняшний день объясняется предположением, что галактики имеют
более значительную массу, чем та, о которой мы можем судить по звездам и другим
видимым в телескопы объектам. Поскольку эта дополнительная масса не видна, ее назвали
темной материей. И она может быть весьма значительной: согласно оценкам, наша галактика
Млечный Путь содержит в 10 раз больше темной материи, чем обычной.
Темные данные ведут себя аналогично темной материи: мы не видим их, они не
обнаруживаются, но все же способны оказывать существенное влияние на наши выводы,
решения и действия. И, как я покажу на дальнейших примерах, если не осознать саму
вероятность существования чего-то неизвестного, то последствия такой слепоты могут быть
катастрофическими и даже фатальными.
Цель этой книги – исследовать, как и почему возникают темные данные. Мы
рассмотрим различные виды темных данных, проследим, что приводит к их появлению, и
выясним, как не допустить этого. Мы разберемся с тем, какие меры имеет смысл
предпринимать, когда становится ясно, что темные данные все же имеются. А еще мы
посмотрим, как этими данными, несмотря на их отсутствие, можно воспользоваться. Хотя
это кажется странным, даже парадоксальным, но мы можем обернуть наше незнание себе во
благо, учась принимать более правильные решения и повышая эффективность своих
действий. На практике разумное использование неизвестности означает более крепкое
здоровье, дополнительные деньги и меньшие риски. Я вовсе не имею в виду сокрытие
информации от других (хотя, как мы увидим, намеренно скрытые сведения – это весьма
распространенный вид темных данных). Речь идет о гораздо более тонких методах, которые
могут стать выгодными для всех.
Темные данные принимают различные формы, возникают по разным причинам, и эта
книга среди прочего содержит классификацию типов темных данных, обозначаемых как
DD-тип x. Всего я насчитал 15 таких DD-типов, но не берусь утверждать, что эта
классификация является исчерпывающей. Учитывая большое разнообразие причин, по
которым возникают темные данные, не исключено, что полная классификация просто
невозможна. Более того, многие образцы темных данных соединяют в себе несколько
DD-типов – они могут действовать независимо друг от друга, а могут проявлять некое
подобие синергии, усиливая негативный эффект. Но, несмотря на это, обладание
информацией о DD-типах и изучение темных данных на конкретных примерах помогает
вовремя выявить проблему и защититься от возможных угроз. Список DD-типов,
упорядоченных по сходству, вы найдете в конце этой главы, а в главе 10 я опишу их более
подробно. В книге есть указания на то, где можно встретить примеры того или иного типа,
однако я намеренно не пытался перечислить все возможные места существования темных
данных – в этой книге такой подход был бы излишним.
Давайте перейдем к одному из таких примеров. В медицине понятие «травма» означает
повреждение с возможными долговременными последствиями. Травмы являются одной из
наиболее серьезных причин сокращения продолжительности жизни и инвалидности, а также
самой распространенной причиной гибели людей в возрасте до 40 лет. Компьютерная база
данных TARN является самой большой медицинской базой данных о травмах в Европе. В
нее стекаются данные о полученных травмах из более чем 200 больниц, в числе которых
93 % всех больниц Англии и Уэльса, а также больницы в Ирландии, Нидерландах и
Швейцарии. Безусловно, это очень большой объем данных для прогнозирования и изучения
эффективности медицинского вмешательства при травмах.
Доктор Евгений Миркес и его коллеги из Лестерского университета в Великобритании
провели исследование этой базы данных и выяснили: из 165 559 зарегистрированных травм
исход 19 289 случаев оказался неизвестным4. «Исход» в данном случае определяется тем,
4 E. M. Mirkes, T. J. Coats, J. Levesley, and A. N. Gorban, “Handling missing data in large healthcare dataset: A
case study of unknown trauma outcomes.” Computers in Biology and Medicine 75 (2016): 203-16.
6
выживает пациент или нет в течение 30 дней после травмы. Иначе говоря, 30-дневная
выживаемость неизвестна для более чем 11 % пациентов. Этот пример иллюстрирует
распространенную форму темных данных – DD-тип 1: данные, о которых мы знаем, что
они отсутствуют. Иначе говоря, нам известно, что травмы у этих пациентов чем-то
закончились, – мы просто не знаем, чем именно.
Можно, конечно, сказать: «Нет проблем, давайте просто проанализируем 146 270
пациентов, для которых исход известен, и будем делать выводы и прогнозы на основе этой
информации». В конце концов, 146 270 тоже немало – в сфере медицины это уже большие
данные. Поэтому мы можем смело утверждать, что понимание, основанное на этих данных,
будет верным.
Но так ли это на самом деле? Возможно, 19 289 недостающих случаев сильно
отличаются от других. В конце концов, их необычность уже в самой неизвестности исхода,
так почему же они не могут отличаться и чем-то другим? Как следствие, анализ 146 270
пациентов с известными исходами может быть ошибочным по отношению к общей
совокупности пациентов с травмами. Таким образом, действия, предпринимаемые на основе
подобного анализа, могут быть в корне неверными и привести к ошибочным прогнозам,
ложным предписаниям и несоответствующим режимам лечения с неблагоприятными и даже
фатальными последствиями для пациентов.
Давайте возьмем нарочито неправдоподобную, крайнюю ситуацию: предположим, что
все 146 270 человек с известными исходами выжили и выздоровели без лечения, а 19 289 с
неизвестными исходами умерли в течение двух дней после обращения в больницу. Если бы
мы игнорировали последних, то неизбежно пришли бы к выводу, что беспокоиться не о
чем – ведь все пациенты с травмами выздоравливают сами собой. Исходя из этого, мы бы
просто не стали их лечить, ожидая естественного выздоровления. И вскоре были бы
шокированы и озадачены тем фактом, что более 11 % пациентов умерли.
Прежде чем продолжить, я должен вас успокоить – в реальности все обстоит не так уж
плохо. Во-первых, приведенный выше сценарий действительно наихудший из возможных, а
во-вторых, доктор Миркес и его коллеги являются экспертами по анализу недостающих
данных. Они прекрасно осознают опасность и разрабатывают статистические методы
решения проблемы, о которых мы поговорим позже. Я привел такой ужасающий пример
лишь для того, чтобы показать: вещи могут быть не такими, какими кажутся. В самом
деле, если бы мне нужно было сформулировать основную идею этой книги, она бы, пожалуй,
звучала примерно так: хотя иметь много данных полезно, большие данные, то есть объем, –
это еще далеко не все. И то, чего вы не знаете, те данные, которых у вас нет, могут быть
важнее для понимания происходящего, чем те, которыми вы располагаете. Во всяком случае,
как мы увидим дальше, проблемы темных данных – это не только проблемы больших
данных: они характерны и для малых наборов данных. Они вездесущи.
Пример с базой данных TARN, конечно, преувеличен, но он служит предупреждением.
Возможно, результаты 19 289 пациентов не были зарегистрированы именно потому, что все
они умерли в течение 30 дней. Ведь если исход заносился в базу на основании опроса
пациентов через 30 дней после обращения, чтобы оценить их состояние, то никто из
умерших просто не ответил на вопросы. Если бы мы не допускали возможность этого, то
никогда бы не фиксировали смерть таких пациентов.
На первый взгляд это кажется нелепым, но в реальности такие ситуации возникают
довольно часто. Допустим, модель прогнозирования эффективности того или иного лечения
основывается на результатах предыдущих пациентов, которые получали такое лечение. Но
что, если время лечения предыдущих пациентов было недостаточным для достижения
результата? Тогда для некоторых из них конечный исход окажется неизвестен, а модель,
построенная только на известных результатах, будет вводить в заблуждение.
Похожая ситуация возникает и с опросами, когда отсутствие ответов становится
7
5 https://www.livescience.com/24380-hurricane-sandy-status-data.html.
8
Какие товары могут закончиться на полках, если не заказать их впрок? Как могут измениться
предпочтения людей в отношении брендов? Другими словами, нам нужны данные, которые
не собираются. Это связано с самой природой времени, и здесь фигурируют темные данные
DD-тип 7: данные, меняющиеся со временем.
Помимо этого, интересно узнать, как вели бы себя люди, если бы мы, скажем, более
плотно заставили товарами полки, или разместили их как-то иначе, или изменили часы
работы супермаркета. Такие данные называются контрфактуальными, поскольку они
противоречат реальным фактам – они о том, что случилось бы, если бы произошло нечто,
чего на самом деле не происходило. Контрфактуальные данные классифицируются как
DD-тип 6: данные, которые могли бы существовать.
Излишне говорить, что контрфактуальные данные интересуют не только менеджеров
супермаркетов. Все мы принимаем те или иные лекарства и при этом, разумеется, доверяем
врачу, который их прописал, предполагая, что лекарства прошли тестирование и были
признаны эффективными. Но как бы вы себя чувствовали, если бы вдруг обнаружили, что
ваши лекарства не были проверены? И не было собрано данных о том, помогают ли они
вообще? Вдруг они делают только хуже? А если они даже и были протестированы и
рекомендованы, то ускоряют ли эти лекарства на самом деле процесс выздоровления? А
может быть, их не сравнивали с другими препаратами, чтобы оценить эффективность? В
истории со слоновьим порошком такое сравнение принятых мер с бездействием быстро
показывает, что для отпугивания слонов отсутствие действия так же эффективно, как и
применение порошка. (А это, в свою очередь, может привести к следующему, не менее
полезному выводу, что никаких слонов, которых надо отпугивать, просто нет.)
Возвращаясь к понятию «исчерпывающие данные», стоит отметить, что часто контекст
делает явно бессмысленной саму возможность иметь «все» данные. Возьмите, например,
свой вес. Узнать его легко – достаточно встать на весы. Однако уже не так легко будет
повторно получить те же данные. Даже если сразу же встать на весы снова, результат, скорее
всего, будет немного другим, особенно если попытаться измерить его с точностью до
грамма. Никакие физические измерения нельзя считать абсолютно точными в результате
погрешностей или случайных колебаний, возникающих вследствие очень незначительных
изменений условий (DD-тип 10: ошибки измерения и неопределенность). Для решения этой
проблемы ученые, измеряющие параметры какого-либо явления – скажем, скорость света
или заряд электрона, проводят серию измерений, а затем усредняют значения. Можно
сделать тысячи и миллионы измерений, но очевидно, что невозможно сделать «все»
измерения. В этом контексте просто не существует понятия «все», а значит, не существует и
исчерпывающих данных.
Следующий тип темных данных хорошо иллюстрируется примером знаменитых
лондонских автобусов. Если вам доводилось на них ездить, то, скорее всего, вы помните, что
они, как правило, набиты битком. И все же данные показывают, что средняя заполняемость
одного автобуса составляет всего 17 человек. Но чем можно объяснить это кажущееся
противоречие? Кто-то манипулирует цифрами?
Немного поразмыслив, вы поймете, что ответ довольно прост – в основном мы
попадаем в автобусы в часы пик, именно поэтому они и набиты битком. Вот почему
большинство людей видит автобусы переполненными. В то же время о пустом автобусе
будет просто некому сообщить, что он пуст (разумеется, не считая водителя). Этот пример
иллюстрирует темные данные DD-тип 3: выборочные факты. Иногда, впрочем, это может
быть необходимым следствием сбора данных, и в таком случае мы получаем DD-тип 4:
самоотбор. Я приведу два моих любимых примера, похожих и в то же время
несопоставимых по своему масштабу.
Первый – известная карикатура, на которой изображен человек, стоящий перед
большой картой, какие обычно висят на вокзалах. В центре карты находится красная точка с
надписью «Вы здесь». «Как?! – думает потрясенный человек. – Как они узнали это?» Они
узнали, потому что отталкивались от простого факта, что каждый, кто смотрит на эту
10
красную точку, должен находиться непосредственно перед ней. Мы имеем дело с очень
узкой выборкой, отсекающей всех, кто находится в другом месте.
Данные могут быть собраны, только если имеется кто-то или что-то для их сбора,
например измерительный прибор. Второй пример самоотбора связан с антропным
принципом, который, по сути, говорит, что Вселенная должна быть такой, какая она есть, а
иначе нас бы просто не существовало и мы бы не смогли наблюдать ее. У нас нет данных из
разных вселенных по одной простой причине – мы там не были. Это означает, что любые
выводы, которые мы делаем, неизбежно ограничиваются нашей Вселенной (а точнее,
вселенными такого же типа): как и в случае с бостонскими выбоинами, может происходить
масса всего, о чем мы не знаем.
Из этого примера наука может извлечь для себя важный урок. Теория может идеально
согласовываться с данными, но сами данные имеют ограничения. И это относится не только
к сверхвысоким температурам, геологическим эпохам или космическим расстояниям. Если
вы экстраполируете теорию за пределы, в которых были собраны данные, то всегда есть
вероятность того, что она окажется недействительной. Экономические теории, основанные
на данных, собранных в период процветания, часто оказываются несостоятельными во время
рецессии, а законы Ньютона работают только тогда, когда речь не идет о крошечных
объектах, высоких скоростях и прочих крайностях. В этом и заключается суть темных
данных DD-тип 15: экстраполяция за пределы ваших данных.
У меня есть классная футболка от сайта веб-комиксов xkcd.com, на которой общаются
два персонажа. Один говорит: «Раньше я думал, что корреляция подразумевает
причинность». В следующем кадре он продолжает: «Потом я прошел курс статистики, и
теперь я в этом не уверен». Другой персонаж говорит ему: «Похоже, курс помог», а первый
отвечает: «Возможно, но не факт»7.
Корреляция просто показывает, что две вещи меняются синхронно, например
положительная корреляция означает, что когда одно становится большим, то и другое
увеличивается, а когда первое уменьшается, то и второе поступает точно так же. Это в корне
отличается от причинно-следственной связи. Говорят, что одно становится причиной
другого, если изменения первого приводят к изменениям второго. Но проблема в том, что
две вещи могут изменяться вместе, но при этом изменения одной не являются причиной
изменений другой. Например, наблюдения в начальной школе показывают, что дети с более
значительным словарным запасом в среднем выше. Но вряд ли вам придет в голову, что
причиной этого являются родители, которые, желая иметь более рослое потомство,
нанимают репетиторов для расширения словарного запаса своих детей. Намного вероятнее,
что существуют какие-то темные данные, третий фактор, который объясняет корреляцию,
например разный возраст детей. Когда персонаж на моей майке говорит «Возможно, но не
факт», он признает, что пройденный курс статистики мог изменить его понимание, но при
этом допускает наличие и других причин. Далее в книге мы еще столкнемся с
поразительными примерами темных данных этого типа, а именно с DD-типом 5:
неизвестный определяющий фактор.
Существуют и другие типы темных данных, о которых мы будем говорить. Напомню,
что цель этой книги – рассказать о существующей на сегодня классификации темных
данных, объяснить способы их идентификации, наглядно продемонстрировать оказываемое
ими влияние и показать пути решения проблем, которые они вызывают, а также то, как
темные данные можно использовать. Список типов темных данных приводится в конце этой
главы, а краткое описание каждого из них вы найдете в главе 10.
Следующий пример служит иллюстрацией того, что темные данные могут иметь
катастрофические последствия и что они не являются специфической проблемой больших
наборов данных.
28 января 1986 г. на 73-й секунде полета на высоте около 15 км космический челнок
Challenger превратился в гигантский огненный шар в результате неисправности
ракеты-носителя. Отсек с экипажем какое-то время еще продолжал двигаться по восходящей
траектории, достиг отметки 19 км и рухнул в Атлантику. Все семь членов экипажа погибли.
Впоследствии президентская комиссия установила, что руководители среднего звена
NASA нарушили правила безопасности, требующие передачи данных по цепочке
управления. Все объяснялось экономическими причинами: необходимо было уложиться в
график, ведь дата старта уже переносилась с 22-го на 23-е, потом на 25-е, а затем и на
26 января. Поскольку прогноз погоды на этот день обещал неприемлемо низкую
температуру, запуск снова отложили на день. Обратный отсчет прошел нормально,
индикаторы показали, что замок люка закрылся должным образом. Однако к тому моменту
поднялся сильный ветер, и запуск шаттла вновь пришлось отложить.
В ночь на 27 января состоялась трехчасовая телеконференция между представителями
компании Morton Thiokol, построившей разгонные ступени, сотрудниками NASA в Центре
космических полетов Маршалла и людьми из Космического центра Кеннеди. Ларри Уир из
Центра космических полетов Маршалла попросил представителей Morton Thiokol проверить
возможное влияние низких температур на твердотопливные ракетные двигатели. В ответ
команда Morton Thiokol указала на то, что при низких температурах уплотнительные кольца
становятся более жесткими.
Уплотнительные кольца представляли собой манжеты из резиноподобного материала с
диаметром поперечного сечения около 6 мм, которые устанавливались по окружности в
стыки между четырьмя сегментами ракетного двигателя. Твердотопливные ракетные
ускорители имели 45 м в высоту и 11 м в диаметре. Во время запуска зазор величиной
0,1 мм, который в обычных условиях полностью герметизировался уплотнительными
кольцами, открывался максимум до 1,5 мм и оставался открытым в течение каких-то
0,6 секунды.
Роберта Эбелинга из Morton Thiokol беспокоило то, что при низких температурах
повышение жесткости уплотнительных колец может привести к потере способности
герметизировать зазоры между сегментами, пока они будут в течение 0,6 секунды оставаться
увеличенными на 1,4 мм. На телеконференции Роберт Лунд, вице-президент Morton Thiokol,
заявил, что рабочая температура уплотнительного кольца не должна быть ниже границы
подтвержденной температуры запуска 53 ºF (около 12 ºC). За этим последовала довольно
горячая дискуссия, продолжавшаяся и после окончания конференции на уровне личных
бесед. По ее итогам Morton Thiokol пересмотрела свою позицию и согласилась
рекомендовать запуск.
Ровно через 58,79 секунды с момента старта из правого ракетного двигателя в районе
последнего стыка вырвалось пламя. Оно быстро превратилось в мощную струю, которая
выломала стойки, соединяющие ракетный двигатель с внешним топливным баком.
Двигатель развернуло и ударило сначала о крыло орбитального аппарата, а затем о
топливный бак, в результате чего этот резервуар, наполненный жидкими водородом и
кислородом, попал в струю пламени. На 64-й секунде полета поверхность бака получила
повреждения, а еще через 9 секунд огромный огненный шар поглотил Challenger, и он
разлетелся на несколько больших частей8.
Мы не должны ни на секунду забывать, что космические полеты всегда связаны с
риском. Ни одна миссия, даже при самых хороших условиях, не является безопасным
предприятием – риск просто не может быть сведен к нулю. И всегда существуют
8 https://er.jsc.nasa.gov/seh/explode.html.
12
противоречивые требования.
Кроме того, как и в любом другом подобном инциденте, установить какую-то одну
причину произошедшего бывает довольно сложно. Было ли это вызвано нарушением правил
безопасности, неоправданным давлением на менеджеров по экономическим соображениям,
следствием ужесточения бюджета или, возможно, влиянием СМИ, которые после
семикратного откладывания запуска предыдущего челнока Columbia встречали каждую
новую задержку саркастическими насмешками? Вот что сказал, например, известный
журналист Дэн Ратер в выпуске вечерних новостей в понедельник, 27 января, после того, как
старт Challenger был отложен в четвертый раз: «Еще одна дорогостоящая и позорная
задержка запуска космического челнока. На этот раз виноватыми оказались плохой болт на
крышке люка и гром среди ясного неба». А может быть, причина кроется в политическом
давлении? В конце концов, интерес к этому запуску был значительно выше, чем к
предшествующим, потому что в число экипажа впервые вошел рядовой гражданин США,
учительница Криста Макалиф и на вечер 28 января было запланировано выступление
президента.
В таких ситуациях обычно переплетаются несколько факторов. Их запутанные и
неопределенные взаимодействия могут привести к неожиданным последствиям. Но в нашем
случае был еще один фактор: темные данные.
После катастрофы комиссия, возглавляемая бывшим госсекретарем Уильямом
Роджерсом, обратила внимание на то, что не все результаты полетов, которые показывали
опасное состояние уплотнительных колец, были включены в диаграмму, обсуждаемую на
телеконференции (темные данные DD-тип 3: выборочные факты, а также DD-тип 2:
данные, о которых мы не знаем, что они отсутствуют). На с. 146 отчета сказано
следующее: «Менеджеры сопоставляли с температурой окружающей среды лишь те полеты,
во время которых были зафиксированы критические состояния уплотнительных колец, но не
рассматривали частоту их возникновения на основе данных всех полетов»9. Именно в этом и
заключается истинная причина трагедии: данные некоторых полетов не были включены в
анализ. Ранее я уже показал, к каким проблемам может привести такое игнорирование
данных.
Далее в докладе говорится: «При таком сопоставлении [то есть с использованием
ограниченного набора данных] не было заметно отклонений от нормы в распределении
критических состояний уплотнительного кольца по всему диапазону температур при запуске
от 53 до 75 ºF [от 12 до 24 ºC}». Это означает, что нет очевидной зависимости между
температурой воздуха и числом уплотнительных колец, показывающих критическое
состояние. Тем не менее «если рассматривать всю историю полетов, включая “нормальные”
полеты без каких-либо разрушений или прорывов газа, результаты сопоставления
существенно отличаются». Иначе говоря, если вы включите все данные, то получите другую
картину. Фактически не включенные в анализ полеты, которые осуществлялись при более
высоких температурах, с гораздо большей вероятностью не имели проблем, и это были те
самые темные данные, не учтенные на графике. Ведь если вывод о том, что, чем выше
температура, тем меньше вероятность возникновения проблемы, верен, то верно и обратное:
чем температура ниже, тем выше вероятность возникновения этой проблемы. А согласно
прогнозу температура воздуха на момент запуска была 31 ºF или около 0 ºC.
В этом же разделе доклада сделан следующий вывод: «Анализ полной истории
температур при запуске указывает на то, что критическое состояние уплотнительного кольца
становится почти неизбежным, если температура стыка меньше 65 ºF [18 ºC]» (курсив мой).
Ситуация проиллюстрирована ниже на двух диаграммах. На рис. 1, а показана
диаграмма, которая обсуждалась на телеконференции. Это график зависимости количества
поврежденных уплотнительных колец при каждом запуске от температуры в градусах
Фаренгейта. Так, при 53 ºF – самой низкой температуре воздуха при запусках в прошлом –
три уплотнительных кольца достигали критического состояния, а при 75 ºF, что было самой
высокой температурой, при которой осуществлялся запуск, критического состояния
достигли два уплотнительных кольца. Мы видим, что нет устойчивой связи между
температурой при запуске и числом поврежденных уплотнительных колец.
Однако если мы добавим отсутствующие данные по запускам, при которых не
наблюдалось критических состояний уплотнительных колец, то получим совсем иную
картину, изображенную на рис. 1, b. И закономерность становится очевидной. Фактически
все запуски, которые произошли при температуре ниже 65 ºF, приводили к критическому
состоянию уплотнительных колец, и лишь 4 из 21 запуска, осуществленных при более
высоких температурах, дали подобный результат. На диаграмме четко видна
закономерность – чем ниже температура, тем выше риск. И что еще хуже, прогнозируемая
температура была намного ниже минимальной, при которой ранее проводились запуски
(DD-тип 15: экстраполяция за пределы ваших данных).
Отсутствующие данные имеют решающее значение для понимания происходящего.
В истории Challenger, однако, остался один загадочный момент. Хотя официальному
расследованию потребовался не один месяц, чтобы сделать выводы о причинах аварии, цена
акций Morton Thiokol упала на 11,86 % прямо в день катастрофы. При этом изменения цены
акций компании даже на 4 % были редкостью. Котировки акций других компаний,
принимавших участие в создании ракеты-носителя, также упали, но существенно меньше.
Такое ощущение, что рынок знал о настоящей причине аварии. Неужели снова темные
данные?
Как мы видим, темные данные вездесущи. Они могут появляться повсеместно и где
угодно, а их наиболее опасное свойство заключается в том, что мы по определению не
можем быть уверенными в их отсутствии. Это означает, что необходимо постоянно быть
начеку и задавать себе вопрос: «Что мы упускаем?»
Не потому ли многие мошенничества остаются незамеченными, что полиция ловит
лишь неумелых преступников, а настоящие «мастера» продолжают «творить»? Берни
Мэдофф основал свою фирму Bernard L. Madoff Investment Securities LLC в 1960 г., а
арестован был лишь в 2008 г. Когда его приговорили к 150 годам тюремного заключения,
ему исполнился уже 71 год – можно сказать, что ему практически все сошло с рук.
А множество потенциально излечимых больных, которых мы вовремя не
диагностируем? Разве это не происходит лишь потому, что болезни на ранней стадии имеют
гораздо меньше симптомов, чем в своей тяжелой форме?
Опасны ли социальные сети? Ведь они отражают только то, что мы уже знаем и чему
верим, не посягая на нашу точку зрения, поскольку отбирают факты и события в пределах
нашей зоны комфорта. Или, что еще хуже, те рассказы, которые люди выбирают для
публикаций в социальных сетях, могут создавать у нас ложное представление о том, что
жизнь всех остальных людей удивительно легка и прекрасна, а это прямой путь к
депрессии – ведь в своей жизни мы встречаем так много препятствий.
Мы привыкли думать о данных как о числах. Но данные необязательно должны быть
числами, включая и темные данные. Вот вам пример, в котором отсутствующей критической
информацией является одна буква.
Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale – пиво с особо
низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард,
написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его
как напиток «приятного коричневого оттенка, обладающий вкусом вина и орехов и таким
шипением, словно был сварен только что… Из-за большого количества оставшегося
16
11 В действительности оказалось, что победившая заявка была шуткой и участник торгов не собирался
платить. Но даже при этом Вудул мог рассчитывать на приличную прибыль: частный коллекционер из
Шотландии недавно продал с аукциона бутылку из экспедиции 1875 г. за £3300, что равняется примерно $4300.
17
Глава 2
Обнаружение темных данных
Что мы собираем, а что нет
Данные не возникают сами собой. Они не существуют с начала времен, ожидая, пока
их проанализируют. Кто-то должен собрать их. И разные методы сбора данных, как вы
догадываетесь, порождают разные типы темных данных.
В этой главе мы рассмотрим три основных метода создания наборов данных, а также
пути возникновения темных данных, связанные с каждым из них. Следующая глава
посвящена дополнительным осложнениям, которые темные данные могут вызывать в разных
ситуациях.
Итак, вот три основные стратегии создания наборов данных.
● Сбор данных обо всех интересующих нас объектах.
Именно к этому стремятся, например, во время переписи населения. Точно так же
инвентаризации преследуют цель максимально детализировать все позиции на складе или в
любом другом месте. В 2018 г. ежегодная инвентаризация в лондонском зоопарке, которая
занимает около недели, показала, что в данной организации насчитывается 19 289
животных – от филиппинских крокодилов до беличьих обезьян, пингвинов Гумбольдта и
двугорбых верблюдов (в случае муравьев, пчел и других социальных насекомых
подсчитывались колонии). В главе 1 мы уже отмечали, что супермаркеты собирают данные
обо всех покупках. То же самое касается налогов, операций по кредитным картам и
персонала. Не менее подробно регистрируются спортивная статистика, книги на полках
библиотек, цены в магазинах и многое другое. Во всех этих примерах каждая единица – будь
то объект или человек – детализируется для формирования набора данных.
● Сбор данных о некоторых элементах совокупности.
Альтернативой полной переписи населения является сбор данных в рамках
ограниченной выборки. Репрезентативная выборка крайне важна в нашем контексте, и мы
подробно рассмотрим ее взаимосвязь с проблемой темных данных. Проще говоря, порой
приходится собирать только те данные, которые легче собрать. Чтобы понять, как ведут себя
покупатели в принципе, вы можете понаблюдать за теми, кто пришел в магазин сегодня. Для
того чтобы узнать, сколько времени у вас отнимает дорога до работы, вы можете просто
ежедневно на протяжении месяца следить за продолжительностью поездки. Бывают
ситуации, когда просто не нужно измерять все: чтобы увидеть динамику изменения цен на
продукты питания, вам не нужна информация о каждой покупке, а для определения среднего
веса песчинки ни к чему взвешивать каждую из них. В главе 1 мы уже видели, что само
понятие «измерение всего» может быть лишено смысла. Полнота данных, например о вашем
росте, будет ограничена только теми измерениями, которые вы проведете.
18
Несколько лет назад, еще до начала эры легкодоступных больших наборов данных, мы
с коллегами опубликовали «Справочник по небольшим наборам данных» 12, включающий в
себя 510 массивов реальных данных, на примере которых преподаватели могут
иллюстрировать концепции и методы статистики. В справочнике приведены результаты
20 000 бросков игральной кости, данные о сроках беременности, толщине роговицы глаза,
длительности нервных импульсов и множество других наборов данных, очень немногие из
которых описывают генеральные совокупности целиком.
● Изменение условий.
Первые две стратегии помогают собрать так называемые данные наблюдения. Вы
просто измеряете значения, которые присущи объектам или людям, никак не меняя условия,
в которых проводятся измерения. Вы не даете людям лекарств, чтобы отследить их реакцию,
не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не
меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не
пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая. Если же вы
меняете условия сбора данных, иначе говоря, вмешиваетесь, то такие данные называются
экспериментальными. Экспериментальные данные особенно важны, потому что они могут
дать информацию о контрфактуальности (DD-тип 6: данные, которые могли бы
существовать), упомянутой в главе 1.
Хотя у всех трех методов сбора данных есть немало общих недостатков, связанных с
темными данными, для каждого из них характерны и свои особые проблемы. Мы начнем с
рассмотрения первой стратегии сбора данных, претендующей на полный охват.
Компьютеры оказали революционное влияние на все аспекты нашей жизни. Где-то это
влияние проявляется очевидным образом, например в программном обеспечении, которое я
использую для подготовки рукописи этой книги, или в системе бронирования авиабилетов, а
где-то оно не так заметно, если речь идет, скажем, о встроенных компьютерах, управляющих
тормозами и двигателем автомобиля, или о начинке какого-нибудь копировального аппарата.
Но независимо от того, очевидна или нет роль компьютеров, во всех случаях в машины
поступают данные – измерения, сигналы, команды – и обрабатываются ими, чтобы принять
решение или выполнить какую-либо операцию. Казалось бы, по завершении операции
можно попрощаться с данными, однако зачастую этого не происходит. Данные все чаще
сохраняют, отправляют в базы данных и там аккумулируют. То же самое происходит и с
побочными или, как их еще называют, выхлопными данными (по аналогии с выхлопными
газами), которые в дальнейшем помогают добиться лучшего понимания, усовершенствовать
системы или восстановить картину событий, если что-то пошло не так. Черный ящик в
самолете является классическим примером такого рода систем.
Выхлопные данные, описывающие людей, называются административными13. Особая
сила административных данных заключается в том, что они сообщают не то, что люди
говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом
деле. Такие данные показывают, что люди купили, где они это купили, что они ели, какие
поисковые запросы делали и т. д. Считается, что административные данные намного точнее
демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и
поведении. Это привело к накоплению правительствами, корпорациями и рядом других
12 D. J. Hand, F. Daly, A. D. Lunn, K. J. McConway, and E. Ostrowski, A Handbook of Small Data Sets (London:
Chapman and Hall, 1994).
13 D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion),” Journal of the Royal
Statistical Society, Series A181 (2018): 555-605.
19
организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что
эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в
сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут
усовершенствовать процесс принятия решений, повысить корпоративную эффективность и
лучше продумать государственную политику – конечно, при условии, что эти выводы будут
точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы
хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения
конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем
темные данные, причем в самых неожиданных местах.
Один из очевидных и очень серьезных недостатков административных данных кроется
в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может
быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и
чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут
дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в
жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но,
чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с
помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных,
при этом каждая из них грозит своими особыми проблемами, связанными с темными
данными.
Мое первое настоящее знакомство с темными данными состоялось в сфере банковских
услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы,
автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам
представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно
совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около
35 млрд транзакций по картам Visa14. Каждый раз, когда покупка оплачивается кредитной
картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а
также многие другие детали, общий список которых включает 70–80 пунктов. Большую
часть этой информации составляют данные, необходимые для совершения транзакции и
списывания суммы с соответствующего счета – это обязательная часть операции, поэтому
пропуск таких деталей маловероятен или даже невозможен. Например, операция не может
быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие
данные, которые не критичны для проведения операции, поэтому существует вероятность
того, что они не будут собраны. В частности, номер партии товара, его идентификационный
код или цена за единицу не являются обязательной информацией для проведения
транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они
отсутствуют.
Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются
за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех
покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать
невидимые массивы темных данных – DD-тип 4: самоотбор. Вдобавок существует
несколько операторов кредитных карт. Данные одного оператора не могут считаться
репрезентативными для всей совокупности держателей кредитных карт и уж тем более для
населения в целом. Таким образом, несмотря на многообещающие перспективы,
административные данные имеют скрытые недостатки, связанные с темными данными.
Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание
«системы показателей» – статистической модели для прогнозирования вероятности
неплатежей, которая могла бы использоваться при принятии решений о предоставлении
кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из
Сброшенным считается такой вызов, когда кто-то производит набор номера экстренной
службы, но вешает трубку или как-то иначе прерывает звонок, прежде чем ответит оператор.
В сентябре 2017 г. BBC на своем сайте сообщила, что за год, начиная с июня 2016 г.,
количество сброшенных вызовов в диспетчерские британской полиции выросло вдвое: с
8000 до 16 3005. Существуют разные теории о том, почему это происходит. Например, одна
из них утверждает, что полиция перегружена звонками и поэтому операторам требуется
слишком много времени, чтобы принять очередной вызов. Другая теория гласит, что
причина заключается в случайном нажатии телефонных кнопок в кармане или сумочке, что
автоматически генерирует такие вызовы.
Если бы эта последняя теория действительно все объясняла, можно было бы ожидать, что
проблема не возникнет или по крайней мере не будет столь острой в Соединенных Штатах,
где для набора номера экстренного вызова 911 используются две разные цифры, в отличие от
999 в Великобритании. Однако частота таких звонков увеличивается и в Америке. Данные
Центра экстренной связи Линкольна за три месяца показывают, что число сброшенных
звонков с апреля по июнь 2013 г. увеличилось с 0,92 до 3,47%.
Сброшенные звонки — яркий пример темных данных DD-тип 1: данные, о которых мы
знаем, что они отсутствуют. Не менее яркий пример темных данных DD-тип 2: данные, о
которых мы не знаем, что они отсутствуют, был приведен Майком Джонстоном, редактором
сайта The Online Photographer6. В своей редакторской колонке он пишет: «Всякий раз, когда
я читаю описание бревенчатых хижин времен освоения Дикого Запада как хорошо
сработанных, добротных и красивых построек, я тихонько посмеиваюсь. Ведь, скорее всего,
99,9% срубов того времени были построены просто ужасно — поэтому они все и
развалились. Те немногие, что сохранились в первозданном виде, были действительно
сделаны неплохо. Но это не значит, что все хижины были такими». Поскольку не осталось
никаких документальных свидетельств об этих развалившихся бревенчатых хижинах, мы
имеем дело с темными данными.
DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, особенно обманчив, потому
что у нас, как правило, нет оснований подозревать существование таких данных. Допустим,
вы читаете лондонскую The Times от 29 декабря 2017 г. и, так же как и я, узнаете, что, «по
данным полиции, число сексуальных домогательств, предположительно совершенных
водителями такси по отношению к пассажирам, возросло на одну пятую за три года».
Объяснение, лежащее на поверхности, состоит в том, что совершается все больше подобных
правонарушений. Но есть и другое объяснение, вытекающее из темных данных: число
совершенных преступлений не меняется, зато растет число сообщений о них. Темные
данные, которые были до этого скрыты, становятся видимыми в результате изменения
нравов и общественных норм. Отсюда следует важный вывод общего характера: если мы
видим внезапное изменение шага во временном ряду значений, это может быть связано не
только с тем, что поменялись параметры наблюдаемой реальности, но и с тем, что
изменилась сама процедура сбора данных. Это также проявление темных данных DD-тип 7:
данные, меняющиеся со временем.
23
Более сложный пример того, как работают в тандеме DD-тип 2: данные, о которых мы не
знаем, что они отсутствуют и DD-тип 7: данные, меняющиеся со временем, дают нам
показатели инвестиционных фондов. Рынок таких фондов в целом отличается высокой
динамикой — постоянно создаются новые фонды, а старые умирают. Понятно, что, как
правило, умирают неэффективные предприятия, а преуспевающие остаются. И если мы не
примем во внимание эти исчезнувшие фонды, то средние результаты оставшихся на плаву
покажутся нам весьма неплохими.
Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести
перепись и узнать возраст каждого, а базы данных, собранные различными службами и
сервисами, которые просят указать при регистрации дату рождения, не внушают доверия
из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку,
задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили,
что существует очевидный риск возникновения темных данных, поскольку мы не узнаем
возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что
узнать это вполне возможно при условии репрезентативности выборки. Более того,
математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна
быть огромной — тысячи человек для средних размеров страны может оказаться достаточно.
Согласитесь, это совсем не то, что опрашивать миллионы.
Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как
сформированную либо «случайно», либо «должным образом». Если мы включим в выборку
26
только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли
сможем точно определить средний возраст населения. Нам нужно быть уверенными,
насколько это возможно, в том, что выборка должным образом представляет исследуемое
население. Лучший способ достичь этого — начать с составления списка всех интересующих
нас представителей населения (такой список называется рамкой выборки), затем случайным
образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки
часто создают на основе административных данных, например списков избирателей или
результатов последней переписи.
Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным.
Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не
гарантирует того, что выборка свободна от негативного влияния темных данных (например,
что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений
поддается контролю. Это означает, что мы можем утверждать, например, следующее:
«Почти для всех (то есть для 95%) сформированных выборок среднее значение может
отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер
выборки, мы можем увеличить и уверенность с 95%, скажем, до 99%, и уменьшить диапазон
отклонений на год или любую другую величину. А если вас беспокоит отсутствие
абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним,
что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).
Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки
существенно не зависит от того, насколько большую долю населения составляет выборка, во
всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни
странно, зависит просто от численности выборки. При прочих равных условиях выборка
численностью тысячу человек для населения в миллион обычно дает такую же точность, как
и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к
совокупности в первом случае будет один к тысяче, а во втором — один к миллиону.
К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во
всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона,
а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди
могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в
принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.
Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми
отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого
используется аббревиатура NA, что означает not available или «нет данных»). В таблице
приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного
обучения10. Данные были собраны из анкет, выданных посетителям торгового центра в
районе залива Сан-Франциско. Цель исследования заключалась в построении модели
прогнозирования доходов в зависимости от переменных. Вот эти переменные: A — пол, B —
семейное положение, C — возраст, D — образование, E — род занятий, F — сколько лет
проживает в Сан-Франциско, G — число работающих в семье, H — численность семьи, I —
число членов семьи младше 18 лет, J — статус домохозяйства, K — тип жилой
недвижимости, L — этническая группа, M — язык и, наконец, последняя переменная,
которая должна была быть спрогнозирована, N — доход (на сайте дается более подробная
информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их
буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице,
но в 2117 из них есть отсутствующие значения — так же, как и в трех строках приведенного
фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти
отсутствующие значения явно относятся к DD-типу 1: данные, о которых мы знаем, что они
отсутствуют, поскольку мы отчетливо видим, что в ячейках не хватает чисел.
27
Столбец таблицы, обозначенный буквой «М», показывает ответы на вопрос «На каком языке
чаще всего говорят в вашем доме?». Есть три варианта ответов: 1 — на английском, 2 — на
испанском и 3 — на любом другом языке. Поскольку только одна из этих категорий может
быть верной для каждого домохозяйства, а вместе они включают в себя все возможные
языки, то мы знаем, что для каждой строки существует только один из трех предложенных
вариантов ответа. Но по какой-то причине два человека в нашей выборке просто не стали
отвечать.
Иногда, впрочем, записи являются неполными по причине того, что подходящих значений
просто нет — ответа не существует. Например, поле, в котором указывается возраст супруга
респондента, должно остаться пустым, если респондент не состоит в браке. Это порождает
интересный вопрос о том, как мы должны относиться к таким недостающим значениям.
Ситуация явно отличается от того, если бы кто-то, состоящий в браке, просто не заполнил
это поле. Но имеет ли это различие значение? Если два типа отсутствия ответа будут
рассматриваться нами одинаково, приведет ли это к ошибочным выводам?
Запись с пробелами сразу показывает, что чего-то не хватает (DD-тип 1: данные, о которых
мы знаем, что они отсутствуют). Однако, когда люди вообще отказываются отвечать на
вопросы, мы имеем иной результат — DD-тип 4: самоотбор. Люди могут быть слишком
заняты, могут воспринять опрос как вторжение в частную жизнь или просто не выходить на
контакт (например, если их нет в городе на момент проведения исследования). Это тоже
известные неизвестные в том смысле, что мы знаем, кто эти люди, поскольку они есть в
списке выборки, а также знаем, что они могли бы дать ответы, если бы были готовы и имели
возможность. Но, поскольку у нас нет их ответов, мы вынуждены находиться в неведении.
Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США.
На основе опросов популярный журнал The Literary Digest много раз успешно определял
победителей выборов, и в 1936 г. он предсказал, что победит кандидат от республиканцев
Альфред Лэндон, а голоса разделятся в соотношении 3∕2. Тем не менее Франклин Рузвельт,
кандидат от демократов, одержал уверенную победу, набрав 523 из 531 голоса коллегии
выборщиков, 62% голосов избирателей и получив большинство в 46 из 48 штатов.
Результаты этих выборов и ошибочный прогноз The Literary Digest часто связывают с
темными данными, полученными в ходе опроса. На этот счет есть разные теории, но все они
сводятся к одной мысли: не стоило в качестве рамки выборки использовать телефонные
28
Однако подробный анализ статистика Мориса Брайсона показывает, что этот упрощенческий
подход является в корне неверным11. С одной стороны, он недооценивает те меры, которые
предпринимали опросчики The Literary Digest, чтобы обеспечить репрезентативность
выборки потенциальных избирателей. Они хорошо понимали факторы, которые могли
привести к искажению этой выборки. С другой стороны, хотя в то время лишь около 40%
домохозяев имели телефоны, эти же 40% представляли наиболее активную часть
избирателей. Сей факт означает, что, несмотря на возможность появления темных данных в
масштабе всего населения, их влияние было куда менее серьезным, если рассматривать
владельцев телефонов как долю голосующего населения, что, конечно, имеет значение для
выборов. Значение, которое может оказаться решающим: на референдуме 2016 г. о том,
следует ли Великобритании покинуть Евросоюз, проголосовало 43% тех, кто до этого
заявлял, что «не интересуется политикой», в то время как на всеобщих британских выборах
2015 г. проголосовало лишь 30% таких людей. Тот, кто утверждает, что будет голосовать за
Х, должен реально проголосовать за Х, чтобы его утверждение стало верным.
Что касается опроса избирателей на выборах Лэндон/Рузвельт, похоже, что популярная
«телефонная» теория неверна. Тогда чем же объяснить провал опроса?
Ответ по-прежнему лежит в области темных данных, но данных другого типа — куда более
знакомых и понятных нам, живущим в эпоху сетевых опросов. Дело в том, что, хотя было
разослано 10 млн анкет, лишь около четверти тех, кто их получил, то есть около 2,3 млн
человек, потрудились ответить. Более трех четвертей опрошенных просто проигнорировали
анкеты — их политические взгляды стали темными данными. Последствия очевидны. Если
республиканские избиратели были более заинтересованы в выборах, чем сторонники
Рузвельта (а все указывает на то, что это именно так), то они с большей вероятностью
откликались на опрос. Это и создало впечатление большинства в пользу Лэндона —
искаженное представление, которое обмануло The Literary Digest. Искажение самоотбора
было устранено, когда состоялись настоящие выборы.
Таким образом, это неожиданное расхождение прогноза и результатов выборов было
следствием темных данных, но не из-за ошибок при составлении выборки, а по причине
разной вероятности того, что республиканские и демократические избиратели вообще
откликнутся на опрос. Причиной стала добровольность ответа (DD-тип 4: самоотбор).
Поскольку рамка выборки на основе сложного анализа была определена правильно (то есть
опросчики точно знали, кто имеет право голосовать), то можно было бы настроить ее, как это
описано в главе 9. Но там, где рамка выборки определена неверно, такая настройка будет
куда сложнее или даже попросту невозможна. В этом случае мы покидаем область DD-типа
1: данные, о которых мы знаем, что они отсутствуют, и перемещаемся в область DD-типа 2:
данные, о которых мы не знаем, что они отсутствуют. Веб-опросы (о них мы поговорим чуть
позже) особенно уязвимы для этого сценария.
Надо признать, что ситуации, когда часть людей не отвечает на вопросы, как в примере с
Лэндоном/Рузвельтом, бывают довольно сложными. Те, кто отказывается отвечать, могут
29
существенно отличаться от тех, кто решил ответить: сам факт их неучастия в опросе уже
показывает, что они в чем-то отличаются. Возможно, более склонными пройти опрос будут
люди, проявляющие особый интерес к его теме, как в случае с Лэндоном/Рузвельтом. А
может быть, это будут те, кто просто лучше информирован по данной теме. В Нидерландах
проводилось исследование жилищных условий, которое показало, что более нуждающиеся
люди чаще откликаются на опрос, поэтому может сложиться ложная общая картина12. В
опросах на тему виктимизации так называемые серийные события, например домашнее
насилие, которое не имеет конкретного начала и конца, могут не выявляться в ходе опросов,
посвященных отдельным инцидентам. Кроме того, люди зачастую отказываются от участия,
если им кажется, что на опрос уйдет слишком много времени. В целом, что касается опросов
и не только, самоотбор служит наиболее опасным источником темных данных.
Электоральные опросы, конечно, полезны, но, поскольку и государство, и бизнес все шире
используют опросы как инструмент сбора информации, все больше становится и
неадекватных ответов. Да и показатель отклика во всем мире падает. Проиллюстрируем это
на примере обследования трудовых ресурсов Великобритании13. На рис. 2 показана доля
тех, кто соглашался пройти опрос, по отношению ко всем, кому это было предложено, за
каждый квартал с марта 2003 г. по сентябрь 2017 г. Эта доля снизилась за указанный период
с более чем 65% до 45% и даже ниже. Такая однозначно нисходящая тенденция не
способствует большой уверенности в выводах, которые будут сделаны на основе опросов в
дальнейшем, если, конечно, не принять соответствующих мер.
В любом случае, как показывают примеры, объем темных данных в форме отсутствия ответа
все возрастает, и, хотя они не всегда оказывают негативное влияние на выводы, когда это
все-таки происходит, такое влияние может быть очень серьезным. Если бы вы управляли
страной или крупной корпорацией, хотели бы вы полагаться на пустые поля опросов?
Одно из замечательных свойств интернета заключается в том, что он дает возможность
проводить недорогие опросы, способные охватывать широкую аудиторию и, следовательно,
формировать выборки огромных размеров. Но есть и ограничения. В частности, вы не
можете контролировать, кто именно отвечает на ваши вопросы. В основном респонденты
сами решают, принять им участие в опросе или скрыться за пологом темных данных.
Очевидно, что это может пагубно влиять на любой опрос, поскольку означает, что выводы
будут напрямую зависеть от того, кто на него откликнется, а кто нет. (Вспомните
гипотетический опрос из главы 1, в котором был единственный вопрос: «Отвечаете ли вы на
журнальные опросы?») И основная неопределенность возникает в отношении того, кто в
принципе видит вашу веб-страницу с анкетой.
В то же время люди зачастую имеют возможность пройти веб-опрос несколько раз. Или еще
хуже: недавно я встретил человека, который сказал, что всякий раз, когда ему предлагают
пройти опрос по мобильному телефону, он передает его для ответов своему пятилетнему
сыну. К тому же фундаментальная проблема заключается в том, что не у всех есть доступ к
интернету — сравните это с ролью телефонов на выборах Лэндон/Рузвельт. В отчете 2013 г.
из Нидерландов, опубликованном в International Journal of Internet Science, сообщалось, что
«пожилые люди, незападные иммигранты и домохозяйства, состоящие из одного человека,
часто не имеют доступа к интернету»15. Впрочем, эта проблема, вероятно, будет решена с
течением времени по мере развития технологий.
Почему же люди все меньше склонны отвечать на опросы? Туранжо и Пльюис изучили эту
проблему и выяснили, что сами причины отсутствия отклика не сильно изменились с
течением времени16. Прежде всего потенциальный респондент просто недостаточно
заинтересован в участии, слишком занят или не хочет тратить на опрос много времени.
Среди других причин можно выделить проблемы конфиденциальности, непонимание
вопросов, а также негативные эмоциональные реакции — раздражение, «хлопанье дверью»,
недружелюбное или даже угрожающее поведение. Рискованное это дело, быть
интервьюером! На основе исследования было высказано предположение, что люди просто
пресыщены опросами — их слишком много, а бесконечными вопросами можно вывести из
себя кого угодно. Ситуация усугубляется рекламными кампаниями, маскирующимися под
опросы. Но главной причиной всего этого является самоотбор, когда респонденты сами
решают, принимать им участие или нет.
точно такими же данными. Хуже того, несомненно, будут появляться все новые и новые
факторы, о которых мы даже и не думали.
Чтобы преодолеть эту проблему, людей случайным образом распределяют по двум группам
— отсюда и название: рандомизированные контролируемые исследования (РКИ). Таким
образом можно свести вероятность дисбаланса, которого мы хотим избежать, до
минимального уровня. Помните теоретическое обоснование для случайной выборки, которое
мы рассматривали, когда изучали опросы? Точно такой же принцип действует и здесь,
разница лишь в том, что теперь мы назначаем пациентам лечение, а не выбираем людей для
опроса.
В наиболее простом варианте такого исследования сравнивают две группы людей. Иногда
его еще называют A/Б-исследованием или исследованием типа «победитель/претендент», в
котором новый метод лечения (претендент) сравнивается со стандартным методом
(победитель). Такая структура широко используется, например, в медицине,
веб-экспериментах и на производстве. Преимуществом подобных исследований является
возможность сравнить результат с тем, что произошло бы при других условиях. Это
позволяет избежать контрфактуальных темных данных.
Контролировать темные данные таким способом люди научились уже довольно давно. В
качестве примера авторитетного РКИ прошлого века можно привести исследование лечения
туберкулеза стрептомицином, проводившееся в 1948 г. Вот что сказал о нем британский
историк здравоохранения сэр Иэн Чалмерс: «Подробный и исключительно четкий отчет о
рандомизированном исследовании применения стрептомицина при лечении туберкулеза
легких, проведенном Британским медицинским научным советом в 1948 г., по праву
считается вехой в истории клинических испытаний»18.
Однако, как это часто бывает, идеи этого метода или по крайней мере его корни,
прослеживаются и дальше вглубь времен. Наиболее раннее описание рандомизации
распределения групп мы находим у фламандского врача Жана-Батиста Ван Гельмонта,
который в 1648 г. предложил для оценки эффективности кровопусканий и больших доз
слабительного следующее: «Давайте наберем по больницам… 200 или 500 несчастных с
лихорадкой и воспалением плевры. Давайте поделим их пополам и бросим жребий, чтобы
одна их половина выпала на мою долю, а другая на вашу. Я вылечу своих без кровопусканий
и опорожняя в разумных пределах; а вы делайте как сами знаете… Посмотрим, сколько
будет похорон у каждого»19. В те времена в английском для обозначения жребия
использовалось слово «lot», и это его значение сохранилось до наших дней в слове
«лотерея».
Пока все выглядит неплохо. В отличие от двух других методов сбора данных, где просто
собирают данные, ни во что не вмешиваясь (данные наблюдений), этот новый подход
предполагает управление тем, кто какое лечение будет проходить. И все было бы
замечательно, если бы пациенты придерживались протоколов лечения, принимая лекарства
строго по графику вплоть до самого конца исследования. Но, к сожалению, темные данные
часто встречаются и в такого рода исследованиях, проникая в них в форме выбывших.
Выбывшие — это те, кто выбыл из исследования по тем или иным причинам. К ним
относятся смерть пациента, негативные побочные эффекты лечения, переезд, исчезновение
мотивации на фоне отсутствия улучшений и пр. Проблема здесь кроется в том, что
измерения проводятся в течение какого-то времени или по истечении определенных
периодов и существует риск того, что темные данные по-разному скажутся на разных
группах испытуемых. Эти данные классифицируются как DD-тип 7: данные, меняющиеся со
временем, и DD-тип 1: данные, о которых мы знаем, что они отсутствуют.
34
Реальные исследования часто бывают куда сложнее, чем наш пример с двумя группами. Они
могут проходить на базе нескольких клиник, включать в себя более двух групп и при этом
сравнивать несколько видов лечения. На рис. 4 приведены данные клинического испытания
будесонида на пациентах с астмой20. В этом исследовании участвовали пять групп
пациентов, одна из которых получала плацебо (нулевая доза), а другие по 200, 400, 800 или
1600 мкг будесонида соответственно. Измерения функций легких проводились в самом
начале, а затем через 2, 4, 8 и 12 недель после начала исследования. Кривые на графике
показывают количество пациентов, остававшихся в исследовании на момент очередного
измерения. Тенденция выбывания участников прослеживается четко, а ее уровень впечатляет
— лишь 75% пациентов, начавших исследование, дошли до конца. Еще более тревожным
является то, что показатели выбывания различаются для разных групп. В частности, выбыло
35
только 10 из 98 человек, получавших самую высокую дозу препарата, тогда как среди
принимавших плацебо выбыло 58 человек, что составляет почти две трети этой группы. На
основании этого, конечно, можно предположить, что препарат эффективен, но мы видим, что
со временем в исследовании остаются только те, кто ощущает пользу лечения, поэтому это
только предположение. Безусловно, отсутствующие данные усложняют анализ и
интерпретацию происходящего, что может привести к ошибкам, если выводы будут
основаны исключительно на имеющихся данных.
несколькими группами, как это было показано выше, каждая из которых получает отличное
от других групп лечение, а также к более сложным, тщательно сбалансированным дизайнам,
в которых учитываются многочисленные факторы, способные повлиять на результаты. В
главе 8 вы найдете описание такого эксперимента по литью пластмассовых деталей для
автомобилей. Сложные дизайны порой носят экзотические названия, такие как «дробный
факториал» или «греко-латинский квадрат».
Принципы экспериментального дизайна были разработаны ведущим британским
статистиком сэром Рональдом Фишером, который ставил сельскохозяйственные
эксперименты на Ротамстедской опытной станции в Хартфордшире, старейшем
сельскохозяйственном исследовательском институте в мире. В 1935 г. он опубликовал свой
основополагающий труд «Дизайн экспериментов» (The Design of Experiments), в котором
описал методы определения «экспериментальных единиц» на примере различных видов
удобрений, типов почвы, ирригационных систем, температуры и т.д., а также лучшие
способы изучения их комбинаций в процессе эксперимента. На сегодняшний день
экспериментальный дизайн является передовой математической дисциплиной. Он включает
в себя такие стратегии, как адаптивное распределение, когда на выбор воздействия влияют
результаты, полученные в ходе самого эксперимента. По мере проведения исследования
начинают накапливаться результаты, и мы видим, что они указывают на эффективность
какого-то одного воздействия. Это приводит к вопросу о том, следует ли нам назначить
большему количеству пациентов (если речь идет о клинических испытаниях) это лечение на
том основании, что в настоящий момент оно представляется наилучшим, или, наоборот,
распределить пациентов по другим методам лечения, чтобы быть более уверенными в своих
выводах.
Интернет существенно упростил проведение социальных рандомизированных исследований
определенных видов, поскольку мы можем легко организовать случайное распределение
среди получателей разной информации и пользователей разных версий сайта — вспомните
эксперимент Эндрю Лэя, который искал лучшее название для своей книги. Для
интернет-компаний это обычная повседневная работа: выполняя тысячи экспериментов
автоматически каждый день, они определяют наиболее успешную стратегию. Но
использование темных данных таким образом может вызвать и обратную реакцию. Такой
подход означает, что клиентов держат в неведении, и, если они узнают о нем, им это может
не понравиться. Например, если к ценам на товары или услуги применяется рандомизация,
то их изменение будет выглядеть странным и может вызывать тревогу и возмущение. В
октябре 2000 г. The Washington Post сообщила о реакции клиентов, узнавших, что Amazon
исследовала их чувствительность к ценам путем случайного манипулирования этими
ценами26. Оценка действий компании сводилась к следующему: «Я всегда считал, что
клиентов сначала привлекают, а затем стараются удержать их. А это определенно не
способствует лояльности клиентов». И что еще хуже: «Я никогда ничего не куплю больше у
этих парней!»
Рандомное изменение цен для выяснения того, сколько клиент готов заплатить, — не самый
сомнительный веб-эксперимент в смысле нарушения этики. В 2014 г. Facebook сильно
пострадала от реакции пользователей на проведенный компанией эксперимент, целью
которого было установить, как «эмоциональное состояние влияет на поведение людей при
размещении постов»27. В ходе исследования соцсеть манипулировала информацией,
размещенной на домашних страницах почти 700 000 пользователей, уменьшая и увеличивая
объем позитивного или негативного контента, чтобы выяснить, может ли это заставить
людей испытывать позитивные или негативные эмоции. Когда исследование стало
достоянием общественности, его охарактеризовали как скандальное, пугающее,
возмутительное, неэтичное, а возможно, даже и незаконное. Очевидно, что оно как минимум
38
Многие люди выбирают вариант Б, но, если задуматься хотя бы на секунду, становится ясно,
что это полный абсурд. Вариант Б является лишь подмножеством варианта А, поэтому
вариант А более вероятен. Причина, по которой люди совершают эту ошибку, заключается в
том, что, как и в случае с эвристикой доступности, они делают вывод на основании
соответствия предложенных вариантов описанию Фреда. Кто-то с его характеристиками
вполне мог бы оказаться попечителем местного исторического музея, так почему бы не
отдать это место Фреду?
Глава 3
Определения и темные данные
Что именно вы хотите узнать?
Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем
ли при этом искажений. Каждое из этих условий чувствительно к темным данным.
Фактически число потенциальных рисков, связанных с темными данными, настолько велико,
что составить их полный перечень просто невозможно. Тем не менее представление о
типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным
при работе с темными данными. В этой главе мы рассмотрим постановку целей для сбора
данных, а в следующей — то, как этих целей достигать, причем и то и другое сквозь призму
нашей основной темы.
Ошибки в определениях и измерениях
Одна из фундаментальных причин возникновения темных данных — использование
неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь.
Давайте разберем это на примерах.
Иммиграция
Опросы всегда проводят с конкретной целью, административные же данные собирают по
множеству причин. Это означает, что административные данные могут не содержать ответа
на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности
статистики по долгосрочной международной миграции (LTIM). Национальная
статистическая служба в соответствии с данными Отчета по международным пассажирским
перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию
иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза,
зарегистрировавшихся для получения номеров социального страхования, за этот период
составило 655 000 человек. Номера социального страхования — это личные счета всех, кто
работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и
взносов в систему национального страхования (куда относятся в том числе медицинские
страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже,
что цифры Национальной статистической службы далеки от реальности. По этому поводу
британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза.
Номера социального страхования — это простое и четкое отражение реального числа людей
в этой стране, так как без такого номера вы не сможете ни легально работать, ни
претендовать на получение пособия»1.
Отчет по международным пассажирским перевозкам, который учитывает основные
пассажиропотоки через британские воздушные и морские порты, а теперь еще и
Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000–800 000 интервью. Хотя
это число представляет лишь небольшую часть людей, приезжающих в Великобританию,
41
ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь
оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба
определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280
000, и заявила, что на 95% уверена в попадании истинных цифр в этот диапазон.
Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа
номеров социального страхования.
Когда Национальная статистическая служба подробно изучила расхождение между своей
оценкой и числом номеров социального страхования, оказалось, что основной причиной этой
разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12
месяцев)2. Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные
мигранты могут работать и подавать заявки на получение номеров социального страхования,
но определяющим показателем в данном случае должна быть статистика LTIM (по
долгосрочной международной миграции). Национальная статистическая служба заявила, что
«различие определений этих данных является фундаментальным и невозможно обеспечить
согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти
регистрационные данные не могут служить показателем LTIM». Короче говоря,
административные данные были полезны в тех вычислениях, для которых они были
собраны, и не подходили для других целей. Неподходящие или несоответствующие
определения эффективно скрывают интересующие нас данные и превращают их в темные
данные DD-тип 8: неверно определяемые данные. Ключевой момент в том, что данные
становятся или не становятся темными в зависимости от того, что вы хотите узнать.
Преступность
Другой пример темных данных, возникающих из-за различий в определениях, дает нам
статистика преступности. На национальном уровне такая статистика по Англии и Уэльсу
поступает из двух основных и довольно далеких друг от друга источников: Обзор
преступности в Англии и Уэльсе (CSE & W) и полицейская статистика правонарушений
(PRC). CSE & W является эквивалентом Национального обзора преступности и
виктимизации в США. Он был запущен в 1982 г. (одновременно с Британским обзором
преступности) для изучения опыта столкновения с преступностью в течение последнего
года. Данные PRC предоставляются 43 полицейскими управлениями Англии и Уэльса, а
также Британской транспортной полицией, и анализируются Национальной статистической
службой.
Различия в характере этих процессов сбора информации непосредственно влияют на
возникновение темных данных. Поскольку обзор CSE & W призван выяснить, жертвами
каких преступлений становились респонденты, то он по определению не дает никакой
информации, скажем, об убийствах или хранении наркотиков. Он также не затрагивает
людей в местах коллективного проживания, таких как дома престарелых или студенческие
общежития, и не распространяется на преступления против коммерческих организаций или
государственных органов. Это говорит о большом потенциале для темных данных, хотя
когда мы четко определяем охватываемую обзором область, то делаем этот риск видимым.
Статистика PRC также содержит темные данные, но они отличаются от темных данных
обзора CSE & W. По определению, статистика PRC не включает в себя преступления, о
которых не сообщают полиции, например, потому, что жертвы порой не рассчитывают на ее
помощь. Это существенный момент, поскольку, согласно оценкам, в полицию сообщают в
среднем только о 4 из 10 преступлений, хотя и очевидно, что это число различно для разных
видов преступности. Более того, в полицейской статистике отражаются в основном так
называемые регистрируемые преступления, которые могут быть рассмотрены судом
присяжных. Дополнительные сложности возникают из-за механизмов обратной связи
(DD-тип 11: искажения обратной связи и уловки). Например, число преступлений, связанных
42
Во-первых, никто не умирал от этой болезни до 1901 г., поскольку именно тогда немецкий
психиатр Алоис Альцгеймер впервые описал случай заболевания, которое впоследствии
было названо его именем. Кроме того, первое время диагноз ставили только людям в
возрасте от 45 до 65 лет с симптомами деменции и лишь позже, уже в последней четверти
XX в., было снято ограничение по возрастному диапазону. Очевидно, что такое расширенное
определение изменило число диагностированных людей. Данные, которые ранее
рассматривались как несущественные, попали в поле зрения.
Во-вторых (и это объяснение роста смертности от болезни Альцгеймера может показаться
парадоксальным), во всем виноват прогресс медицинской науки. Благодаря ему люди,
которые раньше бы умерли молодыми, теперь могут прожить достаточно долго, чтобы стать
потенциально уязвимыми для таких медленно развивающихся недугов, как болезнь
Альцгеймера. Это заставляет задуматься, действительно ли продление жизни является
абсолютным благом.
Тот факт, что число диагностируемых случаев аутизма в Соединенных Штатах удвоилось с
2000 г., также может быть в значительной степени объяснен темными данными (DD-тип 8:
неверно определяемые данные)4. В главе 2 мы уже рассмотрели одну из причин этого —
эвристику доступности, когда сам факт аутизма все более осознается обществом. Но есть и
другая серьезная причина такого роста, которая состоит в том, что изменения претерпел сам
подход к определению и диагностике аутизма. В частности, хотя в 1980 г. аутизм был
включен в «Диагностическое и статистическое руководство по психическим расстройствам»,
в 1987 и в 1994 гг. метод его диагностики был существенно изменен, при этом критерии
были ослаблены. Такое ослабление диагностических критериев соответствия означает, что
им удовлетворяет большее число людей.
43
Что касается того, как получать информацию о ценах на товары в корзине, то традиционно
для этого принято проводить опросы и направлять сборщиков данных непосредственно в
магазины и на рынки. Бюро трудовой статистики США обследует таким образом около 23
000 предприятий и регистрирует цены около 80 000 предметов потребления каждый месяц,
суммируя их, чтобы получить индекс потребительских цен. Другие страны используют
аналогичный подход.
Возможно, вы заметили, что этот традиционный метод сбора ценовых данных полностью
игнорирует покупки онлайн. Учитывая, что на такие покупки в настоящее время приходится
уже около 17% розничных продаж в Великобритании6 и почти 10% розничных продаж в
США7, становится ясно, что многие релевантные цены никак не учитываются в индексе.
(Стоит отметить, что последние цифры действительны на момент написания книги, в то
время как тенденция стремительно нарастает.) По этой причине многие страны начали
разрабатывать методы учета цен в интернете. Эти методы не являются копией
традиционных, потому что корзины в том и другом случае отличаются. Мы увидим пример
такого метода в главе 10.
Общество меняется непрерывно, а сегодня это происходит куда быстрее, чем когда-либо в
прошлом, поскольку компьютер и сопутствующие ему технологии — мониторинг,
глубинный анализ данных, искусственный интеллект, автоматизированные транзакции и
глобальная сеть — оказывают все большее влияние. Такая скорость изменений имеет важные
последствия для анализа информации с точки зрения темных данных, поскольку прогнозы
всегда строятся на том, что случалось в прошлом. Последовательности данных во времени в
науке называют временными рядами. Скорость изменения методов и технологий сбора
данных означает, что временные ряды часто ограничены весьма недавним прошлым. Новые
типы данных потому и называются «новые», что они имеют недолгую историю и доступны
лишь за относительно короткий период времени. За пределами же его лежит тьма.
Невозможно измерить все
Наборы данных всегда конечны. Это, безусловно, верно с точки зрения количества случаев
— конечного числа людей в популяции или конечного числа измеряемых событий. Но это
верно и с позиции того, что измеряется или какие данные собираются. Изучая людей, мы
можем определять их возраст, вес, рост, квалификацию, любимую еду, доход и множество
других вещей. Однако всегда будет оставаться бесчисленное множество характеристик, не
включенных в наши определения. Эти характеристики неизбежно становятся темными
данными со всеми вытекающими последствиями.
Причинность
Когда демографические исследования показали связь между раком легких и курением,
выдающийся статистик Рональд Фишер отметил, что это необязательно означает, что
курение вызывает рак. Он привел несколько возможных причин возникновения такой связи
явлений, в том числе вероятность того, что и рак легких, и предрасположенность к курению
могут быть вызваны каким-то третьим общим фактором, например на генетическом уровне.
Здесь мы имеем дело с классическим примером темных данных DD-тип 5: неизвестный
определяющий фактор — некоторой неизмеренной переменной, которая служит причиной и
того и другого и даже приводит к корреляции между ними, при этом сами по себе изучаемые
явления непосредственно не влияют друг на друга. Этот пример показывает, насколько
сложно бывает обнаружить темные данные.
Мы уже сталкивались с подобной ситуацией в начале книги. В главе 1 я говорил, что в
раннем школьном возрасте рост детей соотносится с их лексическим запасом. Если вы
проведете исследование выборки детей в возрасте от 5 до 10 лет, измеряя их рост и объем
словаря, то обнаружите, что у тех, кто повыше, в среднем и словарный запас больше. Из
45
этого напрашивается вывод: если давать детям больше новых слов, они лучше растут.
Можно пойти еще дальше и провести второе исследование, измеряя рост детей в начале и в
конце года, в течение которого они интенсивно осваивают новые слова. Результаты будут
впечатляющими — рост детей увеличится.
Конечно, это шутка, и вы понимаете абсурдность подобных выводов. Хотя рост и словарный
запас детей в указанном возрастном диапазоне, безусловно, взаимосвязаны, эта связь не
носит причинно-следственного характера. Дело в том, что оба параметра зависят от третьей
переменной — той, которую мы не планировали измерять в нашем исследовании, а именно
от возраста детей. Возраст в этом примере является темными данными, его незнание может
привести к ложным выводам.
Эта ситуация отличается от той, в которой отсутствуют значения некоторых атрибутов для
отдельных объектов, и от той, когда для отдельных объектов отсутствуют значения всех
атрибутов. Здесь значения для определенного атрибута (или атрибутов) отсутствуют для
всех объектов в базе данных. Все записи для такой переменной будут обозначены пробелами
или словом «неизвестно», если вообще эта переменная была включена в исследование.
Например, в предыдущем примере мы могли просто забыть спросить о том, сколько лет
респондентам, поэтому у нас нет информации о точном возрасте ни одного из них. Или,
возможно, мы не подумали о том, что возраст будет иметь значение, поэтому нам не пришло
в голову задавать соответствующий вопрос. И для того и для другого имеются естественные
причины: если исследование будет перегружено вопросами, это отрицательно скажется на
уровне отклика, поэтому отбирать их приходится тщательно.
Парадокс!
Иногда последствия влияния темных данных DD-тип 5: неизвестный определяющий фактор
могут буквально ставить в тупик.
Из 23 членов экипажа женского пола выжили 20, что составляет 87,0%. Среди пассажиров
третьего класса было 165 женщин, 76 выжили, показатель выживаемости составил 46,1%.
Представительницы экипажа имеют более высокую выживаемость, чем пассажирки третьего
класса.
46
Минуточку, что происходит? В расчете для мужчин и женщин по отдельности экипаж имеет
более высокий показатель выживаемости, чем пассажиры третьего класса. Однако в целом
его выживаемость ниже.
Здесь нет никакого трюка — цифры соответствуют действительности. Мы имеем дело с
явлением, которое иногда так и называют парадоксом Симпсона, в честь Эдварда Симпсона,
описавшего его в статье в 1951 г. (хотя это явление уже было описано как минимум на
полвека раньше).
Далее мы подробно рассмотрим, почему возникают подобные ситуации, но, думаю, уже
вполне понятно, что их возможные последствия выглядят устрашающе. Конечно, никто и не
думал регистрировать необъятное число характеристик всех, кто плыл на корабле. В то же
время если любая из этих характеристик может повлиять на наши выводы, то пренебрегая
ею, мы создаем отсутствующие данные, способные вводить в заблуждение. Возможно, это не
так критично в случае с «Титаником», поскольку речь идет об исторических данных, но
давайте рассмотрим другой пример.
Предположим, средний балл для младших в группе А равен 8, а средний балл для младших в
группе Б — 6, как показано в табл 3, а. Это говорит о том, что препарат А более эффективен
для молодых, поскольку 8 больше 6.
Аналогично для старших предположим, что средний балл в группе А равен 4, а средний балл
в группе Б — 2, как во втором ряду значений табл. 3, а. Для старших препарат А также более
эффективен, чем препарат Б.
47
Хотя средний балл для старших ниже, чем для младших, очевидно, что и для тех и для
других препарат А более эффективен, чем препарат Б. Мы определенно должны
рекомендовать препарат А для всех возрастов.
А как обстоит дело в целом? Общий средний балл всех людей, получающих препарат А,
составляет (8 × 10 + 4 × 90)/100 = 4,4, тогда как общий средний балл всех, получающих
препарат Б, равен (6 × 90 + 2 × 10)/100 = 5,6. Эти результаты отображены в табл. 3, б. В
целом, когда мы игнорируем возраст пациентов, препарат Б получает более высокий балл,
чем препарат A.
Это означает, что если бы мы не регистрировали возраст пациентов, то есть при отсутствии
этих данных, мы бы пришли к выводу, что препарат Б эффективнее, чем препарат A, хотя
для младших A лучше, чем Б, и для старших A лучше, чем Б. Иначе говоря, А лучше, чем Б,
для всех.
Первое, что приходит в голову: мы должны регистрировать возраст при сборе данных. Это,
конечно, хорошо, но мы можем также регистрировать и множество других переменных,
любая из которых грозит поставить наши результаты с ног на голову. При этом мы не
способны зарегистрировать все возможные переменные, а значит, темные данные будут
всегда.
Ключ к решению состоит в том, как именно рассчитывать общие средние значения. В
примере с испытаниями препаратов в группе А старших намного больше, чем младших, в то
время как для группы Б верно обратное. Это приводит к снижению общего среднего
значения: 8 больше 6, а 4 больше 2, но если учесть подавляющую долю старших в группе
при расчете среднего значения 8 и 4 и подавляющую долю младших при усреднении 6 и 2, то
результат изменится на противоположный.
Итак, теперь мы видим корни проблемы — это разные доли старших и младших в наших
группах. В группе получавших препарат А было всего 10% младших, а в группе получавших
препарат Б младших было 90%. Если бы обе группы имели равные доли младших и старших,
то проблемы бы не возникло. Поскольку клинические испытания относятся к
экспериментальным исследованиям, в которых мы контролируем число пациентов,
получающих каждый из препаратов, проблему устранить возможно, сбалансировав доли
младших и старших и сделав их одинаковыми в каждой группе.
Ниже приведен еще один пример, в котором мы не контролируем, кто в какую группу
входит.
48
Таким образом, необходимо понимать две вещи: то, какой вопрос вы задаете, и, то, что
наличие темных данных зависит от этого вопроса. Как ни банально это прозвучит, но
данные, которые вам предстоит собрать, анализ, который вы проведете, и ответ, который
получите, зависят от того, что именно вы хотите узнать.
Между или внутри групп?
Проблемы, подобные парадоксу Симпсона, встречаются и в других обличьях. Например,
экологическая ошибка возникает, когда по факту корреляции двух групп делается вывод о
корреляции между составляющими эти группы объектами. Классический пример был описан
в 1950 г. социологом Уильямом Робинсоном10. Корреляция между процентом иммигрантов
в первом поколении и процентом грамотных в 48 штатах США в 1930 г. составляла 0,53. Это
означает, что в штатах с более высокой долей «понаехавших» также и более высокий
уровень грамотности (во всяком случае больше людей способны читать на американском
английском). На первый взгляд, эти цифры говорят о том, что рожденные за пределами
Соединенных Штатов более склонны к обучению. Но анализ внутри штатов
продемонстрировал иную картину: средняя корреляция составила –0,11. Отрицательное
значение показывает, что иммигранты в первом поколении менее предрасположены к
освоению грамотности. Если бы информация по каждому из штатов была недоступна и
находилась в области темных данных, то можно было бы сделать неверный вывод о прямой
зависимости уровня грамотности от страны рождения.
Родственная этой проблема, известная как смещение вследствие пропущенных переменных,
возникает в более сложных статистических методах. Множественная регрессия — это
статистический инструмент, который увязывает множество независимых переменных
(предикторов) с зависимой от них переменной. Хотя есть особые случаи, для которых это
неприменимо, в целом можно сказать, что пропуск любого предиктора ведет к появлению
мнимых связей между другими предикторами и зависимой переменной. И, как и в
предыдущем примере, поскольку мы не можем включить все возможные предикторы,
пропуск некоторых из них неизбежен. Риск, который несут такие темные данные,
заключается в том, что выводы могут оказаться неверными. Конечно, статистики, зная об
этих проблемах, разрабатывают инструменты для смягчения их воздействия.
Скрининг
В начале своей статистической карьеры я участвовал в проекте по выявлению
предрасположенности к остеопорозу у женщин. Остеопороз — это патология, при которой
кости теряют массу, становятся хрупкими и с большей вероятностью могут сломаться. По
этой причине падения для пожилых людей могут быть особо опасными. Способы измерения
плотности костей, например центральная двухэнергетическая рентгеновская
абсорбциометрия (центральная DXA), существуют, но они, как правило, очень сложны и
недешевы. Это означает, что нужен процесс, позволяющий идентифицировать людей,
которые могут страдать от этого состояния. Цель проекта состояла в разработке простой
анкеты, которая позволяет получить оценку вероятности возникновения остеопороза на
основе известных факторов риска. При этом анкета должна была заполняться респондентом
самостоятельно без необходимости присутствия специалиста.
Ошибочная классификация больных людей как здоровых может быть весьма опасна,
особенно в случае потенциально смертельного, но легко поддающегося лечению
заболевания. Однако ошибочная классификация человека в качестве больного, тогда как на
самом деле он здоров, тоже может иметь нежелательные последствия. Например, ошибочные
подозрения на такие серьезные заболевания, как СПИД или рак, способны вызвать
психологические проблемы, даже если впоследствии подозрение будет снято. Кроме того,
это влечет ненужные затраты на проведение более точного обследования. Герд Гигеренцер,
эксперт в вопросах искажения восприятия случайности и статистики, приводит пример с
программами скрининга рака молочной железы11. Он отмечает, что из 1000 женщин,
которые принимают участие в таких программах, около сотни ошибочно направляются на
дальнейшее обследование, подвергаясь инвазивным, неприятным, а порой и болезненным
процедурам. И даже для многих из тех, у кого рак молочной железы все-таки
обнаруживается, ситуация становится только хуже. Как полагает Гигеренцер, «женщины,
имеющие непрогрессирующий или прогрессирующий очень медленно рак молочной железы,
который они сами даже не заметили бы в течение жизни, часто подвергаются лампэктомии,
мастэктомии, токсичной химиотерапии и прочим вмешательствам, которые не приносят им
никакой пользы». Порой кажется, что лучше бы темные данные так и оставались темными.
очевидна, и вот что она означает: если бы в 1970 г. мы выбрали участки с высокой
урожайностью, ожидая от них аналогичных результатов в 1973 г., мы были бы разочарованы.
Чтобы понять, откуда берется такая закономерность, предположим, что у нас есть условная
группа студентов с одинаковыми способностями и трудолюбием. Несмотря на это, каждый
раз по результатам тестирования одни добиваются больших успехов, чем другие. Это
обусловлено изменчивостью сопутствующих обстоятельств — хорошо ли человек спал
прошлой ночью, не была ли его голова занята чем-то посторонним, верно ли он представлял
себе содержание теста и т.д. Да, мы можем оценить студентов в соответствии с результатами
теста и тех, кто набрал больше баллов, отнести к лучшим. Но какие сюрпризы нам может
преподнести следующий тест?
Поскольку у всех наших студентов одинаковые способности, то набравшие больше баллов в
первом тесте добились этого благодаря удачному стечению обстоятельств. Эти
обстоятельства, равно как и другие, которые сопутствовали менее успешным студентам, вряд
ли повторятся. Поэтому, скорее всего, студенты с самыми высокими показателями справятся
хуже со следующим тестом, а студенты с самыми низкими показателями вполне могут
выглядеть лучше.
Проблема кроется в том, что результаты первого теста, то есть исторические данные,
показывают нам не сами способности ученика, а их комбинацию со случайными факторами.
Случайность как бы скрывает от нас истинные способности.
Сам термин «возврат к среднему» был введен блестящим эрудитом викторианской эпохи
Фрэнсисом Гальтоном. Он заметил, что (в среднем) дети высоких людей хотя и оказывались
выше среднего роста, но при этом не были настолько же высокими, как их родители, а дети,
рожденные невысокими людьми, хотя и были ниже среднего роста, но все-таки
превосходили своих родителей в росте.
В этой главе мы рассмотрели некоторые пути, которыми темные данные вводят нас в
заблуждение, если мы недостаточно внимательны или не вполне понимаем то, что
собираемся выяснить. Следующая глава посвящена тому, как мы попадаемся на удочку, даже
если точно понимаем, что именно мы хотим узнать.
Глава 4
Непреднамеренные темные данные
Видим одно, регистрируем другое
Общая картина
Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в
удобных целых числах, но такие измерения, как, например, длина, будут неизбежно
округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон
(миллионная доля метра), десятая доля микрона, но не бесконечное число знаков после
запятой. Иными словами, мы не можем определить детали дальше какого-то уровня
приближения и вынуждены ограничиваться общей картиной (хотя сама по себе она может
быть просто малюсенькой!). А это означает, что детали остаются во мраке.
Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или
0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 — диапазон точности, в пределах
которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт,
что мы имеем дело с темными данными.
Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем,
что оно скрывает данные. Например, возраст людей часто записывается с точностью до
ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя
число дней, часов, минут и т.д., а также на то, что присущая данному параметру
погрешность, связанная с разной продолжительностью самих родов, означает, что более
высокая точность не может быть достигнута. Общее правило округления возраста до
ближайшего меньшего целого числа лет означает, во-первых, что возраст стремится к
целому числу и, во-вторых, что его значение всегда меньше, чем фактическое время, которое
прожил человек.
Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как
«младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для
некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что
происходит внутри возрастных групп. Эта проблема становится особенно заметной, если
взять крайний случай и разделить людей на две категории — на младших и старших, в
зависимости от того, являются они моложе или старше, скажем, 35 лет. Данные, обобщенные
таким образом, дают нам возможность увидеть, имеет ли старшая группа свойства, отличные
от свойств младшей группы, например, отличается ли их средний доход или доля, состоящих
в браке. Но мы не видим более тонких взаимосвязей. Например, мы не можем утверждать,
увеличивается ли средний доход начиная с младшего возраста, достигая своего максимума в
54
среднем возрасте, а затем снижаясь у пожилых людей. Затемнение или «укрупнение» данных
лишает нас потенциальной возможности таких открытий, опуская плотный занавес.
Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением
значений, может быть особенно коварным и даже привести к ошибочным решениям и
действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений
артериального давления1. Нет никакой разумной причины для того, чтобы эти реальные
значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы
должны ожидать, что около 10% всех значений будут оканчиваться на 0, 10% — на 1, 10% —
на 2 и т.д. Однако исследователи обнаружили, что 64% всех показаний систолического
артериального давления (в момент, когда сердце сокращается) и 59% показаний
диастолического давления (когда сердечная мышца расслабляется между ударами)
оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было
значительно больше четных чисел, нежели нечетных, а среди нечетных самой
распространенной последней цифрой была цифра 5. Но реальные показатели кровяного
давления не имеют этой странной тенденции группироваться вокруг определенных чисел!
Значит, зарегистрированные значения искажены стремлением людей все округлять до
удобных чисел.
Так ли это важно? Британский норматив по гипертонии указывает пороговые значения
артериального давления, выше которых рекомендуется медикаментозное лечение2. В
частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но
склонность к округлению до значений, оканчивающихся на ноль (например, округление 137
до 140), означает, что у значительной части пациентов, у которых зарегистрировано это
пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.
инвестиционная компания Mizuho Securities в 2005 г. потеряла более $300 млн, предложив
610 000 акций J-com по 1 иене за штуку вместо продажи одной акции за 610 000 иен. Или
случай в апреле 2018 г., когда около 2000 сотрудников Samsung Securities должны были
получить дивиденды в размере $0,93 на акцию, что составляло около 2 млрд южнокорейских
вон. К сожалению, вместо этого было выпущено 2 млрд акций, что более чем в 30 раз
превышало общее количество акций компании и обошлось ей почти в $105 млрд.
Когда происходят подобные ошибки, их стараются исправить как можно скорее, но часто
реагируют недостаточно быстро. В случае с Samsung Securities потребовалось 37 минут,
чтобы разобраться с оплошностью, но к этому времени 16 сотрудников компании успели
воспользоваться возможностью и продали 5 млн свалившихся на них акций. Стоимость
акций Samsung Securities рухнула почти на 12% и на момент написания этих строк все еще
была на 10% ниже предыдущих значений, так что компания потеряла еще и на рыночной
стоимости около $300 млн.
Если ошибка ценой $105 млрд кажется вам недостаточно серьезной, то можно припомнить
инцидент на Токийской фондовой бирже, случившийся в 2014 г. Вместо того, чтобы
провести сделку с акциями Toyota на сумму 1,96 млрд иен, брокер случайно ввел это число в
поле количества акций и в результате сумма сделки выросла до $617 млрд. Не правда ли,
довольно легко допустить такую ошибку? Мне и самому случалось вводить данные не в те
поля, правда, не с такими последствиями. К счастью, в последнем примере заявку успели
отменить до того, как она была исполнена.
Человеческий фактор выражается и в трансформации чисел, когда цифры вводятся в
неправильном порядке (например, 89 вместо 98), или одна цифра по ошибке вводится вместо
другой (например, 7 вместо 2), или когда значения повторяются из-за слишком долгого
нажатия на клавишу (например, 222) и т.д.
Подобные искажения — это просто оплошности, но, к сожалению, люди совершают такие
ошибки сплошь и рядом. Например, путают единицы измерения, как в случае с космическим
аппаратом Mars Climate Orbiter в 1998 г., который разрушился в атмосфере Марса из-за
слишком низкого прохождения над его поверхностью по причине того, что в программном
обеспечении британские единицы измерения силы не были преобразованы в международную
систему единиц СИ; или как в случае с рейсом 143 Air Canada, который разбился в 1983 г.
из-за того, что топливо при заправке измеряли в фунтах вместо килограммов.
Другой тип ошибки, связанной с человеческим фактором, повлиял на исход миссии NASA
Genesis. Космический зонд успешно взял образцы частиц солнечного ветра с лунной орбиты
и доставил их обратно, но на последней стадии полета, во время посадки в Юте, он потерпел
крушение. Причина: неверные данные от акселерометров зонда, которые были установлены
задом наперед, так что аппарат ускорялся, приближаясь к поверхности Земли, вместо того,
чтобы замедляться.
Менее очевидная проблема заключается в том, что пригодность данных может со временем
снижаться. Это происходит не потому, что данные портятся, подобно гниющим фруктам, а в
силу того, что мир вокруг нас меняется. Вы думаете, например, что на ваш сберегательный
счет по-прежнему начисляют 3% в год, но при обращении в банк испытываете легкий шок,
обнаружив, что ставка была снижена без всякого уведомления. Данные, относящиеся к
людям, особенно подвержены устареванию (DD-тип 7: данные, меняющиеся со временем) по
той простой причине, что меняются сами люди.
Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут
искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения
США в 1986 г., показало, что 3–5% счетчиков причастны в той или иной форме к
58
фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору6.
Американский статистик Уильям Крускал утверждал, что «достаточно проницательный
человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой
структурированный и существенный набор данных или статистический сборник и менее чем
за час обнаружить в нем странные числа»7. Медиааналитик Тони Твайман сформулировал
закон, получивший известность как Закон Тваймана, который гласит, что любые численные
данные, которые выглядят интригующе или как-то выделяются, обычно неверны8. Более
того, ввиду гигантского количества ежедневно регистрируемых чисел следует ожидать, что
какие-то из них будут введены неправильно. Например, в 2014 г. каждый день в мире
совершалось около 35 млрд финансовых транзакций, и с тех пор это число только
увеличилось. В своей книге «Принцип невероятности» (The Improbability Principle) я
подробно рассматриваю проблему ошибочных записей при таком большом количестве цифр.
Специалисты в области глубинного анализа данных, которые занимаются поиском
любопытных или полезных аномалий в больших наборах данных, называют следующие
причины возникновения необычных структур в таких наборах (в порядке убывания их
важности):
проблема на уровне самих данных (возможно, они были повреждены или искажены в
процессе сбора, или частично отсутствуют);
аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о
единичных значениях, которые не несут в себе существенной информации);
структуры уже известны (как, например, в случае открытия того факта, что люди
часто покупают сыр и крекеры вместе);
Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку
стоимость выявления проблем с данными, исправления допущенных ошибок, а также их
последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма
$3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта
оценка «данными низкого качества»?
Недостатки приборов
Влияние человеческого фактора огромно, но не только люди допускают ошибки: порой из
строя выходят измерительные приборы, что тоже влечет за собой скрытые проблемы с
темными данными. По крайней мере если неисправность прибора не обнаружить сразу, то он
какое-то время будет регистрировать нулевые или просто неверные значения. Помните эти
драматичные моменты в фильмах, когда сигнал на кардиомониторе обрывается и мы видим
недвусмысленную прямую, сопровождаемую жутким писком? Так вот, точно такую же
картинку можно получить, если сенсоры просто свалятся с пациента.
Один из моих аспирантов работал над проектом по исследованию влияния неблагоприятных
погодных условий, таких как сильные ветра и ливни, на телекоммуникационные сети. Он
59
У зловещей загадки оказался забавный ответ. Копая глубже, аспирант обнаружил, что в
полночь установленные на вышках анемометры, измеряющие скорость ветра, автоматически
перезагружались. И иногда в этот момент они выдавали сигнал сильного порыва ветра, что,
конечно, не имело отношения к действительности. Если бы мой ученик не понимал
необходимости тщательно проверять данные, их анализ привел бы к абсурдным выводам.
Но, к счастью, он заметил проблему и смог ее решить.
Неисправность приборов может обойтись очень дорого. В 2008 г. бомбардировщик ВВС
США B-2 Spirit потерпел крушение на Гуаме из-за неверных данных, переданных
намокшими датчиками. Экипаж полагал, что самолет набрал необходимую для взлета
скорость 140 узлов, тогда как на деле она была на 10 узлов меньше.
Вселенной. Тем не менее основная проблема до сих пор заключается в том, что чем более
удалены астрономические объекты, тем ниже их яркость и, соответственно, вероятность
обнаружения. Неспособность как-то исправить эту ситуацию стала причиной смещения
Малмквиста, названного в честь шведского астронома Гуннара Малмквиста, который открыл
этот эффект в 1920-х гг. Смещение Малмквиста проявляется, например, в том, что хотя и
звезды, и галактики имеют одинаковый предел яркости, при котором могут быть
обнаружены, но звезды с большей вероятностью превысят этот порог обнаружения и станут
видимыми, поскольку представляют собой более концентрированные источники света.
Игнорирование этого характерного для темных данных эффекта искажает наше понимание
структуры Вселенной.
Все более мощные телескопы, как наглядный пример технологического прогресса, буквально
раздвигают границы познаваемого мира, а если говорить языком этой книги, то высвечивают
данные, скрытые доселе во мраке. В других областях этой цели служат иные инструменты.
Микроскопы и применение сканирования в медицине позволяют получить новую
информацию о человеческом теле, аэрофотоснимки рассказывают нам о древних
сооружениях на поверхности Земли, а сейсмические приборы и детекторы магнитного поля
дают возможность заглянуть в ее глубины. Эти и множество других инструментов
расширяют возможности нашего восприятия, постепенно раскрывая темные данные.
Объединение наборов данных
Отдельные наборы данных сами по себе имеют огромный потенциал для человечества, но
возможность связывания, объединения или слияния наборов данных из разных источников
создает условия для синергии. Данные одного набора в сочетании с данными другого могут
давать иные типы информации; они могут дополнять друг друга, позволяя отвечать на
вопросы, на которые ни один из наборов данных по отдельности не может дать ответа; или
способны повысить точность, например, благодаря триангуляции и условному расчету, когда
значения, отсутствующие в одном наборе данных, могут быть заполнены с использованием
другого.
Хорошо известно, что подобные методы используют эксперты в области судебной
статистики и правоохранительные органы, выявляющие мошенничества, но в
действительности сфера их применения гораздо шире. Проекты британской сети по
изучению административных данных продемонстрировали мощь такого подхода10. Этот
консорциум университетов и национальных статистических институтов четырех стран
Соединенного Королевства постарался облегчить процессы объединения и анализа
административных данных для исследований в области социологии и государственной
политики. Например, в одном из проектов были собраны данные из нескольких источников
для изучения влияния жилищных субсидий на состояние здоровья бездомных и
использование ими медицинских услуг. Другая объединенная база данных позволила
изучить влияние «топливной бедности» на здоровье граждан. Еще одна объединенная база
данных была создана, чтобы выявить параметры связи между плотностью точек продажи
алкоголя и здоровьем местного населения.
Преимущества такого подхода ярко раскрылись в проекте, который связал данные шести
социальных служб в Соединенных Штатах, чтобы получить четкую картину бездомности в
округе Лос-Анджелес, и в рамках которого была разработана программа строительства 10
000 домов для бездомных с проблемами психического здоровья стоимостью $2 млрд11.
Потенциал подобных проектов неограничен, а сами они демонстрируют возможности
современных технологий обработки данных для того, чтобы нести людям добро. Однако
связывание наборов данных и их объединение не обходятся без проблем, поскольку и здесь
темные данные создают риски. Для объединения наборов данных нужны общие
идентификаторы, чтобы записи в одном наборе можно было соотнести с записями в другом.
61
Но часто данные регистрируются в разных форматах или оформляются в разных стилях, так
что возникают несоответствия. Почти всегда в одной базе данных можно найти записи,
имеющие отношение к людям, которых нет в другой базе данных. Дублирующие друг друга
записи еще больше усложняют ситуацию. Методы сопоставления и связывания данных для
уменьшения объема темной части уже стали важной областью исследований, и в
дальнейшем их значение будет только возрастать по мере накопления больших наборов
данных.
Глава 5
Стратегические темные данные
Уловки, обратная связь и информационная асимметрия
Уловки
Так называемая Директива по гендерным вопросам[2], действующая на территории
Евросоюза, запрещает страховым компаниям использовать параметр половой
принадлежности в процессе принятия решений о размере страхового взноса. Иначе говоря,
она требует, чтобы пол рассматривался в качестве темных данных1. Это означает, что при
прочих равных условиях мужчины и женщины должны платить одинаковые взносы. Иначе
дела обстоят в Канаде, где в 1992 г. Верховный суд разрешил учитывать пол в моделях
оценки рисков. Это решение привело к тому, что один мужчина из Альберты, ошарашенный
суммой, которую ему придется выкладывать за страховку своего Chevrolet Cruze,
официально получил новое свидетельство о рождении, подтверждающее, что он женщина.
При этом он публично заявил следующее: «Я мужчина на 100%, но по закону теперь я —
женщина». Такое легальное сокрытие своего настоящего пола позволило ему экономить
$1100 в год.
Мошенничество, о котором пойдет речь далее, представляет собой попытку сознательно
ввести в заблуждение и путем сокрытия фактов заставить людей поверить в то, что
происходящее имеет иной смысл, чем на самом деле. В отличие от этого уловки, когда
человек переигрывает систему, основаны на использовании в своих интересах
неоднозначных и непреднамеренных аспектов. Темные данные в этом случае возникают не
из-за умышленного сокрытия, а в результате существования лазеек в устройстве самой
системы, которые можно использовать в своих интересах. Это означает, что уловки обычно
не являются незаконными: их цель состоит в том, чтобы, оставаясь в рамках правил и
манипулируя ими, получить преимущество. Уловки — это темные данные DD-тип 11:
искажения обратной связи и уловки.
Так называемая агентская проблема — еще одна иллюстрация темных данных, тесно
связанных с уловками. Она возникает, когда одно лицо (агент) может принимать решения от
имени другого лица (принципала). Очевидно, что эта широко распространенная ситуация,
когда сотрудники принимают решения от имени своего работодателя, а политики действуют
от лица своих избирателей, становится проблемой, если агент заинтересован в выборе в свою
пользу, не отвечающим интересам принципала. Сотрудники начинают использовать знания и
информированность для своей выгоды в ущерб работодателю; политики отворачиваются от
избравшего их народа и начинают действовать в собственных интересах, тем самым вставая
на скользкий путь, ведущий к диктатуре.
Справедливости ради я должен добавить, что мое описание ситуации несколько упрощено и
на деле все обстоит не так мрачно. Например, существует система «внешнего экзаменатора»,
с помощью которой качество обучения и уровень степеней контролируются
представителями других университетов. Более того, университет, который последовательно
завышает оценки, может какое-то время занимать высокие места в рейтингах, но ровно до
тех пор, пока не станет общеизвестным, что многие его студенты с «хорошей» степенью
фактически имеют скудные знания. Тогда работодатели начнут искать выпускников в других
местах, а число студентов университета будет сокращаться, когда станет известно, что его
выпускники не могут найти работу.
Ситуация в школах Великобритании несколько иная. По окончании средней школы
проводятся общенациональные государственные экзамены, которые определяют, кто
перейдет в старшую школу и сможет готовиться к университетскому образованию. Однако
64
Вдобавок школы имеют право голоса при определении того, какие экзамены будут сдавать
их ученики. Действительно, как только ученики получают допуск к государственным
экзаменам, школы могут сами определять, кто из них будет сдавать какие экзамены.
Очевидно, что, распределив по предметам наиболее способных к ним учеников, школы
могут создать искаженное представление о своей эффективности. Здесь мы имеем дело с
темными данными DD-тип 2: данные, о которых мы не знаем, что они отсутствуют. Если
эффективность организации измеряется уровнем ее успешности, то возможность выбора
условий, в которых она с наибольшей вероятностью будет выглядеть успешной, легко
приводит к формированию ложного представления. В августе 2018 г. лондонская The Times
опубликовала статью известной политической журналистки Рэйчел Сильвестр, в которой
утверждалось следующее: «Все больше школ пытаются обмануть экзаменационную систему,
чтобы повысить свой рейтинг в ущерб ученикам… В частных школах поощряют детей
отказываться от тех предметов, по которым у них не предвидятся высшие оценки, — так
школы поддерживают свой средний балл»5. Ученикам, у которых недостаточная
успеваемость, вместо того чтобы оказать помощь, могут предложить покинуть школу, чтобы
не портить статистику. Сильвестр приводит данные британского Управления по стандартам
образования, которое обнаружило, что 19 000 учеников были просто исключены из списков
учащихся незадолго до сдачи государственного экзамена GCSE, который проводится по
достижении 16 лет. Потенциальное пагубное влияние этих действий как на эффективность
самих школ, так и на судьбы учеников очевидно.
Примеры подобных уловок можно найти практически в любой сфере, где оценивается
эффективность:
Поворотный момент для Миссисипской компании наступил в январе 1720 г., когда
некоторые крупные инвесторы начали продавать акции, чтобы зафиксировать свою прибыль.
В таких случаях начинается все с нескольких человек, но их оказывается достаточно, чтобы
цены перестали расти или даже начали падать. Это, в свою очередь, заставляет продавать
других, которые полагают, что пик достигнут, и надеются заработать до того, как цена
упадет слишком сильно. А это, в свою очередь, приводит к еще большим продажам. В
результате цены падают, как правило, еще быстрее, чем росли.
67
Ло приложил немалые усилия для восстановления, среди прочего ограничив размер выплат в
золоте и проведя девальвацию бумаг компании. Но к декабрю 1720 г. цена акций упала до
одной десятой от их пиковой стоимости. Ло стала преследовать толпа, и он в конце концов
бежал из Франции в Венецию, где прожил до самой смерти.
История Джона Ло и его Миссисипской компании действительно впечатляет, но, возможно,
еще более известный исторический пример — пузырь на рынке тюльпанов в Голландии.
В конце XVI в. тюльпаны были завезены в Голландию из Турции. Будучи новым видом
цветов, они и так были недешевы, но, когда появился сорт необычных разноцветных
тюльпанов (что фактически стало следствием болезни растений), цены просто взлетели.
Ограничения на поставки луковиц тюльпанов стимулировали конкуренцию, и цены на
будущие поставки начали расти. Восходящий рынок стимулировал новых участников
покупать луковицы, полагавших, что позже они смогут продать их дороже. И тогда началась
гонка. Люди доставали последние сбережения, продавали дома и поместья, чтобы купить
луковицы тюльпанов. Понятно, что эти сильно завышенные цены не отражали реальной
фундаментальной стоимости актива, а это закономерно привело к тому, что люди в какой-то
момент начали продавать подорожавший актив, стараясь заработать. Последовало
катастрофическое падение цен на луковицы тюльпанов. Многие лишились своих состояний,
а кто-то даже оказался на улице.
Эти истории похожи друг на друга — сначала ценовой бум, затем резкое падение, — и вы,
вероятно, думаете, что только очень наивный человек может влипнуть в одну из них. Но
изнутри пузыри выглядят совсем не так, как снаружи, что подтверждает история Исаака
Ньютона и пузыря Южных морей. В то самое время, когда процветала Миссисипская
компания, английское правительство предоставило Компании Южных морей монополию на
торговлю в этом регионе. Оценив преимущества монополии, инвесторы начали активно
вкладывать в акционерный капитал компании. Цены на акции резко подскочили. Исаак
Ньютон тоже купил несколько акций и продал их в начале 1720 г., получив приличную
прибыль. Но цены продолжали расти. Тогда он решил, что вышел из бумаг слишком рано, и
вернулся в ряды акционеров, вложив весь свой капитал. На этот раз цены росли недолго — в
том же 1720 г. они достигли пика и обрушились. В результате Ньютон потерял почти все
сбережения. И, как вы понимаете, если это случилось с самим Исааком Ньютоном, то может
случиться с каждым.
Звук лопающихся финансовых пузырей доносится не только из далекого прошлого. Так
называемый пузырь доткомов возник на волне интереса к высокотехнологичным компаниям
и был поддержан развитием интернета. Многие стартапы, выпуская акции в обращение,
быстро довели свою рыночную стоимость до миллиардов долларов. Как следствие этого,
акции индекса NASDAQ Composite — индикатора биржи, где торгуются эти компании, —
также выросли в 10 раз с 1990 по 2000 г. (несколько меньше, чем Миссисипская компания,
но все-таки впечатляюще). Затем, когда люди начали осознавать, что акции переоценены, что
их цена иллюзорна и не отражает действительности с точки зрения экономики, случился
крах. К октябрю 2002 г. индекс NASDAQ упал почти до одной пятой своего максимального
значения. Как и в случае с Миссисипской компанией, последствия были весьма ощутимы —
в Соединенных Штатах наступил экономический спад.
цена на жилье упала на треть. Этот крах, в свою очередь, привел к глобальной рецессии,
крупнейшей с 1930-х гг.
А вот самый свежий пример того, как данные искажаются обратной связью (здесь она
недвусмысленно послужила их сокрытию). В 2011 г. Англия и Уэльс запустили
онлайн-карты преступности, позволяющие пользователям видеть, какие преступления были
совершены в непосредственной близости от того или иного места. Тогдашний британский
министр внутренних дел (а затем и премьер-министр) Тереза Мэй сказала: «Я думаю, что
люди по достоинству оценят возможность увидеть, что происходит с преступностью в их
районе — не только на их улице, но и в ее окрестностях». В 2013 г. Департамент полиции
Нью-Йорка выпустил аналогичную интерактивную карту, и в настоящее время такие
системы стали обычным явлением. Их польза очевидна: людям дается возможность
принимать осознанные решения, где лучше купить или арендовать жилье, по какой улице
безопаснее пройти ночью и т.д. Конечно, как и в случае с любыми большими базами данных,
эти карты не идеальны, и порой в них закрадываются ошибки. Например, одна из таких карт
сообщает нам, что на Суррей-стрит в Портсмуте (Гемпшир, Великобритания) совершено 136
преступлений, включая квартирные кражи со взломом, изнасилования и антиобщественные
выступления. Однако ее протяженность меньше 100 м, а все, что там можно увидеть, — один
паб, одна автостоянка и один многоквартирный дом10. Одно из двух: или эта улица ведет в
ад и ее нужно сторониться любой ценой, или есть какие-то искажения на уровне данных.
Но, помимо ошибок с данными, идея карт преступности чревата и менее очевидными
проблемами, связанными с темными данными и обратной связью. Это всплыло, когда
британская страховая компания Direct Line Group провела опрос и сообщила, что «10%
взрослых британцев однозначно либо с высокой вероятностью не сообщат о преступлении в
полицию, поскольку оно появится на карте преступности и может негативно повлиять на
цену сдаваемого ими в аренду жилья и его рыночную стоимость»11. Вместо того чтобы
показывать, где действительно произошли инциденты, карты показывают, в каких районах
люди готовы сообщать о них. Это совсем не одно и то же, и любой, кто принимает решения
на основе таких данных, может легко попасть в сети заблуждения.
Наконец, что касается обратной связи, одним из ключевых психологических факторов,
способствующих надуванию пузырей, является предвзятость подтверждения, с которой мы
уже сталкивались. Это когнитивное искажение заставляет нас подсознательно искать
информацию, которая доказывает нашу точку зрения, и игнорировать данные, которые ей
противоречат. В мире финансов, как и везде, людям приятно, когда они видят подтверждение
собственных выводов и решений, как планируемых, так и уже принятых.
Термин «эхо-камера» пришел из мира акустики и теперь применяется для описания
ситуаций, в которых убеждения, позиции и мнения подтверждают и усиливают сами себя в
виде петель обратной связи. В контексте социальных сетей такая обратная связь может,
например, искусственно раздувать маргинальные взгляды, что ведет к расколу и
экстремизму. Принцип прост: кто-то высказывает свое мнение, оно принимается и
повторяется другими и в конце концов возвращается к своему автору. Этот человек, не
подозревая, что имеет дело с собственным утверждением, говорит: «Вот видите, я знал это!
Другие тоже так думают!»
информации потенциально даже более опасно, чем сокрытие правды под пологом темных
данных.
Информационная асимметрия
Информационная асимметрия — это общий термин для ситуаций, в которых одна сторона
располагает большей информацией, чем другая (DD-тип 12: информационная асимметрия).
Иными словами, для одной из сторон какие-то данные являются темными, и это ставит ее в
невыгодное положение в переговорах или конфликтах. Давайте посмотрим на некоторые
примеры.
В статье 1970 г. с замечательным названием «Рынок “лимонов”: неопределенность качества
и рыночный механизм» лауреат Нобелевской премии экономист Джордж Акерлоф
иносказательно описал, какие тяжелые последствия может иметь информационная
асимметрия. На сленге продавцов подержанных машин «лимонами» называют автомобили
низкого качества или с дефектами. В противоположность «лимонам» качественные
автомобили именуют «персиками».
Покупатели подержанных машин не могут быть уверены в исправности выбранного
автомобиля. При прочих равных условиях их покупка может с одинаковой вероятностью
оказаться и «лимоном», и «персиком». Поэтому покупатели готовы платить только некую
среднюю цену. Но у продавцов есть преимущество — они точно знают, где «лимоны», а где
«персики», и, конечно, не хотят продавать последние за такую среднюю цену. Поэтому
«персики» они придерживают, толкая покупателям одни «лимоны». Покупатели быстро
обнаруживают подвох, и, соответственно, еще ниже опускают цены, по которым готовы
покупать, что, в свою очередь, становится для продавцов еще большим аргументом против
продажи «персиков». Возникает обратная связь, которая заставляет уйти с рынка владельцев
«персиков» и в результате снижает как цены, так и качество продаваемых автомобилей.
В худшем случае это может привести к тому, что цены пробьют дно экономической
целесообразности и рынок прекратит свое существование.
Асимметричная информация часто имеет существенное значение в военных конфликтах.
Например, если одна сторона знает о расположении чужих войск больше, чем другая, она
может получить подавляющее преимущество. Эта концепция лежит в основе стратегии сбора
данных, охватывающей широкий диапазон мер, начиная от стандартной засылки
разведчиков в тыл врага до использования дронов, спутниковых фотографий и взлома
телекоммуникаций.
То же самое относится к шпионажу, когда каждая из сторон пытается получить данные,
которые другая сторона старается сохранить в темноте, поскольку их раскрытие может
нанести огромный ущерб. В 2010 г. аналитик военной разведки США Челси (урожденная
Брэдли) Мэннинг раскрыла через WikiLeaks большое количество секретных документов, в
результате чего жизни политических диссидентов и других людей оказались под угрозой.
В некоторых сферах человеческой деятельности были введены правила, способствующие
решению проблемы информационной асимметрии, например в мире финансов. По словам
экономиста Арджана Реуринка, «чтобы упростить предоставление информации рынку и
снять проблему информационной асимметрии, финансовые регуляторы ввели требования по
раскрытию информации в качестве центрального столпа регулирования на всех развитых
финансовых рынках. Такие требования предписывают эмитентам финансовых инструментов
и поставщикам финансовых услуг раскрывать рынку и своим контрагентам всю релевантную
информацию, делать это своевременно и так, чтобы все участники рынка имели к ней
равный доступ»12. Другими словами, эти правила направлены на обеспечение прозрачности,
чтобы можно было увидеть данные, которые в противном случае оставались бы темными.
70
В целом урок, который можно извлечь из этого раздела, сводится к следующему: постоянно
ищите информационную асимметрию и почаще задавайтесь вопросом: что он, она или они
могут знать такого, чего не знаете вы?
Неблагоприятный отбор и алгоритмы
Рич Каруана и его коллеги описали созданную ими систему на основе машинного обучения
для прогнозирования вероятности смерти пациентов, больных пневмонией. В основном
прогнозы оказывались точными, если только у пациентов вдобавок не было астмы13. В
таких случаях система предсказывала, что риск смерти от пневмонии намного ниже, чем
если бы астмы не было. Казалось, это полностью противоречит здравому смыслу: каким
образом осложнения, мешающие дыханию, могут улучшить ситуацию? За этим стояло либо
крупное научное открытие некоего биологического механизма, помогающего астме
противостоять пневмонии, либо непредвиденные темные данные, которые вводили в
заблуждение и делали выводы недостоверными.
Тщательный анализ показал, что система машинного обучения действительно имела слабые
места, а ее прогнозы были следствием темных данных. На деле пациенты с астмой в
анамнезе были подвержены особенно высокому риску, и их сразу направляли в отделение
интенсивной терапии, где они получали первоклассное лечение. И лечение это было
настолько эффективным, что снижало риск смерти от пневмонии. Система, не зная об
особом подходе к таким пациентам, видела только то, что астматики имели пониженный
риск смерти от пневмонии. Вполне естественно, что она рекомендовала сразу отправлять их
домой.
Фундаментальная проблема здесь кроется в том, что алгоритм машинного обучения не видит
всех значимых данных. И это весьма распространенная проблема, имеющая пагубные
последствия. Порой к ее возникновению приводят самые благие намерения, как это
произошло в следующих примерах.
Многие страны принимают законы против дискриминации или несправедливого обращения
с конкретными группами населения, как в случае со страхованием, который мы
рассматривали в начале этой главы. Например, в Великобритании Закон о равенстве,
принятый в 2010 г., призван «предусмотреть требования к министрам Короны и другим
лицам, принимающим стратегические решения, чтобы они при выполнении своих функций
уделяли внимание сокращению социально-экономического неравенства; противодействовали
виктимизации в конкретных обстоятельствах; требовали выполнения определенных
должностных обязанностей в рамках борьбы с дискриминацией и иными запрещенными
формами поведения; способствовали равенству возможностей…».
В законе дается определение прямой дискриминации: «Один человек (A) дискриминирует
другого человека (B), если A в силу наличия у В защищаемого законом признака относится к
B менее благосклонно, чем он относится или относился бы к другим людям». Далее закон
описывает особенности ряда признаков, запрещая относиться к конкретному человеку менее
благосклонно на основании его групповой классификации, — например, потому что он
мужчина или принадлежит к определенной расе. Затем в законе дается определение
косвенной дискриминации, которая имеет место, «если А применяет к В правила, критерии
или процедуры, являющиеся дискриминационными по отношению к защищаемому законом
признаку, присущему В».
В Соединенных Штатах действует аналогичный закон, в котором термин «неравноправие»
означает, что кого-то преднамеренно ущемляют в правах на основании имеющегося у него
признака из числа приведенных в законе. В то же время понятие «неравное воздействие»
подразумевает внешне одинаковое отношение к группам носителей признаков, но при этом
разное влияние, оказываемое на разные группы.
71
Таким образом, все сводится к тому, что именно вы подразумеваете под словом
«справедливость».
Исследование, проведенное в США, показало, что для мужчин средний кредитный скоринг
составляет 630 из 850, тогда как для женщин он равняется 621. Такое расхождение можно
хотя бы частично объяснить различиями между группами, поскольку мужчины имеют в
среднем более высокую заработную плату, а доход — это один из факторов, включенных в
расчет оценки. Комментируя это исследование, Стью Лэнгилле, директор по стратегии Credit
Sesame, сказал: «В некотором смысле это хорошая новость, ведь исследование показывает,
что между кредитными скорингами мужчин и женщин нет большого разрыва. Но все-таки
оценка не настолько справедлива, как хотелось бы».
Кредитный скоринг не единственный случай, где возникает эта форма темных данных. В
страховании есть схожие структуры, цель которых состоит в том, чтобы построить
статистическую модель для прогнозирования вероятности событий — смерти, болезней,
автомобильных аварий и т.д. В отличие от кредитного скоринга, страховое прогнозирование
в Евросоюзе до недавнего времени могло основываться на любых данных без ограничения.
Но, как мы упоминали в начале этой главы, в 2004 г. была принята Директива ЕС по
гендерным вопросам для борьбы с дискриминацией по половому признаку. В этой директиве
говорится, что страховщики ЕС не должны включать пол в число факторов, определяющих
размеры взносов и выплат. Благодаря ей половая принадлежность оказалась вытесненной в
область темных данных, что поставило страховое прогнозирование на одну ступень с
кредитным скорингом.
Однако Директива ЕС по гендерным вопросам включала пункт о возможном отказе. Он
допускал «различия в размере надбавок и выгод отдельных лиц, когда пол является
определяющим фактором оценки риска на основе соответствующих и точных актуарных и
статистических данных». Иначе говоря, мужчинам и женщинам, идентичным по всем другим
характеристикам в статистической модели, разрешалось платить разные страховые взносы,
если данные показывали, что они имеют разные риски.
Такова одна из точек зрения на понятие «справедливость», и все было бы хорошо, если бы в
2008 г. в Конституционный суд Бельгии не был подан иск, в котором утверждалось, что
данный отказ несовместим с принципом равенства между мужчинами и женщинами.
Судебный процесс растянулся на три года, в марте 2011 г. Европейский суд постановил, что
отказ должен рассматриваться как недействительный начиная с 21 декабря 2012 г. С этого
момента требовать различные страховые взносы от мужчин и от женщин с идентичными
остальными показателями стало незаконным, даже если данные показывают, что их риски
неравноценны. Половая идентичность в этой сфере окончательно перешла в темную зону.
Например, в случае автострахования размер взноса для женщин раньше был ниже, поскольку
данные показывали, что они реже попадают в аварии. Но после внесения в закон поправок
такие различия стали неприемлемы. Это влияние хорошо иллюстрируется таблицей,
опубликованной в лондонской The Telegraph от 21 января 2013 г.15 Средний страховой взнос
для мужчин (с более высоким риском) до внесения поправки составлял £658, а после — £619.
В отличие от этого, средний взнос для женщин составлял £488, а после принятия поправки
73
увеличился до £529. В самой рискованной возрастной группе 17–18 лет размер взноса для
мужчин сократился с £2298 до £2191, а для женщин увеличился с £1307 до £1965.
Но это еще не все. Новые страховые взносы означают, что более рискованной группе,
мужчинам, будет проще покупать страховку, и поэтому они с большей вероятностью это
сделают, в то время как менее рискованная группа, женщины, будет страховаться реже. А
это вряд ли выгодно обществу! Как мы видим, все опять зависит от конкретной
интерпретации «справедливости».
Как правило, размеры страховых взносов основаны на оценке риска наступления страхового
события, когда человек попадает в автомобильную аварию или заболевает и может
предъявить страховое требование. Прогнозирование таких рисков строится на анализе
исторических данных. Например, в случае медицинской страховки людей можно разделить
на группы на основе индивидуальных признаков (возраст, пол, индекс массы тела, история
болезни и т.д.), и данные покажут, какой сегмент каждой группы с одинаковыми
характеристиками составляют люди, имеющие конкретное заболевание. Эти данные могут
быть использованы для оценки того, с какой вероятностью человек с характеристиками,
аналогичными характеристикам каждой из групп, заболеет в будущем. А эта вероятность, в
свою очередь, будет использована при определении размера взноса для каждого в группе,
поскольку считается, что внутри группы вероятность заболеваемости у всех одинаковая.
Производить подобные расчеты — обязанность актуария.
Но давайте посмотрим, что происходит в такой группе людей с течением времени. Члены
группы будут меняться, и при этом меняться по-разному. Некоторые прибавят в весе, другие
бросят курить, третьи перестанут платить страховые взносы, четвертые просто исчезнут из
поля зрения и т.д. Риск заключается именно в том, что каждый меняется по-своему, а вместе
с этим меняется и вероятность заболеваемости: кто-то станет менее восприимчив к болезни,
а кто-то наоборот. Соответственно изменятся и вероятности предъявления страховых
требований.
Те, у кого меньше шансов заболеть, поймут, что вполне могут снизить свои страховые
взносы, заключив договор с другим страховщиком. Благодаря этому в страховом портфеле
компании начнет расти доля людей с более высоким риском. Через некоторое время
страховая компания увидит, что взносы оставшихся людей с высоким риском вряд ли
покроют стоимость их требований. Поэтому она увеличит премии. Затем цикл повторится,
образуя так называемую страховую спираль смерти, которая с каждым витком увеличивает
затраты. Помните рынок «лимонов» Джорджа Акерлофа?
Фундаментальная проблема здесь состоит в том, что расчет страховщика основывается на
среднем значении. Всем в начальной группе был присвоен одинаковый риск, хотя на деле
риски разные. При таком усредняющем подходе любые отклонения от среднего значения
можно рассматривать как темные данные (DD-тип 9: обобщение данных).
Однако в 2017 г. сенат США проголосовал за отмену этого мандата, иначе говоря, за то,
чтобы медицинская страховка не являлась обязательной (эти законодательные изменения
вступили в силу в 2019 г.). Как следствие, мы можем ожидать, что из программы
страхования выпадет непропорционально больше людей с низким риском, чем с высоким,
так что в среднем потребуется больше медицинских услуг и большие расходы. А это, в свою
очередь, будет означать более высокие взносы. Бюджетное управление конгресса
предсказало, что отмена индивидуального мандата заставит 13 млн человек отказаться от
страхования здоровья до 2027 г., что приведет к увеличению размера взносов на 10% в год.
Оценки разнятся, например, Standard & Poor’s называет более низкую цифру, от 3 до 5 млн
человек в течение 10-летнего периода, но в любом случае перспективы не самые радужные.
Существует и целый ряд других осложнений. Одним из них является тот факт, что
страховщики США могут отказаться от участия в программе. Это еще один возможный
источник неблагоприятного отбора, влияющий на качество данных и всю систему
страхования в целом. На момент написания книги ситуация продолжает развиваться, и во что
она выльется, пока не ясно, хотя и весьма любопытно.
В этой главе мы познакомились с тем, какие возможности дают неопределенности и
упущения в правилах, как наблюдение может влиять на процесс генерации данных, как
информационная асимметрия дает одним преимущества перед другими и как все эти аспекты
темных данных воздействуют на алгоритмы. Проблема осложняется тем, что эти аспекты
могут проявляться одновременно, как в случае со «спиралью смерти» в страховании. Но
все-таки манипулирование правилами — это одно, а намеренная подделка данных — нечто
совсем другое. И это именно то, что мы исследуем в следующей главе.
Глава 6
Умышленно затемненные данные
Мошенничество и обман
Мошенничество
Среди мошенников порой встречаются настоящие звезды. Ничто не связывало Виктора
Люстига с Эйфелевой башней, но это не помешало ему продать ее. В 1925 г. он собрал
группу торговцев металлическим ломом и сообщил, что расходы на содержание башни стали
настолько высокими, что городские власти Парижа решили продать ее на металлолом. Это
казалось вполне логичным, ведь изначально башня была построена как временное
сооружение к Парижской выставке 1889 г. Люстиг объяснил, что, естественно, такое
предприятие вызовет общественный резонанс, поэтому важно держать все в секрете, пока
сделка не будет подписана. С поддельными документами заместителя генерального
директора одного из подразделений министерства почт и телеграфа Люстиг провел для
потенциальных покупателей экскурсию по башне, после которой запросил у них
коммерческие предложения. Экскурсия позволила ему присмотреться к торговцам поближе
и выбрать одного из них, Андре Пуассона, как подходящую цель. Люстиг договорился с ним
о частной встрече, на которой намекнул о возможной взятке, чтобы из всех предложений
было принято именно его, Пуассона. Вскоре, положив в карман не только деньги,
вырученные за символ Франции, но еще и взятку, Люстиг бежал в Австрию, заодно получив
известность как «человек, продавший Эйфелеву башню».
Эта история — настоящий шедевр многослойного обмана, который скрывает истинное
положение дел (DD-тип 13: намеренно затемненные данные). Уже после описанных событий
сам Пуассон добавил к обману еще один слой, когда не смог преодолеть своего смущения и
75
Еще более ранний метод кражи персональных данных — вид мошенничества, описанный в
бестселлере Фредерика Форсайта «День шакала»[5]. Эта тактика основана на добывании
свидетельства о рождении уже умершего человека, а затем использовании его для получения
других личных документов, таких как паспорт. В этом случае тот, чья личность похищена, не
испытывает проблем, но зато другие становятся жертвами гнусных целей мошенника.
Используя эту аферу, 39-летний Джеральд Даффи украл личность Эндрю Лаппина, который
погиб в дорожно-транспортном происшествии в 1972 г., когда ему было всего три года.
Даффи использовал эту ложную личность для открытия банковских счетов и получения
кредитов.
78
Можно вспомнить и более эксцентричный пример, когда член парламента Новой Зеландии и
адвокат Дэвид Гарретт оформил паспорт на имя умершего ребенка, предварительно добыв
свидетельство о рождении. Он утверждал, что прочел об этом в книге Форсайта и просто
хотел посмотреть, возможно ли это на самом деле.
Представиться тем, кто умер, или даже тем, кого намеренно убили, было довольно
популярной стратегией кражи личности до появления интернета. Мы, наверное, должны
быть благодарны Сети за то, что она сделала такие убийства ненужными!
Кража личности ребенка особенно проблематична, поскольку она может оставаться
незамеченной в течение длительного времени, возможно, пока ребенок не вырастет. The New
York Times рассказала о случае с Габриэлем Хименесом6. Когда Габриэлю было 11 лет, он
снялся в рекламе в качестве детской модели, и его мать, подававшая за него налоговую
декларацию, обнаружила, что декларация уже подана. Оказалось, что номером социального
страхования мальчика пользовался нелегальный иммигрант. Если взглянуть на эту проблему
с другой стороны, то поддельные документы могут облегчить злоумышленникам доступ к
малолетним жертвам.
Масштабы мошенничества с личными данными были раскрыты в исследовании компании
Javelin Strategy & Research, проведенном в 2017 г. Оно показало, что в 2016 г. жертвами
мошенничества с идентификационными данными стали 6% потребителей в США, или в
общей сложности около 15 млн человек7. Институт страховой информации опубликовал
таблицу с результатами своих исследований на тему кражи личных данных в США8. В
тройку лидеров (или, точнее сказать, в тройку лузеров) с наибольшим количеством краж
личных данных в 2016 г. вошли штаты Мичиган (176 жалоб на 100 000 населения), Флорида
(167) и Делавэр (156). Самым спокойным штатом в этом отношении оказались Гавайи —
всего 55 жалоб на 100 000 населения.
Каждый год всплывают все новые виды мошенничества. Сайт компании Datashield приводит
пять «самых возмутительных» случаев кражи персональных данных9. Конечно, эта пятерка
очень условна и все зависит от критериев, с какими вы подходите к преступлениям, но
попавшие в нее случаи действительно возмутительны. Например, дело Филипа Каммингса,
который украл 33 000 логинов и паролей у своего бывшего работодателя и продал их
преступникам, похитившим благодаря этому, по некоторым оценкам, от $50 млн до $100
млн. Или дело отца двоих детей Малкольма Берда, который был арестован за хранение
кокаина и какое-то время провел в тюрьме, а затем сумел доказать полиции, что его
персональные данные были украдены и использованы для совершения преступления.
Персональные данные крадут для того, чтобы выдать себя за другого человека и как можно
дольше действовать под чужой личиной. Но бывают и исключения. Лондонская The Sunday
Times от 4 марта 2018 г. сообщила, что на сайте знакомств Zoosk есть изображения и
анкетные данные улыбающегося седовласого 58-летнего вдовца, датчанина американского
происхождения по имени Мартин. Это весьма симпатичный мужчина, определенно
привлекающий внимание женщин, ищущих партнера. Любопытно, однако, другое: Мартин
оказался поразительно похож на Кристиана, после развода разместившего свою анкету и
изображение в сервисе знакомств Elite Singles, а также на Себастьяна, пользователя
Facebook. И это сходство было не случайным. Фотографии и анкетные данные принадлежали
одному и тому же человеку — 46-летнему Стиву Бастину. Стив был счастлив в браке и даже
не помышлял об услугах службы знакомств. Кто-то приложил немало усилий, чтобы
проиллюстрировать его фотографиями свои выдуманные истории. Надо полагать, что это
сделать проще, чем пытаться создать личность с нуля. Несколько женщин попались на
удочку, по крайней мере на какое-то время, и, к сожалению, подобное происходит не так уж
редко. В газетах регулярно появляются сообщения о людях, обычно женщинах, которые,
влюбившись в мошенников, отдают им крупные суммы денег — на оплату фиктивных
79
операций или на то, чтобы несчастный смог продержаться, пока не получит наследство (и
такое бывало!) или не состоится вымышленная сделка.
Мошенничество, связанное с идентификацией, можно рассматривать как получение и
использование персональной информации, которую вы хотите сохранить в тайне, то есть
оставить темной, по крайней мере для всех, кроме вас и того сервиса, для которого она
предназначена. Проблемы возникают именно тогда, когда эти темные данные становятся
видимыми для кого-то еще, например в результате кражи. Другими словами, темные данные
сами по себе не являются чем-то плохим. В главе 9 мы рассмотрим способы усиления
защиты своих личных данных, а пока просто скажем, что признаками мошеннической
активности в отношении вас служат расчеты по пластиковой карте за товары или услуги,
которые вы не заказывали, неожиданный выпуск кредитной карты, заявку на которую вы не
подавали, и, конечно, самый очевидный признак — пропажа денег с вашего счета.
Ключевая роль, которую темные данные играют в финансовой сфере, хорошо отражена в
определении финансового мошенничества, данном Арьяном Реуринком. По его словам, это
«действия и утверждения, посредством которых одни участники финансового рынка
дезинформируют и вводят в заблуждение других участников рынка, преднамеренно или по
неосторожности предоставляя им ложные, неполные или искаженные сведения о
финансовых продуктах и услугах или инвестиционных возможностях в нарушение закона,
будь то регулирование, нормативные акты, гражданский или уголовный кодекс»10. Хотя
Реуринк говорит о финансовых рынках, такие слова и выражения, как «дезинформировать»,
«ввести в заблуждение», «ложные» и «неполные», являются характеристиками темных
данных.
Разнообразие видов финансовых мошенничеств ограничивается лишь воображением тех, кто
намерен их совершить. Далеко не все подобные преступления основаны на сокрытии
истины. Чтобы разобраться в некоторых из них, начнем с того, что ближе каждому из нас, —
с кредитных и дебетовых карт.
Казалось бы, такие события должны привести к усилению регулирования, чтобы сделать
методы работы компаний прозрачнее. К сожалению, судя по всему, это не так. Статья в
журнале The Economist за 2014 г. так описывает ситуацию: «Если бухгалтерские скандалы
больше не доминируют в заголовках, как это было в 2001–2002 гг., когда развалились Enron
и WorldCom, то это вовсе не потому, что они исчезли, а потому, что стали рутиной»12. Далее
в статье приводится целый ряд примеров: испанский банк Bankia, исказивший свое
финансовое положение при выходе на открытый рынок в 2011 г.; японская компания
Olympus, скрывшая миллиарды долларов убытков; банкротство Colonial Bank в 2008 г.;
индийская технологическая компания Satyam, приписавшая более $1 млрд на своих счетах.
Подобные случаи можно встретить в компаниях по всему миру, и их куда больше, когда речь
идет не о многомиллиардных мошенничествах. Подумайте, если какие-то массовые
инциденты перестали попадать в заголовки, говорит ли это о сокращении их количества?
Страховое мошенничество
Большинство из нас никогда не сталкивается напрямую с отмыванием денег или
корпоративным мошенничеством, но есть одна сфера, которая так или иначе затрагивает
каждого и где финансовое мошенничество процветает. Речь идет о страховании. Страховое
мошенничество подобно древнеримскому богу Янусу — оно двулико. С одной стороны, это
мошеннические действия клиентов в отношении компаний, с другой — обман
страховщиками клиентов. И то и другое по своей сути является сокрытием информации,
разница лишь в том, кто от кого ее скрывает. И то и другое может быть как спланированным
действием, так и просто спонтанным проявлением беспринципности. Эти виды
мошенничества называют соответственно «преднамеренным» и «непреднамеренным».
Один из способов обмана клиентов — страховые взносы по несуществующим полисам, о
фиктивности которых невозможно узнать до наступления страхового случая, а это может не
произойти никогда. В более масштабном варианте этого мошенничества клиентам продают
полисы несуществующих компаний. Очевидно, что подобные аферы с темными данными
требуют хорошей организации и вряд ли могут быть непреднамеренными. Излишне также
говорить, что Сеть представляет собой идеальную среду для проведения таких операций.
«Накрутка» — еще одна популярная мошенническая стратегия изымания денег у клиентов,
которая требует довольно сложной организации. Она представляет собой серию избыточных
сделок или транзакций, каждая из которых сопровождается взиманием комиссии. В
страховании это может выглядеть как цепочка посредников. Каждая транзакция в
отдельности не вызывает вопросов, и лишь когда становится видна вся картина, всплывает
факт мошенничества. Такие схемы особенно сложны для обнаружения, в какой бы сфере они
ни применялись, ведь каждое их звено совершает абсолютно законные действия.
Однажды крупный потребительский банк нанял меня в качестве консультанта для
разработки инструментов обнаружения мошеннических сетей в системе ипотечных заявок:
если несколько игроков работают рука об руку, чтобы манипулировать ценами, такое
мошенничество распознать непросто. (Хотя тому, кто в этот момент испытает искушение, я
должен сказать, что современные методы сбора и анализа данных для выявления подобных
трюков становятся все более сложными и заметно повышают его риски!)
Существуют легкие версии такого рода мошенничеств, например, когда люди подают иск за
испорченный пищевым отравлением отпуск. Суммы при этом могут быть немалыми. Пол
Робертс и Дебора Бритон из Ливерпуля затребовали £20 000 после совместной поездки в
Испанию. Однако в социальных сетях Бритон написала, что это были «две недели солнца,
смеха, веселья и слез. Мы встретились со всеми нашими прекрасными друзьями, которые
сделали наши дни просто потрясающими. Фантастический отпуск закончен, мы вернулись
домой, но сердцем я все еще там». Если вдруг встретите кого-то вроде Деборы Бритон,
отведите его в сторонку и тихонько намекните, что главный секрет сохранения данных в
темноте заключается в том, чтобы… сохранять их в темноте. Социальные сети
действительно помогают выявлять подобные аферы и судить о здравомыслии тех, кто
пытается совершить мошенничество, или по крайней мере тех, кто был пойман (ведь более
искушенных и так и не пойманных мошенников может быть даже больше). В нашем примере
и Робертс, и Бритон угодили в тюрьму.
Для первых двух этапов, особенно для первого, характерно использование темных данных.
Поскольку внезапное появление большой суммы на счете без внятного объяснения ее
происхождения является подозрительным, правила противодействия отмыванию денег
требуют сообщать регуляторам о крупных транзакциях. По этой причине отмыватели денег
обычно разбивают крупные суммы на несколько небольших, например менее $10 000, если
таков лимит регулятора. Практика дробления суммы на маленькие транши, чтобы оставаться
невидимым для регулирующих радаров, на банковском жаргоне называется смурфингом — в
честь маленьких персонажей всемирно известного комикса.
Предприятия, которые получают значительную часть своего дохода на законных основаниях,
могут использоваться для ввода незаконно полученных средств в систему путем простого
добавления последних к первым под видом того, что все они были получены законным
путем. Легче всего это делать с помощью предприятий сферы услуг: ресторанов, казино,
баров и автомоек. Переход от наличных денег к электронным транзакциям затрудняет это,
делая платежи видимыми и отслеживаемыми.
Азартные игры — еще одна популярная сфера для размещения. Даже если шансы на
выигрыш для отдельно взятой ставки невелики, при большом количестве ставок
определенный процент их выигрывает, а выигрыши могут быть уже задекларированы в
качестве законного дохода. Неизбежный процент потерь на проигрышах можно
рассматривать как стоимость отмывания денег.
Темные данные также лежат в основе инвестиционного мошенничества, которое известно
как схема Понци, или пирамида. Чарльз Понци наживался с ее помощью в 1920-х гг., но сама
схема стара как мир. По крайней мере она подробно описана Чарльзом Диккенсом в романах
«Мартин Чезлвит» и «Крошка Доррит». Такие схемы обещают инвесторам большую
прибыль, но на самом деле инвестированные деньги вообще никуда не вкладываются. Под
видом выплачиваемой прибыли небольшой процент более поздних инвестиций возвращается
более ранним инвесторам. В какой-то момент такая схема неизбежно рушится, когда
заканчиваются новые инвесторы или когда существующие пытаются вернуть свои деньги,
например из-за ухудшения экономических условий. Это срывает покровы с реальности и
обнажает истинную природу такой «инвестиционной» компании. Мошенничество Мэдоффа,
упомянутое в главе 1, как раз строилось по схеме Понци, которая развалилась в 2008 г., когда
в результате финансового кризиса многие инвесторы попытались вернуть свои инвестиции и
вдруг обнаружили, что они испарились. Предотвращению таких схем способствует
прозрачность и, в частности, правила, требующие, чтобы инвесторы могли видеть, что
делают с их деньгами.
Мы уже рассматривали инсайдерскую торговлю, а теперь давайте познакомимся с более
общей формой этого мошенничества — инсайдерским хищением. Труднообнаружимые
инсайдерские хищения заключаются в том, что сотрудники, имея доступ к счетам,
откачивают деньги для собственных нужд. Зачастую это люди, которые не могут
88
Глава 7
Наука и темные данные
Природа познания
Сущность науки
Наука занята выяснением природы вещей и того, как они работают. Она проливает свет на
то, что находится в темноте. Но темные данные лежат в основе самой науки, причем в очень
конкретном смысле. Наука становится таковой, если к ней применим критерий Поппера (в
честь Карла Поппера), или фальсифицируемость. Основная идея заключается в том, что вы
выдвигаете некое потенциальное объяснение изучаемого явления (теорию, догадку или
гипотезу), а затем проверяете его, наблюдая, насколько прогнозируемые вашим объяснением
последствия соответствуют тому, что происходит на самом деле. Если перевести на язык
этой книги, то для подтверждения или опровержения нашей теории, мы должны сопоставить
данные, которые она прогнозирует, с полученными экспериментальными данными. Если
прогнозные данные не соответствуют действительности, то теория заменяется на другую,
модифицируется или расширяется, пока не станет не только успешно подтверждать
прошлое, но и предсказывать будущее. В некотором смысле это пример DD-типа 15:
89
экстраполяция за пределы ваших данных. Разница в том, что такая экстраполяция является
преднамеренной и осуществляется с целью тестирования теории.
До победы научной революции (да и после нее, хотя это не всегда признается) успехи
познания сдерживались (как правило, подсознательным) нежеланием собирать данные,
которые могли бы опровергнуть теорию, — такова уже упоминавшаяся выше предвзятость
подтверждения. Проще говоря, развитию науки препятствовало нежелание сделать темные
данные видимыми. В конце концов, если у вас имеется солидная теория, которой уже
несколько веков, зачем искать данные, которые противоречат ей? Вспомнить хотя бы
миазматическую теорию, господствовавшую в Европе, Индии и Китае с древнейших времен
вплоть до XIX в., которая гласила, что эпидемии вызваны ядовитыми парами гниющей
материи.
Вот мой любимый исторический пример того, как обнаружили подобную проблему.
Философ Фрэнсис Бэкон писал: «Человеческое понимание, единожды утвердившись во
мнении… начинает выискивать все, что согласуется с ним и подтверждает его. И хотя на
другой чаше весов фактов может быть куда больше, тем не менее оно либо просто
пренебрегает ими, выражая свое презрение, либо отклоняет их каким-то иным способом».
Бэкон проиллюстрировал опасность игнорирования данных на примере человека, который
проповедовал, подтверждая свои слова изображениями людей, спасшихся после
кораблекрушения благодаря молитве. Бэкон спросил его, где портреты людей, которые,
несмотря на свои молитвы, все же утонули?
Классическим примером сбора данных для проверки теории являются наблюдения сэра
Артура Эддингтона и Фрэнка Дайсона, целью которых было подтвердить или опровергнуть
общую теорию относительности Эйнштейна. Теория предсказывала, что траектория
световых лучей будет изгибаться при прохождении света вблизи массивных объектов.
Идеальным массивным объектом для наблюдений могло бы стать Солнце, поскольку
кривизну светового потока легко обнаружить благодаря видимому смещению положений
звезд, чьи лучи на пути к Земле проходят вблизи нашего светила. Но дело в том, что Солнце
своим излучением перебивает свет других звезд, за исключением тех случаев, когда его
закрывает Луна. По этой причине в 1919 г. сэр Артур Эддингтон возглавил экспедицию на
Принсипи, остров у западного побережья Африки, а Фрэнк Дайсон — в Бразилию, чтобы из
разных точек наблюдать солнечное затмение, происходившее 29 мая. Их фотографии и
измерения видимых положений звезд во время затмения подтвердили предсказания общей
теории относительности. Это показало, что ньютоновская механика является упрощением и
приближением по сравнению с новой теорией Эйнштейна, которая дает лучшее описание
реальности. Свет воссиял не только в буквальном, но и в метафорическом смысле!
Это описание того, как работает наука, позволяет понять одну очень важную вещь: никогда
нельзя быть уверенным, что вы обнаружили «реальный» механизм явления. Наука дает
объяснения, каждое из которых становится все более точным по мере углубления познания,
но всегда остается возможность опровержения любого из этих объяснений новыми
экспериментальными данными (хотя чем больше экспериментальных данных будет
предсказано новой теорией, тем сложнее это сделать). Такая вероятностная природа теорий,
допускающая их изменение по мере поступления новых данных, — это то, что отличает
науку, например, от религии, которая никак не связана с доказательствами. Поэтому имейте
в виду, что, когда для удобства я буду называть ту или иную научную теорию истинной или
верной, это не значит, что новые данные не смогут ее изменить.
Проще говоря, наука — это процесс. В частности, она не является набором известных
фактов, хотя для простоты, особенно при обучении, научный процесс зачастую подают
именно так. Например, в школе периодическую таблицу элементов и законы Ньютона
преподают как некий незыблемый факт, а вовсе не как результат тщательной проверки идей
90
Точно так же идея плоской Земли на первый взгляд соответствует фактам. По крайней мере,
совершая путешествие, вы не чувствуете, что двигаетесь по изогнутой в большом масштабе
поверхности. Но чем больше накапливалось данных, тем очевиднее становилось, что все не
так просто. Одно из доказательств заключалось в том, что парусные корабли скрывались за
горизонтом, начиная с корпуса и заканчивая верхушкой мачты.
Таким образом, фундаментальный научный процесс — это проверка теорий на основе
наблюдений, результаты которых еще недавно представляли собой темные данные, когда
несоответствие между теорией и данными заставляет отказываться от теории или изменять
ее. Но необходимо понимать, что такое несоответствие может иметь и другие объяснения.
Иногда несовпадение теории и данных может означать, что не все в порядке с данными. Я
очень надеюсь, что многочисленные примеры, приведенные в этой книге, смогли убедить вас
в том, что данным всегда сопутствует риск ошибок, неточности измерений, искажений
выборки и прочих проблем. Вот почему ученые прилагают столько усилий, повышая
точность измерительных приборов и проводя сами измерения в предельно контролируемых
условиях, независимо от того, что они измеряют: массу, длину, время, межгалактические
расстояния, интеллект, мнения, благополучие, ВВП, безработицу, инфляцию или что-то еще.
Точные, надежные и заслуживающие доверия данные являются необходимым условием для
научной истины.
Критерий проверяемости — это то, что отличает науку от лженауки. Придумывать
объяснения несложно (например, «все дело в магии»), но, если они не подверглись строгому
тестированию, мы должны относиться к ним с подозрением. Кроме того, теория, готовая
объяснить любой из возможных экспериментальных результатов, тоже бесполезна — она не
имеет ничего общего с наукой. Теория гравитации, которая утверждала бы, что предметы
падают не только вниз, но и вверх, вбок, и вообще, куда придется, вряд ли была бы полезна.
Напротив, объяснение Ньютона, что массы притягиваются друг к другу и поэтому тело
падает вниз, вполне научно: его можно проверить. И после того, как верность теории
многократно подтверждается данными, она становится частью канона знаний, и мы можем с
ее помощью делать прогнозы и создавать устройства на ее основе.
вокруг ядерной бомбы. Но ядерное оружие никак не назовешь удобным или практичным
методом энергоснабжения! Поэтому в мире сейчас осуществляется целый ряд крупных
исследовательских проектов, нацеленных на решение проблемы получения давления и
температур, необходимых для управляемого термоядерного синтеза, а также проблемы
удержания полученной в результате высокоэнергетической плазмы. Поскольку плазма
прожигает любой материал, она должна находиться внутри идеально настроенного
магнитного поля, которое не позволяет ей соприкасаться со стенками физического
контейнера. Хотя над такими проектами работают уже давно, еще ни разу не удалось
получить больше энергии, чем было затрачено. (По этой причине о термоядерном синтезе
иногда в шутку говорят, что до овладения им всегда остается 30 лет.)
Кельвин ошибся, потому что ничего не знал о термоядерном синтезе, но были и такие, кого
ввели в заблуждение неверные данные. В 1989 г. два физика, Мартин Флейшман и Стэнли
Понс, объявили, что им удалось осуществить холодный ядерный синтез без нагрева
исходных материалов до невероятно высоких температур, просто пропуская электрический
ток через раствор лития в оксиде дейтерия. Поскольку оксид дейтерия — одна из форм воды
(называемая также тяжелой водой), запасы которой потенциально не ограничены, это
произвело бы революцию в обществе. Заявление физиков, естественно, вызвало большой
резонанс, и лаборатории по всему миру поспешили повторить эксперимент. Некоторые из
них, как казалось, преуспели — например, лаборатории в Москве и Техасе, — но
большинство потерпело неудачу.
г. Лайнус Полинг и его коллега Роберт Кори представили в журнале Proceedings of the
National Academy of Science статью «Предполагаемая структура нуклеиновых кислот».
Два других исследователя, Фрэнсис Крик и Джеймс Уотсон из Кавендишской лаборатории,
ранее уже предполагали, что структура представляет собой тройную спираль, но отвергли
эту гипотезу на основе данных, предоставленных химиком и рентгеновским
кристаллографом Розалинд Франклин. Когда Крик написал Полингу, указывая на некоторые
проблемы в модели тройной спирали, Полинг сделал именно то, что подразумевает ранее
описанный научный процесс: он попытался изменить свою теорию, чтобы соответствовать
данным. Тем временем Крик и Уотсон искали альтернативные модели, и новые данные от
Джерри Донохью, специалиста по водородным связям, позволили им найти такую
альтернативу, которая соответствовала всем данным, — ту самую двойную спираль.
Какое-то время Полинг еще сопротивлялся и не хотел признавать свою неправоту, заявляя,
что с нетерпением ждет возможности увидеть, какая из моделей окажется верной. Но когда в
апреле 1953 г. он побывал в Кембридже, изучил структуру, предложенную Криком и
Уотсоном, и посмотрел рентгеновские снимки, то мужественно признал, что его коллеги,
похоже, действительно решили проблему.
Сама природа науки такова, что даже самые способные и выдающиеся ученые могут
ошибаться, особенно если у них недостает данных. Например, лорд Кельвин, упомянутый
ранее, хотя и был блестящим ученым, сделал немало ошибочных предложений. Когда
Вильгельм Рентген объявил об открытии X-лучей, первое, что сделал лорд Кельвин, —
обвинил его в обмане. Он также заявлял, что ни воздушный шар, ни аэроплан никогда не
принесут практической пользы. А Альберт Майкельсон (тот самый, который вместе с Морли
убедительно доказал специальную теорию относительности Эйнштейна) в 1894 г., незадолго
до открытия квантовой механики и теории относительности, написал: «Кажется,
большинство основополагающих принципов [физики] твердо установлено».
Сэр Фред Хойл — еще один выдающийся ученый, который создал теорию, опровергнутую
при сравнении ее прогнозов с реальными данными. Хойл добился значительных успехов в
понимании Вселенной, в частности, в вопросе происхождения тяжелых элементов. В науке
господствовала теория о том, что элементы сформировались в самом начале существования
Вселенной, но неожиданно расчеты показали, что некоторые этапы процесса объединения
более легких элементов в более тяжелые слишком нестабильны. Хойл предложил
альтернативное объяснение: тяжелые элементы могут быть синтезированы в звездах путем
ядерного синтеза — процесса, который мы уже обсуждали выше. По словам Хойла,
синтезированные в ядрах древних звезд, эти элементы разносятся по Вселенной в результате
взрывов сверхновых. Именно так материя постепенно аккумулируется, образуя планеты,
луны и нас с вами. Эта теория выдержала испытание временем, сделав Хойла одним из
самых авторитетных британских физиков середины XX в. Но не все идеи Хойла были
настолько успешными.
После того, как данные о расстоянии между Землей и звездами показали, что Вселенная
расширяется, бельгийский физик Жорж Леметр логично предположил, что, возможно,
Вселенная возникла миллиарды лет назад как крошечная сверхплотная и горячая точка.
Поскольку понятие тестируемости является ключевым для науки, а проверить эту теорию,
похоже, не представляется возможным, она не привлекла большого внимания. Но затем
Хойл предложил альтернативу Большому взрыву Леметра (попутно и введя этот термин).
Что, если Вселенная находится в состоянии непрерывного творения и новая материя
появляется постоянно? Эта космологическая модель известна как теория стационарной
Вселенной. Существование двух конкурирующих теорий всегда стимулирует поиск данных,
поскольку хотя бы одна из них должна быть ошибочной. В этом случае постепенно
накапливались доказательства в пользу теории Большого взрыва. Но Хойл не сдавался: он
94
когда мы еще мало знаем о лобных долях, имеется достаточно доказательств серьезных
нарушений, вызванных их удалением у лиц, не страдающих психотическим
расстройством»2. Процедура имела массу побочных эффектов, таких как рвота, недержание
мочи и кала, летаргия, апатия и множество других. На другой же чаше весов находилось
утверждение, что лоботомия делает спокойнее и проще жизнь семей пациентов. По этому
поводу кибернетик Норберт Винер сказал: «Позвольте мне мимоходом отметить, что
убийство [таких пациентов] еще больше облегчает их содержание»3. К счастью, частота
применения этой процедуры стала снижаться с середины прошлого века, когда были
разработаны соответствующие лекарственные препараты. В настоящее время мы гораздо
лучше понимаем мозг и любые нейрохирургические вмешательства представляют собой
точные и тщательно контролируемые операции, сопровождающиеся сложными
технологиями сканирования. Эти технологии позволяют нам видеть структуру мозга в
трехмерном изображении, по сути, вытаскивая темные данные на свет.
радиометра Дикке. Первоначально этот прибор был создан для тестирования спутниковой
связи, но Пензиас и Уилсон использовали его в качестве радиотелескопа. Однако они никак
не могли устранить фоновые шумы — не помогало даже охлаждение антенны. Были изучены
даже самые нелепые объяснения проблемы, например то, что шумы вызваны пометом
голубей, облюбовавших радиометр. Прибор был очищен, но помехи не исчезли. По
счастливому совпадению, Роберт Дикке, которого в тот момент как раз занимал поиск
доказательств, подтверждающих идею о том, что после Большого взрыва осталось
реликтовое излучение, посетил их лабораторию. Во время встречи с Пензиасом и Уилсоном
он догадался, что они совершенно случайно наткнулись на те самые доказательства, которые
он искал. В 1978 г. их открытие было отмечено Нобелевской премией по физике, которую
они разделили с Петром Капицей, награжденным за его работу в области физики низких
температур.
Мораль этой истории заключается в том, что, хотя большинство аномалий и сбоев в данных
являются экспериментальными ошибками или неточностями измерений, некоторые из них
могут привести к фундаментальным прорывам. Ниже приведено еще несколько интересных
примеров таких случайностей.
Когда в ходе исследования химик Б. С. Субба Рао изучил 57 препаратов и обнаружил, что
одно из них ведет себя аномальным образом, он хотел проигнорировать этот странный
результат и опубликовать результаты, полученные на остальных 56 препаратах. Его решение
имело смысл, поскольку 56 препаратов были подготовлены под тщательным контролем, в то
время как процесс подготовки 57-го отличался. Но его сотрудник, американский химик
английского происхождения Герберт Браун, почувствовал, что они должны докопаться до
сути, и продолжил исследование. Это привело Брауна к открытию химической реакции,
называемой гидроборированием, и к Нобелевской премии.
Немецкий инженер-механик и физик Уильям Рентген заметил, что пропускание тока
высокого напряжения между двумя электродами в вакуумированной стеклянной колбе
вызывало свечение платино-бариевого экрана, расположенного в трех метрах от него, хотя
колба была закрыта плотным черным картоном. Так были открыты рентгеновские лучи.
Планета Уран также была случайно обнаружена немецким астрономом Уильямом Гершелем,
когда он заметил едва видимый глазу объект, который изменил положение на фоне
неподвижных звезд.
Говорят, что Александр Флеминг открыл пенициллин, перебирая чашки Петри с колониями
бактерий Staphylococcus — он случайно заметил на одной из них плесень и обнаружил, что
на этом участке не было бактерий.
В своей основополагающей работе «Структура научных революций»[7] философ Томас Кун
пишет: «Именно это и происходит с новыми фундаментальными фактами и теориями. Они
создаются непреднамеренно в ходе игры по одному набору правил, но их восприятие требует
разработки другого набора правил. После того как они становятся элементами научного
знания, наука… никогда не остается той же самой»7. Однако будьте бдительны: все новое,
аномальное и неожиданное, хотя и может оказаться вспышкой света, озаряющей скрытые
темные данные, чаще бывает просто следствием неточности измерений или
экспериментальных сбоев, которые делают данные нерезкими и отвлекают внимание.
Темные данные и общая картина
В известной статье Джон Иоаннидис, профессор медицины и статистики в Стэнфорде,
утверждает: «Можно доказать, что большинство заявленных результатов исследований
являются ложными»8. Это смелое утверждение сделало его одним из самых цитируемых
ученых.
97
Такая точка зрения вполне обоснованна, более того, причины для ее появления существуют
уже на протяжении десятилетий. Благодаря тому, что Иоаннидис привлек к этой проблеме
внимание, она получила неожиданно большой резонанс в научной и, в частности,
медицинской исследовательской литературе, вызвав широкий интерес и спровоцировав
волну опасений. И что еще более удивительно — последующие прения по этому вопросу
показали, насколько широко распространены базовые заблуждения относительно самой
природы научного процесса. Причем зачастую заблуждаются именно те, кто должен лучше
всех знать ответы на острые вопросы: «Почему наука перестала удовлетворять основному
критерию воспроизводимости?», «Нарушен ли процесс научного познания?»,
«Действительно ли наука столкнулась с кризисом воспроизводимости?».
Ниже приводятся некоторые цифры, позволяющие обосновать утверждение Иоаннидиса в
контексте различных дисциплин.
Опрос, проведенный журналом Nature, показал, что более 70% из 1576 респондентов
пытались воспроизвести чужую работу и не смогли этого сделать10. Конечно, не следует
принимать результаты этого опроса за чистую монету — вполне вероятно, что они искажены
темными данными. Например, те ученые, которые не смогли воспроизвести чью-либо работу
в прошлом, были более склонны отвечать на вопросы, чем те, кто преуспел в этом деле. Или,
возможно, было какое-то одно исследование с аномальными результатами, которые многие
респонденты пытались, но не смогли воспроизвести (вспомните случай с холодным ядерным
синтезом). Тем не менее даже с учетом этого их доля поразительно велика.
Гленн Бегли и Ли Эллис провели работу, нацеленную на воспроизведение результатов 53
ключевых доклинических исследований методов лечения рака. Они обнаружили, что
результаты воспроизводятся только в 6 из 53 исследований, что составляет всего 11%11.
наука куда сложнее. И это нормально. Сама природа научных исследований указывает на то,
что они проводятся на границах известного — там, где доминирует неопределенность.
Поскольку исследователи пытаются выделить некий крошечный сигнал из шума, разумно
ожидать, что часто этот шум будет влиять на результаты, сдвигая их в неверном
направлении. В самом деле, мы могли бы пойти дальше и заявить, что, если бы не было
экспериментальных результатов, которые не прошли тест на воспроизводимость, это
означало бы, что ученые просто не выполняют свою работу. Иными словами, они
недостаточно предприимчиво и креативно раздвигают границы нашего понимания.
Смысл всего вышесказанного заключается в том, что процесс научного познания не
нарушен. Невоспроизводимость является признаком того, что наука остается наукой, что
гипотезы проверяются, а те, которые не соответствуют действительности, в итоге
отклоняются. Кроме того, мы видим, что наука действительно работает. Достаточно
взглянуть на наши успехи в понимании природы и передовые технологии, воплощенные в
материалах, машинах и медицине.
Однако, даже если научный процесс не нарушен, очевидно, чем меньше изначально
неверных выводов, тем лучше (при условии, что верные научные теории отклоняются на
раннем этапе не слишком часто). И путь к этому лежит через улучшение проектирования
исследований. Но, кроме того, существуют аспекты научной культуры, которые часто
побуждают людей идти на риск и заставляют переступать границу. Иоаннидис и многие из
тех, кто высказывался на эту тему после, обращали внимание на эти аспекты. Мы еще
вернемся к ним, но прежде проведем аналогию с космической программой США.
термин, и мы о нем еще будем говорить подробнее. Пока же вкратце: значимым результатом
является тот, который вряд ли будет получен, если тестируемая гипотеза верна. Поэтому,
если он все же получен, это заставляет усомниться в истинности гипотезы. И наоборот,
незначимый результат — это тот, который подтверждает гипотезу, тот, о котором и говорят:
«Да, это именно то, что я ожидал». «Журнал незначимых отклонений» публикует только те
исследования, которые дают незначимые результаты, с целью донести «до понимания тот
факт, что исследования не должны быть обязательно значимыми, чтобы обеспечить ценными
сведениями процесс познания»14. (Между прочим, существует еще и «Журнал
невоспроизводимых результатов» (The Journal of Irreproducible Results), основанный в 1955
г., но это журнал научного юмора — не перепутайте их!15)
Почему же предпочтение оригинального и необычного может приводить к
невоспроизводимым результатам? Да, экстремальные, нестандартные или аномальные
значения могут возникать в силу истинности некоего явления: возможно, этот препарат
действительно намного эффективнее, чем другие, или этот сплав действительно химически
менее активен, чем ожидалось. Но такие значения чаще возникают по причине случайных
колебаний. Случайное совпадение исходных условий (примеси в препарате или сплаве,
участники психологического эксперимента, подверженные погодному влиянию) или простая
ошибка измерения могут привести к неожиданно высоким или низким значениям. В конце
концов, как мы успели убедиться, никакие измерения не являются абсолютно точными и
никогда две экспериментальные установки или образцы не будут полностью идентичными.
Из этого следует, что маловероятно, чтобы такая же случайная конфигурация или ошибка
измерения повторилась при воспроизведении эксперимента. В среднем, как мы уже видели в
главе 3, когда исследовали возврат к среднему значению, следует ожидать, что последующие
репликации приведут к значениям, которые будут менее экстремальными. Нас не должно
удивлять, если аномальный результат исчезнет, и мы должны ожидать, что «заявленные
результаты исследований окажутся ложными», как выразился Иоаннидис. С точки зрения
этой книги необычно экстремальные значения возникают из-за определенного вида темных
данных — ошибки измерения, которая искажает базовые значения.
Склонность редакторов научных журналов публиковать только будоражащие воображение
результаты — лишь конечное звено цепи. За ним скрывается тот факт, что авторы сегодня
стараются не писать статей, которые, по их мнению, имеют слабые шансы быть принятыми к
публикации, а это уже имеет довольно неожиданные последствия.
Особый престиж исследованиям придают публикации в авторитетных журналах, таких как
Nature или Science, имеющих значительный коэффициент влиятельности, или
импакт-фактор. Это показатель, основанный на количестве цитирований журнальных статей,
то есть характеризующий степень уделенного им внимания. Исследователи с большей
вероятностью предоставят престижным журналам впечатляющие «прорывные» результаты,
чем результаты более скромные, но не менее важные просто потому, что понимают их
предпочтения (DD-тип 4: самоотбор). Это, в свою очередь, означает, что журналы, как
правило, выделяют и публикуют наиболее захватывающие достижения из предложенных к
публикации, что еще выше поднимает и без того высокий престиж впечатляющих
результатов (DD-тип 11: искажения обратной связи и уловки). Но такие выдающиеся
результаты будут, скорее всего, невоспроизводимы по причине возврата к среднему
значению, о чем мы уже говорили. Кроме того, подобная ситуация провоцирует некоторых
исследователей подгонять результаты своей работы, чтобы увеличить шансы на публикацию
в журналах с высоким импакт-фактором (как мы увидим позже, зачастую честный выбор
значений от выбора мошеннического отделяет очень тонкая грань). Вследствие этого, более
престижные журналы, скорее всего, будут публиковать менее достоверные результаты.
100
девяти цифр, идущих по порядку (123456789). Затем, в случае неудачи, мы можем заняться
поиском последовательности чередующихся цифр (например, 2323232323). Если и эта затея
не удастся… В итоге, если продолжать в том же духе достаточно долго, мы обязательно
найдем в наших данных некоторую повторяющуюся структуру. Но вот проблема: эта
структура, эта аномалия не будет иметь ничего общего с реальной закономерностью. Если
повторить этот эксперимент и сгенерировать еще одну тысячу цифр в случайном порядке, то
нет никаких оснований предполагать, что мы найдем среди них такую же необычную
конфигурацию. Открытия не состоится — оно не будет воспроизводимым.
Экономист Рональд Коуз вкратце описал эту ситуацию, заявив, что, если пытать данные
достаточно долго, они непременно признаются. Но, как известно, признания, полученные с
помощью пыток, далеко не всегда отражают истину. В нашем примере цифры были
сгенерированы случайным образом и в структурах, которые мы можем в них обнаружить,
нет никакого скрытого смысла.
Концепция p-хакинга формализует эту ситуацию. Начнем с того, что фундаментальным
инструментом в научных исследованиях является проверка значимости. Это формальная
статистическая процедура для проверки гипотез. Она начинается с расчета сводной
статистики для нашей выборки. Например, мы можем обобщить выборку, используя среднее
значение, медиану или дисперсию, в зависимости от того, какой аспект данных нам
интересен. Теперь, если мы возьмем другую выборку, вполне вероятно, что ее сводная
статистика будет иметь другие значения. Таким образом, если взять множество выборок,
можно получить распределение статистических значений. Статистические методы
позволяют рассчитать форму этого распределения, если допустить, что наша гипотеза верна.
Затем, сравнивая фактические наблюдаемые значения сводной статистики с этим
распределением, мы можем увидеть, как часто нам следует ожидать экстремальных значений
в случае, если гипотеза верна. Вероятность получить для данной модели распределения
значений такое же или более экстремальное значение статистики по сравнению с ранее
наблюдаемым называется p-значением проверки. Очень низкое p-значение, скажем, равное
1%, будет означать, что если наша гипотеза верна, то мы должны получить выборку с такими
же или более экстремальными значениями лишь в 1 из 100 случаев. Это говорит о том, что
либо наша гипотеза верна и произошло маловероятное событие, либо гипотеза ошибочна.
Для удобства p-значения сравнивают с обычными пороговыми значениями. Если наш анализ
дает p-значение, не превышающее порогового значения, то говорят, что результат является
статистически значимым для этого порогового уровня. Так, если мы выбрали порог 5%,
тогда p-значения той же величины или меньше позволят нам утверждать, что результат
значим на уровне 5%.
Приведу пример. Допустим, я выдвигаю предположение, что некая монета абсолютно
честная, то есть вероятность выпадения решки всякий раз, когда я подбрасываю ее, будет
равна 50%. Чтобы проверить это, я должен много раз подбросить монету и посмотреть, какая
доля исходов придется на решку. Предположив, что монета честная, я бы ожидал, что это
будет около половины всех бросков, но совсем не обязательно орлы и решки выпадут
совершенно одинаковое число раз. Напротив, я бы как раз ожидал некоторого
незначительного отклонения от 50%, но не слишком большого, и уж тем более не
экстремального. Проверка значимости сообщит нам вероятность (при условии, что монета
честная), с которой мы можем наблюдать отклонение равное или превышающее отклонение,
полученное в ходе эксперимента. Очевидно, что если маловероятные экстремальные
результаты все-таки получены, то имеет смысл усомниться в истинности выдвинутой
гипотезы. Например, шанс того, что при подбрасывании честной монеты решка выпадет 90
или более раз из 100, астрономически мал (этот шанс и представляет собой p-значение).
102
Поэтому, если такое все же произошло и монета 90 раз из 100 упала решкой вверх, мы
должны заподозрить, что она нечестная.
Между прочим, смысл p-значения часто понимается абсолютно неверно. Принято думать о
нем как о показателе вероятности того, что гипотеза верна. Это не так. Гипотеза либо верна,
либо ошибочна, а p-значение просто показывает вероятность получения определенных
экстремальных результатов в первом случае, то есть когда гипотеза верна.
Итак, мы разобрались с «р-значением», но что означает «p», если к нему добавить «хакинг»?
Этот термин появился благодаря пагубной практике проводить бесконечное множество
проверок значимости без учета их количества. Почему это становится проблемой, понять
несложно. Предположим, что мы проверяем 100 никак не связанных между собой гипотез,
каждая из которых верна, но нам это неизвестно. Далее предположим, что мы рассматриваем
p-значение на уровне 2% для любой из этих 100 гипотез как достаточно низкое, чтобы
отнестись к ней с сомнением. Для каждой взятой в отдельности проверки значимости это
вполне разумно, поскольку означает, что вероятность ложных подозрений в отношении этой
единственной гипотезы, если она верна, составляет всего 2%. Но в случае, если вы проводите
для каждой из 100 гипотез 100 проверок с уровнем p-значения 2%, получается, что
вероятность возникновения сомнений по крайней мере для одной из них составит 87%.
Скорее всего, вы решите, что хотя бы одна из гипотез является ошибочной, даже если все
они будут верны. Вспомните о достаточно долгих пытках данных! Если вы скрываете тот
факт, что провели 100 проверок, по сути, превращая их в темные данные (DD-тип 2: данные,
о которых мы не знаем, что они отсутствуют), то ваши выводы могут быть очень
обманчивыми.
Такая грубая ошибка допускается в научной литературе раз за разом. Рандомизированное
исследование, проведенное в 1987 г. на материале четырех ведущих медицинских журналов,
показало, что «74% всех испытаний имели по меньшей мере одно сравнение, отклонившее
верную гипотезу, а 60% имели по меньшей мере одно сравнение, подтвердившее
ошибочную, что явилось негативным следствием статистической проблемы множественных
сравнений. Ни в одном из испытаний, в которых были обнаружены нарушения, не
рассматривалось потенциальное влияние проблемы множественных сравнений на сделанные
выводы». Под «негативным следствием… множественных сравнений» авторы
подразумевают, что в исследованиях не учитывалась многочисленность статистических
тестов, поэтому ложноположительные результаты были весьма вероятными. Хотелось бы
надеяться, что эта проблема уже осталась в прошлом, однако по опыту могу сказать, что она
до сих пор недостаточно осознается17.
Давайте обратимся к классической статье по этой проблеме, написанной Крейгом Беннеттом
и его коллегами, которая гораздо интереснее, чем можно ожидать судя по названию:
«Нейронные корреляции межвидового восприятия, полученные после смерти атлантического
лосося: аргумент в пользу коррекции множественных сравнений»18. Статья основана на
результатах МРТ-сканирования мозга мертвого лосося, которому «показали серию
фотографий, изображающих людей в различных ситуациях и… попросили определить, какие
эмоции они испытывают». Вероятно, вы и без экспериментальных данных уже сделали свой
вывод о реакции мозга мертвого лосося на показ фотографий. Но дело в том, что результат
МРТ-сканирования представляет собой примерно 130 000 элементов объемного
изображения, которые по аналогии с двумерными пикселями называют вокселями. И каждый
из этих вокселей имеет небольшой шанс показать электрическую активность сканируемого
материала исключительно в силу случайных фоновых шумов оборудования, а вовсе не
потому, что клетки мозга мертвого лосося действительно реагируют. И хотя отдельно взятый
воксель имеет лишь крошечный шанс дать ложный сигнал, вероятность его появления резко
возрастает с учетом большого количества самих вокселей. Суммируйте огромное число
103
Кстати, замечу: все это совсем не означает, что вышеозначенные лица не страдали
нарушениями функций мозга. Просто заключение о таких нарушениях почти наверняка
можно сделать даже для группы здоровых людей.
Тем не менее иногда нам действительно требуется оценить широкий ряд аспектов набора
данных. Например, в клиническом исследовании мы могли бы измерить 100 характеристик
пациентов, сравнивая две группы, и попытаться узнать, отличаются ли они по какой-либо из
них. (Действительно, если организуется дорогостоящее исследование, то имеет смысл
измерить как можно больше вещей.)
104
За последние три десятилетия был разработан целый ряд существенно более действенных
инструментов решения проблемы множественных проверок. Многие из них являются
расширенными и усовершенствованными вариантами метода Бонферрони, например
контроль последовательности, в которой проводятся испытания. Но особенный прогресс в
этом вопросе произошел благодаря работе Йоава Бенджамини и Йосефа Хохберга. Они
переключили внимание с p-значения (то есть вероятности сделать неверный вывод, если
гипотеза верна) на так называемую частоту ложных открытий. Это ожидаемая доля ошибок
среди гипотез, помеченных как ложные. По всей видимости, такой подход эффективнее: он
показывает, с какой вероятностью мы допускаем ошибку, когда признаем, что гипотеза
неверна.
Помимо p-хакинга существует и другая, более фундаментальная причина неспособности
воспроизвести результаты — потенциальные различия в условиях эксперимента. Отчеты об
экспериментах, приведенные в научной литературе, традиционно должны быть краткими:
этого требует стоимость публикации одной страницы в научных журналах (хотя сегодня, в
эпоху интернета, такое ограничение уже не является необходимым), поэтому статьи редко
описывают процедуры исследований в мельчайших деталях. К тому же, как мы уже
говорили, сами исследования находятся на границе известного, и незначительные изменения
условий эксперимента могут оказать большое влияние на его результаты.
Один из возможных ответов на этот вопрос состоит в том, что теория может и впрямь
оказаться верной. Люди строят необоснованные догадки, и иногда они оказываются
удачными, хотя такой подход никак не назовешь разумной стратегией для успешной научной
карьеры. Другой ответ заключается в том, что мошенническая теория может оставаться
неопровергнутой не только при жизни ее создателя, но и на протяжении целых столетий.
Такая возможность выглядит соблазнительно для того, кто настолько убежден в правоте
своей теории, что готов подгонять или фальсифицировать данные в надежде скрыть обман.
Некоторые из величайших ученых подозревались в махинациях со своими данными, в том
числе Роберт Милликен, Луи Пастер, Джон Далтон, Грегор Мендель, Галилей и даже сам
Ньютон. Далее мы рассмотрим дело Милликена, поскольку его записные книжки с данными
сохранились и мы можем сопоставить с ними выдвинутые против него обвинения. В других
же случаях точных данных нет, поэтому установлением истины должна заняться судебная
статистика.
Особенно интересно здесь то, что люди, перечисленные выше, справедливо считаются
сегодня великими учеными, в том числе и потому, что дальнейшие исследования и
106
Даже если выясняется, что теория, основанная на мошеннических данных, ошибочна, само
мошенничество при этом может и не вскрыться. Природа науки подразумевает
существование множества несостоятельных теорий, которые первоначально соответствуют
данным и лишь позже начинают сыпаться. Однако если нет причин для пересмотра данных,
на которых была основана теория (при условии, что они все еще доступны), то ее провал, как
правило, списывают на неточность измерений, случайные колебания или какой-нибудь иной
недостаток, но ни в коем случае не на мошенничество.
Однако иногда такие случаи все же обнаруживаются, и даже спустя много лет после самого
события блестящая карьера может в одночасье рухнуть. Большинство мошенников от науки
действуют по одной схеме — они начинают с небольшого обмана, а затем, воодушевленные
успехом, увеличивают его масштаб. Так происходит до тех пор, пока кто-нибудь не начнет с
пристрастием анализировать их настоящие — и прошлые — эксперименты и данные. И
вскоре здание, построенное на обмане, рушится.
Сэр Сирил Берт был выдающимся психологом: в 1968 г. он стал первым неамериканским
лауреатом престижной премии Эдварда Ли Торндайка, присуждаемой Американской
психологической ассоциацией. Но вскоре после его смерти в 1971 г. возникли подозрения в
отношении его работы по наследственности интеллекта, когда Леон Камин отметил, что
некоторые коэффициенты корреляции Берта (указывающие, насколько схожие значения
могут принимать две переменные) из разных экспериментов, были одинаковыми с
точностью до трех знаков после запятой. Вероятность такого совпадения ничтожна.
Несколько авторитетных ученых согласились с тем, что Берт совершил мошенничество,
другие же указывали на то, что были исследователи, получившие аналогичные значения
коэффициентов корреляции. Артур Дженсен, например, утверждал, что «никто, имеющий
опыт в статистике, а Берт был чрезвычайно опытен, не станет регистрировать значение
корреляции 0,77 три раза подряд, если захочет подделать данные»21. Это интересный
аргумент. По сути, он говорит о том, что любой, кто планирует совершить научное
мошенничество, должен сделать свое намерение очевидным, поскольку тогда никто не
поверит, что он может быть настолько глупым. Я очень сомневаюсь, что такой довод можно
назвать серьезным. Важно еще и то, что это обвинение в мошенничестве было основано в
том числе на факте уничтожения улик: все записи Берта были им сожжены, поэтому никто
не мог проверить коэффициенты или убедиться в существовании данных, на которых они
были получены.
Первые шаги по этой скользкой дорожке обычно выглядят как нечто само собой
разумеющееся. Дело в том, что на каком-то этапе исследований каждый ученый принимает
субъективные решения о том, какие данные являются приемлемыми, а какие следует
отклонять. В конце концов, если вы заметили, что участник контрольной группы,
взвешиваясь, не снял тулуп, а участница была на высоких каблуках, когда измеряли рост,
ничто не мешает вам со спокойной совестью исключить эти данные из анализа. Но что, если
вы обнаружили неисправность весов, а значит, и усомнились в точности предыдущих
измерений или вы не можете вспомнить, все ли участники контрольной группы снимали
обувь при измерении роста? Означают ли эти подозрения, что вы должны отклонить все
собранные данные? В подобных случаях разные исследователи могут принимать разные
решения.
О возможностях мошенничества в науке известно довольно давно. В разделе 3 главы 6 своей
классической книги «Размышления об упадке науки в Англии и о некоторых его причинах»
(Reflections on the decline of science in England), вышедшей в 1830 г., Чарльз Бэббидж,
107
Если говорить о науке, то одна из самых известных подделок получила свое название в честь
небольшого городка Пилтдауна. В 1912 г. адвокат и археолог-любитель Чарльз Доусон
написал своему другу Артуру Смиту Вудворду, который в то время был хранителем отдела
геологии Музея естественной истории в Лондоне, и сообщил, что в гравийных пластах возле
Пилтдауна в Восточном Сассексе нашел фрагмент черепа древнего человека. Вместе они
продолжили исследование, в ходе которого Доусон обнаружил фрагмент нижней челюсти
вместе с зубами. Объединив два фрагмента и завершив воссоздание черепа с помощью
пластилина, они предположили, что нашли не что иное, как образец отсутствующей
эволюционной связи между человекообразными обезьянами и людьми.
Находка вызвала большой резонанс и значительную полемику. Были те, кто предположил,
что две кости не принадлежат одному и тому же существу. Зоолог Мартин Хинтон,
убежденный, что это был трюк, зашел так далеко, что попытался раскрыть предполагаемых
мошенников. Хинтон выпилил зуб обезьяны таким образом, чтобы он вписывался в
пластилиновую реконструкцию Вудворда и подбросил его в гравийные пласты возле
Пилтдауна.
Как он и планировал, поддельный зуб был обнаружен. Однако вместо того, чтобы
разоблачить Доусона, находку восприняли как еще одно доказательство его правоты. Решив
не сдаваться, Хинтон взял кость, принадлежавшую вымершему виду слонов, с помощью
резца придал ей форму крикетной биты и вновь закопал в Пилтдауне. Но и это не помогло —
Доусон и Вудворд опубликовали научную статью в Geological Magazine, где упомянули о
новой находке: «В прошлом сезоне мы потратили много времени на изучение гравия в
Пилтдауне, за пределами ранее детально изученной области… однако находок было
немного… Мы не обнаружили никаких человеческих останков. Но большой кусок кости,
явно обработанной человеком, компенсирует наше разочарование и в силу своей
необычности заслуживает особого описания».
В основе научных подделок лежит убеждение, что проще и дешевле измыслить данные,
которые гарантированно будут соответствовать вашей теории, чем собирать их и рисковать
тем, что они могут не подтвердить теорию. Но на деле оказывается, что выдумать данные,
которые выглядят реалистично, не так-то просто.
Причина в том, что реальные данные всегда подвержены влиянию случайных аспектов.
Самое точное измерение массы, заряда или давления в физическом эксперименте, как
правило, все равно даст случайный разброс значений из-за флуктуаций исходных условий, и
остается только надеяться, что полученные данные будут распределены вокруг истинного
значения того, что измеряется. Измерение роста людей в популяции дает распределение
значений, потому что рост — это индивидуальная характеристика. Количество и вес семян,
произведенных растениями одного вида, будут для каждого растения свои по той же
причине. Поэтому, если мы хотим подделать данные так, чтобы они выглядели реально, мы
должны учесть этот случайный разброс.
Однако люди сами по себе, без дополнительных технических средств, не очень хорошо
справляются с этой задачей. Мы не способны выдумывать данные, которые бы выглядели
убедительно случайными, то есть не имели внутренних закономерностей. Если вы попросите
разных людей сгенерировать случайным образом достаточно большой числовой ряд, то
увидите, что, как правило, в нем будет слишком мало сгруппированных одинаковых цифр
(например, 333 и 77), слишком часто будут встречаться восходящие или нисходящие серии
(например, 654 и 4567), слишком навязчиво будут повторяться числовые последовательности
и другие типы закономерностей. Например, Берни Мэдофф, о котором мы говорили в главе
1, как выяснилось после его разоблачения, куда ни попадя вставлял парные восьмерки и
шестерки, начиная от финансовой отчетности и заканчивая фальшивыми результатами игры
в гольф.
Естественно, все зависит от степени изощренности мошенника. Тот, кто хорошо знаком со
статистикой, будет в курсе того, чем ложные данные могут отличаться от реальных, и
постарается учесть эти аспекты. В качестве альтернативы простому измышлению люди
могут копировать данные из другого источника или даже не просто копировать, а добавлять
к ним небольшие случайные возмущения. Все это заставляет задуматься: не легче ли
провести реальный эксперимент, чем прилагать столько усилий для создания убедительной
фальшивки?
Приукрашивание
Приукрашивание — корректировка данных с целью их лучшего соответствия теории.
Бэббидж охарактеризовал этот процесс как «отрезание маленьких кусочков тут и там от
наблюдений, которые слишком далеко отстоят от средних значений, и приклеивание их к
тем, которые находятся слишком близко». При этом стратегическое среднее значение может
быть оставлено без изменений, а диапазон значений сужен, что заставит неопределенность
измерений казаться меньше, чем она есть на самом деле.
В статистике существуют надежные методы, которые делают нечто подобное и при
определенных обстоятельствах защищают от избыточного влияния, которое необычно
высокие или низкие (а значит, возможно, ложные) значения могут оказать на результаты.
Один из таких методов, винсоризация (в честь статистика Чарльза Уинсора), заключается в
замене экстремальных значений другими, находящимися на определенном удалении от
среднего. Например, значения, лежащие за пределами двух стандартных отклонений, могут
считаться недостоверными и заменяться значениями на уровне двух стандартных
отклонений. Среднее значение полученных в результате данных будет менее изменчиво, чем
среднее значение исходных данных, поэтому ваша аудитория должна обязательно знать, что
данные были изменены. Если вы не сообщите об этом, то замаскируете правду. И обратите
112
Для нас важным является то, что в своей статье 1911 г., опубликованной в журнале Physical
Review, Милликен заявил: «Это единственные капли такого размера, которые наблюдались
при указанных условиях, так что они представляют собой регулярные наблюдения, а не
выборку… Следует также отметить, что это не выбранная группа капель, а именно все капли,
на которых в течение 60 последовательных дней проводился эксперимент. За это время
аппарат несколько раз демонтировался и устанавливался заново»34. Это утверждение
кажется предельно ясным: оно говорит нам о том, что исключена любая возможность
искажения, возникающего при выборе данных, сознательном или неосознанном (DD-тип 3:
выборочные факты), а следовательно, темных данных такого типа здесь нет.
И это было бы так, если бы проверка его тетрадей не показала, что на самом деле приведены
не все данные. (Если вам интересно, цифровую копию тетради можно найти по адресу:
http://caltechln.library.caltech.edu/8/.) В то время как в статье сообщалось о результатах
измерений на 58 каплях, его тетради утверждали, что таких измерений было 175, а это уже
похоже на явный случай фабрикации, а возможно, и мошенничества. По крайней мере
именно так это расценили Уильям Брод и Николас Уэйд — авторы книги «Предатели
истины: Мошенничество и обман в науке» (Betrayers of the Truth: Fraud and Deceit in the Halls
of Science), название которой говорит само за себя35.
Однако более глубокое изучение этого случая физиком Дэвидом Гудстейном позволяет
предположить, что манипулирование данными здесь есть лишь на первый взгляд. Из трех
факторов, влияющих на движение капель масла, только два — гравитация и электрическое
поле — были достаточно изучены. Влияние же вязкости воздуха на такие маленькие
объекты, как капли, было изучено куда меньше. С учетом этого для уверенности в
результатах Милликен должен был провести дополнительные эксперименты, которые
позволили бы ему усовершенствовать саму процедуру измерения. Эти дополнительные
измерения как раз и не были включены в статью, притом что они, похоже, подтверждали
теорию — Гудстейн приводит слова Милликена об одном из таких исключенных измерений:
«Совершенно ясно, что это лучшее из того, что я когда-либо получал!!!»36.
Выяснилось также, что были и другие причины для отказа от некоторых измерений.
Некоторые капли оказались слишком маленькими, поэтому были сильно подвержены
броуновскому движению; другие — слишком большими, поэтому они падали чересчур
быстро и их измерения могли быть неточными. Милликен просто доверился своему чутью и
не стал учитывать такие измерения. Мы уже говорили о том, что подобные решения рано
или поздно принимает каждый исследователь. Если кто-то толкнет лабораторный стол во
время проведения чувствительного измерения, вы, вероятно, исключите такой результат. То
же самое касается, например, попадания в приготовленный препарат непредусмотренных
условиями эксперимента веществ. Как и в любых аспектах жизни, между светом и тьмой
существует множество оттенков серого.
Кроме перечисленных Бэббиджем розыгрышей, подделок, приукрашиваний и фабрикаций
есть и другие виды научных проступков. Например, плагиат, который скрывает истинное
авторство с целью выдать чужую работу за свою, и превращает источник в темные данные.
Иногда он принимает форму дословного копирования текста или даже простого изменения
названия, имени автора статьи и повторной ее отправки на публикацию! Для выявления
подобных вещей были разработаны программные средства, которые сопоставляют
представленные материалы с уже опубликованными, поэтому сейчас прямое копирование
чужих работ стало более рискованной стратегией, чем в прошлом.
Очевидно, что репутация научной организации может пострадать в результате раскрытия
таких проступков. Это означает, что организация может попытаться их приуменьшить или
даже скрыть. Но сокрытие того, что рано или поздно становится достоянием
общественности, может быть еще более разрушительным. Обычно, при возникновении
114
Недавнее исследование Р. Гранта Стина и его коллег, проведенное на основе базы данных
публикаций в области биологических и медицинских наук PubMed, показало, что частота
отзывов «резко выросла в последние годы», а также (и это кажется особенно тревожным),
что «с 1975 г. произошло предполагаемое 10-кратное увеличение случаев отзыва по причине
научного мошенничества»37. Но давайте посмотрим на это серьезное обвинение в
перспективе. В последние десятилетия количество журнальных статей, проиндексированных
PubMed, значительно увеличилось. С 1973 по 2011 г. в базу данных было внесено 21,2 млн
журнальных статей, из которых 890 были отозваны за мошенничество. Это всего одна из 23
799 опубликованных статей, что выглядит уже не так пугающе. Стин и соавторы отмечают,
что «с 1973 по 2011 г. включительно увеличение темпа появления новых публикаций было
больше… чем увеличение частоты отзыва работ за мошенничество… или ошибку», но при
этом добавляют, что на протяжении указанного времени отмечались периоды, когда частота
отзыва заметно возрастала. Эту проблему осложняет то, что в обязательном порядке
проводятся ретроспективные отзывы, когда редакторы пересматривают и отзывают статьи,
опубликованные довольно давно. Читателей, интересующихся отозванными статьями и
причинами этого явления, отсылаю на сайт http://retractionwatch.com. Но нужно понимать,
что отзывы, скорее всего, представляют собой лишь верхушку айсберга некачественных
научных публикаций. Несомненно, есть масса других исследований, которые следовало бы
отозвать, но их недостоверность до сих пор не обнаружена.
Кстати, из этого могут извлечь урок будущие мошенники. (По вполне понятным причинам я
сомневался, стоит ли обращать на это внимание, но решил, что будет честнее дать общую
картину и в духе этой книги не скрывать информацию.) По определению, малоизвестные
журналы попадают на глаза меньшему числу исследователей, и, поскольку вероятность
обнаружения мошенничества тем меньше, чем меньше аудитория, шансов на обнаружение
нечестных статей в малоизвестных журналах естественно меньше. Конечно, это может
повысить число публикаций нечистых на руку исследователей, однако не окажет влияния на
их индекс цитируемости, который показывает степень влияния ученого на научный процесс.
В главе 3 мы говорили о резком увеличении числа случаев диагностирования аутизма в
Соединенных Штатах после 2000 г., что, по крайней мере частично, связано с повышением
осведомленности населения об этом медицинском состоянии. Аналогичное явление может
объяснить и увеличение числа отзывов научных работ: возможно, отчасти это связано с
повышением осведомленности, а значит, бдительности редакторов, рецензентов и читателей.
То же самое, вероятно, относится и к научному мошенничеству в целом, возросший уровень
которого может быть обусловлен тем простым фактом, что люди стали более внимательны к
таким вещам. В последнее время целый ряд громких дел в сфере научного мошенничества
привлек внимание СМИ, и поэтому есть впечатление, что эта тема на слуху38.
Источник и его достоверность: кто вам такое сказал?
За последние пару лет в новостях появился особый жанр — так называемые фейк-ньюс,
которые представляют собой темные данные (DD-тип 14: фальшивые и синтетические
115
отдельных данных. В русле этой тенденции 25 мая 2018 г. вступил в силу Общий регламент
ЕС по защите данных (GDPR), упомянутый в главе 2. Он налагает обязательства на
организации, которые хранят и используют персональные данные, и дает людям более
широкие права на свои данные и способы их использования. Персональные данные — это
данные, относящиеся к живому человеку, по которым он может быть идентифицирован.
GDPR требует, чтобы организации объясняли, с какой целью они собирают и используют
данные, и делали это только с однозначного и свободного согласия (или предоставляя
особые обоснования, такие как судебное требование или спасение чьей-то жизни). Люди
имеют право доступа к своим данным и право требования их исправления, удаления или
передачи другому оператору. Стоит также отметить, что такого рода юридические
требования создают значительные бюрократические препоны для предприятий, которые
обрабатывают большие объемы персональных данных.
Обратите внимание, что я использовал слово «прозрачность» в том смысле, в котором оно
обычно используется, когда люди говорят о прозрачности данных, — то есть обозначая
возможность доступа. Но сам феномен прозрачности может быть интерпретирован и
по-другому — как нечто прозрачное, что позволяет видеть сквозь себя и что, возможно, вы
даже не замечаете. Окна и линзы очков тоже прозрачны. И неприятный факт заключается в
том, что многие из наиболее эффективных мошенничеств и афер основаны именно на такой
интерпретации прозрачности, когда все происходит незаметно для вас и выглядит
достоверно, но ровно до тех пор, пока вы вдруг не замечаете какие-то несоответствия. В этом
смысле «прозрачность» имеет сходство с «темнотой», во всяком случае в том, что касается
данных.
В этой главе мы говорили о том, как распознать проблему темных данных и, возможно,
решить ее, в частности, в контексте научных исследований. Мы рассмотрели идею
сопоставления теории с данными, ошибки, допускаемые из-за их недостатка, мошенническое
использование данных, фальшивые данные, выбор экстремальных значений в наборе,
проблему направленного поиска аномалий и предположение, что «большинство научных
открытий ошибочно». Мы также познакомились с принципом проверки достоверности
источника, заключенном в простом вопросе: «Кто вам такое сказал?»
Первая часть книги была посвящена способам, которыми темные данные могут создавать
проблемы. Во второй части мы рассмотрим методы обнаружения темных данных, их учета и
узнаем то, как они могут быть использованы.
Глава 8
Принцип работы с темными данными
Проливаем свет
Надежда!
Мы убедились, что темные данные могут возникать по многим причинам. Даже если мы
допускаем возможность ошибочности наших данных, то можем просто не осознавать, что
видим далеко не все. Мы также убедились, что подобное неведение чревато очень
серьезными последствиями: от финансовых крахов до гибели людей. Картина не самая
радужная.
Так что же делать? В этой главе рассматриваются способы, с помощью которых мы можем
заглянуть в тень и понять, что в ней скрыто, а также методы смягчения проблем, даже для
тех случаев, когда нет возможности точно определить, что именно пошло не так. Далее мы
познакомимся с идеями, инструментами и стратегиями, которые были разработаны
специально, чтобы помочь нам получить правильные ответы, даже когда вокруг туман
неопределенности. Основная часть главы посвящена ситуациям с отсутствием данных
(например, DD-тип 1: данные, о которых мы знаем, что они отсутствуют, DD-тип 2: данные,
о которых мы не знаем, что они отсутствуют, DD-тип 3: выборочные факты, DD-тип 4:
самоотбор), а в конце мы кратко обсудим данные, которые можно наблюдать, но которые все
равно могут вводить нас в заблуждение (например, DD-тип 10: ошибки измерения и
неопределенность, DD-тип 9: обобщение данных, DD-тип 7: данные, меняющиеся со
временем). Независимо от причины возникновения проблемы принципиальным условием ее
решения является бдительность: осознание того, что именно может пойти не так. Это
особенно актуально для ситуаций, когда сами данные не могут вам подсказать, что
произошло нечто неблагоприятное (например, DD-тип 15: экстраполяция за пределы ваших
данных, DD-тип 12: информационная асимметрия, DD-тип 8: неверно определяемые
данные). Надеюсь, что множество примеров и список DD-типов, приведенный в этой книге,
помогут вам сохранять это состояние бдительности, поскольку теперь вы знаете как
минимум некоторые вещи, за которыми нужен глаз да глаз.
Но, прежде чем мы углубимся в детали, необходимо подчеркнуть один крайне важный,
фундаментальный момент — появление темных данных указывает на небезупречность.
Понятно, что это относится к тем случаям, когда данные оказываются ошибочными, но это
применимо и к ситуациям с недостающими данными: само слово «недостающие» говорит о
том, что вы надеялись получить больше данных, но что-то пошло не так. Важно понимать,
что, хотя методы, которые мы разберем дальше, и помогают смягчить проблемы,
возникающие из-за неправильных и неполных данных, лучше всего сразу постараться, чтобы
данные были правильными и полными. Иначе говоря, необходимо сделать все возможное,
как при разработке стратегии сбора данных, так и в процессе их фактического сбора, чтобы
избежать ошибок и неполноты.
Легко сказать. А что, если это просто невозможно?
Связываем наблюдаемые и недостающие данные
Если наша стратегия сбора данных не принесла успеха и их набор оказался неполным, то
ключевым фактором в борьбе с темными данными становится понимание того, почему эти
данные отсутствуют. В частности, нам необходимо изучить взаимосвязь между имеющимися
данными и отсутствием каких-либо элементов. Если повезет, это даст некоторое
представление о том, какие значения могли бы иметь недостающие элементы, что, в свою
очередь, позволит компенсировать отсутствующие данные.
118
Индекс массы тела, или ИМТ, является стандартным показателем массы тканей
человеческого организма. Он используется для классификации людей по следующим
категориям: «недостаточный вес», «нормальный вес», «избыточный вес» и «ожирение» — и
определяется как масса тела человека в килограммах, деленная на квадрат его роста в
метрах. Человек попадает в категорию «избыточный вес», если его ИМТ равен или больше
25, а если это значение равно или превышает 30 — то в категорию «ожирение». Данные
свидетельствуют о том, что по сравнению с людьми с нормальным весом люди с ожирением
имеют повышенный риск развития диабета 2-го типа, ишемической болезни сердца,
инсульта, остеоартрита, некоторых форм рака, депрессии и множества других болезней. По
этой причине и существует значительный интерес к диетам для похудения.
При изучении одной такой диеты наблюдения проводились с недельными интервалами в
течение шестимесячного периода, чтобы увидеть, улучшилась за это время ситуация и
насколько. Наблюдения включали взвешивания, измерения толщины кожных складок и
расчет ИМТ, но мы сосредоточимся на последнем показателе.
К сожалению, некоторые из участников вышли из исследования в течение этих шести
месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы
игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные,
так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой
выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места,
ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать
выбывание участников и вот почему.
Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли
придерживаться разработанной программы питания — им было стыдно и они не могли
вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным,
обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли.
Третьи покинули исследование по причинам, не связанным с похудением, — кто-то
переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где
проводились измерения.
Для первой из этих трех категорий существует четкая связь между вероятностью выпадения
и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они
не придерживались программы питания, означало, что эти люди как минимум худели
намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные
ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы
имели бы, если бы вели наблюдение, «неигнорируемо потерянными» наблюдениями (иногда
их еще называют «содержательно потерянными»). Очевидно, что с такой ситуацией
непросто справиться, потому что темные данные будут отличаться от наблюдаемых данных
тех, кто остался в исследовании.
Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял
мотивацию, существовала связь между вероятностью их выпадения и тем, что было
измерено — начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей,
ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно
потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем
признаками того, что дела идут или могут пойти не так.
119
начального значения может не быть значения конечного, потому что некоторые участники
покидают исследование, но те, которые остаются в нем, будут надлежащим образом
представлять распределение окончательных значений ИМТ для людей с похожим начальным
значением. Другими словами, мы можем оценить взаимосвязь между начальными и
конечными значениями, используя только имеющиеся данные: это не исказит нашего
представления о соотношении. Затем мы можем использовать это расчетное соотношение,
чтобы, в свою очередь, дать оценки конечных значений ИМТ для любого начального
значения.
Наконец, у нас есть первый класс Рубина — случаи UDD. Эти случаи по-настоящему
сложные. Данные отсутствуют из-за значений ИМТ, которые мы могли бы узнать, но
которых, конечно, не знаем. Они не выпали случайным образом, не стали следствием других
наблюдаемых значений. Единственный способ оценить такие данные — получить
информацию откуда-то еще или предположить самому, почему именно эти значения
отсутствуют.
Наконец, ненаблюдаемые значения могут быть из категории UDD, и отсутствие возраста жен
будет зависеть от самого этого возраста. Это вполне резонно: еще не так давно в западном
мире считалось неприличным спрашивать даму о ее возрасте, а если вопрос все же задавался,
то отвечали на него крайне неохотно. Вот отрывок из рассказа «Сват» британского писателя
Саки, опубликованного в книге «Хроники Кловиса» (The Chronicles of Clovis) в 1911 г.[10]:
«Кризис наступил, — ответил Кловис, — когда она внезапно двинула теорию, что негоже ей
по ночам сидеть дома одной, и потребовала, чтобы к часу я всегда возвращался. Только
представь себе! А ведь мне восемнадцать, по крайней мере было в мой последний день
рождения».
Наши действия в первом случае просты, как и сама категория NDD. Поскольку недостающие
наблюдения не связаны с какими-либо фактическими значениями данных, мы можем
игнорировать любые пары, для которых отсутствует возраст жены, и оценить средний
возраст жен в Великобритании по другим имеющимся парам. Это означает, что выборка
станет несколько меньше, чем те 200 пар, на которые мы рассчитывали, но само по себе это
не вносит каких-либо смещений или системных искажений в оценку. Конечно, если будет
отсутствовать слишком много значений и размер выборки значительно уменьшится, то
повысится недостоверность наших выводов, но это уже другой вопрос.
А что насчет категории SDD? Вероятность того, что жена скажет, сколько ей лет, зависит от
возраста ее мужа, поэтому мы можем получить искаженную выборку возрастов жен.
Например, мы можем обнаружить, что значения возрастов пожилых жен, которые, как
правило, состоят в браке с мужьями старше их, будут представлены недостаточно. Если
игнорировать такую вероятность, то мы занизим средний возраст жен.
Ситуация сама показывает нам, как справиться с проблемой. Хотя для мужей любого
конкретного возраста не все жены могут сказать, сколько им лет, те, кто сообщает это,
являются просто случайной выборкой всех жен для мужей этого возраста (напомню, мы
предположили, что их желание отвечать не зависит ни от чего другого, кроме как от возраста
мужа). Это означает, что средний возраст тех жен, которые сообщили его, можно
использовать как оценку среднего возраста всех жен для мужей этого возраста. Кроме того,
это означает, что мы можем изучать соотношения возраста мужа и возраста жены, используя
только те возрастные пары, которые у нас есть. И после того, как мы оценим эти
соотношения, можно использовать их для получения ожидаемого возраста всех жен для
мужей конкретных возрастов. Теперь не составит труда оценить общий средний возраст всех
жен: мы просто вычисляем среднее значение, используя возраст тех, кто ответил на вопрос, и
ожидаемый возраст тех, кто этого не сделал.
Наконец, данные могут относиться к категории UDD. Если отсутствие возраста жены
зависит от самого этого возраста (например, если его не указали те из жен, кто старше), то
мы снова получаем искаженную выборку возрастов. Но теперь уже нельзя игнорировать
неполные пары, как мы делали это в случаях NDD и SDD. Для мужей всех возрастов жены,
которые не сообщили свой возраст, оказываются, как правило, старше тех, кто его сообщил,
но у нас нет никакой информации о том кто из них кто. Любой анализ без учета такого
искажения может содержать серьезные ошибки. В случае с категорией UDD нам нужно
искать решение в другом месте.
Первоначально большинство исследований, посвященных тому, как справляться с
проблемой недостающих данных, проводились экономистами. Это вполне ожидаемо:
экономика является особенно сложной в данном отношении областью, поскольку люди в
экономике не просто пассивные объекты для измерения; они реагируют на само проведение
измерений и, возможно, даже отказываются от них. В частности, они могут отказываться
отвечать на вопросы в зависимости от ответов, которые предстоит дать.
Важность темных данных в экономике иллюстрируется тем фактом, что в 2000 г.
американский экономист Джеймс Хекман был удостоен Нобелевской премии «за разработку
теории и методов анализа селективных выборок», которой он занимался в 1970-х гг. Понятие
«селективные выборки» — это еще один способ показать, что у вас не хватает данных, а есть
только отдельные выборки, сделанные из имеющихся значений. Подход Хекмана известен
как «двухшаговый метод». Он заключается в том, что при обработке данных SDD сначала
создается модель, в которой намеренно отсутствуют некоторые данные, а затем она
используется для корректировки общей модели — аналогично тому, как это было в примере
с Кэти Марш. Самого Хекмана интересовали такие вещи, как продолжительность рабочего
дня и рыночная заработная плата. Пример, который он использовал, стал уже классическим:
122
посмотрите на табл. 6, то сразу заметите в чем состоит проблема: даже если темные данные
действительно относятся к категории NDD, во всех строках таблицы отсутствует хотя бы
одно значение. Если исключить из анализа неполные строки, то у нас вообще не останется
данных!
Этот пример также показывает важность использования разных кодов для разных категорий
недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории
темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам
использовать их классификацию.
Настойчивость и золотая выборка
В предыдущих главах мы наблюдали несколько ситуаций, когда отсутствовали данные для
значительной части населения. Причины могли быть разными: люди отказывались отвечать
на вопросы; скрининг выявил, что, вероятно, они не страдают от исследуемой болезни;
процесс связывания данных плохо соответствовал используемым базам данных и т.д. Если
бы те, кто не предоставил данные, могли быть идентифицированы — например, потому что
они удовлетворяли определенным критериям или просто имелся список на основе структуры
выборки, показывающий, кто ответил, а кто нет, — тогда стало бы применимой простая
стратегия изучения всех (или некоторых) с недостающими данными. Если это сделать
хорошо, то проблема может быть решена, независимо от того, какой механизм
возникновения недостающих данных был задействован.
На самом деле эта стратегия широко используется при проведении опросов. Она
подразумевает согласованные усилия для установления связи с неответившими
респондентами. Если речь идет, скажем, о телефонном опросе, то на основании нескольких
повторных звонков респонденту можно моделировать взаимосвязь между его
характеристиками и числом этих попыток. Затем эту взаимосвязь можно использовать для
корректировки результатов, чтобы учесть тех, кого так и не удалось опросить.
Проблемы такого типа относятся к анализу выживания. Они имеют давнюю историю,
особенно в области медицины и в сфере страхования, где с ними работают актуарии, строя
таблицы продолжительности жизни определенных групп людей и анализируя
потенциальный срок службы производственных объектов.
Сложность оценки вероятного времени выживания иллюстрируется на примере пациентов с
раком простаты третьей стадии. Эта стадия означает, что имеются свидетельства
проникновения раковой опухоли в близлежащие ткани. Чтобы определить, какой из двух
методов лечения более эффективно продлевает жизнь, пациентов случайным образом
распределяют по двум группам, после чего сравнивают средние интервалы выживания в
каждой из них. Однако непременно будут пациенты, которые проживут еще довольно долго
— возможно, десятилетия. Это хорошая новость для них, но мы не можем ждать столько
времени, чтобы узнать, какой из методов лучше. Таким образом, исследование, скорее всего,
будет прекращено до того, как умрут все пациенты. Это означает, что мы не будем знать
интервалы выживания тех пациентов, которые остались живы после прекращения
исследования, — так появляются недостающие данные. Кроме того, пациенты, умершие в
ходе наблюдений, могут умереть по какой-то другой причине. Данные о том, как долго они
прожили бы до наступления смерти от рака, также отсутствуют. И, как вы уже можете
предположить, есть и третья категория темных данных, связанная с теми, кто выйдет из
исследования по причинам с ним не связанным.
Очевидно, что если просто проигнорировать пациентов, реальное время выживания которых
нам неизвестно, то мы попадем в ловушку ошибочных выводов. Например, предположим,
что один из методов лечения был эффективным настолько, что все, кроме пары пациентов,
выжили и продолжили жить после окончания исследования. В этом случае если бы мы
игнорировали всех, кроме двух умерших пациентов, то сильно бы недооценили
эффективность лечения.
Однако, хотя мы не будем знать продолжительность жизни пациентов, оставшихся в живых
после завершения исследования, а также тех, кто умер по другим причинам или добровольно
выбыл, нам будет известен тот момент, когда они перестали наблюдаться. Такие временные
интервалы называются «цензурированные», они показывают, что период времени между
моментом, когда пациенты вошли в исследование и когда они должны были умереть от рака
простаты, больше, чем период времени, в течение которого они находились под
наблюдением.
В 1958 г. в Journal of the American Statistical Association была опубликована интересная
статья, в которой Эдвард Каплан и Пол Мейер показали, как оценить вероятность выживания
людей за пределами временного интервала, то есть когда время выживания некоторых из них
будет больше, чем время наблюдения 5. Значимость этой статьи иллюстрируется в докладе
Георга Дворского, где, в частности, приводится тот факт, что статья Каплана–Мейера
занимает 11-е место в рейтинге наиболее цитируемых научных статей всех времен6.
Учитывая, что общее число научных статей превышает 50 млн можно сказать, что это
немалое достижение.
Иногда нам нужно выйти за рамки простой оценки вероятности выживания людей дольше
какого-то периода. Например, когда мы оцениваем средний интервал выживания.
Распределения интервалов выживания, как правило, имеют положительное смещение. Это
означает, что более длительные интервалы по сравнению со средним значением выживания
встречаются реже, чем более короткие, то есть может быть много коротких интервалов и
128
Анализ выживания сочетает в себе интервалы выживания тех, чья смерть от изучаемой
причины наступила в процессе наблюдений, и очевидный факт, что интервалы выживания
остальных были дольше, чем этот процесс. Если бы мы могли оценить интервалы выживания
этих остальных, то смогли бы суммировать все интервалы — и наблюдаемые, и оценочные.
Это подводит нас к самому общему методу борьбы с недостающими данными — вменению.
Ему и посвящен следующий раздел.
Выход за пределы данных: вменение
Пытаясь найти решение проблемы недостающих данных, вполне естественно в какой-то
момент прийти к мысли, что можно взять да и заполнить пропуски некими заменителями.
Такая стратегия называется вменением. После того, как мы вменяем недостающие значения,
данные становятся полными и уже нет смысла беспокоиться о пустых ячейках — можно
проводить анализ любым удобным способом. Например, после того как в табл. 6 будут
вставлены значения отсутствующих возрастов, мы сможем легко вычислить средний возраст
всех 10 человек в выборке. Однако этот метод подозрительно напоминает выдумывание
данных, и, если мы не хотим быть обвиненными в мошенничестве, нужно тщательно
продумать, как именно это делать. Более того, одно дело, если ненаблюдаемые значения
принадлежат к категории NDD, и совсем другое, если они относятся к SDD или, что еще
хуже, к UDD. Если недостающие значения принадлежат категории SDD, мы можем связать
вмененные значения с теми или иными аспектами наблюдаемых данных. Но если
недостающие значения относятся к категории UDD, то имеющиеся данные не смогут
подсказать нам, какими должны быть вмененные значения, и непонятно, как в этом случае
избежать неверных результатов.
129
Одна из причин того, что вменение недостающих значений зачастую упрощает анализ,
заключается в самой природе многих статистических методов — они основаны на балансе и
симметрии данных. Приведу пример. Однажды я консультировал производителя
пластиковых автозапчастей, изготовленных методом литья под давлением, который хотел
знать, какая комбинация трех факторов — температуры, давления и времени в пресс-форме
— будет оптимальной и позволит получить продукт наилучшего качества. Исследованию
подлежали два значения температуры, два значения давления и два — времени. (На самом
деле этих значений было больше, но здесь я для упрощения возьму по два на каждый фактор
и обозначу их как «высокое» и «низкое».) Когда для трех факторов существует по два
значения, то в общей сложности мы имеем восемь комбинаций: все три фактора на высоких
значениях; первые два на высоком, третий — на низком и т.д. Было выполнено несколько
производственных циклов в каждой из этих восьми комбинаций, и каждый
производственный цикл давал готовую деталь, качество которой можно было оценить. В
подобных экспериментах, если одинаковое количество деталей создается при каждой
комбинации трех факторов, то для получения результатов могут использоваться удобные
математические формулы. Но анализ становится сложнее, если в результате разных
комбинаций получено разное количество деталей. В частности, если изначально
экспериментальный дизайн был ориентирован на то, чтобы получить хорошо
сбалансированное число наблюдений, одинаковое для каждой комбинации факторов, но
некоторые значения выпали (например, по причине отключения электропитания, что
помешало осуществить ряд запусков в ходе производственного процесса), то данные
становятся несбалансированными. Это может значительно затянуть анализ и потребовать
сложных расчетов. Поэтому неудивительно, что идея вменения недостающих значений с
целью восстановления баланса данных выглядит очень привлекательно.
Вменение значений полезно, но совершенно очевидно, что если мы повторим анализ с
другими вмененными значениями, то получим и другие результаты (где-то здесь бродит
призрак выдумывания данных). Поскольку наша мотивация для подстановки значений
заключается в том, чтобы упростить вычисления и постараться не искажать результаты,
можно попытаться найти такие подставные значения, чтобы простой анализ, основанный на
сбалансированных полных данных, давал те же результаты, что и сложные вычисления с
использованием неполных данных.
Идея заманчива, и в некоторых ситуациях она действительно реализуема, но вам не кажется,
что она напоминает замкнутый круг? Как найти эти столь необходимые нам подставные
значения, которые не повлияют на результаты, если не произвести перед этим сложные
вычисления? Мы вернемся к этому вопросу позже, когда убедимся, что попытка ответить на
него может привести нас к глубокому пониманию того, какие процессы на самом деле
происходят в данных. Однако сначала мы подробнее рассмотрим основные подходы к
вменению.
Среднее вменение
Одним из самых распространенных подходов является подстановка на место недостающих
значений среднего значения, рассчитанного на основе всех имеющихся. Так, мы могли бы
заменить три неизвестных значения возраста в табл. 6 на среднее значение семи известных
возрастов. Действительно, эта нехитрая стратегия легкодоступна во многих программных
пакетах для анализа данных. Но, без сомнения, вы уже приобрели определенный скептицизм
в отношении простых стратегий, когда дело касается темных данных, и наверняка пытаетесь
понять, что может быть не так с этим подходом. Одну из возможных проблем мы уже
обсуждали: если недостающие значения имеют системные отличия от зарегистрированных,
то их замена средним значением может ввести нас в заблуждение. Например, если три
человека, чей возраст отсутствует, старше, чем остальные семь, будет не слишком хорошей
идеей заменить их возраст средним возрастом этих семи. Таким образом, среднее вменение
130
Можно сказать, что это расширение идеи простого добавления среднего значения
наблюдаемых данных с применением более сложной статистической модели, которая
использует преимущества другой информации, доступной в таблице. Поскольку
задействованы значения возраста, а не только массы тела, стратегия может дать лучшие
результаты, чем простое использование среднего. В частности, ее применение
целесообразно, если недостающие значения массы тела принадлежат категории SDD, а
вероятность их отсутствия зависит только от возраста. Но если недостающие данные
относятся к категории UDD, такая модель нам не поможет. Тем не менее нужно отметить,
что эта стратегия моделирования и прогнозирования содержит в себе зачатки одной очень
продуктивной идеи, к которой мы вернемся позже.
«Горячая колода»
Еще один простой метод вменения, основанный на наблюдаемых значениях, известен под
общим названием «горячая колода». Чтобы найти замену отсутствующему значению в
неполной записи, требуется сопоставить ее с другими записями, в которых значения
132
На самом деле Демпстер, Лэрд и Рубин показали, что нет необходимости заходить так
далеко, чтобы найти отсутствующим значениям замену. Все, что необходимо, это
смоделировать распределение, из которого, вероятно, пришли недостающие значения. Мы
столкнулись с этой концепцией, когда рассматривали анализ выживания. Напомню: мы не
пытались оценить интервалы выживания тех, кто остался жив после окончания периода
наблюдения, а просто использовали вероятность того, что они будут жить дольше, чем этот
период.
EM-алгоритм активизирует эту концепцию. После того, как Демпстер и его коллеги
представили абстрактное описание двухэтапного циклического алгоритма, стало очевидно,
что фундаментально эта идея уже возникла повсюду и проявлялась порой весьма
неожиданно. Кроме того, алгоритм был расширен и дополнен различными методами,
например, были разработаны модификации, которые требуют меньшего числа итераций
«ожидание — максимизация» до момента, когда заменители пропущенных значений (и
соотношения переменных) перестанут изменяться, то есть до того, как процесс приблизится
к наилучшей (в смысле максимального правдоподобия) модели.
Абстрактное представление EM-алгоритма также помогло лучшему пониманию проблемы в
целом. В главе 1 я упомянул, что любые неизвестные характеристики генеральной
совокупности могут рассматриваться как недостающие значения и, следовательно, как
темные данные. Это очень плодотворная идея. Такими базовыми характеристиками могут
быть и какие-то простые значения (например, средний рост населения), и значения
комплексные, включая множественные ненаблюдаемые латентные переменные, которые
связаны сложным образом. Классическим примером является траектория движущегося
объекта, когда мы не можем наблюдать его точное положение в каждый момент времени, а
имеем лишь значения, искаженные ошибкой измерения. Во многих случаях лежащие в
основе темные данные являются не просто тем, что не наблюдалось — они по своей сути
134
В этом разделе мы разобрали то, как можно анализировать данные и получить представление
о процессах, которые их генерируют, даже если имеются темные данные. Мы рассмотрели
целый ряд общих методов: от самых простых способов работы с доступными данными и
исключения неполных записей до многообразных методов вменения, которые призваны
определить, какими были бы недостающие данные, если бы были измерены. Мы также
рассмотрели важную классификацию, описывающую структуру отсутствующих данных, —
связаны ли они и как именно с данными, которые наблюдались. Эта классификация состоит
из трех категорий — NDD, SDD и UDD — и помогает более глубокому пониманию вопросов
борьбы с темными данными. В следующей главе мы изменим тактику и вместо того, чтобы
бороться, посмотрим, как можно использовать темные данные. В частности, мы для начала
оглянемся назад и посмотрим на некоторые идеи с новой точки зрения. Но прежде скажем
несколько слов о данных, которые мы можем видеть, но которые являются обманчивыми.
Неправильное число!
До сих пор в этой главе мы имели дело с недостающими данными. Но мы уже знаем, что
данные могут являться темными и по другим причинам, например DD-тип 10: ошибки
измерения и неопределенность, DD-тип 9: обобщение данных и DD-тип 7: данные,
меняющиеся со временем. Рассмотрение этих типов позволит нам более широко взглянуть на
проблему темных данных и поможет исследовать три основных шага в работе с ними, а
именно: предотвращение, обнаружение и исправление.
Предотвращение
Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно
ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их
возникновению на этапе сбора данных. Что касается понимания, то оно приходит с опытом
— вы или сами совершаете ошибки, или, что куда приятнее, учитесь, глядя, как их
совершают другие. (Однажды я услышал, как кто-то из увольнявшихся из компании сказал
менеджеру: «Спасибо, что предоставили мне так много возможностей учиться на чужих
ошибках».)
Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно
осуществлять несложные проверки. Например, если речь идет о дате рождения, то для
машины не составит труда проверить, является ли она допустимой. Бдительность не бывает
излишней. Я слышал об одном случае, когда набор данных имел странный пик по датам
рождения, приходившийся на 11 ноября 1911 г. Как выяснилось, дату рождения требовалось
вводить шестью цифрами в формате день/месяц/год и программисты были в курсе, что люди
иногда вводят 00/00/00, если не хотят указывать свой день рождения. Поэтому они
запрограммировали форму сбора данных таким образом, что, если кто-то вводил шесть
нулей, машина отклоняла дату и требовала повторить попытку. Но программисты не учли
одного: в этот момент те, кто особенно не хотел «светить» свой день рождения, делали
простейшую вещь, которая первой приходит в голову — они вбивали последовательность из
шести единиц, что принималось базой данных и выглядело как 11 ноября 1911 г.
Дублирование данных может быть использовано в качестве общей стратегии
предотвращения ошибок. Оно подразумевает ввод данных или по крайней мере какой-то их
части более чем одним способом. Распространенным методом, особенно при проведении
клинических испытаний, является система двойного ввода данных, когда значения
135
Есть еще одно важное замечание по поводу обнаружения ошибок: вы никогда не можете
быть уверены, что обнаружили их все. К сожалению, истина заключается в том, что наличие
ошибок (иногда) может быть доказано, а вот их отсутствие — нет. Хотя данные могут
становиться ошибочными неограниченным количеством способов, число способов,
которыми их можно проверить, всегда конечно. Тем не менее к этой ситуации, несомненно
применим принцип Парето, и мы можем утверждать, что большинство ошибок будет
обнаружено с относительно небольшими усилиями. Однако здесь действует и другой закон
— закон убывающей отдачи. Если вы обнаружите 50% ошибок, приложив определенные
усилия, то точно такие же усилия, приложенные вновь, смогут обнаружить 50%, но уже от
оставшихся ошибок. Такое убывание результата будет сопровождать каждый цикл и
означает, что вы никогда не сможете выявить все ошибки.
Исправление
Третий этап в борьбе с темными данными, после предотвращения и обнаружения ошибок, —
это их исправление. После того, как вы заметили неверное значение, нужно понять, каким
оно должно быть. Методы исправления ошибок — если, конечно, исправление вообще
возможно — зависят от того, что вам известно об ожидаемых значениях, и от общего
понимания возникающих ошибок. Примеры с неуместными десятичными разделителями в
главе 4 иллюстрируют то, как наше общее понимание данных и опыт прошлых ошибок
подсказывают, каким должно быть истинное значение. Аналогичный пример: если в таблице
зарегистрировано значение скорости велосипедиста 240 км/ч, притом что все другие
значения лежат в диапазоне между 8 км/ч и 32 км/ч, логично предположить, что затесался
лишний ноль и истинное значение составляет 24 км/ч. Однако не стоит сразу вносить
исправления, предположив истину, — необходимо всесторонне проверить свое
предположение. Прежде чем исправлять ошибку в последнем примере, нелишне будет
узнать, что в сентябре 2018 г. чемпионка мира по велоспорту Дениз Мюллер-Коренек
установила рекорд скорости на велосипеде, разогнав его до 296 км/ч. Если не вернуться к
исходному источнику или не повторить измерение, мы не сможем быть уверены в том, какое
значение должно быть на месте предполагаемого ошибочного, даже если сам факт ошибки
не вызывает сомнений.
Последнее общее замечание на тему ошибок в данных, которое я хотел бы сделать, связано с
новыми удивительными мирами данных и их пониманием, которые нам открыли и
продолжают открывать компьютерные вычисления. Сегодня собираются, хранятся и
обрабатываются немыслимые еще недавно, поистине колоссальные массивы данных. Эти
базы данных открывают огромные возможности. Но не стоит забывать, что применение
компьютеров также подразумевает и некоторую фундаментальную непрозрачность. Хотя
137
Глава 9
Полезные темные данные
Переосмысление вопроса
Сокрытие данных
Может показаться, что темные данные — это сплошные проблемы и недостатки. Да,
ключевым посланием этой книги является призыв к осторожности. Но есть методы, с
помощью которых мы можем использовать темные данные в собственных интересах, при
условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность.
Другими словами, существуют методы, с помощью которых мы можем оседлать нашу
темную лошадку — направить неопределенность, присущую темным данным, против них же
самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить
эффективность действий в различных областях и даже просто экономить деньги. Все это
становится возможным, если стратегически игнорировать часть данных и намеренно уводить
их в тень.
Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые
нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки
зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем
на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с
некоторыми новыми перспективными идеями, способными сделать статистические методы
работы с темными данными более совершенными.
Хорошую иллюстрацию нестандартного подхода к темным данным дает формирование
выборки из ограниченной совокупности. В главе 2 мы рассматривали методы создания
выборки для опроса и затрагивали тему недополученных ответов, но даже несмотря на это
опросы представляют собой один из наиболее популярных и простых способов обратить
темные данные себе на пользу. Обычно, когда говорят об опросах, то имеют в виду
использование значений (случайного) подмножества всех членов определенной группы
населения. Но альтернативный подход может состоять в том, чтобы формировать выборку,
специально предназначенную для помещения ее в область темных данных. В конце концов,
формирование 10%-ной выборки для последующего анализа эквивалентно формированию
90%-ной игнорируемой выборки. Идея заключается в том, что всякий раз при работе с
выборкой мы можем думать о ней либо как о выборе данных для исследования, либо как об
игнорировании оставшейся части совокупности и превращении ее в темные данные.
Обратите внимание, что случайный выбор (или по крайней мере «вероятностная выборка»)
здесь имеет решающее значение. Выбор любым другим способом может привести к
проблемам, уже описанным в этой книге. Использование случайного выбора означает, что
недостающие значения относятся к категориям NDD или SDD, а в главе 8 вы смогли
убедиться, что с этими типами темных данных можно справиться.
Сокрытие данных от самих себя: рандомизированные
контролируемые исследования
Формирование выборки для анализа и, следовательно, выборки для отбраковки — самый
простой пример использования темных данных. Другое их применение —
рандомизированное контролируемое исследование, которое мы тоже уже обсуждали в главе
138
подбрасывания монеты множество раз, чтобы увидеть, какая доля этих циклов дает
выпадение менее пяти орлов. Чем больше раз мы повторим цикл, тем более точную оценку
мы получим — закон больших чисел, упомянутый в главе 2, прямо говорит об этом. Но
такой процесс вскоре может стать довольно утомительным, поэтому вместо того, чтобы
тратить свою жизнь на столь бессмысленное занятие, лучше запустить компьютерную
симуляцию, в которой случайным образом будут генерироваться 10 значений, каждое из
которых равно либо 0, либо 1 (это наши орлы и решки) с вероятностью «выпадения» 1/2.
Проделав это снова, и снова, и снова…, мы сможем узнать, какова вероятность выпадения
менее пяти орлов.
Я запускал эту симуляцию миллион раз. Доля тех из них, в которых орел выпал менее пяти
раз, составляла 0,376, что недалеко от истинного значения вероятности. И обратите
внимание на слово «миллион» — симуляция как метод стала по-настоящему возможной
лишь с появлением современных компьютеров.
Это, конечно, простейший пример — во-первых, я мог запустить симуляцию на своем
ноутбуке, а во-вторых, я знал правильный ответ. Но есть куда более сложные симуляции,
например погоды и климата, созданные на основе обширных наборов данных и с
применением самых мощных на сегодняшний день компьютеров. В этих симуляциях
используются чрезвычайно сложные модели взаимосвязанных процессов, влияющих на
климат: атмосферных потоков, океанских течений, солнечного излучения, биологических
систем, вулканической активности, загрязнения окружающей среды и прочих воздействий.
Реактивный характер таких систем означает, что им присущи специфические проблемы:
толкните мяч, и он покатится от вас в направлении приложения силы, но «толкните»
сложную систему, и она среагирует неожиданным, а зачастую просто непредсказуемым
образом. Понятие хаоса в научном смысле, как, например, в теории хаоса, хорошо
соотносится с фундаментальной непредсказуемостью метеорологических систем. Уравнения,
описывающие такую сложность, часто не могут быть решены в принципе — получить четкие
ответы мешает содержащаяся в них неопределенность. В этом случае на помощь приходит
симуляция, которая, многократно генерируя данные из моделей, показывает, как могут вести
себя погода и климат. Результаты этих симуляций дают нам представление о диапазоне
возможного поведения систем, например о том, как часто будут возникать экстремальные
явления, такие как наводнения, ураганы и засухи. Каждый прогон такой симуляции
позволяет получить данные, которые могли бы возникнуть, но которые мы на самом деле не
наблюдали, и потому они являются темными.
возникнуть, если бы эта модель была верной. Затем мы точно так же повторяем это раз за
разом, чтобы сгенерировать множественные наборы данных, каждый из которых мог бы
возникнуть в реальности. После этого мы суммируем множественные наборы данных, что
позволяет вычислять средние значения, диапазоны вариаций или любую другую
описательную статистику, которая нам нужна. По сути, мы видим то, какими
характеристиками могут обладать результаты и какова вероятность их появления. Методы
симуляции превратили байесовскую статистику из интересной теоретической идеи в
практический и очень полезный инструмент, который лег в основу машинного обучения и
искусственного интеллекта.
Но какое отношение все это имеет к темным данным? Мы проиллюстрируем это на очень
простом примере и базовом прогностическом методе. Задача: спрогнозировать доход, исходя
только из одной переменной — возраста. Чтобы построить возможную модель, мы соберем
данные о парах значений «возраст/доход» на основе выборки. Самым простым методом
будет прогнозирование дохода нового человека, возраст которого нам известен, используя
значение дохода других людей того же возраста. Так, если мы хотим предсказать доход
кого-то в возрасте 26 лет и в нашей выборке есть один человек такого возраста, то в
простейшем случае мы используем его доход в качестве нашего прогноза. Если же в нашей
142
выборке есть и другие 26-летние, мы используем данные каждого из них, чтобы рассчитать
средний доход. В более общем смысле средние значения обеспечат лучший прогноз,
поскольку они менее подвержены случайным колебаниям. Это означает, что было бы
разумно включить также доходы 25-летних и 27-летних, поскольку они, вероятно, будут
близки к доходам 26-летних, а их включение увеличит размер выборки. Аналогичным
образом мы могли бы включить тех, кому 24 года и 28 лет и т.д., но при этом придавать
меньший вес их значениям по мере удаления от 26. Эта стратегия позволила бы нам сделать
прогноз, даже если в выборке нет ни одного человека в возрасте 26 лет.
Чтобы понять, как это связано с темными данными, давайте посмотрим на то же
исследование под другим углом. Стараясь спрогнозировать доход человека в возрасте 26 лет,
по сути, мы создаем новый набор данных путем случайной репликации значений в
существующей выборке. Мы делаем много копий 26-летних, чуть меньше копий тех, кому 25
и 27 лет, еще меньше — тех, кому 24 и 28, и т.д. Как будто у нас изначально была гораздо
более широкая выборка, основную часть которой мы по какой-то причине просто не видели.
Усреднение доходов по всем реплицированным даст соответствующую оценку доходов
людей в возрасте 26 лет.
Этот пример нагляден, но в реальной жизни обычно все несколько сложнее. Как правило,
вместо одной описательной характеристики, такой как возраст в нашем примере, мы будем
иметь дело с несколькими или даже с множеством характеристик. Например, мы можем
охарактеризовать пациентов по их возрасту, росту, весу, полу, систолическому и
диастолическому артериальному давлению, пульсу в состоянии покоя, а также по ряду
симптомов и результатов медицинских тестов, чтобы оценить вероятность выздоровления
нового пациента с определенным набором значений. Как и в предыдущем примере мы
создадим новый набор данных, реплицирующий людей таким образом, что у нас будет
больше копий тех, кто имеет характеристики, очень схожие с характеристиками
интересующего нас человека, и чем меньше будет это сходство, тем меньше будет и число
копий. Люди, которые полностью отличаются по всем характеристикам от нашего пациента,
могут не воспроизводиться вовсе. После того, как собраны все реплицированные данные, мы
просто вычисляем долю тех, кто выздоровел, и принимаем это значение за предполагаемую
вероятность выздоровления.
Эта базовая идея стратегической репликации данных в случаях, когда требуется получить
намного больший и, соответственно, более релевантный набор данных, используется и иным
образом. В целях упрощения мы рассмотрим алгоритмы машинного обучения для
распределения объектов по классам, как в предыдущем диагностическом примере или как в
случае вопроса о том, может ли подавший заявку на ипотеку допустить дефолт по платежам
(то есть принадлежать одному из двух классов: «да» или «нет»). Но теперь мы рассмотрим
идеи, которые используются для повышения эффективности таких алгоритмов.
Как правило, алгоритмы для создания подобных диагностических классификаций могут
ошибаться: симптомы часто бывают неоднозначными, а у молодого кандидата на ипотеку
может быть очень короткая история финансовых транзакций. Один из способов улучшить
такой алгоритм состоит в том, чтобы изучить случаи, которые он ранее неверно
классифицировал, и посмотреть, сможем ли мы каким-то образом изменить или
скорректировать его, чтобы прогнозы стали точнее. Метод, который позволяет сделать это,
— создание искусственных данных по следующей схеме. Мы начинаем с определения
пациентов или кандидатов, по которым был сделан неправильный прогноз, и добавляем к
данным дополнительные копии этих случаев, возможно, огромное число дополнительных
копий. Теперь, когда мы настроим параметры нашей модели для классификации этого
расширенного набора данных, она будет вынуждена уделять больше внимания случаям, в
которых ранее ошибалась. Чтобы лучше понять это, представьте себе экстремальную
143
Процедура, основанная на этой идее, называется бустингом, или усилением. Когда-то она
была революционной, но сегодня широко используется в машинном обучении. На момент
написания книги версии алгоритмов бустинга являются лидерами в соревнованиях по
машинному обучению, проводимых такими организациями, как Kaggle (например, особенно
хорошо показывает себя версия алгоритма, называемая экстремальный градиентный
бустинг.)
В то время как бустинг сосредоточен на тех случаях, которые ранее были неверно
классифицированы и требуют дополнительного внимания, для определения точности оценок
был разработан другой подход к использованию искусственных наборов данных. Речь идет о
методе бутстреппинга, изобретенном американским статистиком Брэдом Эфроном. (Надо
признать, статистики и специалисты по машинному обучению неплохо поднаторели в
придумывании ярких имен, раскрывающих суть концепций.)
Бутстреппинг работает следующим образом. Часто нашей целью является составление
общего сводного отчета по некоторой совокупности чисел (скажем, нам может
потребоваться среднее значение), но иногда невозможно определить каждое отдельно взятое
число. Например, нам нужно узнать средний возраст людей в стране, но людей в стране
слишком много, чтобы мы могли опросить их всех. Как мы уже видели ранее, часто само
понятие всеохватывающего измерения бессмысленно — мы не можем, к примеру,
многократно измерять массу добываемой руды, так как смысл ее добычи в переработке.
Решение заключается в том, чтобы сформировать выборку — просто спросить некоторых
людей об их возрасте или взвесить несколько партий добытой руды, — а затем использовать
среднее значение этой выборки в качестве нашей оценки.
Средние показатели выборки безусловно полезны — они дают нам общее представление о
значении, но было бы неразумным ожидать, что они окажутся абсолютно точными. В конце
концов, если мы возьмем другую выборку данных, то, вероятно, получим иной результат.
Можно, конечно, ожидать, что он не будет слишком отличаться от первого, но рассчитывать
на их идентичность не стоит. Это означает, что кроме среднего значения хотелось бы
получить оценку степени его точности. Хотелось бы знать, насколько велик разброс средних
значений, которые мы получим, сформировав разные выборки, и насколько далеки от
истинного значения наши средние показатели выборки.
Чтобы найти показатель дисперсии для средних значений, достаточно использовать
несложную статистическую теорию. Однако для других описаний и сводок данных это будет
куда сложнее, особенно если наши вычисления выходят далеко за рамки простого
определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на
помощь.
144
Сложно сказать, откуда именно взялось такое распределение. Скорее всего, это сочетание
опыта личных встреч с людьми разного роста, расплывчатых сведений из исследований на
эту тему, о которых я некогда читал, смутных воспоминаний о том, что кто-то когда-то
говорил мне об этом. В любом случае это эквивалентно некоему набору данных, которые я
145
том, сколько человек действительно не совершали краж. Вычитая это значение из общего
числа, мы узнаем число тех, кому доводилось красть.
Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал
вариант этой идеи, чтобы исследовать честность в 15 странах5. Он просил людей подбросить
монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все
сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал
орел. Если доля утверждающих это больше половины, то, значит, люди лгут — и именно это
Хью-Джонс использовал в качестве меры честности.
Теперь мы знаем, что данные могут быть собраны, не будучи увиденными теми, кто их
собирает, и то, что данные можно анализировать так, чтобы осуществляющие анализ не
понимали, что именно они анализируют. В более общем смысле эта глава переворачивает
концепцию темных данных с ног на голову. Обычно темные данные являются источником
проблем — они скрывают от нас то, что мы хотим знать, и могут привести к искаженным
выводам и недопониманию. Но из этой главы мы узнали о методах, которые делают
сокрытие данных чрезвычайно полезным и, как следствие, ведут к более точным оценкам,
улучшают процесс принятия решений и даже защищают от преступников.
Глава 10
Классификация темных данных
Путь в лабиринте
Систематика темных данных
Мы рассмотрели массу примеров темных данных, причины и последствия их появления, а
также методы решения вызванных ими проблем. Однако ситуации часто бывают
запутанными, поскольку данные могут быть темными по нескольким причинам
одновременно. Вот пример.
При правительстве Великобритании существует исследовательская команда по
поведенческому анализу. СМИ окрестили ее «отдел подталкиваний». Дело в том, что эта
команда ищет небольшие стратегически реализуемые изменения в государственной
политике (подталкивания), которые могут оказать большое влияние на поведение граждан.
Вот что сказано в недавнем докладе команды: «В ряде документов и статей в прессе
отмечается, что официальная статистика показывает значительное снижение потребления
пищи с точки зрения калорий в Великобритании за последние 40 лет. В то же время мы
наблюдаем увеличение средней массы населения за этот период. Каким образом наш вес
увеличился, если мы стали меньше есть?.. Один из ответов заключается в том, что уровень
физической активности населения снизился, соответственно снизился и расход калорий»1.
Это объяснение кажется возможным, хотя и довольно неожиданно. Его смысл в том, что,
хотя британцы стали меньше есть, они сократили физическую нагрузку, а это привело к
увеличению веса. Тем не менее в отчете сделан вывод, что такое объяснение
неправдоподобно, поскольку «заявленный уровень потребления пищи с точки зрения
калорий слишком низок, чтобы поддерживать наш текущий вес, даже если уровень
физической активности минимален». В докладе также говорится, что «по оценкам,
количество потребляемых калорий находится ниже рекомендуемой суточной нормы,
составляющей 2500 килокалорий для мужчин и 2000 килокалорий для женщин (имеющих
нормальный вес)». Команда предположила, что проблема заключается в темных данных.
увеличение объема перекусов и приема пищи вне дома (DD-тип 2: данные, о которых
мы не знаем, что они отсутствуют);
снижение частоты ответа при опросах (DD-тип 1: данные, о которых мы знаем, что
они отсутствуют, DD-4: самоотбор);
рост расхождения между справочными данными, используемыми для расчета
калорий, и истинными размерами порций и реальной калорийностью пищи (ошибка
измерения скрывает истинные значения — DD-тип 10: ошибки измерения и
неопределенность).
В отчете «отдела подталкивания» указывается несколько очевидных причин появления
темных данных, но во многих ситуациях множественность причин не так очевидна. Кроме
того, выискивать причины появления темных данных, чтобы предпринять соответствующие
шаги для преодоления рисков, часто бывает непросто.
Первым шагом должно быть осознание того, что темные данные могут присутствовать
всегда. Базовое предположение должно заключаться в том, что имеющиеся данные являются
неполными или неточными. Самое важное послание этой книги: относитесь к данным с
подозрением — по крайней мере пока не будет доказано, что они адекватны и точны.
DD-типов дает своего рода контрольный список опасностей и общих проблем, на которые
следует обращать внимание, работая с любым набором данных. И, конечно, всегда
необходимо помнить, что обнаружение одного DD-типа не исключает присутствия других.
Наборы данных всегда конечны. Это означает, что они имеют максимальное и
минимальное значения, за пределами которых лежит неизвестность. Заявление о
возможных значениях выше максимума или ниже минимума в наборе данных требует
выдвижения предположений или получения информации из какого-то другого
источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на
примере катастрофы шаттла Challenger, запуск которого произошел при температуре
окружающей среды ниже диапазона температур предыдущих запусков.
Подведение итогов
Я не погрешу против истины, если скажу, что в последние столетия бурному развитию
цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти
синонимично слову «факты», а именно на фактах базируется технический прогресс и
просвещение, которые за последние века привели к росту экономики и развитию общества.
Если основой современного промышленного развития является ископаемое топливо, то
данные сегодня — это «новая нефть». Так же, как это было некогда с нефтью, те, кто может
эффективно контролировать данные и манипулировать ими, делают сегодня огромные
состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные
необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с
загрязнением информации темными данными является примером такой очистки.
Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть,
одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более
того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника
— по своей природе они могут копироваться и воспроизводиться неограниченное число раз.
157
И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить
то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как
неприкосновенность частной жизни и конфиденциальность, которые просто не имеют
аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый
товар. Именно поэтому правительства прилагают столько усилий для решения этических
вопросов, связанных с управлением данными.
В значительной степени революция данных была связана с данными наблюдений. В главе 2
мы познакомились с этим видом данных, описывающих естественную эволюцию процессов
без явного вмешательства человека, и, как было показано, данные наблюдений особенно
уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с
экспериментальными данными, подразумевающими, что параметры воздействующих
факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются
автоматическими системами сбора информации и являются побочным эффектом различных
административных операций.
Классическим примером того, какие идеи можно извлечь из данных нового типа, служит
проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента
Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для
построения индексов инфляции. На основе этого открытого источника данных они показали,
что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно
совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение
между уровнями инфляции по онлайн-ценам и по официальной статистике»2. Простого
объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины
подтверждают подозрение, что правительство манипулирует официальной статистикой по
инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно
отклоняется от официальных оценок».
Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для
расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп
исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не
только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен»
позволяет обновлять индекс инфляции ежедневно.
Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться
не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон
говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и
не берем в расчет магазины, торгующие только онлайн (такие, как Amazon.com)»3. Они
отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий
продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость
выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных
в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего
лишь ценами и не показывают объемы продаж.
Дело не в том, что все это — непреодолимые препятствия. Понимая их, мы можем работать
над их преодолением. Но проблема темных данных все равно останется, поскольку само
понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается
от традиционных определений.
Эта книга в первую очередь о том, как темные данные водят за нос людей (а во вторую —
что людям с этим делать). Но проблема несколько шире: темные данные могут вводить в
заблуждение не только людей, но и машины. По мере того, как машинное обучение и
искусственный интеллект становятся все более распространенными, следует ожидать, что
будет появляться все больше сообщений о том, как темные данные обманули машину или
даже привели к ее аварии. В области машинного обучения и компьютерного зрения
существует концепция, которую иногда называют «Умный Ганс». Вот поучительная история
ее появления.
Умным Гансом звали коня, принадлежавшего школьному учителю арифметики Вильгельму
фон Остену. Умный Ганс был настолько умным, что умел складывать, вычитать, умножать и
делить числа, определять время и даже читать и понимать по-немецки. Фон Остен задавал
Гансу вопрос (письменно или устно), и, поскольку Ганс не мог ни говорить, ни писать
(видимо, для него это было не так умно), он отвечал, постукивая копытом нужное
количество раз.
В 1907 г. этот феномен исследовал биолог и психолог Оскар Пфунгст. По его выводу, хотя
никаких уловок со стороны хозяина не предпринималось, сказать, что Ганс производит
вычисления, было нельзя. Смышленый конь улавливал подсознательные сигналы своего
хозяина, который и производил вычисления. Интересно, что сам фон Остен не отдавал себе
отчета в том, что подает какие-то сигналы. В этом есть определенное сходство с рассказами
игроков в покер.
Для нас важно, что Умный Ганс на самом деле не отвечал на те вопросы, на которые, как
полагали зрители, он отвечает. То же самое может случиться и с машинами: их анализ,
классификация, решения могут основываться на непредвиденных аспектах входных данных,
в том числе на таких, о которых вы даже не подозреваете. В некоторых случаях «едва
различимые незначительные отклонения для правильно классифицированного входного
изображения [могут означать], что оно перестает классифицироваться правильным
образом»4. Используя эту слабость автоматических алгоритмов, исследователи из
Университета Карнеги–Меллона разработали фигурную оправу для очков, которая для нас
выглядит привычно, но при этом начисто сбивает с толку искусственный интеллект и не
159
Я очень надеюсь, что примеры, собранные мной в этой книге, дадут вам начальное
представление о рисках, которые несут темные данные, и о том, что, где и какими методами
нужно искать, а затем исправлять. Я также надеюсь, что вы сумеете найти свои способы
расширить маленькое пятно света от фонаря и осветить окрестности. И еще я надеюсь, что
книга поможет вам распознавать ситуации, когда имеет смысл самому стратегически
отбросить тень, чтобы прийти через это к новому пониманию нашего мира.
Примечания
Глава 1. Темные данные
1. https://blog.uvahealth.com/2019/01/30/measles-outbreaks/, accessed 16 April 2019.
2. http://outbreaknewstoday.com/measles-outbreak-ukraine-21000-cases-2019/, accessed 16 April
2019.
3.
https://www.theglobeandmail.com/canada/article-canada-could-see-large-amount-of-measles-outbre
aks-health-experts/, accessed 16 April 2019.
4. E. M. Mirkes, T. J. Coats, J. Levesley, and A. N. Gorban, “Handling missing data in large
healthcare dataset: A case study of unknown trauma outcomes.” Computers in Biology and
Medicine 75 (2016): 203-16.
5. https://www.livescience.com/24380-hurricane-sandy-status-data.html.
10. R. Pattinson, Arctic Ale: History by the Glass, issue 66 (July 2102),
https://www.beeradvocate.com/articles/6920/arctic-ale/, accessed 31 July 2018.
Глава 2. Обнаружение темных данных
1. D. J. Hand, F. Daly, A. D. Lunn, K. J. McConway, and E. Ostrowski, A Handbook of Small Data
Sets (London: Chapman and Hall, 1994).
2. D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion),”
Journal of the Royal Statistical Society, Series A181 (2018): 555-605.
3. https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year,
accessed 24 August 2018.
4. M. E. Kho, M. Duffett, D. J. Willison, D. J. Cook, and M. C. Brouwers, “Written informed
consent and selection bias in observational studies using medical records: Systematic review,” BMJ
(Clinical Research Ed.) 338 (2009): b866.
5. S. Dilley and G. Greenwood, “Abandoned 999 calls to police more than double,” 19 September
2017, http://www.bbc.co.uk/news/uk-41173745, accessed 10 December 2017.
6. M. Johnston, The Online Photographer, 17 February 2017,
http://theonlinephotographer.typepad.com/the_online_photographer/2017/02/i-find-this-a-particular
ly-poignant-picture-its-preserved-in-the-george-grantham-bain-collection-at-the-library-of-congres.
html, accessed 28 December 2017.
7. A. L. Barrett and B. R. Brodeski, “Survivorship bias and improper measurement: How the mutual
fund industry inflates actively managed fund performance” (Rock-ford, IL: Savant Capital
Management, Inc., March 2006), https://www.etf.com/docs/sbiasstudy.pdf, accessed 28 December
2017.
8. T. Schlanger and C. B. Philips. “The mutual fund graveyard: An analysis of dead funds,” The
Vanguard Group, January 2013.
9. https://xkcd.com/1827/.
10. Knowledge Extraction Based on Evolutionary Learning,
http://sci2s.ugr.es/keel/dataset.php?cod=163, accessed 22 September 2019.
11. M. C. Bryson, “The Literary Digest poll: Making of a statistical myth,” The American
Statistician 30 (1976): 184-5.
18. I. Chalmers, E. Dukan, S. Podolsky, and G. D. Smith, “The advent of fair treatment allocation
schedules in clinical trials during the 19th and early 20th centuries,” Journal of the Royal Society of
Medicine 105 (2012): 221-7.
19. J. B. Van Helmont, Ortus Medicinae, The Dawn of Medicine (Amsterdam: Apud Ludovicum
Elzevirium, 1648), http://www.jameslindlibrary.org/van-helmont-jb-1648/, accessed 15 June 2018.
20. W. W. Busse, P. Chervinsky, J. Condemi, W. R. Lumry, T. L. Petty, S. Rennard, and R. G.
Townley, “Budesonide delivered by Turbuhaler is effective in a dose-dependent fashion when used
in the treatment of adult patients with chronic asthma,” Journal of Allergy and Clinical Immunology
101 (1998): 457-63; J. R. Carpenter and M. Kenward, “Missing data in randomised controlled trials:
A practical guide,” November 21, 2007,
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.468.9391&rep=rep1&type=pdf, accessed
7 May 2018.
21. P. K. Robins, “A comparison of the labor supply findings from the four negative income tax
experiments,” Journal of Human Resources 20 (1985): 567-82.
22. A. Leigh, Randomistas: How Radical Researchers Are Changing Our World (New Haven, CT:
Yale University Press, 2018).
23. P. Quinton, “The impact of information about crime and policing on public perceptions,”
National Policing Improvement Agency, January 2011,
http://whatworks.college.police.uk/Research/Documents/Full_Report_-_Crime_and_Policing_Infor
mation.pdf, accessed 17 June 2018.
24. J. E. Berecochea and D. R. Jaman, (1983) Time Served in Prison and Parole Outcome: An
Experimental Study: Report Number 2, Research Division, California Department of Corrections.
25. G.C.S. Smith and J. Pell, “Parachute use to prevent death and major trauma related to
gravitational challenge: Systematic review of randomised controlled trials,” British Medical Journal
327 (2003): 1459-61.
26. The Washington Post, “Test of ‘dynamic pricing’ angers Amazon customers,” October 7, 2000,
http://www.citi.columbia.edu/B8210/read10/Amazon%20Dynamic%20Pricing%20Angers%20Cust
omers.pdf, accessed 19 June 2018.
27. BBC, “Facebook admits failings over emotion manipulation study,” BBC News, 3 October
2014, https://www.bbc.co.uk/news/technology-29475019, accessed 19 June 2018.
Глава 3. Определения и темные данные
1. http://www.bbc.co.uk/news/uk-politics-eu-referendum-35959949.
2. Цифры по иммиграции:
https://www.ons.gov.uk/peoplepopulationandcommunity/populationandmigration/internationalmigr
ation/articles/noteonthedifferencebetweennationalinsurancenumberregistrationsandtheestimateoflon
gterminternationalmigration/2016, accessed 2 January 2018.
3. Office for National Statistics: “Crime in England and Wales: Year ending June 2017,”
https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/bulletins/crimeinenglanda
ndwales/june2017#quality-and-methodology, accessed 4 January 2018.
4. J. Wright, “The real reasons autism rates are up in the U.S.” Scientific American, March 3, 2017,
https://www.scientificamerican.com/article/the-real-reasons-autism-rates-are-up-in-the-u-s/,
accessed 3 July 2018.
163
12. W. J. Krzanowski, Principles of Multivariate Analysis, rev. ed. (Oxford: Oxford University
Press, 2000), 144.
Глава 4. Непреднамеренные темные данные
1. S. de Lusignan, J. Belsey, N. Hague, and B. Dzregah, “End-digit preference in blood pressure
recordings of patients with ischaemic heart disease in primary care,” Journal of Human
Hypertension 18 (2004): 261-5.
2. L. E. Ramsay et al., “Guidelines for management of hypertension: Report of the third working
party of the British Hypertension Society,” Journal of Human Hypertension 13 (1999): 569-92.
3. J. M. Roberts Jr. and D. D. Brewer, “Measures and tests of heaping in discrete quantitative
distributions,” Journal of Applied Statistics 28 (2001): 887-96.
4. https://www.healthline.com/health/mens-health/average-weight-for-men.
5. B. Kenber, P. Morgan-Bentley, and L. Goddard, “Drug prices: NHS wastes £30m a year paying
too much for unlicensed drugs, Times (London), 26 May 2018,
https://www.thetimes.co.uk/article/drug-prices-nhs-wastes-30m-a-year-paying-too-much-for-unlice
nsed-drugs-kv9kr5m8p?shareToken=0e41d3bbd6525068746b7db8f9852a24, accessed 26 May
2018.
6. H. Wainer, “Curbstoning IQ and the 2000 presidential election,” Chance 17 (2004): 43-46.
7. W. Kruskal, “Statistics in society: Problems unsolved and unformulated,” Journal of the
American Statistical Association, 76, (1981): 505-15.
8. Я не смог найти ясного происхождения этого закона. В своем президентском обращении
1979 г. к Королевскому статистическому обществу Клаус Мозер (“Statistics and public policy,”
Journal of the Royal Statistical Society, Series A143 (1980): 1-32) говорит, что он был
разработан Центральным статистическим управлением Великобритании. Эндрю Эренберг
цитирует его как Закон Тваймана без указания источника (“The teaching of statistics:
Corrections and comments,” Journal of the Royal Statistical Society, Series A138 (1975): 543-45).
9. T. C. Redman, “Bad data costs the U.S. $3 trillion per year,” Harvard Business Review, 22
September 2016, https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year, accessed 17
August 2018.
164
2. M. Hurwitz and J. Lee, Grade Inflation and the Role of Standardized Testing (Baltimore, MD:
Johns Hopkins University Press, forthcoming).
3. R. Blundell, D. A. Green, and W. Jin, “Big historical increase in numbers did not reduce
graduates’ relative wages,” Institute for Fiscal Studies, 18 August 2016,
https://www.ifs.org.uk/publications/8426, accessed 23 November 2018.
4. D. Willetts, A University Education (Oxford: Oxford University Press, 2017).
5. R. Sylvester, “Schools are cheating with their GCSE results,” The Times (London) — 21 August
2018,
https://www.thetimes.co.uk/article/schools-are-cheating-with-their-gcse-results-q83s909k6?shareTo
ken=0ce9828e6183e9b37a1454f8f588eaa7, accessed 23 August 2018.
6. “Ambulance service ‘lied over response rates,’” The Telegraph (London), 28 February 2003,
http://www.telegraph.co.uk/news/1423338/Ambulance-service-lied-over-response-rates.html,
downloaded on 6 October 2018.
7.
https://sites.psu.edu/gershcivicissue/2017/03/15/unemployment-and-how-to-manipulate-with-statisti
cs/, accessed 6 October 2018.
8.
https://www.heraldscotland.com/news/13147231.Former_police_officers_crime_figures_are_being
_massaged_to_look_better_/.
9. J. M. Keynes, General Theory of Employment Interest and Money (New York: Harcourt, Brace,
1936).
10. BBC, 1 February 2011, https://www.bbc.co.uk/news/uk-12330078, accessed 18 August 2018.
12. A. Reurink, “Financial fraud: A literature review,” MPlfG Discussion Paper 16/5 (Cologne:
Max Planck Institute for the Study of Societies, 2016).
13. R. Caruana, Y. Lou, J. Gehrke, P. Koch, M. Sturm, and N. Elhahad, “Intelligible models for
healthcare: predicting pneumonia risk and hospital 30-day readmission,” Proceedings of the 21st
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’15,
Sydney, Australia, 10-13 August 2015, pp. 1721-30.
14. Board of Governors of the Federal Reserve System, Report to the Congress on Credit Scoring
and Its Effects on the Availability and Affordability of Credit, August 2007,
https://www.federalreserve.gov/boarddocs/RptCongress/creditscore/creditscore.pdf, accessed 18
August 2018.
165
15. E. Wall, “How car insurance costs have changed,” The Telegraph (London), 21 January 2013,
http://www.telegraph.co.uk/finance/personalfinance/insurance/motorinsurance/9815330/How-car-in
surance-costs-have-changed-EU-gender-impact.html, accessed 19 August 2018.
Глава 6. Умышленно затемненные данные
1. V. Van Vlasselaer, T. Eliassi-Rad, L. Akoglu, M. Snoeck, and B. Baesens, “Gotcha!
Network-based fraud detection for social security fraud,” Management Science 63(14 July 2016):
3090-3110.
2. B. Baesens, V. van Vlasselaer, and W. Verbet, Fraud Analytics: Using Descriptive, Predictive,
and Social Network Techniques: A Guide to Data Science for Fraud Detection (Hoboken, NJ:
Wiley, 2105), 19.
3. “Crime in England and Wales: Year Ending June 2017,”
https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/bulletins/crimeinenglanda
ndwales/june2017, accessed 31 December 2017.
4. D. J. Hand and G. Blunt, “Estimating the iceberg: How much fraud is there in the UK?” Journal
of Financial Transformation 25, part 1(2009): 19-29,
http://www.capco.com/?q=content/journal-detail&sid=1094.
5. Rates of fraud, identity theft and scams across the 50 states: FTC data,” Journalist’s Resource, 4
March 2015,
https://journalistsresource.org/studies/government/criminal-justice/united-states-rates-fraud-identity
-theft-federal-trade-commission, accessed 19 August 2018.
6. B. Whitaker, “Never too young to have your identity stolen,” The New York Times, 27 July
2007, http://www.nytimes.com/2007/07/21/business/21idtheft.html, accessed 3 February 2018.
15. M. Evans, “British woman who ‘faked death in Zanzibar in £140k insurance fraud bid’ arrested
along with teenage son,” The Telegraph (London), 15 February 2017,
https://www.telegraph.co.uk/news/2017/02/15/british-woman-faked-death-zanzibar-140k-insurance
-fraud-bid/, accessed 6 April 2018.
16. S. Hickey, “Insurance cheats discover social media is the real pain in the neck,” The Guardian
(London), 18 July 2016,
https://www.theguardian.com/money/2016/jul/18/insurance-cheats-social-media-whiplash-false-clai
mants, accessed 4 April 2018.
17. P. Kerr, “‘Ghost Riders’ are target of an insurance sting,” The New York Times, 18 August
1993, https://www.nytimes.com/1993/08/18/us/ghost-riders-are-target-of-an-insurance-sting.html,
accessed 6 April 2018.
18. FBI (N.A.), “Insurance Fraud,” https://www.fbi.gov/stats-services/publications/insurance-fraud,
accessed 6 April 2018.
19. E. Crooks, “More than 100 jailed for fake BP oil spill claims,” Financial Times (London), 15
January 2017, https://www.ft.com/content/6428c082-db1c-11e6-9d7c-be108f1c1dce, accessed 6
April 2018.
20. ABI, “The con’s not on — Insurers thwart 2,400 fraudulent insurance claims valued at £25
million every week,” Association of British Insurers, 7 July 2017,
https://www.abi.org.uk/news/news-articles/2017/07/the-cons-not-on-insurers-thwart-2400-fraudule
nt-insurance-claims-valued-at-25-million-every-week/, accessed 4 April 2018.
21. “PwC Global Economic Crime Survey: 2016; Adjusting the lens on economic crime,” 18
February 2016,
https://www.pwc.com/gx/en/economic-crime-survey/pdf/GlobalEconomicCrimeSurvey2016.pdf,
accessed 8 April 2018.
Глава 7. Наука и темные данные
1. J. M. Masson, ed., The Complete Letters of Sigmund Freud to Wilhelm Fliess (Cambridge, MA:
Belknap Press, 1985), 398.
2. “Frontal lobotomy,” Journal of the American Medical Association 117 (16 August 1941):
534-35.
8. J.P.A. Ioannidis, “Why most published research findings are false,” PLOS Medicine 2, no. 8
(2005): 696-701.
9. L. Osherovich, “Hedging against academic risk,” Science-Business eXchange, 14 April 2011,
https://www.gwern.net/docs/statistics/bias/2011, accessed 12 July 2018.
10. M. Baker, “1,500 scientists lift the lid on reproducibility,” Nature 533 (July 2016): 452-54,
https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970, accessed 12
July 2018.
11. C. G. Begley and L. M. Ellis, “Raise standards for preclinical cancer research,”
Nature-Comment 483 (March 2012): 531-33.
22. C. Babbage, Reflections on the Decline of Science in England, and on Some of Its Causes
(London: B. Fellowes, 1830).
23. A. D. Sokal, “Transgressing the boundaries: Toward a transformative hermeneutics of quantum
gravity,” Social Text 46/47 (Spring/Summer 1996): 217-52.
24. https://read.dukeupress.edu/social-text, accessed 23 January 2019.
168
25. A. Sokal and J. Bricmont, Intellectual Imposters: Postmodern Philosophers’ Abuse of Science
(London: Profile Books, 1998).
26. http://science.sciencemag.org/content/342/6154/60/tab-pdf.
27. http://www.scs.stanford.edu/~dm/home/papers/remove.pdf.
28.
https://j4mb.org.uk/2019/01/09/peter-boghossian-professor-faces-sack-over-hoax-that-fooled-acade
mic-journals/.
29. C. Dawson and A. Smith Woodward, “On a bone implement from Piltdown (Sussex),”
Geological Magazine Decade 6, no. 2 (1915): 1-5,
http://www.boneandstone.com/articles_classics/dawson_04.pdf, accessed 7 July 2018.
30. M. Russell (2003) Piltdown Man: The Secret Life of Charles Dawson (Stroud, UK: Tempus,
2003); M. Russell, The Piltdown Man Hoax: Case Closed (Stroud, UK: The History Press, 2012).
31. J. Scott, “At UC San Diego: Unraveling a research fraud case,” Los Angeles Times, 30 April
1987, http://articles.latimes.com/1987-04-30/news/mn-2837_1_uc-san-diego, accessed 4 July 2018.
32. B. Grant, “Peer-review fraud scheme uncovered in China,” Scientist, 31 July 2017,
https://www.the-scientist.com/the-nutshell/peer-review-fraud-scheme-uncovered-in-china-31152,
accessed 4 July 2018.
33. https://ori.hhs.gov/about-ori, accessed 14 October 2018.
34. R. A. Millikan, “On the elementary electric charge and the Avogrado constant,” Physical
Review 2, no. 2 (August 1913): 109-43.
35. W. Broad and N. Wade, Betrayers of the Truth: Fraud and Deceit in the Halls of Science (New
York: Touchstone, 1982).
36. D. Goodstein, “In defense of Robert Andrews Millikan,” American Scientist 89, no. 1
(January-February 2001): 54-60.
37. R. G. Steen, A. Casadevall, and F. C. Fang, “Why has the number of scientific retractions
increased?” PLOS ONE 8, no. 7 (8 July 2013),
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0068397, accessed 9 July 2018.
38. D. J. Hand, “Deception and dishonesty with data: Fraud in science,” Significance 4, no.1
(2007): 22-25; D. J. Hand, Information Generation: How Data Rule Our World (London: Oneworld
Publications, 2007); H. F. Judson, The Great Betrayal: Fraud in Science (Orlando, FL: Harcourt,
2004).
39. D. J. Hand, “Who told you that?: Data provenance, false facts, and separating the liars from the
truth-tellers,” Significance (August 2018): 8-9.
1. См., например: D. Rubin, “Inference and missing data,” Biometrika, 63, no. 3 (December 1976):
581-92.
2. C. Marsh, Exploring Data (Cambridge: Cambridge University Press, 1988).
3. X.-L. Meng, “Statistical paradises and paradoxes in big data (I): Law of large populations, big
data paradox, and the 2016 U.S. presidential election,” Annals of Applied Statistics 12 (June 2018):
685-726.
4. R.J.A. Little, “A test of missing completely at random for multivariate data with missing values,”
Journal of the American Statistical Association 83, no. 404 (December 1988): 1198-1202.
5. E. L. Kaplan and P. Meier, “Nonparametric estimation from incomplete observations,” Journal of
the American Statistical Association 53, no. 282 (June 1958): 457-81.
6. G. Dvorsky, “What are the most cited research papers of all time?” 30 October 2014,
https://io9.gizmodo.com/what-are-the-most-cited-research-papers-of-all-time-1652707091,
accessed 22 April 2018.
7. F. J. Molnar, B. Hutton, and D. Fergusson, “Does analysis using ‘last observation carried
forward’ introduce bias in dementia research?” Canadian Medical Association Journal 179 no. 8
(October 2008):751-53.
8. J. M. Lachin, “Fallacies of last observation carried forward,” Clinical Trials 13, no. 2 (April
2016): 161-68.
2. ADRN, https://adrn.ac.uk/.
3. D. Barth-Jones D. “The ‘reidentification’ of Governor William Weld’s medical information: A
critical re-examination of health data identification risks and privacy protections, then and now,” 3
September 2015, https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2076397, accessed 24 June
2018.
4. A. Narayanan and V. Shmatikov, “How to break the anonymity of the Netflix Prize dataset,” 22
November 2007, https://arxiv.org/abs/cs/0610105, accessed 25 March 2018; A. Narayanan and V.
Shmatikov V. (2008) Robust deanonymization of large sparse datasets (how to break the anonymity
of the Netflix Prize dataset), 5 February 2008, https://arxiv.org/pdf/cs/0610105.pdf, accessed 24
June 2018.
170
6. C. Gentry, “Computing arbitrary functions of encrypted data,” Communications of the ACM, 53,
no. 3 (March 2010): 97-105.
Глава 10. Классификация темных данных
1.
https://www.behaviouralinsights.co.uk/wp-content/uploads/2016/08/16-07-12-Counting-Calories-Fi
nal.pdf, accessed 27 October 2018.
2. A. Cavallo, “Online and official price indexes: Measuring Argentina’s inflation,” Journal of
Monetary Economics 60, no. 2 (2013): 152-65.
3. A. Cavallo and R. Rigobon, “The billion prices project: Using online prices for measurement and
research,” Journal of Economic Perspectives 30, no. 2 (Spring 2016): 151-78.
4. C. Szegedy et al., “Intriguing properties of neural networks,” https://arxiv.org/pdf/1312.6199.pdf,
19 February 2014, accessed 23 August 2008.
5. M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter, “Accessorize to a crime: Real and stealthy
attacks on state-of-the-art face recognition,” October 2016,
https://www.cs.cmu.edu/~sbhagava/papers/face-rec-ccs16.pdf, accessed 23 August 2018.
[1] В действительности оказалось, что победившая заявка была шуткой и участник торгов не
собирался платить. Но даже при этом Вудул мог рассчитывать на приличную прибыль:
частный коллекционер из Шотландии недавно продал с аукциона бутылку из экспедиции
1875 г. за £3300, что равняется примерно $4300.
[2] В отличие от «регламентирования», которое имеет юридическую силу и становится
нормативными актами одновременно во всех странах —членах ЕС, «директива» требует
достижения результатов без указания на то, как именно это сделать. — Здесь и далее прим.
авт.
[3] В британских университетах существует система присуждаемых классов (1, 2:1, 2:2 и 3 в
порядке убывания престижности), которые показывают способности студента, его личный
вклад и успеваемость за годы учебы.
[4] Канеман Д. Думай медленно… Решай быстро. — М.: АСТ, 2013.
[5] Форсайт Ф. День шакала. — М.: Прогресс, 1990.