Вы находитесь на странице: 1из 24

Подпишитесь на DeepL Pro для редактирования данного документа.

Дополнительную информацию можно найти на странице www.DeepL.com/pro.

Оригинальная научная статья

Big Data & Society

Как машина "думает": Понимание


January-June 2016: 1-12
A Автор(ы) 2016

непрозрачности в алгоритмах
Перепечатка и
разрешения:

машинного обучения
sagepub.com/journalsPermissions.nav
DOI: 10.1177/2053951715622512
bds.sagepub.com

Дженна Баррелл

Аннотация
В данной статье рассматривается вопрос непрозрачности как проблема для социально обусловленных
механизмов классификации и
Ранжирование, например, спам-фильтры, обнаружение мошенничества с кредитными картами, поисковые
системы, новостные тенденции, сегментация рынка и реклама, страхование или квалификация кредита, а
также кредитный скоринг. Все эти механизмы классификации часто полагаются на вычислительные алгоритмы,
и во многих случаях на алгоритмы машинного обучения, которые выполняют эту работу. В этой статье я
провожу различие между тремя формами непрозрачности: (1) непрозрачность как намеренная корпоративная
или государственная тайна, (2) непрозрачность как техническая неграмотность и (3) непрозрачность,
возникающая из-за характеристик алгоритмов машинного обучения и масштабов, необходимых для их полезного
применения. Анализ в этой статье проводится внутри самих алгоритмов. Я цитирую существующую литературу
по компьютерной науке, известные отраслевые практики (в том виде, в котором они представлены публично), а
также провожу некоторое тестирование и манипуляции с кодом в качестве облегченной формы аудита кода. Я
утверждаю, что распознавание различных форм непрозрачности, которые могут проявляться в конкретном
приложении, является ключом к определению того, какие из разнообразных технических и нетехнических
решений могут помочь предотвратить вред.

Ключевые слова
Непрозрачность, машинное обучение, классификация, неравенство, дискриминация, фильтрация спама

В данной статье рассматривается вопрос работают с данными. Используя эти данные в


непрозрачности как проблема для социально качестве входных, они выдают результат; в
значимых механизмов классификации и частности, классификацию (например, выдать ли
ранжирования, таких как спам-фильтры, заявителю кредит или пометить электронное
обнаружение мошенничества с кредитными письмо как спам). Они непрозрачны в том смысле,
картами, поисковые системы, новостные что если человек является получателем результата
тенденции, сегментация рынка и реклама, алгоритма (решения о классификации), то он редко
страхование или квалификация кредита, а также имеет конкретное представление о том, что он
кредитный скоринг. Это лишь некоторые примеры делает.
механизмов классификации, которым ежедневно
подвергаются генерируемые нами личные и
следовые данные в развитых капиталистических
обществах, подключенных к сети. Все эти
механизмы классификации часто опираются на
алгоритмы вычислительной техники, а в последнее
время - на алгоритмы машинного обучения.
Непрозрачность, похоже, лежит в основе новых
обсуждений "алгоритмов" среди правоведов и
социологов. Алгоритмы, о которых идет речь,
Загружено от гостя 20 января 2016 г.
как или почему конкретная классификация была волнующих социологов вопросов, таких как
получена из входных данных. Кроме того, сами экономическое неравенство и социальная
исходные данные могут быть полностью неизвестны мобильность. Три различные формы непрозрачности
или известны лишь частично. Естественно, возникает включают: (1) непрозрачность как намеренное
вопрос, каковы причины такого состояния корпоративное или
неизвестности? Потому ли, что алгоритм является
собственностью компании? Потому что он сложный
Школа информации, Калифорнийский университет в Беркли,
или высокотехничный? Или, может быть, есть другие Беркли, Калифорния, США
причины? Выделяя формы непрозрачности, которые
часто объединяются в развивающихся Корреспондирующий автор:
междисциплинарных исследованиях по этой теме, я Дженна Баррелл, Школа информации, UC-Berkeley, 102 South Hall
стремлюсь подчеркнуть различные последствия #4600, Berkeley, CA 94720, США.
Электронная почта: jburrell@berkeley.edu
алгоритмической классификации для давно

Creative Commons Non Commercial CC-BY-NC: Эта статья распространяется на условиях Creative Commons Attribution-.
Некоммерческая лицензия 3.0 (http://www.creativecommons.org/licenses/by-nc/3.0/), которая разрешает некоммерческое
использование, воспроизведение и распространение работы без дополнительного разрешения при условии, что оригинальная работа
атрибутирована, как указано на страницах SAGE и Open Access (https://us.sagepub.com/en-us/nam/open-access-at-sage).

Загружено от гостя 20 января 2016 г.


2Большие данные и общество

(2) непрозрачность, проистекающая из нынешнего коннотации термина активно формируются как часть
положения дел в мире, где написание (и чтение) рекламной культуры и корпоративной
кода является специальным навыком, и (3) самопрезентации, а также подвергаются критике со
непрозрачность, проистекающая из несоответствия стороны соответствующего контрдискурса, связанного
между математической оптимизацией в высокой с общей озабоченностью автоматизацией,
размерности, характерной для машинного корпоративной подотчетностью и монополиями СМИ
обучения, и требованиями человеческого (например, Tufekci, 2014).
мышления и стилей семантической интерпретации. Хотя эти новые медиа-повествования могут быть
Эта третья форма непрозрачности (которую часто новыми, уже давно известно, что крупные организации
объединяют со второй формой как часть общего
ощущения, что алгоритмы и код очень техничны и
сложны) является предметом особого внимания
данной статьи. Подробно рассматривая эту форму
непрозрачности, я указываю на недостатки
некоторых предложений по "аудиту" кода или
алгоритмов как способа оценки на предмет
дискриминационной классификации.
Для изучения этого вопроса непрозрачности, в
частности, задачи проникновения внутрь самих
алгоритмов, я цитирую существующую литературу
по информатике, известные отраслевые практики (в
том виде, в котором они публично представлены), а
также провожу некоторые испытания и
манипуляции с кодом в качестве облегченной
формы аудита. Попутно я связываю эти формы
непрозрачности с техническими и нетехническими
решениями, предлагаемыми для решения проблемы
непроницаемости классификации машинного
обучения. Каждая форма предлагает отдельные
решения для предотвращения вреда.

Итак, что же нового?


Слово "алгоритм" в последнее время претерпело
изменения в общественном представлении,
превратившись из непонятного технического
термина, используемого почти исключительно
среди специалистов в области компьютерных наук,
в термин, связанный с поляризованным дискурсом.
Этот термин все чаще появляется в основных
средствах массовой информации. Например,
профессиональная организация National Nurses
United выпустила радиоролик (автор слышал его на
одной из местных радиостанций), который
начинается с голоса, саркастически заявляющего:
"Алгоритмы - это простые математические
формулы, которые никто не понимает", а
заканчивается тем, что медсестра вскакивает, чтобы
спасти расстроенного пациента от системы
диагностики заболеваний, которая делает ряд
комически неверных заявлений о состоянии пациента.
1
Целью социальной рекламы (PSA) является
пропаганда профессионального ухода (со стороны
медсестер), в данном случае против автоматики,
допускающей ошибки. В отличие от этого, попытки
корпоративного "брендинга" термина "алгоритм"
обыгрывают представления об объективности
алгоритмов по сравнению с предвзятым принятием
решений человеком (Sandvig, 2015). Таким образом,
(включая предприятия частного сектора и рутины, о том, что они берут на себя более
государственные учреждения) имели широкий спектр типов задач в масштабах, которых
внутренние процедуры, которые не были раньше не было.
полностью понятны тем, на кого они В этой развивающейся критике "алгоритмов",
распространялись. Эти процедуры можно с проводимой учеными в области права и социальных
полным основанием назвать "алгоритмами". Что наук, лишь немногие глубоко рассматривают их
же нам делать с этими новыми употреблениями математический дизайн. Многие из этих критиков
термина и возникающей вместе с ним областью вместо этого используют широкий
критики и анализа? Является ли это просто социотехнический подход, рассматривая
"старым вином в новых бутылках" или "алгоритмы в природе". Рассматриваемые
существуют действительно новые и актуальные алгоритмы изучаются с точки зрения их
вопросы, связанные с паттернами расположения в корпорации, под давлением выгоды
алгоритмического проектирования, поскольку и акционерной стоимости, и их применения к
они все чаще используются в реальных конкретным реальным группам пользователей (и
приложениях? данным, которые эти группы производят). Таким
В дополнение к поляризации общественного образом, нечто большее
дискурса об алгоритмах, многое из того, что
является новым в этой области, - это более
распространенные технологии и методы сбора
данных, более обширные архивы персональных
данных, включая покупательскую активность,
переходы по ссылкам и геопространственные
перемещения, что является результатом более
широкого распространения мобильных
устройств, услуг и приложений и реальности (в
некоторых частях мира) постоянной кон-
нективности. Но это не обязательно связано с
алгоритмами, которые работают с данными.
Зачастую речь идет о том, из чего состоят
данные, и о новых проблемах, связанных с
конфиденциальностью и возможностью (или,
что вызывает беспокойство, невозможностью)
отказа от их использования.
Другие изменения связаны с конкретными
областями применения и развивающимися
предложениями по нормативному
регулированию. Сдвиг алгоритмической
автоматизации в новые области того, что
раньше было работой "белых воротничков",
отражается в заголовках типа "нам понадобятся
учителя или алгоритмы? "2 и в
последовательные процессы классификации,
которые раньше определялись человеком, такие
как оценка кредитоспособности в стремлении к
экономии средств (что так часто стимулирует
сдвиги в сторону автоматизации) (Straka, 2000).
В области кредитования и займов Фуркад и
Хили указывают на переход от прежней
практики исключающего кредитования
избранных к более щедрым кредитам,
предоставляемым более широкому кругу
общества, но предоставляемым некоторым на
невыгодных, даже ростовщических условиях.
Этот сдвиг стал возможен благодаря
"появлению и расширению методов
отслеживания и классификации
потребительского поведения" (Fourcade and
Healy, 2013: 560). Эти методы (частично)
реализованы в виде алгоритмов в компьютерах.
Здесь, как представляется, речь идет о
расширении территории работы, на которую
претендуют конкретные алгоритмические
Баррелл3
является алгоритмическим4 , но алгоритмы поисковых
систем не являются по своей сути алгоритмами
чем исследуется алгоритмическая логика. Такие
"машинного обучения". Поисковые системы
анализы часто специфичны для конкретной
используют алгоритмы машинного обучения для
реализации (например, поисковой системы Google)
определенных целей, например, для обнаружения
с ее специфической пользовательской базой и
рекламы или откровенных манипуляций с
уникальной накопленной историей проблем и
поисковым рейтингом, а также для
неудач с результирующей настройкой параметров и
предварительной обработки результатов поиска в
ручной подстройкой программистами. Такой
зависимости от местоположения пользователя. 5
подход может не выявить важные более широкие
закономерности или риски, которые можно
обнаружить в отдельных классах алгоритмов.

Расследование непрозрачности: Метод


и подход
В целом, мы не можем напрямую посмотреть на
код многих важных алгоритмов классификации,
которые широко используются. Эта непрозрачность
(на одном уровне) существует из-за соображений
собственности. Они закрыты для того, чтобы
сохранить конкурентное преимущество и/или
опередить противников на несколько шагов.
Противниками могут быть другие компании на
рынке или злоумышленники (актуально для многих
приложений сетевой безопасности). Однако можно
исследовать общие вычислительные конструкции,
которые, как мы знаем, используют эти алгоритмы,
опираясь на учебные материалы.
Для этого я частично опираюсь на
классические иллюстративные примеры
конкретных моделей машинного обучения, которые
используются в обучении студентов. В данном
случае я специально рассмотрел задания по
программированию для курса по машинному
обучению на Coursera. Эти примеры представляют
собой сильно упрощенные версии вычислительных
идей, уменьшенные для запуска на персональном
компьютере студента так, что они выдают
результат почти мгновенно. Такие примеры не
заставляют сталкиваться со многими сложными
проблемами реального мира. Тем не менее, то,
как непрозрачность сохраняется, несмотря на
такое упрощение, показывает нечто важное и
фундаментальное в отношении ограничений на
ее преодоление.
Алгоритмы машинного обучения не охватывают
все алгоритмы, представляющие интерес для
ученых, изучающих то, что можно отнести к
"политике алгоритмов".3 Однако они интересны для
специального рассмотрения, поскольку обычно
применяются для задач классификации и поскольку
используются для составления социально значимых
прогнозов, таких как "насколько вероятно, что этот
заявитель на кредит не выплатит кредит?". В более
широкой области алгоритмов, применяемых в
различных областях (таких как поисковые системы
или кредитный скоринг), алгоритмы машинного
обучения могут играть либо центральную, либо
периферийную роль, и не всегда легко определить,
что именно. Например, запрос в поисковой системе
Один из аргументов в появившейся литературе о
Хотя не все задачи, к которым применяется "политике алгоритмов" заключается в том, что
машинное обучение, являются задачами непрозрачность алгоритмов - это в значительной
классификации, это ключевая область применения, степени намеренная форма самозащиты
в которой возникают многие социологические корпораций, стремящихся сохранить свои
проблемы. Как отмечают Боукер и Стар в своем коммерческие секреты и конкурентные
описании классификации и ее последствий, "каждая преимущества. Однако речь идет не только о том,
категория превозносит одну точку зрения и что одна поисковая система конкурирует с другой,
замалчивает другую", и существует долгая история чтобы сохранить свой "секретный соус" в тайне.
жизней, "сломанных, искаженных и измученных Дело также в том, что доминирующие платформы и
столкновением с системами классификации", приложения, особенно те, которые используют
такими как система расовой классификации в алгоритмы для ранжирования, рекомендаций,
Южной Африке времен апартеида и категоризация трендов и
больных туберкулезом, о чем они подробно
рассказывают (Bowker and Star, 1999). Утверждение
о том, что алгоритмы будут классифицировать
более "объективно" (таким образом, решая
существовавшие ранее проблемы неадекватности
или несправедливости классификации), нельзя
просто принять за чистую монету, учитывая степень
человеческих суждений, все еще вовлеченных в
разработку алгоритмов, выбор, который становится
встроенным. Эта человеческая работа включает в
себя определение признаков, предварительную
классификацию обучающих данных и настройку
пороговых значений и параметров.

Непрозрачность
Ниже я определяю типологию, начиная с вопроса
"непрозрачности" как формы защиты
собственности или "корпоративной тайны"
(Pasquale, 2015). Во-вторых, я указываю на
непрозрачность с точки зрения читаемости кода.
Написание кода - необходимый навык для
вычислительной реализации алгоритмов, и этот
навык остается специализированным, не
распространенным среди широкой публики.
Наконец, переходя к главному вопросу этой
статьи, я противопоставляю третью форму
непрозрачности, связанную с несоответствием
между математическими процедурами алгоритмов
машинного обучения и человеческим стилем
семантического взаимодействия. В основе этой
проблемы лежит непрозрачность, связанная с
конкретными методами, используемыми в
машинном обучении. Каждая из этих форм
непрозрачности может быть решена с помощью
различных инструментов и подходов - от
законодательных, организационных или
программных до технических. Но важно, чтобы
форма (или формы) непрозрачности, связанная с
конкретным алгоритмическим применением,
была идентифицирована для того, чтобы
предпринять курс действий, способный смягчить
ее проблемы.

Формы непрозрачности
Непрозрачность как намеренная корпоративная
или государственная тайна
4Большие данные и общество

Привлекают тех, кто хочет "играть" с ними в это все же возможно при использовании независимого
рамках стратегии привлечения внимания широкой "доверенного аудитора", который сможет сохранить
публики. Область "поисковой оптимизации" секретность, служа интересам общества (Pasquale,
занимается именно этим. Подход в машинном 2015: 141). В отсутствие доступа к коду, Сандвиг и др.
обучении под названием "состязательное обучение" (2014) подробно описывают и сравнивают несколько
специально занимается такими видами форм алгоритмического аудита (проводимого как при
развивающихся стратегий. Приложения машинного сотрудничестве с корпорацией, так и без него) как
обучения в области сетевой безопасности имеют возможный ответ, способ заставить решать этот
дело непосредственно со спамом, аферами и вопрос, не требуя доступа к самому коду.
мошенничеством и остаются непрозрачными,
чтобы быть эффективными. Сандвиг отмечает, что
эта "игра в кошки-мышки" делает совершенно
маловероятным, что большинство алгоритмов
будут (или обязательно должны быть) раскрыты
широкой публике (Sandvig et al., 2014: 9). При этом
очевидной альтернативой проприетарным и
закрытым алгоритмам является программное
обеспечение с открытым исходным кодом.
Успешные бизнес-модели возникли в рамках
движения за открытый исходный код. Существуют
варианты даже в "состязательном обучении",
например, спам-ассасин SpamAssassin для Apache.
С другой стороны, более скептический ана-лиз
Паскуаля предполагает, что нынешняя степень
непрозрачности алгоритмов во многих сферах
применения может быть неоправданной и, скорее,
является продуктом слабых или отстающих
нормативных актов. В своей книге "Общество
черного ящика: Секретные алгоритмы,
контролирующие деньги и информацию" он
утверждает, что в игре действительно присутствует
некая состязательная ситуация, в которой
противником является само регулирование. Что,
если финансисты специально делают свои дела
непрозрачными, именно для того, чтобы избежать
или запутать регулирование?" - спрашивает он
(Pasquale, 2015: 2). В связи с этим он определяет
"непрозрачность" как "устранимую
непостижимость".
Непрозрачность алгоритмов, по мнению
Паскуаля, можно объяснить умышленной
самозащитой корпораций во имя конкурентного
преимущества, но это также может быть
прикрытием для новой формы сокрытия обходных
правил, манипулирования покупателями и/или
моделей дискриминации.
В качестве ответа на этот тип непрозрачности
предлагается сделать код доступным для изучения,
при необходимости с помощью регулятивных
средств (Diakopoulos, 2013; Gandy, 2010; Pasquale,
2015). В основе этого конкретного объяснения
алгоритмической непрозрачности лежит
предположение о том, что если бы корпорации
были готовы раскрыть дизайн используемых ими
алгоритмов, то, ознакомившись с кодом, можно
было бы выявить проблемы манипулирования
потребителями или нарушения законодательства.
Паскуаль признает, что такие меры могут сделать
алгоритмы неэффективными, но предполагает, что
Непрозрачность как техническая неграмотность Ученые отмечают, что алгоритмы (такие как
алгоритм, лежащий в основе поисковой системы
Этот второй уровень непрозрачности Google) часто представляют собой
обусловлен признанием того, что в настоящее многокомпонентные системы, созданные
время написание (и чтение) кода и разработка командами, что создает непрозрачность, с которой
алгоритмов - это специализированный навык. вынуждены бороться программисты, являющиеся
Он остается недоступным для большинства "инсайдерами" алгоритма (Sandvig et al., 2014;
населения. На курсах по программной Seaver, 2014). Призыв к "аудиту" кода (где это
инженерии особое внимание уделяется означает чтение кода) и найму "аудиторов" может
написанию чистого, элегантного и понятного недооценивать то, что это повлечет за собой в
кода. Хотя код реализуется на определенных отношении
языках программирования, таких как C или
Python, и синтаксис этих языков необходимо
изучать, в некоторых отношениях они
совершенно не похожи на человеческие языки.
Например, они строго придерживаются
логических правил и требуют точности в
написании и грамматике, чтобы быть
"прочитанными" машиной.
Хороший код выполняет двойную работу. Он
должен быть интерпретируемым как человеком
(первоначальным программистом или тем, кто
дополняет или поддерживает код), так и
вычислительным устройством (Mateas and
Montfort, 2005). Написание текста для
вычислительного устройства требует особой
точности, формальности и полноты, которых
нет при общении на человеческих языках.
Искусство и "ремесло "6 программирования
отчасти заключается в управлении этой
посреднической ролью и подразумевает
некоторые хорошо известные "лучшие
практики", такие как выбор разумных имен
переменных, включение "комментариев"
(одностороннее общение с человеческими
программистами, опущенное при компиляции
кода для машины) и выбор более простой
формулировки кода при прочих равных
условиях.
Недавние призывы к большему разнообразию
в областях STEM и общие усилия по развитию
"вычислительного мышления" на всех уровнях
образования (Lee et al., 2011; Wing, 2006)
актуальны. Диакопулос (2013) также предлагает
способы, с помощью которых журналисты
могут играть ценную роль в реинжиниринге
алгоритмов для информирования широкой
общественности, но отмечает, что это ставит
задачу развития "человеческих ресурсов",
развития кода и вычислительной грамотности у
журналистов или других людей, желающих
проводить такого рода исследования. Для
решения этой формы непрозрачности широкое
распространение образовательных программ в
идеале должно сделать общественность более
осведомленной об этих механизмах, которые
влияют на их жизненные возможности, и
поставить их в более выгодное положение для
непосредственной оценки и критики.

Непрозрачность как способ работы


алгоритмов в масштабе приложения
Баррелл5
годы вызвала новый интерес к этим алгоритмам.
Алгоритм машинного обучения обычно
количество часов, необходимых для распутывания
включает две параллельные операции или два
логики кода в сложной программной системе. Эта
разных алгоритма: "классификатор" и "обучаемый"
обоснованная критика, тем не менее, не
(см., например, рисунок 3). Классификаторы
конкретизирует различные классы алгоритмов и их
принимают входные данные (называемые набором
конкретные логики.
"признаков") и выдают на выходе "категорию". Для
Далее я утверждаю, что существуют
определенные проблемы масштаба и сложности,
характерные для алгоритмов машинного обучения.
Эти проблемы связаны не просто с общим
количеством строк или страниц кода, количеством
членов команды разработчиков и множеством
взаимосвязей между модулями или
подпрограммами. Речь идет не просто о чтении и
понимании кода, а о способности понять алгоритм
в действии, оперируя данными. Хотя алгоритм
машинного обучения может быть реализован
просто, так, чтобы его логика была почти
полностью понятна, на практике такой экземпляр
вряд ли будет особенно полезен. Модели
машинного обучения, которые оказываются
полезными (в частности, с точки зрения "точности"
классификации), обладают определенной степенью
неизбежной сложности.
Машинное обучение, в частности, часто
описывается как страдающее от "проклятия
размерности" (Domingos, 2012). В эпоху "больших
данных" можно анализировать миллиарды или
триллионы примеров данных и тысячи или десятки
тысяч свойств данных (называемых в машинном
обучении "признаками"). Внутренняя логика
принятия решений алгоритма изменяется по мере
того, как он "обучается" на обучающих данных.
Обработка огромного числа особенно разнородных
свойств данных (например, не только слов в спаме,
но и информации в заголовке письма) усложняет
код. Методы машинного обучения быстро
сталкиваются с ограничениями вычислительных
ресурсов по мере их масштабирования и могут
справиться с этим, используя методы, записанные в
коде (например, "анализ главных компонент"),
которые увеличивают его сложность. Хотя наборы
данных могут быть чрезвычайно большими, но
доступными для понимания, а код может быть
написан четко, взаимодействие между ними в
механизме алгоритма - это то, что создает
сложность (и, следовательно, непрозрачность).
Лучшее понимание этой сложности (и препятствий
для преодоления непрозрачности, которую она
создает) является предметом рассмотрения в
следующих примерах.

Машинное обучение: Краткое


руководство Алгоритмы машинного обучения
используются в качестве мощных гене- рализаторов и
предсказателей. Поскольку точность этих
Известно, что алгоритмы улучшаются с
увеличением количества данных для обучения, и
растущая доступность таких данных в последние
(и связанное с ним значение серого цвета)
Например, классификатор, который занимается становится входом (или "признаком") для
отбором спама, принимает набор признаков (таких классификатора, который в конечном итоге выдает
как информация о заголовке письма, слова в теле распознанное число (в случае рисунка 2 это должно
письма и т.д.) и выдает одну из двух выходных быть число 6).
категорий ("спам" или "не спам"). Система При проектировании нейронной сети набор
поддержки принятия решений, которая занимается входных узлов соединяется со вторым набором
диагностикой заболеваний, может принимать узлов, называемым "скрытым" слоем (подобно
входные данные (клиническая картина/симптомы, взаимосвязанным нейронам в мозге), а затем с
результаты анализа крови) и выдавать на выходе выходным слоем (см. Рисунок 3). Каждый входной
диагноз заболевания ("гипертония", "болезнь узел соединен с узлом скрытого слоя и
сердца", "рак печени"). Однако алгоритмы
машинного обучения, называемые "обучающими",
должны сначала тренироваться на тестовых данных.
7
Результатом этого обучения является матрица
весов, которая затем будет использоваться
классификатором для определения классификации
для новых входных данных. Этими обучающими
данными могут быть, например, электронные
письма, которые были предварительно
отсортированы и помечены как "спам" или "не
спам".
Машинное обучение включает в себя ряд
моделей, которые реализуются в коде различными
способами. Некоторые популярные модели
машинного обучения включают нейронные сети,
деревья решений, метод Наива Байеса и
логистическую регрессию. Выбор модели зависит
от области (например, предсказание дефолта по
кредиту или распознавание изображений),
продемонстрированной точности классификации,
доступных вычислительных ресурсов. Модели
также могут быть объединены в "ансамбли
моделей" - подход, часто используемый в
соревнованиях по машинному обучению, целью
которых является максимизация точности
классификации. Ниже будут рассмотрены два
варианта применения машинного обучения с
использованием отдельных моделей.

Визуализация непрозрачности в
нейронной сети Первая модель и применение
машинного обучения, которую я хочу рассмотреть, -
это "нейронная сеть", применяемая к
задача распознавания образов. Так как это задача
распознавания образов, она подходит для попытки
"увидеть" веса, выводимые алгоритмом обучения.
Классическим примером для обучения нейронным
сетям студентов старших курсов факультета
компьютерных наук является распознавание
8
рукописного текста. Для упрощения
вычислительной задачи в учебных целях код
реализован для распознавания только десяти цифр
почерка (цифры от 0 до 9). Для дальнейшего
упрощения задачи эти цифры рисуются в границах
ограниченного пространства. Рассматривая рисунок
1, можно увидеть некоторую "нечеткость" и ~
неоднозначность данных, подлежащих
классификации. Если взять одно рукописное число в
квадрате размером 8 8 пикселей, то каждый пиксель
6Большие данные и общество

Рисунок 1. Набор примеров рукописных цифр, на


которых может быть обучен алгоритм машинного
обучения ("обучаемый"), в данном случае - нейронная сеть.
Рисунок 3. Графическое изображение нейронной сети.

На рисунке 4(a) показан скрытый слой в


нейронной сети. Если вы посмотрите на одну из 25
ячеек, то увидите, на какую часть рукописного
числа она ориентируется. Каждая ячейка
представляет собой один узел скрытого слоя, а
каждый пиксель в ячейке иллюстрирует значение
веса, поступающего из одного узла входного слоя в
конкретный узел скрытого слоя. Таким образом, в
каждом поле показан набор весов для упрощенной
нейронной сети с одним скрытым слоем. Области в
ячейке, выделенные черным цветом, являются
конкретными пикселями, к которым данный узел
наиболее чувствителен. Например, в верхнем левом
Рисунок 2. Рукописный номер в квадрате 8 x 8 пикселей. поле показан узел скрытого слоя, который
реагирует на затемненные пиксели в нижней левой
части квадранта и немного в середине. Комбинация
каждый узел скрытого слоя соединен с выходом в вычислений, выходящих из этих узлов скрытого
конструкции нейронной сети на рисунке 3. С слоя, дает классификацию входных данных до
каждой из этих соединительных линий связано числа от 0 до 9.
значение или вес. Оптимальные значения для Примечательно то, что нейронная сеть не
матрицы весов - это то, чему учит алгоритм разбивает, например, распознавание рукописных
обучения. Под "оптимальным" понимается набор цифр на подзадачи, легко понятные человеку, такие
весов, который обеспечивает наиболее точную как идентификация горизонтальной полосы,
классификацию входов (отдельные пиксели и их замкнутой овальной формы, диагональной линии и
интенсивность
~ от белого до черного в матрице 8 8) т.д. Этот результат, очевидное отсутствие
и выходов (рукописные цифры, которые закономерности в этих весах, вытекает из самого
представляют эти пиксели). понятия вычислительного "обучения". Машинное
Поскольку речь идет о задаче распознавания обучение применяется для решения таких задач,
изображений, мы можем наглядно представить для которых кодирование явной логики принятия
оптимизированные веса, поступающие в узел решений работает очень плохо. В своем курсе по
скрытого слоя. Таким образом, мы можем увидеть, машинному обучению на Coursera Эндрю Нг
как нейронная сеть решает задачу распознавания описывает эту область как область "приложений,
рукописного номера (см. рис. 4). которые мы не можем запрограммировать
"вручную"".9 Подразумевается, что "рука" - это
человек. 10 Как уже отмечалось, ремесло написания
кода (людьми) - это двусторонняя
коммуникация, с одной стороны, для коллег-
программистов, а с другой - для людей.
Баррел7

Рисунок 4. (a) Скрытый слой: черные области в каждой рамке - это области (штрихи или другие узоры), на которые
реагирует определенный узел скрытого слоя в рукописной цифре. (b) Здесь показан результат работы того же алгоритма
обучения во второй раз с теми же данными.
обучающие данные. Причина, по которой (a) и (b) не идентичны, заключается в шаге случайной инициализации, который
определяет набор весов изначально очень маленькими случайными числами.

с другой стороны, для компьютерного процессора. понимают нежелательные электронные письма,


Если алгоритм выполняет "программирование" (т.е. особенно те, которые отправляются в большом
оптимально рассчитывает свои веса), то логически количестве, но это, отчасти, обозначение сетевых
следует, что понятность для человека (часть администраторов, озабоченных, в частности,
искусства написания кода) больше не является перегрузкой сетевых ресурсов.
проблемой, по крайней мере, для нечеловеческого
"программиста".
Основная цель этого первого примера - дать
быстрое визуальное представление о том, как
машина "думает". Рисунок 4(a) должен показаться
неинтуитивным, случайным и неорганизованным.
Однако распознавание рукописного текста не
является "сознательной" задачей рассуждения и у
людей. Люди распознают визуальные элементы
мгновенно и подсознательно (таким образом, в
процессе распознавания символов также
присутствует некая непрозрачность). Может
показаться, что такой пример не дает особого
представления о более широких реальных вопросах
дискриминации при классификации. Однако
недавний случай, когда автоматическая
классификация в Google Photos обозначила набор
фотографий афроамериканцев как "гориллы",
свидетельствует об обратном. 11 В качестве
дополнительного аргумента, мой следующий
пример, спам, рассматривает автоматизацию
задачи, которая требует более сознательной формы
человеческого мышления. Как вопрос, связанный с
основными коммуникационными возможностями
Интернета, я показываю, как отслеживание спама
имеет отношение к вопросам классификационной
дискриминации.

Непрозрачность фильтрации спама


Спам не имеет четкого и неоспоримого
определения (Brunton, 2013). Обычно под ним
По этой и другим причинам отслеживание спама
является лучшей прикладной областью для
рассмотрения классификации на основе машинного
обучения как социально значимой. Сообщения,
которые классифицируются как спам, - это
сообщения, которые не доходят до адресатов.
Следовательно, этот пример имеет
непосредственное отношение к текущим разговорам
о политике поиска, ранжирования и отсеивания
контента. Если законное сообщение
классифицируется как спам ("ложное
срабатывание"), то это сообщение, которое, в
конечном счете, подверглось невольной цензуре.
Один из вопросов заключается в том, может ли
конструкция спам-фильтров сделать некоторых
людей более восприимчивыми к тому, что их
законные сообщения попадают в папки со спамом.
Например, является ли проживание в очаге
интернет-мошенничества или спама, скажем, в
Западной Африке (Нигерии или Гане) или
Восточной Европе, причиной того, что сообщения
человека могут быть ошибочно помечены как спам?
В курсе Нг на Coursera машины опорных
векторов (SVM) являются моделью машинного
обучения, используемой для реализации
фильтрации спама. SVM - это другой тип модели
машинного обучения, такой как нейронные сети, и
любая из них может быть использована для
фильтрации спама. Упрощенная версия,
используемая в курсе Coursera, не использует "трюк
с ядром", вычислительную технику, характерную
для SVM, поэтому она по сути является формой
линейной регрессии; в технических терминах она
использует "линейное ядро". В качестве
дополнительного упрощения в упражнении по
программированию для обучения спам-
определителя используется исключительно
содержание электронного письма, то есть слова,
содержащиеся только в сообщении, и никакой
информации о заголовке письма. Эти слова
анализируются алгоритмом "обучающегося" для
определения набора весов. Эти веса определяют
степень, с которой данное слово ассоциируется со
"спамом" и "ветчиной" (не спамом). Такой подход
описывается как "пакет
8Большие данные и общество

слов". Между словами нет никаких семиотических Рассмотрим ниже конкретный пример спама в
отношений, и смысл из сообщений не извлекается, нигерийском стиле 419, недавно попавшего в спам-
также в алгоритме нет попытки анализа фильтр аккаунта gmail автора, который действительно
повествования. отнесен к категории
Я провожу легкий "аудит" алгоритма и
рассматриваю веса, полученные для каждого слова,
и то, как мы можем их понять. В частности, я
сосредоточился на одном из видов спама -
нигерийском мошенничестве 419, жанре, с которым
я хорошо знаком (Burrell, 2012). Афера 419
поднимает интересную проблему доступа к сети и
"ложных срабатываний" спама. В частности,
являются ли географические названия, в частности
"Нигерия", триггером, приводящим к большей
вероятности отнесения письма к спаму?
Фактически, после запуска алгоритма обучения
на (по общему признанию) очень устаревшем
публичном корпусе12 можно получить список
географических названий с - соответствующими
"весами". Эти веса находятся —в диапазоне от 1
(сильно ассоциируется с не спамовыми письмами)
до 1 (сильно ассоциируется со спамовыми
письмами). Вполне возможно, что для общей
популяции
- нигерийских пользователей электронной
почты — вес, связанный со словом "Нигерия",
содержащимся в письме, составляет 0,001861. Это
означает, что слово "Нигерия", по сути, является
нейтральным термином. 13 Если посмотреть на спам
в целом, это имеет определенный смысл. В целом,
подавляющее большинство спама не ориентировано
на Нигерию и не упоминает ее. Предположительно,
количество абсолютно легитимных писем с
упоминанием Нигерии еще больше ослабит
ассоциацию между этой страной и спамом.
Слова, которые на самом деле больше всего
ассоциируются со спамом (обратите внимание, они
были удалены, чтобы группы слов, такие как
гарантия, гарантии и гарантированный, можно
было рассматривать как эквивалентные термины),
следующие:

наш (0.500810)
клик (0.464474)
удаление (0.417698)
гарант (0.384834)
посещение (0.369730)
basenumb14 (0.345389)
доллар (0,323674)
цена (0,268065)
будет (0.264766)
большинство (0,261475)
удовольствия (0.259571)

Во многих случаях это термины, которые, как мы


ожидаем, будут встречаться в разных жанрах спама.
Они предполагают общие призывы, мольбы и
обещания ("гарантия"), авторитет коллектива
("наш"), конкретную и количественную выгоду или
пользу (особенно денежную).
как спам с помощью упрощенного SVM спам- осмысления для интерпретирующего человеческого
фильтра (полный текст письма см. в разума, но общая классификация, даже в этом очень
Приложении 1): упрощенном примере, не может быть легко
определена путем беглого просмотра слов и
Моя дорогая, связанных с ними весов в конкретном электронном
Приветствую вас, мои дорогие письме. Это совокупность всех весов слов,
возлюбленные, я - миссис Элис Уолтон, найденных в письме, сопоставленных со словарем
гражданка Соединенных Штатов. У меня к из 1899 наиболее часто используемых слов.
вам предложение стоимостью 1 000 000 Незначительные дивергенции и ключевые слова
000,00 долларов, которое я намерена (например, "посетить" или "будет"), которые не
использовать для благотворительности, но могут быть легко осмыслены как часть
мне так страшно, потому что трудно найти
достойного доверия человека на земле. . . .

Читая это письмо, я заметил формальность


языка и такие слова, как "дорогой" и
"любимый". Упоминание о том, что вы
"гражданин", занимаетесь
"благотворительностью" и ищете кого-то
"достойного доверия", а также упоминание о
"мошенничестве" также вызывают подозрение.
Однако ни на одно из этих слов SVM-спам не
реагирует. Напротив, упоминание денег, слова
"пожалуйста" и "свяжитесь" являются наиболее
весомыми терминами, найденными в этом
конкретном письме. На самом деле, после
удаления упоминания денег и слова
"пожалуйста" из письма и повторного прогона
его через алгоритм "классификатор", оно
больше не классифицируется как спам.
Теперь для сравнения рассмотрим это письмо
от друга и научного сотрудника автора -
письмо, которое имеет многие из тех же
признаков, что и письма мошенников
(формальность, религиозность, выражение
благодарности и т.д.), но не является письмом
мошенников:

Дорогой профессор. Спасибо Вам за то, что Вы


постоянно возвращаете надежду и оживляете
меня, когда кажется, что все надежды
потеряны. Со слезами и глубокой
благодарностью я говорю Вам спасибо. У
меня есть возможность получить большой
генератор, с кондиционером,
подержанную профессиональную видеокамеру
Panasonic 3ccd и еще около 150 долларов на
моем счету для заботы о моем здоровье. Я
молюсь, чтобы вы постоянно процветали.
С большим уважением и до свидания.

Классификатор спама точно классифицирует


это письмо как не спам, опять же основываясь
исключительно на содержащихся в нем словах
(без знания о существовавших ранее
отношениях автора с отправителем). Тем не
менее, при прогоне через алгоритм
классификатора в письме присутствуют
определенные слова-триггеры (включая "хочу"
и "буду"), и, что самое инкриминирующее,
упоминаются деньги. Ранжирование слов по
"весу" кажется своего рода рычагом для
Баррелл9
котором указывается одна из причин, по которой
оно было помещено в эту папку. 15 Сообщения
стратегии социальной инженерии и убеждения
включают "оно содержит контент, который обычно
могут изменить баланс классификации спама.
используется в спамовых сообщениях" (возможно,
Люди, вероятно, распознают и оценивают спам в
это ссылка на подход типа "мешок слов") и
соответствии с жанром: фишинговое
"многие люди отмечали подобные сообщения как
мошенничество, нигерийское письмо 419,
фишинговые аферы, поэтому это может содержать
предложение о продаже виагры. В отличие от этого,
небезопасный контент". И все же, объяснения, в
подход "мешка слов" разбивает текст на
которых приводится управляемый человеком
атомистические коллекции единиц, слов, порядок
список ключевых критериев (т.е. 10 наиболее
которых не имеет значения. Алго-ритм выводит на
весомых/спамных сообщений), могут быть более
поверхность очень общие термины, характерные
эффективными.
для спамовых писем, часто термины, которые (по
отдельности) довольно банальны и заумны. Мой
семантический анализ попытался согласовать
статистические закономерности, выводимые
алгоритмом, со значением, относящимся к неявной
стратегии текста в целом, но это явно не то, как
"думает" машина.

Пересмотр "интерпретируемости
Приведенный пример классификации нигерийских
спам-сообщений в стиле 419 дает некоторое
представление о достоинствах и недостатках аудита
кода. Поиск способов раскрыть внутреннюю логику
алгоритма может снять озабоченность по поводу
отсутствия "справедливости" и
дискриминационных эффектов, иногда с
обнадеживающим доказательством объективности
алгоритма, как в случае с неравномерным
взвешиванием слова "Нигерия". С другой стороны,
дальнейшее изучение "почему" того или иного
решения по классификации приводило к
наводящим на размышления доказательствам,
которые казались вполне подходящими в качестве
объяснения, но это накладывало процесс
интерпретационных рассуждений человека на
математический процесс статистической
оптимизации. Другими словами, машинное
мышление было решено заменить человеческой
интерпретацией. Тем не менее, неоднозначность
осталась, например, взвешивание таких безобидных
слов, как "посетить" и "хочу", в качестве
индикаторов спама. Это заставляет усомниться в
том, что объяснение, полученное таким образом
для ответа на вопрос "почему", обязательно будет
особенно правильным.
Компьютерные ученые называют эту проблему
непрозрачности проблемой "интерпретируемости".
Одним из подходов к созданию более
интерпретируемых классификаторов является
реализация компонента, обращенного к конечному
пользователю, который не только предоставляет
результат классификации, но и раскрывает
некоторую логику этой классификации. Реальную
реализацию этого в области борьбы со спамом
можно найти в папке "спам" Google gmail. Если
выбрать спам в этой папке, то над текстом письма
появится желтое предупреждающее поле с
вопросом "почему это сообщение в спаме?", в
конкретные решения по классификации (Dwork et
слова, присутствующие в электронном письме, или al., 2011). В некотором смысле это расширяет
описание в одном предложении) дают в лучшем подход внешнего аудита, предложенный Сандвигом
случае неполное понимание16 , а в худшем - и др. (2014) и Диакопулосом (2013) с
ложную уверенность. использованием сложных алгоритмических
Попытки провести прямую линию между реализаций.
"взвешенными" входными данными и результатами
классификации еще больше осложняются
математическими манипуляциями, которые Заключение
происходят между ними. В отличие от
Возможно, в алгоритмах есть что-то в конечном итоге
представленных здесь примеров распознавания
почерка и удаления спама, часто бывает так, что непроницаемое. (Гиллеспи, 2012)
связь между признаком и размерностью в модели не
один к одному. Способы манипулирования
размерностью (анализ главных компонент или
"трюк с ядрами" в SVM, если привести два примера)
часто используются для управления
вычислительными ограничениями или для
повышения точности.
Постоянное увеличение вычислительной
мощности привело к появлению определенных
стратегий оптимизации, которые еще больше
усугубляют эту конкретную проблему
непрозрачности как сложности масштаба. С
увеличением вычислительных ресурсов и многими
терабайтами данных для добычи (которые теперь
часто собираются оппортунистически из цифровых
следов деятельности пользователей), количество
возможных признаков, которые можно включить в
классификатор, быстро растет за пределы того, что
может быть легко воспринято человеком. В статье,
посвященной народным знаниям о применении
машинного обучения, Домингос (2012) отмечает,
что "интуиция терпит неудачу при высоких
измерениях". Другими словами, рассуждения,
отладка или совершенствование алгоритма
становятся все более сложными по мере увеличения
количества качеств или характеристик,
предоставляемых в качестве входных данных,
каждое из которых тонко и незаметно изменяет
результирующую классификацию.
Для преодоления этой фундаментальной
непрозрачности существуют различные
предлагаемые подходы. Один из подходов,
возможно, удивительный, заключается в том, чтобы
не использовать алгоритмы машинного обучения в
определенных критических областях применения. 17
Существуют также способы упрощения моделей
машинного обучения, такие как "извлечение
признаков" - подход, который анализирует, какие
признаки действительно важны для результата
классификации, удаляя все остальные признаки из
модели. Некоторые решения, возможно, мудро
отказываются от ответа на вопрос "почему" и
разрабатывают метрики, которые могут другими
способами оценить дискриминацию (например,
Datta et al., 2015). Например, в проекте
"Справедливость через осведомленность"
дискриминационный эффект в алгоритмах
классификации может быть обнаружен без
извлечения информации о том, "как" и "почему"
10Большие данные и общество

Цель данной статьи - глубже изучить алгоритмы кода и, что более важно, алгоритмов
машинного обучения и природу их функционирования), использование альтернатив,
"непрозрачности", связав это с социологическими которые являются более прозрачными (т.е. с открытым
интересами в области классификации и исходным кодом), просвещение широкой
дискриминации. Это часть продолжающейся общественности, а также повышение осведомленности
переориентации науки о "цифровом неравенстве", тех, кто наделен полномочиями писать такой
которая часто фокусировалась на распределении последовательный код. В частности
вычислительных ресурсов и навыков (Hargittai,
2008), но до недавнего времени не затрагивала
вопрос о том, как люди могут подвергаться
вычислительной классификации, вторжению в
частную жизнь или другим видам наблюдения,
которые неравны для всего населения и могут быть
нарушением существующих нормативных защит
(Barocas and Selbst, 2016; Eubanks, 2012; Fourcade
and Healy, 2013).
Юридическая критика непрозрачности
алгоритмов часто фокусируется на возможности
намеренной секретности и приводит к призывам к
принятию нормативных актов для обеспечения
прозрачности. Паскуаль (2015) утверждает, что
необходимо использовать аудиторов, которые
имеют доступ к коду и могут гарантировать, что
классификация не является дискриминационной.
Другой подход заключается в обучении более
широких слоев общества написанию кода и
вычислительным навыкам, чтобы уменьшить
проблему однородного и элитного класса
технических специалистов, принимающих важные
решения, которые не могут быть легко оценены
другими людьми. Однако непрозрачность
алгоритмов машинного обучения является
проблемой на более фундаментальном уровне.
Когда компьютер обучается и последовательно
строит свое собственное представление
классификационного решения, он делает это без
учета человеческого понимания. Машинные
оптимизации, основанные на обучающих данных,
естественно, не согласуются с семантическими
объяснениями человека. Примеры распознавания
рукописного текста и удаления спама помогли
проиллюстрировать, как работа алгоритмов
машинного обучения может ускользнуть от
полного понимания и интерпретации человеком,
даже для тех, кто имеет специальную подготовку,
даже для компьютерных ученых.
В конечном итоге партнерство между учеными-
юристами, социологами, экспертами по доменам и
компьютерными учеными может помочь решить
эти сложные вопросы справедливости
классификации в свете барьера непрозрачности.
Кроме того, пользователи и широкая
общественность могут рассказать об исключениях и
формах дискриминации (алгоритмической или
иной), о которых "эксперты домена" могут не иметь
представления. Для решения проблем
классификации "черных ящиков" потребуется не
один инструмент или процесс, а определенная
комбинация нормативных актов или аудита (самого
Комбинация подходов будет зависеть от того, 6. См. также Ensmenger (2003) о программировании как
что требуется в конкретной области ремесле и программистах как профессии.
применения.

Благодарности
Спасибо многим, кто рецензировал и давал
комментарии на ранних стадиях написания этой
статьи, включая Себастьяна Бенталла, Лауру
Девендорф, Шрихарша Келкара, Марион Фуркад,
Майкла Карла Тшанца, Солона Барокаса, Дэвида
Баммана, Стива Вебера и членов семинара UC-
Berkeley Social Science Matrix по теме "Алгоритмы
как вычисления и культура".

Декларация о конфликте интересов


Автор(ы) не заявил(и) о потенциальных конфликтах
интересов в связи с исследованием, авторством и/или
публикацией данной статьи.

Финансирование
Автор(ы) не получал(и) финансовой поддержки для
проведения исследований, авторства и/или
публикации этой статьи.

Примечания
1. https://soundcloud.com/national-nurses-united/radio-
ad- алгоритмы
2. Khosla (2012).
3. Большинство ученых в этой области
фокусируются на конкретных сферах
применения, не уточняя технические категории
используемых алгоритмов. Гиллеспи
рассматривает поиск, тренды и другие алгоритмы
фильтрации и ранжирования контента (2012),
Паскуаль - репутационные, поисковые и
финансовые алгоритмы (2015), Брунтон
рассматривает фильтрацию спама (2013), а
рассмотрение Диакопулоса (2013) широко, но
связано с журналистикой данных. Сандвиг
рассматривает поиск, кратко рассматривая
основные алгоритмы сортировки, изучаемые на
вводных курсах информатики (2015). Работа
Солона Барокаса, посвященная алгоритмам
машинного обучения, является значительным
исключением из этой тенденции (Barocas, 2014a;
Barocas, 2014b; Barocas and Selbst, 2016).
4. За исключением той части (обычно совершенно
невидимой для пользователей), которая может
быть выполнена вручную людьми, которые
занимаются модерацией контента, перекрестной
проверкой, установлением истины и
исправлением-
http://www.wired.com/2014/12/google-maps- ground-
truth/
5. См. вопросы и ответы на Reddit AMA с Эндрю Нг
о том, почему компании делают свои
алгоритмические методы публичными
(https://www.reddit.com/r/Machine
Learning/comments/32ihpe/ama_andrew_ng_and_
adam_coates/cqbkmyb) и этот вопрос и ответ на
quora о том, как машинное обучение
способствует работе поисковой системы Google-
http://www.quora.com/Why-is- machine-learning-
used-heavily-for-Googles-ad-ranking- and-less-for-
their-search-ranking
Баррелл11
представленные в обучающем множестве, приводят к
непредсказуемым и, возможно, потенциально
7. Это относится к подмножеству подходов машинного
опасным для жизни последствиям (Both, 2014). В
обучения, называемому "контролируемым"
личных беседах с автором исследователи из Yahoo! и
обучением, которое, для ясности аргументации,
Fair Isaacs Corporation (источник баллов FICO) также
является тем, что конкретно рассматривается здесь.
описали избегание
8. Чтобы дать представление о том, насколько мало
изменились сами алгоритмы, можно сказать, что это
точно такой же пример, который использовался для
обучения нейронным сетям в курсе, который я
проходил в 2001 году, будучи студентом, а также в
курсе Coursera, который я закончил в 2013 году.
9. Видеоролик "Добро пожаловать", курс по
машинному обучению на Coursera. Доступно по
адресу: https://www.coursera.org/learn/machine-
learning/lecture/RKFpn/welcome
10. Программирование "вручную" (в контексте
классификационных решений) также подразумевает
явное изложение логики принятия решений, в
частности, о том, к какой категории отнести тот или
иной фрагмент данных. Этот "рационалистический"
подход, известный как символический ИИ (Olazaran,
1996), когда-то был доминирующим. Иногда его с
ностальгией называют старым добрым ИИ (GOFAI)
(Winograd, 2006), и он подразумевал символическое
представление знаний в строго формализованном
виде. Однако этот подход не оправдал своих первых
надежд и не справился со многими задачами, что
привело к "зиме" ИИ, когда интерес и
финансирование ослабли (Grudin, 2006).
11. Инцидент описан на сайте: http://www.slate.com/blogs/
future_tense/2015/06/30/google_s_image_recognition_
software_returns_some_surprisingly_racist_results.html
12. Публичный корпус SpamAssassin датируется 2002
годом; см. https://spamassassin.apache.org/publiccorpus/
readme.html.
13. Названия мест в порядке от наименее связанных со
спамом к наиболее: Ирландия (-0.190707),
Американский (-0.108162), Вашингтон (-0.076769),
Бостон (-0.032227), Америка (-0.015666), Индия (-
0.012690), Европейский (-0.007351), Индийский (-
0.006872), Европа (-0.005295), Нигерия (-0.001861),
французский (0.001398), королевство (0.027125),
иностранный (0.031424), Африка (0.049945),
ирландский (0.062301), Калифорния (0.067122),
единица (0.067960), франк (0.097339), штат
(0.101561) и Китай (0.112738).
14. Все цифры в тексте заменены на 'basenumb' при
предварительной обработке содержимого письма.
15. Список этих объяснений можно найти здесь:
https://sup- port.google.com/mail/answer/1366858?hl
¼¼
en&expand 5
16. Один ученый-компьютерщик также напоминает нам,
что "вся причина, по которой мы обращаемся к
машинному обучению, а не к созданным вручную
правилам принятия решений, заключается в том, что
для многих проблем простой, легко понимаемой
теории принятия решений недостаточно" Lipton
(2015).
17. Один социолог, работающий в полевых условиях
среди исследователей, разрабатывающих
самоуправляемый автомобиль, обнаружил, что эти
исследователи полностью избегают использования
машинного обучения, потому что "вы не знаете, чему
оно учит". Бесчисленные ситуации, не
Массачусетский технологический институт.
Фуркад М и Хили К (2013) Бухгалтерия, организации и
алгоритмов машинного обучения по этой причине.
ситуации классификации общества: Жизненные
На кредитном рынке это не просто предпочтение, а
шансы в
принудительное исполнение закона Fair Credit
Reporting Act, который требует, чтобы
потребителям предоставлялись причины отказа в
кредите. Однако агентства "альтернативного
кредитного скоринга" или "потребительского
скоринга" свободно используют ML-модели и
(пока) не подпадают под действие этих правил.
Подробнее см. учебное пособие Кэти О'Нил "Как
заниматься наукой о данных":
http://bclt.me/audio/Intro%20and%20 Keynote.mp3
18. См., например, множество различных групп, которые
столкнулись с проблемами, связанными с политикой
"настоящих имен" Facebook и механизмом отчетности
и проверки
-https://www.eff.org/deeplinks/2015/02/facebooks- name-
policy-strikes-again-time-native-americans

Ссылки
Barocas S (2014a) Data mining and the discourse on discrim-
ination. In: Материалы семинара по этике данных,
Конференция по обнаружению знаний и добыче
данных (KDD), 24-27 августа, Нью-Йорк.
Барокас С (2014b) Вызывание паники: Добыча данных,
справедливость и конфиденциальность, докторская
диссертация, Нью-Йоркский университет, США.
Barocas S и Selbst A (готовится к публикации) Неравное
воздействие Больших Данных. California Law Review.
Both G (2014) Что движет исследованиями в области
самоуправляемых автомобилей? (Часть 2:
Удивительно, но не машинное обучение). Доступно по
адресу: http:// blog.castac.org/2014/04/what-drives-
research-in-self-driv- ing-cars-part-2-surprisingly-not-
machine-learning/.
Bowker GC и Star SL (1999) Sorting Things Out:
Классификация и ее последствия. Кембридж,
Массачусетский технологический институт.
Брунтон Ф (2013) Спам. Кембридж, штат Массачусетс:
Массачусетский технологический институт. Баррелл Дж
(2012) Невидимые пользователи: Молодежь в интернет-
кафе
Городская Гана. Кембридж, штат Массачусетс:
Массачусетский технологический институт.
Datta A, Tschantz MC and Datta A (2015) Automated
experiments on ad privacy settings: История о
непрозрачности, выборе и дискриминации. In:
Proceedings on Privacy Enhancing Technologies, 30 июня -
2 июля, Филадельфия, штат Пенсильвания. Diakopoulos N
(2013) Algorithmic Accountability Reporting:
О расследовании "черных ящиков". Отчет, Tow Center
for Digital Journalism, Колумбийский университет.
Домингос П (2012) Несколько полезных вещей, которые
нужно знать о машинном обучении. Communications of the
ACM 55(10): 78.
DworkC,HardtM,PitassiT,etal. (2012)
Справедливость через осознание. In: Proceedings of the
3rd Innovations in Theoretical Computer Science Conference,
8-10 января, Кембридж, штат Массачусетс, стр. 214-226.
Энсменгер Н. Л. (2003) Позволить "компьютерщикам"
взять верх: Технология и политика организационных
преобразований. Международный обзор социальной
истории 48(S11): 153-180.
Юбэнкс В. (2012) Цифровой тупик: Борьба за социальную
справедливость в информационную эпоху. Кембридж,
12Большие данные и общество

неолиберальная эпоха. Бухгалтерский учет, Communications of the ACM 49(3): 33-35.


организации и общество Виноград Т (2006) Смена точек зрения: Искусственный
38(8): 559–572. интеллект и взаимодействие человека и компьютера.
Gandy OH (2010) Вовлечение рациональной Искусственный интеллект 170(18): 1256-1258.
дискриминации: Изучение причин наложения
нормативных ограничений на системы поддержки
принятия решений. Этика и информационные
технологии 12(1): 29-42.
Гиллеспи Т (2012) Релевантность алгоритмов. In:
Gillespie T, Boczkowski P и Foot K (eds) Media
Technologies: Эссе о коммуникации, материальности
и обществе. Кембридж, Массачусетс: Массачусетский
технологический институт.
Грудин Дж (2006) Зрелость Тьюринга: Разделение
искусственного интеллекта и человеко-компьютерного
взаимодействия. Interactions 13(5): 54-57.
Харгиттай Е (2008) Цифровое воспроизводство
неравенства. In: Гурски Д (ред.) Социальная
стратификация. Boulder, CO: Westview Press, pp. 936-
944.
Khosla (2012) Нужны ли нам учителя или алгоритмы? In:
TechCrunch. Available at: http://techcrunch.com/2012/
01/15/teachers-or-algorithms/ (accessed 11 December
2015).
Lee I, Martin F, Denner J, et al. (2011) Computational think-
ing for youth in practice. ACM Inroads 2(1): 32-37.
Lipton Z (2015) The myth of model interpretability.
Доступно по адресу:
http://www.kdnuggets.com/2015/04/model-interpret-
ability-neural-networks-deep-learning.html (accessed 11
Декабрь 2015).
Матеас М и Монтфорт Н (2005) Ящик, покрытый мраком:
Обфускация, странные языки и эстетика кода. In:
Материалы 6-й ежегодной конференции по цифровым
искусствам и культуре, 1-3 декабря, Копенгаген,
Дания...
Олазаран М (1996) Социологическое исследование
официальной истории споров о перцептронах.
Социальные исследования науки 26(3): 611-659.
Паскуале Ф (2015) Общество "черного ящика":
Секретные алгоритмы, контролирующие деньги и
информацию. Кембридж, Массачусетс: Издательство
Гарвардского университета.
Sandvig C (2014) Seeing the sort: Эстетическая и
промышленная защита "алгоритма". Journal of the New
Media Caucus 10(3): 1-21.
Sandvig C, Hamilton K, Karahalios K, et al. (2014)
Алгоритмы аудита: Методы исследования для
выявления дискриминации на интернет-платформах.
In: Ежегодная встреча Международной
коммуникационной ассоциации, Сиэтл, штат
Вашингтон, стр. 1-23.
Сивер Н (2014) Знание алгоритмов. Представлено на
конференции Media in Transition 8, Кембридж, штат
Массачусетс.
Straka JW (2000) Сдвиг в ипотечном ландшафте: Переход
в 1990-х годах к автоматизированной оценке
кредитоспособности. Журнал жилищных исследований
11(2): 207-232.
Tufekci Z (2014) The year we get creeped-out by the algo-
rithms. Доступно по адресу:
http://www.niemanlab.org/2014/12/ the-year-we-get-
creeped-out-by-algorithms/ (accessed 17
Июнь 2015).
Винг Дж. М. (2006) Вычислительное мышление.
Приложение 1
Письмо из папки "Спам" в аккаунте gmail автора:

Моя дорогая,
Приветствую вас, мои дорогие возлюбленные, я
- миссис Элис Уолтон, гражданка Соединенных
Штатов. Я обращаюсь к Вам с предложением
стоимостью 1 000 000 000,00 долларов США,
которые я намерена использовать для
благотворительности, но я так напугана,
потому что трудно найти на земле человека,
достойного доверия. Я счастлив познакомиться
с вами, но Бог знает вас лучше, и он знает,
почему он направил меня к вам в этот момент
времени, так что не бойтесь. Я знаю, что есть
много мошенников, которые посылают такие
сообщения или в другой форме. Я видел ваш
электронный адрес в министерствах торговли и
внешней торговли.
Я пишу вам это письмо с тяжелой печалью в
сердце,
Мне больно сообщить вам, что я страдаю от
болезни сердца уже 22 года, и всего несколько
недель назад мой доктор сказал мне, что я не
переживу эту болезнь надолго.
Я обращаюсь к вам, поскольку меня тронуло
желание открыться вам о своем проекте.
Пожалуйста, ответьте мне, если вы
заинтересованы, но если нет, пожалуйста,
проигнорируйте это сообщение.
Благослови вас Господь.
Пожалуйста, ответьте мне, если вы
заинтересованы, чтобы я мог предоставить вам
более подробную информацию.
Электронная почта: alice.walton2@yandex.com

Не спамовое письмо от исследователя и друга из


Ганы:

Дорогой профессор. Спасибо Вам за то, что Вы


постоянно возвращаете надежду и оживляете
меня, когда кажется, что все надежды
потеряны. Со слезами и глубокой
благодарностью я говорю Вам спасибо. Я
задержался с ответом, потому что не хотел
говорить вам, что мне все еще не лучше. Я
реагирую на лечение, несмотря на то, что мне
не очень хорошо. Я смог купить большой
генератор, кондиционер, подержанную
профессиональную видеокамеру Panasonic
3ccd, и у меня на счету осталось около 150
долларов на заботу о моем здоровье. Также я
сменил свой телефон с проблемного старого
Nokia на h 6 tecno [продвинутый китайский
телефон]. Врачи говорят, что у меня
малярийные паразиты. Только Бог знает, когда
я поправлюсь. Я не могу представить, какой
была бы жизнь без вас. Я молюсь, чтобы вы и
дальше процветали. С большим уважением и до
свидания.