Вы находитесь на странице: 1из 448

Никита 

 Сергеев
Аналитика и Data Science.
Для не-аналитиков и даже
100% гуманитариев…
 
 
http://www.litres.ru/pages/biblio_book/?art=43114130
ISBN 9785005007346
 

Аннотация
Когда люди не инженерных специальностей слышат
«аналитика и Data Science», то представляют разное.
Кто-то видит таблицы и графики. Кто-то неподъемно
сложные математические формулы. Кто-то программирование и
искусственный интеллект…Но истоки этих понятий из области
статистики, которая делится на описательную и аналитическую.И
эта кажущаяся непостижимой аналитика – на самом деле
нескучная, интересная и простая вещь. Чтобы ею пользоваться,
не нужно ни изучение сложных формул, ни программирования…
Содержание
_____________________ 9
От автора 12
ОКОЛО-АНАЛИТИЧЕСКИЕ РАЗГОВОРЫ 19
Бизнес-жаргон: статистика, метрики, 19
Dashbords, KPIs… и аналитика
Глава с двумя оговорками для высшего 25
менеджмента
Особенности социально-экономической 33
реальности
Модель 39
Интуиция или аналитика? 46
Какая лучшая программа для анализа 51
данных?
Очень краткие итоги раздела 54
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ 55
О статистическом анализе 55
Выборка и генеральная совокупность 58
Переменные 68
Шкалы для измерения переменных 70
Гипотезы 77
Вероятность 79
Нормальное распределение 84
Итоги раздела 88
 
 
 
КРАТКО О ПОДГОТОВКЕ МАССИВА 91
ДАННЫХ ДЛЯ АНАЛИЗА
Что такое массив данных 91
Консолидация данных в единый файл 94
Подготовка данных к анализу 96
«EXCEL'НЫЙ МИДКВЕЛ» 102
Весь бизнес-excel в 5 основных функциях 102
Базовые функции 105
Сводные таблицы 107
ЕСЛИ 114
ВПР 118
Справочники 126
Краткие итоги Excel-раздела 137
ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ 139
Что такое описательные статистики? 139
Частотное распределение 144
Среднее 152
Мода и Медиана 157
Минимум и максимум 162
Процентили / перцентили, квартили и децили 165
Рассказ еще о паре средних 185
Меры рассеивания / Изменчивости 189
Скошенность распределения данных 199
Выбросы 205
А как это все можно компактно представить? 209
Итоги описательных статистик 214
 
 
 
АНАЛИТИКА 217
Напомнить особенности социально- 217
экономической реальности
Три главные блока задач аналитики 219
Снова к истокам: гипотезы и вероятность 223
Важная бесплатная аналитическая программа 227
Короткое знакомство с PSPP 230
Проверка на соответствие нормальному 240
распределению
АНАЛИТИКА: СРАВНЕНИЕ ГРУПП 246
(ВЫБОРОК)
Для чего это применяется 246
Значимость различий при сравнении групп 249
(выборок)
Зависимые и независимые выборки 251
Таблицы перекрестной классификации 256
(сводные, кросстабы)
Сравнение независимых выборок 268
Сравнение зависимых выборок 276
Анализ последовательностей 282
Временные ряды 288
Сравнение групп (выборок) крупными 294
мазками
Закрепляющий кейс на сравнение групп 296
(выборок)
АНАЛИТИЧЕСКАЯ СТАТИСТИКА: АНАЛИЗ 300
 
 
 
ВЗАИМОСВЯЗЕЙ ПЕРЕМЕННЫХ
Зависимые и независимые переменные 300
Статистические взаимосвязи 304
Еще раз о значимости статистических 309
взаимосвязей
Корреляции 311
Практический кейс: корреляции и работа 326
с выбросами
Регрессия 331
Факторный анализ 338
Анализ надежности-согласованности 352
Итоги поиска скрытых взаимосвязей между 362
переменными
АНАЛИТИЧЕСКАЯ СТАТИСТИКА: 364
КЛАССИФИКАЦИИ
Зачем это? 364
Бинарная логистическая регрессия 368
Короткий кейс из бизнеса: «логистика» 382
с интернет сервисом
ROC кривая 385
Кластерный анализ 392
Беглый обзор других методов: 403
дискриминантный анализ, деревья решений,
опорные вектора
Ансамбли 414
Итоги классификации с высоты птичьего 419
 
 
 
полета
MACHINE LEARNING, AI, BIG DATA 421
и прочий новояз…
Поговорим по понятиям 421
Big Data / Быг дата / Большие данные 424
AI / ИИ / Искусственный интеллект 426
Machine Learning/ Машинное обучение 428
Нейронные сети 436
Подводя черту новояза: что стоит усвоить 443
гуманитарию
ПОСЛЕСЛОВИЕ 446

 
 
 
Аналитика и Data Science
Для не-аналитиков и даже
100% гуманитариев…

Никита Сергеев
© Никита Сергеев, 2020

ISBN 978-5-0050-0734-6
Создано в интеллектуальной издательской системе Ridero

 
 
 
 
_____________________
 
Большинство людей услышав о  статистическом анализе
представляют или технарей, или ученых, изучающих законо-
мерности. Но статистика применяется далеко за пределами
научных лабораторий: в рекламе, маркетинге, бизнесе, ме-
неджменте, политике, образовании и т. д. А базовые знания
анализа данных крайне полезны и в повседневной жизни.
И  неважно какую должность Вы занимаете и  какой род
Вашей деятельности: в современном мире в любой профес-
сии вероятность столкнуться с цифрами, большими объема-
ми данных и поиском в них закономерностей с каждым днем
стремительно мчится к 1 (или к 100%).
Эта книга  – это Ваша возможность попробовать
«на  вкус и  ощупь» кажущийся таким невообразимо
сложным и  непонятным мир цифр и  статистического
анализа.
Книга вводит профессионалов из  не-технических наук
(менеджеры, гуманитарии, психологи, социологи, культуро-
логи, экономисты, политтехнологи и т.д.) в захватывающий
цифровой мир статистики и вероятностей – и поможет легко
в нем ориентироваться, пользоваться и не бояться.
Она написана от  простого к  сложному так, что способ-
ствует погружению в аналитику и Data Science (наука о дан-
 
 
 
ных) совсем не  «техническо-инженерных» людей. Людей,
казалось бы, совершенно далеких от этой очень прикладной
дисциплины: менеджеров, гуманитариев и профессионалов
социально-экономических дисциплин.
Невзирая на то, что сама книга о прикладной дисциплине
и написана экспертом по анализу данных, владеющим всеми
статистическими программами (от обычного Excel до SPSS)
и языком программирования R, – она совершенно не тех-
ническая.
Книга НЕ  содержит языка программирования R или
Python.
НЕ пестрит запросами к базам данных.
В ней НЕТ теории вероятностей, невообразимых матема-
тических формул и матстатистики…
Книга о  прикладных практических инструментах,
которые любой человек сможет сразу же использовать
на  рабочем месте, в  жизни, в  своих собственных
исследованиях…
После ее изучения Вы сможете применять современные
методы статистического анализа на практике, а также буде-
те легко находить и видеть скрытые закономерности среди
любых объемов данных, строить предсказывающие (прогно-
стические) модели, добывать из цифр знания и информацию
для принятия решений.
Автор книги  – управленческий консультант с  20-лет-
ним опытом ведения консалтинговых проектов для крупней-
 
 
 
ших компаний по всему миру. Ведущий русскоязычный ин-
структор по инструментам ведения бизнеса и менеджменту
на международной платформе UDEMY
https://www.udemy.com/user/nikita-sergeev-2/
В основу книги положены самые современные материалы,
которые использовались в разных проектах (трансформация
бизнес- и операционных моделей, M&A, реинжиниринг про-
цессов, оптимизация численности, маркетинговые и социо-
логические исследования, исследования персонала, разра-
ботка психодиагностического инструментария и тестов, ана-
лиз и прогнозирование и т.д.) и читались на специализиро-
ванных МВА программах. В том числе, и в специализиро-
ванных русскоязычных курсах по аналитике на международ-
ной платформе он-лайн образования UDEMY.
Книга будет полезна любому, кто хочет научиться
работать с  данными  – будь Вы жаждущий освоить
статистику новичок или профессионал, желающий
систематизировать знания или «освежить память».
Информация в  книге в  основном ориентирована на  со-
циально-экономические дисциплины, но  рассматриваемые
в ней методы анализа являются универсальными и подходят
для компьютерных наук, промышленности, оценки качества,
прогнозирования рисков, медицины, физики, химии, фар-
макологии, биомедицины, биотехнологий, генетики и т. д.

 
 
 
 
От автора
 
Почему я решил написать эту книгу? Наверное, по той же
причине, по которой помимо основного рода деятельности
и образования веду, казалось бы, довольно далекие от них
курсы и мастер-классы по анализу данных как для сотруд-
ников и менеджмента корпораций, так и в открытом досту-
пе на международной образовательной платформе UDEMY
для всех желающих.
Современный мир, общество и  компании  – это
данные, данные и  данные. И  их объемы на  сегодня
настолько обширны, что понять в них закономерности
и строить прогнозы невооруженным глазом совершенно
невозможно.
Я уже более 20 лет работаю с широким кругом менедже-
ров и профессионалов из разных стран, отраслей и органи-
заций. И  почему-то подавляющим большинством принято
считать, что анализ данных – это нечто сакрально сложное
и доступное только математикам, ИТшникам и инженерам.
А  менеджерам, гуманитариям и  профессионалам социаль-
но-экономических наук это знание непостижимо.
Но  это миф. Свой профессиональный путь я начинал
именно с  анализа данных будучи еще студентом-психоло-
гом  – анализировал результаты социологических и  мар-
кетинговых исследований для международных компаний,
 
 
 
а  также помогал академикам, кандидатам и  докторам раз-
личных наук готовить практические части их диссертаций.
Я отчетливо помню, как в 90-х молодыми студентами мы
все со  страхом шли на  первую лекцию страшнейшего для
психологов предмета  – «Математические методы в  психо-
логии». Но по факту предмет оказался совершенно неслож-
ным, а также поистине захватывающим и увлекательным.
С  того времени уже много воды утекло… Я прослужил
в  вооруженных силах (помотался по  ПВО, ВВС и  ядер-
ным войскам). Отработал в бизнесе на должностях старшего
и высшего менеджмента от менеджера по маркетингу и ор-
гразвитию до управляющего партнера по стратегии, слияни-
ям и  поглощениям. Сопровождал десятки одних из  самых
крупных в СНГ трансформационных проектов и реорганиза-
ций. Обзавелся женой и 4 детьми. Набрал лишние 30 кило….
А также нашел то, что меня увлекает помимо научных ис-
следований и инвестиций в области биотехнологий и меди-
цины – я стал управленческим консультантом и занимаюсь
трансформационными проектами для крупных корпораций.
Надеюсь, эта книга увлечет Вас анализом цифр и  дан-
ных, выглядящих для многих не-технических профессиона-
лов такими скучными, пресными, сложными и непонятны-
ми…
Я хочу, чтобы каждый читатель уловил: статистика и ана-
литика пронизывают как компании любого размера (будь то
крупная транснациональная корпорация, небольшая фирма
 
 
 
или стартап), так и практически любую современную область
знаний. С  каждым днем все сложнее становится провести
границу между любой современной профобластью (от био-
логии и медицины до управления организациями и персо-
налом) и  аналитикой. А  все социально-экономические ис-
следования практически неотделимы от сравнений выборок,
корреляционного, факторного и регрессионного анализа.
Поэтому чем  бы Вы ни планировали заниматься  –
вероятность необходимости использования статистики
и анализа данных в современном мире с каждым днем
становится все ближе и ближе к 1 или 100%.
Анализ данных у всех на слуху и на сегодня это один из са-
мых востребованных навыков в любых сферах. Однако, как
я наблюдаю, зачастую работа с данными не вызывает востор-
га ни у студентов, ни у сотрудников нетехнических специ-
альностей, ни у менеджмента. Но в этой книге Вы увидите,
что на самом деле аналитика и поиск закономерностей в дан-
ных – очень занимательная штука (да и не такая уж и слож-
ная).
Начнется книга с довольно широкого и немного философ-
ского контекста – вначале я вкратце расскажу важность мо-
делей исследуемых объектов для правильного построения
гипотез, анализа и объяснения результатов. Также останов-
люсь на разграничении того, что является, а что не является
аналитикой. И пройдусь по основным понятиям статистики.
Далее мы с Вами сфокусируемся на анализе данных и по-
 
 
 
иске в них скрытых закономерностей. Мы рассмотрим те ме-
тоды, которые Вы после каждой главы сможете сразу же при-
менять в работе. Этому, по сути, и будет посвящена основ-
ная часть книги.
А поскольку сейчас понятие Data Science (наука о данных)
и анализ данных плавно вплетены в такую область как ма-
шинное обучение (Machine Learning – ML) и искусственный
интеллект (Artificial Intelligence – AI) – то напоследок я рас-
скажу и обо всем этом новоязе.
В основной части книге я отобрал современные наиболее
ходовые в социально-экономических направлениях методы
анализа данных. К ним привел конкретные примеры исполь-
зования в моей практике. Но, помимо этого, написал немно-
го о  подготовке массивов к  анализу, а  также об  основных
функциях Excel, которыми покрываются 90% бизнес-задач.
Оговорюсь, что написать об Excel – это скорее вынужден-
ная мера. Просто часто после курсов и тренингов менедже-
ры и специалисты не-технических дисциплин задают мне во-
просы как решить ту или иную «аналитическую» задачу  –
а большинство этих «аналитических» задач решается услов-
но 5 основными функциональностями Excel.
Книгу я старался написать так, чтобы любой
читатель, независимо от  уровня подготовки в  части
аналитики, и  уловил основные концепции, и  освоил
прикладные методы.
Каждый раздел книги структурирован таким образом,
 
 
 
чтобы Вы не только ориентировались в методах, а и легко со-
относили их с решаемыми аналитическими задачами. В кни-
ге в практическом русле рассматриваются те методы и ин-
струментарий, которые покрывают львиную долю аналити-
ческих бизнес-задач и которыми Вы самостоятельно сможе-
те пользоваться в работе.
Но тем, кто хочет всерьез освоить тему, а не просто про-
честь «еще одну умную книгу», настоятельно рекомендую
сразу же после каждого раздела отрабатывать все ме-
тоды на практике. Для этого у Вас под рукой будет Excel
и  программа PSPP (распространяется в  открытом доступе
официальная статистическая программа). А также массивы
данных (считай таблички и  выгрузки с  данными в  Excel)
из Вашей профессиональной деятельности – отрабатывайте
методы сразу прямо на  них. Ну и  эта книга сожержит ин-
струкции по работе как с Excel, так и с PSPP для каждого
метода – так что по сути является одновременно и самоучи-
телем.
О, подумал кто-то, обещали простоту – а только начали
читать, и уже появилась какая-то страшная аббревиатура …
PSPP… Многие пугаются, что надо будет изучать дополни-
тельное программное обеспечение  – «Давай Excel, он есть
у всех!».
Да, можно реализовывать всю аналитику и  в  офисном
приложении Excel. Но, боюсь, после этого Вы возненавиди-
те аналитику (а аналитика – это не таблички-диаграммы или
 
 
 
дашборды со средними и %: мы об этом еще отдельно пого-
ворим). Особенно после того, как будете 99% времени тра-
тить на написание скриптов и формул в Excel, которые никто
кроме Вас неспособен будет прочесть. Или от безысходности
найдете выход в покупке недешевых специальных надстроек
к Excel.
PSPP не страшнее Excel (даже на порядок проще). А кро-
ме того, эта программа аналогична такому коммерческо-
му IBM’овскому программному продукту как SPSS, кото-
рый широко используется аналитиками крупных корпора-
ций и международных исследовательских агентств. Научив-
шись работать в PSPP – Вы считай умеете работать и в SPSS.
А это очень ценный прикладной навык для не-технических
профессий.
Возможно, после прочтения книги кто-то захочет послу-
шать лекции и посмотреть как аналитика работает «вживую»
для решения разных задач (от  маркетинга и  сегментации
клиентов до вопросов управления персоналом), а также вы-
полнить практические упражнения на  «живых» примерах.
Приходите на он-лайн курс «Аналитика и Data Science для
менеджеров и гуманитариев» на крупнейшей образователь-
ной платформе UDEMY:
https://www.udemy.com/course/analytics-and-data-
science/?referralCode=F813CF7396DE1BD11483
Даже если Вы просто взяли полистать эту книгу любопыт-
ства ради, но аналитика, невзирая на все доводы, пока совер-
 
 
 
шенно не из области Вашего интереса – то книга все-равно
попала в Ваши руки не зря. Наверняка у Вас есть знакомые,
которым книга станет полезной – поделитесь с ними инфор-
мацией о ней.

 
 
 
 
ОКОЛО-АНАЛИТИЧЕСКИЕ
РАЗГОВОРЫ
 
 
Бизнес-жаргон: статистика, метрики,
Dashbords, KPIs… и аналитика
 
Для не-технических специалистов аналитика  – понятие
обычно обширное и часто включающее то, что является «со-
всем не очень аналитикой». Дам небольшое разъяснение по-
нятий (по крайней мере, как их следует трактовать исходя
из предмета данной книги).
Хочу внести ясность, поскольку время от времени наблю-
даю как нахватавшиеся фраз сотрудники компаний путают
одно с другим и часто, имея ввиду одно, говорят совершенно
о другом. Хотелось бы дополнительно расставить точки над
«Ё» в части одинакового понимания и ожиданий читателей
того, что они найдут (или не найдут) в этой книге.
Сначала пройдемся по четырем моментам, которые в биз-
несе порою жестко ассоциированы с аналитикой. Но таковой
они не являются. Они все отражены на рис. 1.

 
 
 
Рис. 1. Важные вещи: но это – не аналитика…

В бизнесе слово статистика используется повсеместно.


Часто можно услышать при постановке задачи сотруднику
от  руководителя  – «Приготовь статистику». Речь в  таком
случае идет не о науке, а о том, чтобы приготовить какие-то
отчеты с определённым набором количественных данных
за период.
Объем продаж, количество клиентов, численность пред-
приятия, число визитов на сайт, количество лайков в соцсе-
ти…. Т.е., это любые данные, накопленные за период вре-
мени.

Еще одно избитое в  менеджменте слово метрики. Это


определенные показатели, которые являются производны-
ми от  данных. Обычно их получают простыми формула-
ми путем вывода %, суммирования, отнимания, деления
 
 
 
или умножения одного статистического показателя на дру-
гой. Но  иногда бывают более сложные формулы. Метрики
уже могут отражать эффективность процессов, активностей,
управления, предприятия и т. д.
Например, «3  основные бизнес-метрики нашего старта-
па», или «наши HR-метрики показывают неэффективное ис-
пользование бюджета на персонал». Примерами метрик мо-
гут служить такие показатели как конверсия, HR ROI, отток /
текучесть клиентов или персонала, % лайков от просмотров,
количество ошибок на 1000 транзакций и т. д.
Метрика позволяет отвечать на  вопросы «хорошо или
плохо», «эффективно или неэффективно».

Дашборд (Dashboard) – это дословно панель приборов,


т.е. интерфейсное представление или форма, в которую вы-
водится набор метрик или данных, важных для отслежива-
ния хода операционной деятельности или эффективности
бизнеса.
Сюда отбираются те метрики и данные главного процес-
са (value chain), изменение которых требует вмешательства
и принятия управленческих решений.

KPIs (Key Performance Indicators) – они же ключевые


показатели эффективности. Все хотят, чтобы они были коли-
чественными в виде метрик или «статистик». Но на практи-
ке часто используют и качественные. Каждый количествен-
 
 
 
ный KPIs – по сути метрика. Но не каждая метрика являет-
ся KPI. Т.е., в KPIs попадают только именно ключевые для
определённого периода (обычно года) метрики или данные.

Аналитика – это слово во многих организациях исполь-


зуют, зачастую подразумевая данные за период или метрики.
Но аналитика – это совсем другого рода вещь. Это
поиск скрытых закономерностей и  построения прогности-
ческих (предсказывающих, предиктивных) алгоритмов по-
средством конкретного набора аналитических инструмен-
тов. Аналитика проверяет модели на прочность или позво-
ляет находить новые модели исследуемых объектов или про-
цессов.

В книге мы не будем говорить о метриках. Кто решил


ее прочесть с ожиданием разобраться как правильно подо-
брать метрики под компанию, процесс, продукт, систему… –
Вам не сюда.
И в книге мы вообще никаким образом не будем касать-
ся ни KPIs, ни построения Dashboard-ов. Потому что эти
вопросы вообще к анализу данных и аналитике не имеют от-
ношения. Это чистой воды вопросы систем управления.
В общем, если даже прочитав аннотацию и предыдущие
разделы Вы все еще надеетесь узнать в книге как подбирать
эффективные метрики, формировать KPIs и дашборды для
компании, функции, процесса или продукта – оставьте Вашу
 
 
 
надежду, ибо в этих вопросах данная книга никак не помо-
жет.
В части данных – мы обзорно коснемся формирования
правильных массивов данных, с которыми можно «по-чело-
вечески» работать. Но перечислять какие данные обычно со-
бираются для тех или иных направлений (продажи, марке-
тинг, производство, HR, социология и т.д.), для чего их ис-
пользовать и в каких расчетах применять, как организовать
хранилища данных – эти вопросы также не из тематики кни-
ги.
Книга также почти не касается вопросов визуализа-
ции данных (хотя даже эту тему многие считают аналити-
кой) – это вопросы обработки и представления данных / ин-
формации, но не аналитики.

А  вот, собственно говоря, аналитике, набору совре-


менных инструментов для поиска скрытых законо-
мерностей и прогностического анализа и будет посвя-
щена книга.
Книга поможет тем, кто хочет, к  примеру, научиться
с определенной долей вероятности отвечать на такие вопро-
сы:
· Будет ли соискатель эффективен на должности продав-
ца?
· Как долго будет клиент пользоваться услугами компа-
нии?
 
 
 
· Кто из клиентов в ближайшее время перестанет пользо-
ваться услугами?
· Насколько понизится мотивация персонала при сниже-
нии удовлетворенности возможностями карьерного роста?
· Что повлияло на выбор того или иного кандидата в пре-
зиденты?
· Вернет ли потенциальный заемщик кредит?
· И т. д.

 
 
 
 
Глава с двумя оговорками
для высшего менеджмента
 
В этом разделе речь все о том же, что не входит в предмет
данной книги, но сквозь «другие очки» – «вид сверху» гла-
зами высшего руководства компании.
Этот раздел в дополнение к предыдущему написан специ-
ально для представителей высшего менеджмента («злые язы-
ки» говорят, что для отпугивания нежелающих делать свои-
ми руками).
Книга не покрывает такие вопросы менеджмента как:
· устройство и построение корпоративных систем анали-
тики (построение аналитических функций в компаниях)
· оценка уровня зрелости аналитической функции компа-
нии

УСТРОЙСТВО И  ПОСТРОЕНИЕ КОРПОРАТИВ-


НЫХ СИСТЕМ АНАЛИТИКИ (ПОСТРОЕНИЕ АНА-
ЛИТИЧЕСКИХ ФУНКЦИЙ В КОМПАНИЯХ).
Многие компании путают аналитику с тем, как внедрить
и  управлять аналитической функцией по  всему предприя-
тию. Путать корпоративную систему аналитики с непосред-
ственно аналитикой – то же самое, что путать корпоратив-
ную систему управления проектами с  непосредственным
управлением проектом.
 
 
 
Корпоративная аналитическая система  – это и  корпора-
тивная методология, и  аналитические спецподразделения
(офисы), и процессы, и оборудование с программным обес-
печением и т. д. И тема эта вообще из области проектирова-
ния организаций, а не аналитических методов и инструмен-
тария.
Но в рамках данной книги будут наборы методов прогно-
стической аналитики и поиск инсайтов с применением про-
стых описательных статистик. Это то, что отдельно взятый
человек может своими руками использовать на своем
рабочем месте или в жизни. Эти методы могут внедрять-
ся в корпоративных системах аналитики как отдельные ком-
поненты, но они никак не заменитель всей системы или
ее элементов.
В общем, книга не о корпоративных системах анали-
тики.

УРОВЕНЬ ЗРЕЛОСТИ АНАЛИТИЧЕСКОЙ


ФУНКЦИИ КОМПАНИИ.
В  бизнес-структурах аналитикой, как я упоминал
в  предыдущей главе, называют все что угодно: от  просто
данных и до KPIs с Dashboard’ами. И «ноги растут» от то-
го же понимания уровня развития/зрелости аналитиче-
ских функций в организациях, который не предмет дан-
ной книги.
Об  уровнях зрелости упомяну только здесь и  один раз.
 
 
 
Когда я анализирую уровень зрелости аналитической
функции в компании, то базируюсь на используемых уров-
ных PWC (Price Waterhouse Coopers):

Уровни зрелости аналитической функции

Это на самом деле достаточно общий подход, но PWC ак-


тивно с ним работают, потому приписываю его им.
Здесь первый уровень  – уровень данных  – обозначает
способность предприятия извлекать данные и  иметь отче-
ты с  констатацией и  описанием того «что есть на  сего-
дня и уже случилось». Здесь вовсю фигурируют всем из-
вестные отчеты с накопленными данными за периоды (в них
не особо заморачиваясь могут также накладывать линейные
 
 
 
линии трендов).
Два следующих  – метрики с  отчетами и  диагностика
(сюда же относятся дашборды и бенчмарки) – обозначают,
что компания может осуществить диагностику и понять «по-
чему случилось и  насколько все плохо\хорошо». Эти
два уровня, кстати, в  более ранних версиях были объеди-
нены в один уровень. Вот здесь уже вовсю работают описа-
тельные статистики, в  том числе процентили, квартили,
моды, медианы, средние и т. д. В книге мы рассмотрим ме-
тоды описательной статистики, которые читатель сможет ис-
пользовать, но не будем рассматривать как их визуализиро-
вать, строить дашборды или «нарезать» KPIs.
Следующий уровень – инсайты – это не отдельные мето-
ды, а способность организации собирать данные из разных
систем и источников в едином информационном поле. По су-
ти, наличие корпоративного хранилища данных, из которого
можно извлекать данные и используя все те же описатель-
ные статистики обнаруживать находки/инсайты не всегда
видны в  рамках одной системы с  данными одной направ-
ленности. В книге я покажу как с использованием приклад-
ных функций Excel соединить данные из разных источников,
а также приведу менеджмент-кейсы с инсайтами при исполь-
зовании простых описательных статистик. Но в книге не бу-
дет о том, как отстроить этот уровень зрелости в организа-
ции.
И  последний уровень  – прогностическая аналитика  –
 
 
 
это способность компании строить предиктивные (предска-
зательные) модели, базирующиеся на  скрытых закономер-
ностях и  неочевидных взаимосвязях во  всех имеющихся
у нее данных. Это уже применение новомодных систем ис-
кусственного интеллекта (AI). В данной книге будут изложе-
ны методы аналитической статистики (корреляции, регрес-
сии, факторный и кластерный анализ и т.д.), которые про-
читавший профессионал сможет сразу использовать в своей
работе. Но здесь не будет о том, как и с помощью каких си-
стем вывести компанию на такой уровень зрелости.

Но  в  последнее время многие консультанты говорят,


что есть еще один некий уровень для организации, ко-
торый интересует именно высшее руководство компаний –
прескриптивная аналитика (еще Вы могли слышать на кон-
ференциях или от консультантов «нормативная» или «пред-
писательная» аналитика).
Чем интересен ТОР’ам этот уровень и чем же он отлича-
ется от тех уровней, на которых работает описательная ста-
тистика и прогоностическая аналитика? Если описательная
статистика отвечает на вопрос «что было?», а прогностиче-
ская аналитика «что будет?» – то прескриптивная аналитика
пытается ответить на вопрос «а что кому и где делать?» +
«к чему приведут те или иные действия?».
Но, в отличие от описательной и аналитической статисти-
ки, прескриптивная аналитика – это не отдельная область
 
 
 
знаний, со своей методологией, специфическими методами
или понятиями. Это смесь прогностических методов (ба-
зируется на них), автоматизации процессов, бизнес-правил
и  автоматизированных управленческих предписаний к  ис-
полнению.

Прескриптивная аналитика: рассматривать  ли как уро-


вень?

Т.е, это скорее попытка автоматизации управленческих


решений и  воздействий. Повторю: прескриптивная ана-
литика  – это «смесь» из  использования методов про-
гностической аналитики, математических бизнес-моделей,
бизнес-правил, алгоритмов, автоматизированных процессов
и управленческих решений и т.д., чтобы оценить возможные
будущие исходы (последствия) действий компании. Это ис-
 
 
 
кусство конкретной компании использовать вышеперечис-
ленное для моделирования возможных вариантов будуще-
го и  автоматического принятия управленческих решений
и воздействий.
Но  я персонально не  расцениваю этот уровень как
часть уровня зрелости аналитической функции. Не  пото-
му, что тут нет отдельного предмета, методологии, методов
и  т.  д.  Ведь на  уровне «Инсайтов» их также нет. Но  уро-
вень инсайтов/находок базируется на  описательной стати-
стике, со своим предметом, задачами, методологией и мето-
дами – т.е., все еще лежит в границах аналитической дисци-
плины. А на уровне прескриптивной аналитики переплета-
ется и автоматизация, и системы управления, и собственно
аналитическая функция. Т.е., это более широкая и мульти-
функциональная область.
Ну и еще мне на сегодня прескриптивная аналитика вы-
глядит (пока что) созданной консультантами «упаковкой под
продажу» аналитических систем в крупные корпорации.

Оговорки сказал. А  если подытожить предмет кни-


ги, то данная книга (как и  одноименный онлайн курс
на UDEMY) – это то, что сфокусировано на методах поис-
ка инсайтов и прогностической аналитики, но не сбор-
ник рассказов о том, как «подтягивать» уровень зре-
лости аналитических функций компаний.

 
 
 
Книга о поиска инсайтов и методах прогностической ана-
литики

Но в любом случае, если Вы хотите разобраться в методах


и попробовать как аналитика работает «вживую» для реше-
ния бизнес-задач независимо от уровня Вашей должности –
данная книга безусловно будет Вам полезна.

 
 
 
 
Особенности социально-
экономической реальности
 
В последнее время везде пишут о том, как важно нести
гуманитарные и социально-экономические знания (бизнес,
коммуникации, менеджмент, предпринимательство и  т.д.)
в технические направления.
Мне, наряду с необходимостью нести «гуманитарно-соци-
ально-экономический свет» инженерам-технарям, не менее
важным видится нести технические навыки гуманитариям.
Чтобы последние могли более системно принимать решения
и опираться в своих концепциях на более твердый фунда-
мент, а не собственные размышления и суждения, подкреп-
ленные только навыками убеждения и лидерско-харизмати-
ческими приемами.
Отдельная интересная тема для русской науки и ее мас-
штабирования в  век капитализма  – это «нести» навыки
бизнеса и менеджмента непосредственно в научную среду.
Неимоверное количество знаний и открытий умирают в сте-
нах НИИ только потому, что их создатели ограничиваются
в лучшем случае разговорами с такими же учеными-экспер-
тами или публикацией в журнале, который читают такие же
ученые-эксперты.
Одни не  считают нужным (да и  ниже их уровня) попу-
ляризировать свои открытия. Другие может и  хотели  бы
 
 
 
добиться практического использования продукта их труда
(знаний и открытий), но понятия не имеют какими методами
и как этим управлять в эпоху капитализма. Но на этой теме
я останавливаться в книге не буду.
К социально-экономическим наукам относятся науки, ко-
торые оперируют не естественными физическими законами
и закономерностями (гравитация, время, пространство, мас-
са, рост, вес, скорость света, давление и т.д.), а такими ве-
щами как восприятие, поведение, мнения, отношения, каче-
ства, установки и все порождаемые ими социально-экономи-
ческие явления.
Любая организация, общество, рынок…  – это
в  первую очередь социально-экономические системы.
Для анализа данных в этих системах используются те же
методы, что и в технических науках, но есть несколько
главных особенностей, которые необходимо помнить.
Аналитика в  социально-экономических науках (в  про-
тивовес с естественно-инженерными) сталкивается с пятью
главными особенностями – рис. 2.

 
 
 
Рис. 2. Особенности аналитики в социально-экономиче-
ской реальности

Теперь разберем этот рисунок.


Во-первых, социально-экономическая система  –
это очень изменчивая система.
Скорость падения яблока прогнозируема – сколько и где-
 
 
 
бы Вы это не повторяли. А деньги, трафик, усилия для ре-
зультата или популярность (то, что изучается в  социаль-
но-экономических системах) – совершенно нет.
Т.е., если переменные имеют физические ограничения,
препятствующие большому разбросу или смещению разме-
ров  – и  вероятность случая, кардинально отличающегося
от основной массы, крайне низка: это одно. Но измерьте, на-
пример, корреляции на  фондовом рынке за  разные перио-
ды – и коэффициенты будут резко меняться от периода к пе-
риоду.
А  я часто встречаю, как гуманитарии выдают обнару-
женные в социально-экономической реальности корреляции
как некие реальные «материальные» зависимости (еще и по-
зиционируют эти статистические взаимосвязи как причин-
но-следственные). Но вот что-то никто ни разу не предска-
зал по ним поведение фондового рынка…
Или возьмите компанию  – измерьте удовлетворенность
персонала, внедрите программу улучшений (даже сделайте
что-то небольшое) – и у Вас эффект! Но через год Вы заме-
тите как удовлетворенность сползает вниз… Что повлияло?
Почему? Новые люди пришли? Старые привыкли?
Во-вторых, здесь  не  работает закон нормального
распределения.
В  социально-экономических дисциплинах закон нор-
мального распределения  – это непозволительная роскошь.
Но многим менеджерам и гуманитариям он почему-то кем-
 
 
 
то крепко «вбит в головы»…
Если мерять рост или вес – да, будет работать закон нор-
мального распределения. Но  в  социально-экономических
системах чаще всего наоборот – мы не будем наблюдать кра-
сивую симметрию нормальной кривой. Скорее будет обрат-
ная картинка: смещение в одну или в другую сторону.
Так, в конкретно взятой стране 2% людей могут владеть
60—90% капитала.
На любом рынке есть несколько игроков, занимающих 60
—90% доли рынка.
Несколько рок-исполнителей или авторов книг забирают
на себя 90% популярности и продаж.
Из 100 кандидатов в президенты 5% заберут 95% голосов.
И т. д.
Да та же удовлетворенность сотрудников работой в ком-
пании будет давать смещение или в одну, или во вторую сто-
рону  – и  в  придачу влиять на  другие аспекты работы (это
так проявляется способность удовлетворенности, как базо-
вой эмоции, к генерализации).
В-третьих, важность выборки случаев / объектов /
наблюдений для применения их ко всей популяции (вся по-
пуляция объектов называется «генеральная совокупность»),
которую Вы исследуете.
Измерив какие-то физические величины в одном месте,
Вы скорее всего получите ± те же самые в другом – ну или
с минимальной вариативностью.
 
 
 
Но измерив, например, отношение к кандидату в прези-
денты или расовым вопросам в регионе, Вы точно не полу-
чите их ± такими же в другом. Или, замерив удовлетворен-
ность работой в одной компании, Вы не получите тот же ре-
зультат в другой компании.
И, в-четвертых, важно понимать, что одно-един-
ственное социально-экономическое явление может
перевернуть все Ваши представления и закономерно-
сти вверх дном. В естественно-технических системах каж-
дый один уникальный случай не ведет к глобальным изме-
нениям.
И пятое – наличие модели для анализа в социаль-
но-экономических дисциплинах критически важно.
Модель (Ваше представление, набор предположений
об  исследуемом объекте) должна предшествовать анализу
(кроме случаев, когда у Вас поисковый анализ, цель которо-
го изобрести новые или уточнить существующие модели –
но в бизнесе таким вряд ли Вы будете заниматься).
Только по модели Вы можете описать, измерить и прогно-
зировать поведение / развитие какого-то события или объ-
екта. О важности моделей поговорим отдельно в следующей
главе.

 
 
 
 
Модель
 
Раздел обязателен к прочтению , даже тем, кому он ка-
жется философским и далеким от аналитики.
Под моделью не имеются ввиду статистические алгорит-
мы и методы обработки данных.
Словом «модель» обозначается некое представление ис-
следуемого объекта, процесса, явления.
Модель  – это набор увязанных между
собой предположений и  понятий, выстраивающий
определенный взгляд на объективную реальность.
На рис. 3 изображены несколько наиболее известных мо-
делей – Солнечная система, ДНК, молекула…

Рис. 3. Несколько наиболее известных моделей

Например, элементы ДНК  – пары нуклеотидов имеют


4 компонента АТГЦ (аденин, тимин, гуанин и цитозин), ко-
 
 
 
торые имеют взаимосвязь А с Т и Г с Ц.
Конечно же, модель строится на основании ограниченно-
го множества известных нам данных (элементов, компонен-
тов, свойств и взаимосвязей) об оригинале (реальном объек-
те объективной реальности).
Самим оригиналом (объектом объективной реальности)
модель не является и на объективную реальность (окружаю-
щий мир, явление, протекающие процессы и т.д.) она нико-
им образом не влияет.
Зато она влияет на наше понимание и отношение к этой
реальности.
Только модель любого объекта позволяет нам:
· формально его описать
· делать измерения и интерпретацию полученных резуль-
татов
· спрогнозировать его поведение / развитие в будущем
· а также понять его историю в прошлом.
Кроме того, модель позволяет постоянно обучаться, уточ-
нять и добавлять взаимосвязи между ее элементами и ком-
понентами – и, возможно даже, накопленные знания со вре-
менем изменят само наше представление о модели. Схема-
тически это все изображено на рис. 4.

 
 
 
Рис. 4. Динамика взаимосвязей модели и реальности

Вспомните, как развивались представления (модели)


о Земле по мере накопления знаний и установления новых
взаимосвязей: от  плоскости на  китах и  черепахах до  Зем-
ли-центра и до того, что она крутится вокруг Солнца (рис. 5).

 
 
 
Рис. 5. Изменение представлений о модели Земли по мере
накопления данных и знаний

С моей т.з. наличие некой общей модели особенно важ-


но для социальных, экономических и бизнес-дисциплин, где
представление о реальности (модель) на порядок важнее чем
для той же биологии, геологии, физики, астрономии и т.д.,
базирующихся на фундаментальных естественных законах.
А люди часто брезгуют моделями, считая их уделом уче-
ных-теоретиков, отдавая предпочтение инструментам / ме-
тодам… Но эффективность применения инструмента край-
не зависит от того, для чего и применительно к какой реаль-
ности (объекту, событию, процессу и т.д.) мы его использу-
ем.
Я сам не  раз наблюдал как менеджеры, профессиона-
лы и даже ученые использовали аналитический инструмен-
тарий для прогнозов, но  без понимания модели результа-
ты этих попыток предсказаний были аналогичны гаданию
на картах Таро.
Даже если рассматривать бизнес и  организацию, кото-
рые являются социально-экономическими системами. Лю-
 
 
 
бой бизнес, любая организация внутри себя также может
быть представлена простой операционной моделью как на-
бором элементов и компонентов со взаимосвязями (на рис.
6 авторское представление).

Рис. 6. Базовое представление операционной модели


предприятия

Если посмотреть шире (рис. 7) – то организация являет-


ся открытой системой и  неразрывно связана с  внутренней
и внешней средой.
 
 
 
Если посмотреть еще шире, детализируя окружение ком-
пании: клиенты, конкуренты, продукт, процессы, структура,
культура и сотрудники компании, ее поставщики и вся эко-
номика – все это уже элементы большой бизнес-модели.
Соответственно на базе моделей аналитику можно очень
успешно применять в бизнесе для принятия более взвешен-
ных бизнес-решений, особенно в условиях неопределенно-
сти.

Рис. 7. Связь операционной модели с внешней и внутрен-


ней средой

Модель – одна из важнейших вещей в аналитике. Именно


модель исследуемого объекта / явления / процесса позволяет
 
 
 
правильно осуществить анализ: от того какие данные соби-
рать и до того как правильно интерпретировать полученные
данные.

 
 
 
 
Интуиция или аналитика?
 
Среди людей есть те, кто верит цифрам, а  есть те, кто
полагается на «чуйку» и интуицию. И это также выражено
в бизнесе и менеджменте.
Многие полагают, что достаточно только  чутья, биз-
нес-интуиции и имеющегося опыта – и приводят в пример
ряд успешных проектов или решений, принятых вопреки
статистике, исследованиям и аналитике.
Например, некоторые приводят Генри Форда, который ко-
гда-то сказал, что если бы он полагался на исследование мне-
ний клиентов, то ему бы пришлось заниматься выведением
более быстрых пород лошадей, а не автомобилями.
Лукавят, потому что с одной стороны речь тут о техно-
логии, а  с  другой стороны Г. Форд на  самом деле никогда
не брезговал аналитикой в управлении предприятием.
Более того, только аналитика позволяет накапливать зна-
ния, наращивать и объяснять опыт, усиливать практическую
интуицию, а в самом идеальном варианте – возвести к пони-
маю неких концептуальных моделей.
Я говорю об интуиции и опыте в связке, потому что для
меня интуиция – не что иное как «свернутый опыт» челове-
ка. Например, говорят, что опытный механик «по звуку ма-
шины» может определить проблемы. На самом деле он улав-
ливает ряд мельчайших моментов (данных) в  работе авто,
 
 
 
но просто уже делает их интерпретацию на таком уровне ав-
томатизма, что не способен объяснить на что именно он об-
ращал внимание, когда поставил «точный диагноз».
Дискуссия о том, что важнее – опыт / интуиция или
аналитика несостоятельна в  принципе. Вообще ИЛИ
здесь неуместно – более целесообразно использовать И.
Ведь сама по себе ни статистическая информация, ни ее
анализ, ни обнаруженные статистические значимые взаимо-
связи действительно не дают автоматических ответов на во-
просы – поэтому модель, интуиция, размышления и вообра-
жение (творческий подход) имеют очень большое значение.
Схематически дополняемость аналитики и  опыта друг-
другом можно представить так (рис. 8):

 
 
 
Рис. 8. Дополняемость опыта и интуиции аналитикой

Немного объяснений к картинке. Сначала мы снимаем /


регистрируем / собираем / получаем из  реальности некие
данные (причем данные в широком смысле слова и в любом
виде).
Далее данные превращаются в  знания, которые потом
объединяются какими-то связями (вот это событие произо-
шло потому, что было вот то-то и то-то) на основании наше-
го взаимодействия с реальностью. Знаниями и опытом мы
уже можем делиться с другими.
 
 
 
Аналитика может нам помочь уточнить наши взаимосвя-
зи: как опровергнуть их наличие в реальности, так и обри-
совать скрытые взаимосвязи, которых мы сами не замечали.
Это формирует более целостную картину.
В итоге при взаимодействии данных, знаний, опыта и ана-
литической проверки у  нас может родиться некое концеп-
туальное представление реальности (какого-то объекта, про-
цесса, явления, случая и т.д.) – модель.
Это не сама реальность – это только ее модель, наше пред-
ставление о ней. Но на базе этой модели мы уже можем более
эффективно обмениваться пониманием реальности с други-
ми людьми, а также постоянно его уточнять, приращивая но-
вые знания и устраняя пробелы.
Есть еще, конечно, креативная отсебятина (кстати,
очень часто встречаемая в менеджменте, социально-эконо-
мических и  гуманитарных направлениях). Когда человек
что-то увидел, чего-то нахватался – и из этого породил в го-
лове какую-то ерунду и, уверовав в нее, обозвал некой мо-
делью (рис. 9).

 
 
 
Рис. 9. Модели без опыта и  аналитики зачастую имеют
очень отдаленные связи с реальностью

Иногда, конечно, бывает, что из такого креатива рожда-


ются ± верные модели. Но они все равно проверяются только
опытом, аналитикой и самой реальностью.

 
 
 
 
Какая лучшая программа
для анализа данных?
 
Существует ряд программ для анализа данных. От всем
уже привычного Excel, до  коммерческих продуктов типа
SPSS, Statistica, OCA и вплоть до отдельного языка програм-
мирования R, созданного специально под аналитику. Есть
и бесплатные аналоги дорогостоящего коммерческого про-
граммного обеспечения  – например, программа PSPP как
аналог SPSS.
В интернете есть ряд официальных инструкций, курсов,
книг и самоучителей по той или иной аналитической про-
граммной среде (какие кнопки нажимать, где находится та
или иная функция, где смотреть вывод результатов и т.д.).
Но  главное  – понимать, что все эти
программы не заменители «головы» аналитика.
Это всего лишь инструментарий. Но, невзирая вроде
на эту понятную истину, постоянно разворачиваются бата-
лии на тему «какая программа лучше». Всегда хочется спро-
сить о критерии «лучшести» – ведь каждая программа имеет
свои плюсы и минусы, возможности и ограничения.
Решение об  использовании той или иной
программной среды – это на самом деле исключительно
вопрос профессиональных и личных предпочтений.
 
 
 
Я, например, в своей практике использую несколько ин-
струментов: подавляющая часть того, что я делаю, сделана
в SPSS, ОСА и Excel.
SPSS и  ОСА  – поскольку привык ими пользоваться.
Excel – потому, что удобен для бизнеса и его может открыть,
просмотреть и отследить логику формул любой бизнес-поль-
зователь.
Для некоторых задач использую R. Но с языков програм-
мирования я бы не рекомендовал начинать не-техническим
профессионалам. Это дольше, сложнее, да и  вряд  ли Вы
в  своей работе столкнетесь с  настолько емкими задачами,
чтобы не решить их более простым способом.
Потому, что использовать – больше будет зависеть от то-
го, что Вы решите и осилите освоить. Однозначно в бизне-
се (за  исключением, если Вы профессиональный аналитик
и это Ваша ежедневная работа) самым ходовым инструмен-
том является Excel. Бизнес – это клеточки Excel.
Потому и  в  данной книге вначале будет показана реа-
лизация описательных статистик в  Excel, чтобы Вы могли
применять эти навыки в  знакомом офисном приложении.
Но по мере усложнения методов и уровня аналитики мы пе-
рейдем на PSPP (аналог-заменитель SPSS).
При обучении прикладному инструментарию для нас
с Вами критерием «лучшести» является простота и привыч-
ность. Чтобы читатели тратили время не на изучение про-
граммы, а фокусировались на сути решаемых задач.
 
 
 
И  мой выбор для начинающих и  не-инженерных
профессий  – однозначно Excel и  PSPP. Но  не  просто
читайте разделы и  главы, а  после прочтения сходу
отрабатывайте методы в  этих программах на  Ваших
массивах.
Упоминая Excel, не  хочу сформировать неправильные
ожидания к книге, потому сделаю ударение: в книге не будет
обучения базовым навыкам работы с Excel. Изложение кни-
ги предполагает, что читатель уже на минимальном базовом
уровне знаком с Excel.

 
 
 
 
Очень краткие итоги раздела
 
Что я хотел, чтобы читатель вынес из раздела:
1. Никогда не ставьте ИЛИ между аналитикой и интуици-
ей. Всегда И. Не умаляйте роль творчества и случайностей.
2. Пять особенностей социально-экономической реально-
сти:
· Изменчивость
· Редкость нормального распределения
· Репрезентативность выборки
· Пристальное внимание к выбивающимся из общего мас-
сива случаям / объектам / наблюдениям
· Важность модели
3. Модель должна предшествовать анализу, чтобы иметь
возможность объяснить и проинтерпретировать данные.
4. Разницу между данными, метриками, КПД, дашборда-
ми и собственно аналитикой как поиском скрытых законо-
мерностей и построения прогнозов посредством специаль-
ного набора инструментов.
5. Неважно какой программный продукт / инструмент Вы
используете – используйте то, что знаете. Программы / ин-
струменты дополняют и повышают эффективность, но не за-
меняют человека.

 
 
 
 
ВВЕДЕНИЕ
В СТАТИСТИЧЕСКИЙ АНАЛИЗ
 
 
О статистическом анализе
 
Нас повсюду окружают данные. В соцсетях, в магазинах,
рекламе, метро… даже в авиалайнере. Весь мир – это цифры.
Нам может казаться, что собирая данные (при чем все
больше и  больше), мы контролируем большое количество
важных вещей и держим ситуацию под контролем.
Но на самом деле важно уметь отбирать именно те дан-
ные, которые помогают понять ситуацию и  принять реше-
ния, даже располагая неполной информацией. Какие имен-
но данные важны помогает понять модель, о которой мы уже
говорили.
С данными помогает работать такая наука как статистика.
Именно она позволяет придать понятный вид и смысл огро-
менным массивам данных, состоящим даже из миллиардов
или триллионов значений.
Статистика делится на  описательную
и  аналитическую. Мы в  книге рассмотрим оба эти
ответвления.
Задача описательной статистики только описать объ-
 
 
 
ект, процесс, явление – используя среднее значение, % рас-
пределения, количество и т. д.
Аналитическая статистика использует более сложные
методы, которые позволяют рассчитать взаимосвязи между
переменными, а также понять, являются ли эти взаимосвя-
зи просто случайными совпадениями или реальными зако-
номерностями.
Анализ данных является ключевым этапом, в ходе которо-
го происходит непосредственная проверка соответствия со-
бранной информации нашим моделям явлений, процессов
или объектов.
И более того: в ходе анализа формулируются и проверя-
ются / уточняются существующие или рождаются новые мо-
дели, отражающие те закономерности, которые мы нашли
в собранных данных.
Исследователь, ученый, менеджер или работник выдвига-
ет определенную модель явления / процесса / объекта, де-
монстрирует соответствие (либо противоречие) данных и со-
держащихся в них закономерностей этой модели – и только
потом может опираться на модель, отвлекаясь уже от самих
данных. Нам, к примеру, уже не нужно постоянно опирать-
ся на данные, чтобы понимать, что Земля вращается вокруг
Солнца.
Именно статистический анализ позволяет нам
находить скрытые закономерности, которые дают нам
больше понимания о  реальности и  уточняют как она
 
 
 
работает.
Но, прежде чем искать закономерности, надо рассмотреть
несколько важных вещей из области статистики – и мы их
далее рассмотрим в рамках этого раздела.

 
 
 
 
Выборка и генеральная совокупность
 
Реальность обычно представлена невероятно большим
количеством случаев / наблюдений / объектов. Людей,
жителей, клиентов, компаний, растений или животных
и т. д. И вся их популяция представляет собой генеральную
совокупность.
Например, если объектом нашего интереса (за кем мы же-
лаем понаблюдать и изучить) являются жители конкретно-
го города, то все они и есть наша генеральная совокупность.
Но если объектом интереса были бы, к примеру, только лю-
ди трудоспособного возраста (или имеющие право голоса
на  выборах) в  этом городе, то наша генеральная совокуп-
ность уменьшилась бы.
При решении отдельных задач вполне легко можно иссле-
довать всю генеральную совокупность.
Например, у Вас есть текущая база подписчиков он-лайн
журнала – и необходимо предсказать кто из них с высокой
долей вероятности не продлит подписку со следующего года.
Для этого у Вас, по сути, есть доступ к базе данных по всей
генеральной совокупности – и Вы можете сделать аналити-
ку, используя данные всей базы. Посмотреть, люди с каким
профилем демографии, поведения, предпочитаемых рубрик
чтения и т. д. не продлевали подписку в прошлом и, нало-
жив обнаруженные закономерности на существующую базу,
 
 
 
получить условно доверительный прогноз кто не продлит ее
сейчас.
Также с  генеральной совокупностью могут иметь дело
специалисты кадровых служб, проводящие анализ сотрудни-
ков предприятия.
Другое дело, когда Вы решите изучить всех потенциаль-
ных клиентов, рынок кандидатов на вакансии или избирате-
лей. Вот тут Вы столкнетесь с тем, что всех их изучить невоз-
можно и  дорого. Поэтому Вы будете исследовать только
некоторых, а полученные результаты распространять на всю
генеральную совокупность.
Вот те некоторые выбранные из  генеральной
совокупности объекты / образцы / люди / события
и будут называться выборкой.
Но  с  выборкой не  все так просто. Основная сложность
в формировании выборки – это понимание того, какие имен-
но объекты / образцы в нее включить так, чтобы иметь пол-
ную картину. Ведь она должна быть репрезентативной –
т.е., полученные по ней результаты должны с высокой
долей точности отражать генеральную совокупность.
Иллюстративно генеральная совокупность, выборка и во-
прос ее репрезентативности изображены на рис. 10.

 
 
 
Рис. 10. Генеральная совокупность, выборка и вопрос ее
репрезентативности

Неужели это настолько важно  – какая будет выборка?


Приведу такой пример (надеюсь, не обижу чувства верую-
щих). Например, Вы выберете всех, кто участвовал в воен-
ных действиях. Эти люди выжили – и Вы обнаружите стати-
стически значимую зависимость с молитвой перед боем. Вы
будете впечатлены – неужели молитва реально помогает вы-
жить? Можно ли заявить об этом?
Нет, нельзя. Во-первых, возможно Вы просто путаете при-
чину и  следствие (статистические взаимосвязи не  означа-
ют причинно-следственные связи, о которой мы поговорим
позже) – просто во время боевых и критических для жиз-
ни моментов люди начинают чаще молиться и  надеяться
на высшие силы. Поэтому правильная интерпретация – это
опять же вопрос модели (элементов и их взаимосвязей) объ-
 
 
 
екта / явления / процесса, который Вы исследуете.
А во-вторых, есть главная проблема в Вашем исследова-
нии  – Вы не  знаете, сколько также молились, но  погибли.
Потому что не можете их опросить – они мертвы. Т.е., Вы
отобрали нерепрезентативную выборку: она не представляет
собой генеральную совокупность.
Для того чтобы выборка отражала генеральную совокуп-
ность, чаще всего используют три основных подхода:
1. Случайный: когда объекты для изучения отбираются
из генеральной совокупности случайным образом.
2. Стратифицированный: когда генеральную совокуп-
ность разбивают на группы (страты) по важным для модели
признакам (например, пол, возраст, отрасли, поведение, ис-
пользование продукта с определенной частотой, частота по-
сещения церкви и т.д.). Объём (%) каждой группы задает то
количество объектов / наблюдений, которые надо отобрать
из каждой группы. Получаются квоты на отбор тех или иных
объектов.
3. Серийный: когда изымают партию товара, выбирают
людей, проживающих в многоквартирном доме на конкрет-
ной улице, или берут целиком отдельные отделы в компании
и т. д.
Соответсвенно, генеральная совокупность и выборка свя-
заны напрямую: чтобы отобрать репрезентативную выборку,
главное иметь правильное представление о всей генеральной
совокупности.
 
 
 
А как рассчитать, сколько же объектов / случаев /
наблюдений из  генеральной совокупности необходи-
мо включить в выборку?
Для этого есть специальная формула расчета ( спокой-
ствие: книга, как и обещано, без формул), которая для рас-
чета размера выборки использует «размер генеральной со-
вокупности», «допустимую вероятность» и «доверительный
интервал»:
· Размер генеральной совокупности  – это количество
всех объектов / наблюдений / случаев в генеральной сово-
купности.
· Доверительная вероятность – это считайте показате-
лем точности / достоверности (о сути вероятности как тако-
вой мы поговорим чуть позже). В практике обычно прини-
мается 95%. Можно брать, конечно, значение выше или ни-
же – например, от 85% до 99,9%. Но тогда число объектов /
случаев / наблюдений в выборке будет уменьшаться или уве-
личиваться соответственно.
· Доверительный интервал  – это допускаемый Вами
диапазон реальных значений при применении полученных
на выборке результатов к генеральной совокупности. Зада-
ется в % и говорит о том, насколько ± % (в каком «коридо-
ре») может отличаться истинное значение в генеральной со-
вокупности от полученного в выборке. Например, если то-
варом по какому-то параметру в выборке клиентов доволь-
 
 
 
ны только половина (50%), то при доверительном интервале
±5% с  вероятностью 95% истинное значение будет лежать
в диапазоне от 47,5% до 52,5% (это ±5% от полученных в вы-
борке 50% довольных).

Для сравнения: например, мы хотим узнать мнение


100.000 клиентов (генеральная совокупность).
Если нас устроит 95% вероятность с ±5% доверительным
интервалом – то достаточно опросить 383 клиента.
Если Вас устроит ±10% – то хватит мнений всего 96 кли-
ентов.
Ну а если нам «кровь из носа» необходима почти 100%
вероятность (например, 99,7%) и чтоб почти без интервала
(скажем, ±0,1%) – то готовьтесь исследовать почти всех кли-
ентов, а именно 95.745.
Стандартно для социально-экономической
реальности достаточно надежным считается
использовать вероятность 95% и  доверительный
интервал ±5%.
По  большому счету, чем выше Вы укажете вероят-
ность и меньший доверительный интервал – тем боль-
ше объектов из генеральной совокупности должно по-
пасть в выборку.

Сколько объектов брать в выборку – решать Вам ис-


ходя из допускаемых Вами погрешностей (все равно 100%
 
 
 
достичь не получится) и экономичности (сколько затрат го-
товы понести на извлечение данных из выборки).
Сама формула расчета размера / объема выборки
по большому счету Вам не нужна, так как расчет выбор-
ки автоматизирован как в спецпрограммах, так и в ряде он-
лайн калькуляторов.
Онлайн калькуляторы можно найти через любой
поисковик в  интернет (задайте запрос «онлайн
калькулятор выборки»).
В калькулятор останется внести размер генсовокупности,
а также устраивающую Вас вероятность и доверительный ин-
тервал  – и  калькулятор рассчитает сколько образцов
(объектов / наблюдений / случаев) Вам необходимо ис-
следовать в генеральной совокупности .

А  ЕСЛИ ВЫ РАБОТАЛИ СО  ВСЕЙ ГЕНЕРАЛЬ-


НОЙ СОВОКУПНОСТЬЮ И  ОТ  НЕЕ ПОЛУЧИЛИ
ТОЛЬКО НЕКИЙ % ОТВЕТОВ?
Такое часто бывает, к  примеру, когда Вы опрашиваете
всех сотрудников предприятия. Вы раздали анкеты всем,
а получили только некое количество ответов.
Тогда задача сводится к обратному: зная размер генсово-
купности и выборки – рассчитать доверительный интервал,
чтобы понимать, насколько полученные в выборке данные ±
могут отличаться в генеральной совокупности.
Имея размер генеральной совокупности и количество за-
 
 
 
полненных анкет (выборка) можно рассчитать доверитель-
ный интервал (те наши ±%) для того или иного % ответов
определенной категории.
Например, если в  компании 5.000  сотрудников, а  сдали
анкеты только 3.250, то при доверительной вероятности 95%
доверительный интервал будет ±1,02%. Считается это также
в онлайн калькуляторах. Пример, как выглядят такие онлайн
калькуляторы в сети Интернет на рис.10.1:

Рис.10.1. Пример онлайн калькулятора расчета довери-


тельного интервала

Но в расчете доверительного интервала есть один нюанс


 
 
 
по поводу поля «Процент ответов».
Внимательно читаем: рассчитанный доверительный
интервал будет справедливым для альтернатив ответов со-
трудников, которые набрали 50%. Для альтернатив, кото-
рые набрали другие % – доверительный интервал будет дру-
гим.
Например, Вы задали сотрудникам такой компании во-
прос «Довольны ли Вы стилем менеджмента в компании?»
с тремя вариантами ответа и такими % ответов персонала:
· Доволен – 50%
· Насколько доволен, настолько недоволен – 15%
· Недоволен – 35%
В данном случае, доверительный интервал (или ошибка
выборки) будет ±1,02% будет справедлива только для «до-
вольных» – т.е. доля довольных будет в диапазоне 50±1,02%
(от 48,98 до 51,02).
Но  для средней альтернативы доверительный интервал
(или ошибка выборки) будет ±0,73%.
А для «недовольных» ±0,97%.
Т.е, подставляя в поле «Процент ответов» разные значе-
ния альтернатив в зависимости от % отметивших их сотруд-
ников, мы будем получать разные значения доверительного
интервала для альтернатив.
На  практике, если в  целом ошибка выборки (значения
доверительно интервала) Вас устраивает в целом для «Про-
цент ответов» 50, то далее просто смотрят полученные %
 
 
 
ответов.

 
 
 
 
Переменные
 
Данные обычно состоят из большого количества отдель-
ных показателей, которые называют переменными. Это, на-
пример, доход, количество клиентов, город или страна, от-
дел, род войск, зарплата, пол, частота курения, количество
посещений или часов порносайтов, частота занятия сексом
в неделю, количество детей, социальный статус и т. д.
Переменная имеет свое значение для того или иного
объекта /случая / наблюдения.
По большому счету переменная – это характеристика объ-
екта / случая / наблюдения. Например, цвет глаз у каждого
человека будет свой.
Т.о., каждый случай, объект или наблюдение имеют свои
характеристики, т.е., имеет свое значение той или иной пе-
ременной. Переменные описывают объект.
Например, на рис. 11 в качестве примера приведены Валя
и Иван – это объекты / случаи / наблюдения .

 
 
 
Рис. 11. Объекты и переменные

А  их рост, цвет глаз, доход, место проживания, частота


путешествий и другие характеристики – это переменные.
Например,
· Валя -женщина, Иван – мужчина.
· Рост Вали = 1,7 метра, а Ивана 1,82.
· У Вали глаза голубые, у Ивана зеленые.
· Валя живет в Омске, Иван в Москве.
· Месячный доход Вали  – 80.000  руб, а  Ивана  –
200.000 руб.
· Валя ездит на отдых за границу редко – раз в несколько
лет, Иван часто – несколько раз в год.

 
 
 
 
Шкалы для измерения переменных
 
Каждая переменная может принимать различные зна-
чения. Значения переменных варьируются и  отличаются
от случая к случаю, от объекта к объекту.
Ну и Вы уже наверняка заметили, что они могут быть из-
мерены в различных шкалах.
Например, пол – 0 и 1 или 1 и 0. Т.е, мужчина или жен-
щина.
Доход, который выражается в рублях и может принимать
большое количество разных значений, хоть до копеек.
Или частота поездок за границу, курения, использования
интернета…
Разные шкалы имеют разную информативность. От того,
какая шкала используется, зависят также и методы анализа,
которые к ней можно применять.
Статисты понапридумывали разные типы шкал, но  их
в  целом можно объединить в  три основных типа, которые
в книге приводятся в порядке возрастания информативно-
сти.
Номинальная шкала (рис. 12) – например, пол, город,
страна, семейное положение, политическая партия, ФИО
кандидата в президенты.

 
 
 
Рис. 12. Номинальная шкала

По  сути, это шкала наименований и  классификаций.


С ней бессмысленно проводить какие-либо математические
операции. Цифры в ней ничего не значат, или, как говорят
ученые, не имеют эмпирического значения. Если, например,
мы поставим 1 Уфе, а 2 – Самаре, это не означает, что Уфа
на ступеньку ниже Самары. Мы можем даже поменять циф-
 
 
 
ры между городами – это ничего не изменит.
Т.е., эта шкала всего лишь определяет принадлежность
наблюдения, случая или объекта к какой-то группе и позво-
ляет классифицировать объекты. Тут мы можем посчитать
только количество объектов в группе. Например, количество
или % мужчин и женщин в нашей выборке. Или количество
людей из разных стран или городов. Или количество тех или
иных профессий.
Отдельно при рассмотрении номинальных шкал стоит вы-
делить дихотомии – переменные с двумя значениями. Пол,
прошёл / не прошёл тест, выжил / погиб, любой вопрос с ва-
риантами ответа только да / нет. Есть методы анализа и про-
гнозирования, при которых удобно использовать именно ди-
хотомии.
Второй тип шкал – порядковая или ранговая (рис. 13).

 
 
 
Рис. 13. Порядковая (категориальная, ординальная, ран-
говая) шкала

Еще ее называют ординальная (от  слова order  – c ан-


гл. порядок). Например, воинское звание, или место в орга-
низационной иерархии или уровень образования. Тут закла-
 
 
 
дывается некая степень проявления какого-то свойства меж-
ду объектами, но непонятна ни его точность, ни расстояния
между ними.
Генерал выше полковника. Работа может быть интересна,
безразлична или неинтересна. Занявший I место по бегу вы-
ше того, кто занял II и III (хотя разница в их абсолютном ре-
зультате могла составлять между первым и вторым 5 секунд,
а с третьим – более 2 минут).
Эту шкалу, как и номинальную, используют для класси-
фикации объектов и подсчета количества или %. Но по ней
можно применять и  ряд методов статистического анализа
и поиска закономерностей – например, попробовать найти
взаимосвязь между частотой использования мата и  воин-
ским званием.
Третий тип  – количественные или интервальные
шкалы (рис. 14).

 
 
 
Рис. 14. Интервальная (количественная, относительная,
метрическая) шкала

Если предыдущая порядковая шкала несла инфо о поряд-


ке данных, то количественная – это числа, реально отражаю-
щие размерности, разности, масштабы и расстояния между
объектами.
Например, точное время, за  которое бегуны пробежали
дистанцию. Возраст лет. IQ. Уровень лояльности или моти-
вации сотрудника. Доход.
 
 
 
С этими шкалами можно осуществлять любые виды ана-
лиза. Более того, их можно легко превращать в  порядко-
вые, объединяя диапазоны значений. Например, доход мож-
но разбить на 4 диапазона – низкий, средний, выше среднего
и высокий.
Оговорюсь, что количественные (метрические) шкалы
могут выглядеть по-разному: есть с отрицательными значе-
ниями, есть с абсолютным нулем (например, возраст) есть те,
которые в принципе не начинаются с нуля (например, IQ).
Аналитики в разговорах, статьях, литературе их могут име-
новать по-разному (например, интервальная, шкала масшта-
ба или шкала отношений с абсолютным нулем…) – но, по су-
ти, все они с точки зрения использования методов аналити-
ческого инструментария одинаковы.

 
 
 
 
Гипотезы
 
Когда говорят слово гипотеза, у многих возникает ассо-
циация с учеными или теориями. На самом деле гипотеза-
ми оперируют и менеджеры, бизнесмены, сотрудники ком-
паний, криминалисты и т. д.
Например, создавая рекламную кампанию, менеджер
по рекламе выдвигает гипотезу, почему и как реклама долж-
на сработать – и на их базе строит свою кампанию. Бизнес-
мен, принимая решение вкладываться в дело или нет, выдви-
гает и размышляет над целым набором гипотез-предположе-
ний. Криминалист, расследуя перестрелку, выдвигает гипо-
тезы, которые проверяются в ходе расследования и изучения
фактов.
Например, я при проведении исследований персонала
проверяю гипотезу, что определенный набор организацион-
ных факторов (зарплата, карьера, обучение и развитие, мо-
рально-психологический климат и т.д.) влияет на лояльность
и мотивацию персонала.
Или прогнозируя будет кандидат успешным продавцом
или нет в  конкретной компании, в  качестве гипотезы мо-
гу заложить предположение, что успешность определяют ре-
зультаты по нескольким тестам, пол и уровень образования.
Гипотезы очень важны. Хорошо о  них было сказано
на 32 минуте последней сериии фильма «Михайло Ломоно-
 
 
 
сов» (Мосфильм, 1986): «Запомните, в основе науки лежит
ежечасная работа по спирали опыта. Но не бойтесь и гипо-
тез! Они в естественных и философских трудах подчас един-
ственный путь, которым величайшие умы постигли самых
важных истин. Гипотезы! Полет! Порыв души!…»
Гипотезы могут или быть верными, или отклоняться.
И  в  современных подходах отклонить или принять
гипотезу помогает расчет вероятности того, являются
наблюдаемые различия или взаимосвязи случайными,
или можно считать их закономерностями. Особенно это
важно для социально-экономической реальности, где
не работают жестко предопределенные законы.
Так, например, для успешности продавца могут оказаться
верными предположения по тестам и уровню образования,
но будет отвергнуто влияние пола.
Пока о гипотезах все. Понятия нулевых и альтернативных
гипотез будут рассмотрены в  следующей главе в  привязке
к понятию вероятности.

 
 
 
 
Вероятность
 
Вероятность в статистике выражается в % и лежит в диа-
пазоне от 0 до 1 (0—100%). Обозначается буквой Р – от ан-
гл. probability.
В  повседневной жизни мы привыкли оценивать вероят-
ность события или вероятность истинности каких-то утвер-
ждений. Например, 80% что пойдет дождь, 99% что я сдам
этот тест, вероятность выбить с клиента долг менее 10%…
Но практическая статистика оперирует не вероятностью
наступления события (или истинности утверждения), а  ве-
роятностью ошибиться в случае применения обнару-
женной закономерности ко всей генеральной сово-
купности.
Самым страшным и критичным в анализе считается
именно обнаружить закономерности, взаимосвязи или
различия, которых на  самом деле в  генеральной
совокупности не существует.
А не обнаружить какие-то реально существующие взаи-
мосвязи – это не так страшно. Это как в правосудии: выпу-
стить виновного считается менее критичным, нежели обви-
нить невиновного…
Статисты придали этим вещам названия в виде нулевой
(H0) и альтернативной (H 1) гипотез. H0 говорит, что обна-
руженных закономерностей, взаимосвязей или отличий в ге-
 
 
 
неральной совокупности нет  – это исключительно случай-
ность, которая имеет место только в исследуемой Вами вы-
борке.
Я в  свое время для себя просто запомнил, что
нулевая гипотеза  (H0)  – это ноль различий /
взаимосвязей / закономерностей.
Только если вероятность H 0 крайне низка – принимает-
ся альтернативная гипотеза (H 1), что закономерность имеет
место в генеральной совокупности.
Т.е., в практике мы пытаемся в первую очередь ответить
на вопрос – какова вероятность, что выведенная нами вза-
имосвязь между параметрами или закономерность является
случайной и ее на самом деле нет в генеральной совокупно-
сти?
Например, криминалист, собрав все известные случаи,
видит вроде как закономерность, что серийные маньяки ору-
дуют в пределах трех кварталов от места жительства. Мож-
но ли это распространить на всю генеральную совокупность?
Или это просто случайное «стечение обстоятельств» в  его
выборке данных?
Конечно, проще всего было бы взять еще пару выборок
из генеральной совокупности и убедиться, что в них также
наблюдается такая связь. Но это не всегда возможно. И все
равно ответ не может быть точным, пока не будет изучена
вся генеральная совокупность.
 
 
 
Для того, чтобы чувствовать себя поувереннее,
распространяя полученные на выборке закономерности
на всю генеральную совокупность, используется очень
узкий интервал – не более 5% вероятности ошибки.
Все закономерности (взаимосвязи, различия), вероят-
ность ошибки по которым ниже этого интервала (т.е. менее
5%), считаются статистически значимыми. В англоязыч-
ной литературе обозначаются Sig., Significant.
Именно наличие значимых закономерностей
позволяет распространять полученные на  выборке
результаты на всю генеральную совокупность.
Как это работает? Например, мы хотим выяснить, прово-
дят ли женщины больше времени в соцсетях, чем мужчины.
Мы взяли определенную выборку из 1000 женщин и муж-
чин и обнаружили, что мужчины в среднем проводят в сетях
5 часов в неделю, а женщины 7 часов. Получается, что жен-
щины на 2 часа (на 40%!) больше сидят в сетях.
Но  можем  ли мы на  этих результатах утверждать, что
в принципе все другие женщины больше сидят в соцсетях,
чем мужчины? Возможно, мы получили различие случайно,
и оно характеризует только эту выборку, а не всю генераль-
ную совокупность…
И вот тут мы сначала определяем вероятность для H 0: что
разницы по «просиживанию» в соцсети между мужчинами
и женщинами нет. Или, другими словами, рассчитываем ве-
 
 
 
роятность ошибки насчет того, что женщины сидят в соцсе-
ти больше мужчин.
И если вероятность ошибиться будет менее 5%, то мы мо-
жем говорить о том, что обнаружили статистически зна-
чимое различие – и таки можем говорить, что все женщи-
ны проводят в сети больше времени.
Почему берется такое низкое значение вероятности
ошибки? Скажу, что на самом деле часто используют даже
ниже 1% или менее. От чего зависит? На самом деле от от-
расли и сложившейся в ней практики. Например, в медици-
не цена ошибки может быть высокой и там значения вероят-
ности ошибок принимают обычно очень низкими.
В  целом, общепринятая интерпретация вероятности
ошибки (или значимости результатов) в  среде аналитиков
следующая (рис. 15):

 
 
 
Рис. 15. Уровни значимости и их интерпретация

Прочитав этот раздел, я думаю, Вы уже поняли, насколько


нами могут манипулировать с помощью различных опросов
и  исследований, в  которых утверждается, что «женщины /
мужчины лучше руководят», «опрошенные считают чест-
ным кандидата в президенты», «у ряда пациентов наблюда-
лось улучшается самочувствие после применения препара-
та» и т. д.
Широкой публике просто часто выдают информацию без
обозначения репрезентативности выборки, заложенной мо-
дели, еще и в придачу не указывая, являются ли эти взаимо-
связи статистически значимыми.
 
 
 
 
Нормальное распределение
 
Колоколообразную кривую знают и  наслышаны все
(она  же колокол Гаусса, гауссовское распределение  –
рис. 16).

Рис. 16. То самое ОНО – нормальное распределение

Я о ней уже упоминал вначале, когда говорил об особен-


ностях социально-экономической реальности в  сравнении
с естественно-технической.

И почему-то многие уверены, что этой кривой подчиня-


ется все. На самом деле в реальности кривая нормального
 
 
 
распределения чаще всего проявляется в физических пара-
метрах, ограниченных физическими законами – гравитация,
размеры, вес организмов определенного вида и т. д.
В  социально-экономической реальности скорее наобо-
рот – Вы будете встречать отсутствие нормального распреде-
ления. Оно буде скорее скошено вправо или влево, или очень
сжато по оси ОХ или ОY (рис. 17).

 
 
 
Рис. 17. Примеры реальных распределений в  социаль-
но-экономической реальности

90% жителей страны владеют 2% капитала. 2 певца заби-


рают 95% популярности. 99% тиража всех книг приходится
на 1% авторов и т. д.
 
 
 
В любом случае на практике реальное распределение от-
клоняется от этой кривой. Да и выборки данных, строго со-
ответствующие нормальному распределению, на  практике,
как правило, не встречаются.
Но тем не менее, в статистике перед исследованием
важно понимать соответствует  ли распределение
наших данных по  каждой переменной нормальному
распределению.
Для переменных, которые нормально распределены  –
используются одни параметры и  критерии для сравнения
(и среднее значение, дисперсия, стандартное отклонение –
в этом случае информативные показатели).
Для тех переменных, которые не  соответствуют нор-
мальному распределению  – другие критерии (тут скорее
более информативными будут ранги, мода, медиана и т.д.).
Понять «на  глаз» нормально  ли распределены данные
на самом деле может быть достаточно сложно. Бывает внеш-
не похожее на  нормальное распределение значимо от  него
отличается. А  бывает наоборот  – визуально не  выглядя-
щее нормальным распределение не имеет значимых отличий
от нормального.
Поэтому для определения «нормальности» распределе-
ния разработаны специальные статистические тесты. Мы
на этом остановимся позже в практических разделах книги.

 
 
 
 
Итоги раздела
 
В  этом разделе основные мысли, которые хотелось  бы
«осадить» в памяти читателя, следующие:
1. Есть описательная и аналитическая статистика. Описа-
тельная статистика «ужимает» миллионы и миллиарды цифр
к какому-то компактному числу, типичному для всего мил-
лиона цифр. Аналитика позволяет находить скрытые за-
кономерности, которые дают нам больше понимания
о реальности и как она работает, а также строить про-
гнозы.
2. Выборка и генеральная совокупность. Генеральная со-
вокупность  – вся целиком популяция исследуемых объек-
тов. Выборка – выбранные из этой популяции объекты (часть
генеральной совокупности). Но  выборка должна быть
репрезентативной – т.е., отражать генеральную совокуп-
ность.
3. Переменные – это признаки / характеристики изу-
чаемых нами объектов (люди, животные, товар, клиенты,
организации и т.д.), которые могут принимать разные значе-
ния. Доход, пол, возраст, цвет и т. д.
4. В практике стоит различать три типа шкал для изме-
рения переменных. Номинальная: шкала наименований –
город, пол, профессия и т. д. Категориальная / ординаль-
ная / порядковая: отражающая степень проявления како-
 
 
 
го-либо свойства, без точных измерений – высокий-низкий;
больше-меньше; I – II – III место и т. д. Интервальная: от-
ражает размерность или масштаб каждой переменной – до-
ход, возраст в годах, расстояние и т. д.
5. Мы выдвигаем наши предположения / суждения (как
в виде мнений или домыслов, так и опыта) в виде гипотез,
которые потом проверяем цифрами и аналитикой. В стати-
стике фигурируют две гипотезы. Нулевая гипотеза (H 0), гла-
сящая что закономерностей, взаимосвязей, различий в гене-
ральной совокупности не  существует  – все что мы обна-
ружили всего лишь нелепая случайность в нашей выборке.
И  альтернативная (H 1), которая гласит, что обнаруженные
в  выборке различия нельзя объяснить случайностью: они
вероятнее всего имеют место и «материальны» в гене-
ральной совокупности.
6. Практическая статистика оперирует не  вероятностью
наступления события (или истинности утверждения), а ве-
роятностью ошибиться в случае применения обнаруженной
закономерности ко всей генеральной совокупности. Самым
страшным и критичным в анализе считается именно
обнаружить закономерности, взаимосвязи или разли-
чия, которых на самом деле в генеральной совокупно-
сти не существует.
7. Все закономерности (взаимосвязи, различия), по кото-
рым вероятность ошибки относительно их отсутствия в ге-
неральной совокупности менее 5% (менее 0,05), считают-
 
 
 
ся статистически значимыми.
8. В социально-экономической реальности Вы редко бу-
дете встречать нормальное распределение . Оно будет
скорее скошено вправо или влево, или очень сжато к оси ОХ
или ОY. 90% жителей страны владеют 2% капитала, 2 певца
забирают 95% популярности, 99% тиража всех книг прихо-
дится на 1% авторов и т. д.

 
 
 
 
КРАТКО О ПОДГОТОВКЕ
МАССИВА ДАННЫХ
ДЛЯ АНАЛИЗА
 
 
Что такое массив данных
 
Cложно-техническими рассуждениями голову забивать
не будем. Массивом данных для пользователей как мы с Ва-
ми по большому счету является таблица, в которую внесены
данные. Главное: в массиве все данные по той или иной пе-
ременной должны соотноситься с конкретным случаем, объ-
ектом, процессом, явлением.
Строки таблицы – это случаи или объекты (например,
ФИО, завод, филиал, клиент и т.д.).
Колонки – это наши переменные, то есть характеристи-
ки этих случаев или объектов (доход, % брака, возраст, пол,
страна и т.д.).

Массивом для последующей аналитической обработки


является «плоская» таблица (не  сведенный отчет). См.
рис. 18.

 
 
 
Рис. 18. Базовая структура массива данных

В массивах, с которыми Вы будете в основном сталкивать-


ся в работе, по строкам идут случаи / объекты / процессы
(компания, дата замера, человек, клиент и т.д.), а по колон-
кам – исследуемые переменные с их значениями для этих
случаев / объектов / процессов.
В  массиве не  должно быть никаких объединений ячеек
или по несколько разных переменных в одной ячейке. Каж-
дая переменная – отдельная колонка и ее значение для каж-
дого объекта / случая записывается в отдельную ячейку.
Мы не будем рассматривать нечеткий анализ (типа ана-
лиз текста, содержания, фото, видео и  других форматов).
Поэтому все значения переменных в  массиве, по  которым
будут применяться методы анализа, надо оцифровать (запи-
сать цифрами). Например, если у Вас есть частота «покуп-
ки шмоток» в формате вариантов / альтернатив «Редко-Ча-
 
 
 
сто-Очень часто», то в массив должны быть заданы цифры
1, 2, 3, соответствующие этим вариантам / альтернативам.
Исключениями могут быть только строчные переменные ти-
па ФИО.
Такая структура массива данных позволит принять его
в обработку любыми статистическими пакетами – от ОСА
и  до  SPSS и  нашего PSPP. В  Excel можно многое остав-
лять и «буквенным» (например, «пол» писать «м», «ж» или
указывать частоту «часто-редко»)  – но  специализирован-
ные прикладные статистические программы «буквенность»
очень плохо воспринимают для анализа.
Также специализированные программы еще потребуют
создания так называемого «паспорта» для переменных, в ко-
тором будет задано имя, шкала переменной и описание ее
альтернатив / вариантов.
Например, переменную «Пол» надо будет записать в пас-
порте «Пол», задать 2  альтернативы с  кодами 0=М, 1=Ж.
А приводимую в пример ранее частоту покупок шмоток на-
до будет закодировать 1=Редко, 2=Часто, 3=Очень часто.
Мы увидим, как выглядит «паспорт» далее, при знакомстве
с программой PSPP.
Сразу оговорюсь, что подготовка и «чистка» массива дан-
ных  – это очень важная скурпулезная и  дотошная работа.
В книге в части рассмотрения этой проблематики мы огра-
ничимся только базовыми, но самыми ключевыми вещами
(другими словами, только минимумом достаточного).
 
 
 
 
Консолидация данных в единый файл
 
Часто данные содержатся в разных файлах или системах.
И чтобы свести всё в единый массив, придется их собирать
в одном файле.
Хорошо, когда это могут сделать ИТ специалисты,
предоставив единый файл согласно Вашего запроса.
Но если этого не получается сделать, то может помочь та-
кая функция Excel как ВПР (VLOOKUP). Она позволяет све-
сти данные из множества разрозненных файлов в один файл-
массив.
Главное, чтобы во всех разрозненных файлах содержался
единый идентифицирующий признак.
Например, Вы работаете в компании и кадровые данные
(пол, возраст, стаж, зарплата и т. д.) по сотрудникам содер-
жатся в HR системе Ulcimus, фактические начисления и от-
числения – в 1С, а оценка эффективности в Success Factor.
Тогда идентификатором может являться либо ИНН (если он
содержится во всех системах), либо ФИО (если нет полно-
стью совпадающих ФИО), либо е-мейл.
Если Вы собираете данные с  многих разных точек (на-
пример, магазинов, цехов, дочерних компаний или филиа-
лов), то заранее приготовьте единую структуру Excel-фай-
ла. По однообразным таблицам можно осуществить их объ-
единение вручную или осуществить быструю автоматиче-
 
 
 
скую консолидацию (через соответствующий макрос или ме-
ню команд Excel).
Если Вам необходимо собрать данные в виде мнений или
экспертных оценок (например, провести опрос насколько со-
трудники довольны программой страхования или клиенты
новыми тарифами) – то можно воспользоваться специальны-
ми он-лайн программами. Есть отличные программы типа
Key Survey или Monkey Survey. Даже Google Form позволит
Вам быстро и бесплатно получить массив данных для анали-
за.
Если Вы провели бумажный опрос (социолог, психолог,
политолог, маркетолог, HR…) или собирали данные в  бу-
мажном виде – то надо проверить заполненность анкет и ор-
ганизовать их ввод в электронную базу. Также для считыва-
ния данных с бумажных анкет и ускорения формирования
базы данных можно использовать специальные сканеры.
Но  замечу, что на  сегодня уже основная масса данных
собирается «готовой к  употреблению» сразу в  электрон-
ном виде. Даже опросы в торговых точках, супермаркетах,
производственных цехах и т. д. проводятся с применением
Touch Pad технологий (интервьюер с интерактивным экра-
ном, на котором отмечает ответы клиентов / сотрудников),
позволяющих сразу же сформировать электронную базу дан-
ных.

 
 
 
 
Подготовка данных к анализу
 
Все данные, в  каком  бы они виде не  были, необходимо
вывести в единую таблицу.
И вот массив (таблица, в которой каждому объекту /
наблюдению соответствуют значения переменных)
у  Вас есть, необходимо подготовить все данные
к анализу.
Первое, что мы делаем  – проверяем типы данных
и шкалы наших переменных. В Excel достаточно сделать все
данные числовыми (кроме названий компаний, ФИО, слу-
чаев и т.д.). Когда Вы будете использовать другой продукт
(SPSS, PSPP, OCA и т.д.), то там будут свои требования.
Второе – проверяем корректность данных, путем исполь-
зования фильтров или функционала сводной таблицы. На-
пример, если у Вас переменная «Пол» принимает кроме зна-
чения 1 (мужчина) и 0 (женщина) еще какие-то числа – надо
отобрать фильтром эти числа и понять откуда они «всплы-
ли». Возможно, просто массив по конкретных строкам сме-
стился в сторону, а возможно их надо удалить или запросить
уточнение данных.
Третье  – недостающие или пропущенные данные. Что
с ними делать надо решать исходя из особенностей предме-
та, который Вы анализируете / исследуете. Обычно их либо
выкидывают, либо заменяют средними значениями или мо-
 
 
 
дой.
Четвертое  – преобразование данных. Это когда одни
данные переводятся в другие. Это как перевести килограм-
мы в граммы или вообще в категорийное понятие «большой /
малый вес».
Например, Вы собрали данные о  количестве детей
у сотрудников, а потом решили поделить на категории:
до 2 детей, 3—4 ребенка, 5 и более детей. Потому что
именно в разрезе таких категорий Вы будете принимать
управленческие решения (например, выплачивать тот
или иной размер выходного пособия при сокращении).
Давайте посмотрим, как преобразование выглядит в Excel
и PSPP. Только не пытайтесь сейчас запомнить окна и над-
писи на рисунках – это иллюстративные примеры: просто по-
пытайтесь уловить логику шагов. Даже если не уловите – мы
будем в деталях рассматривать эти вещи в других разделах.
Для преобразования в Excel Вы добавляете колонку и ис-
пользуете формулу ЕСЛИ, чтобы на  основании данных
колонки «количество детей» вывести новую переменную
(рис. 19).

 
 
 
Рис. 19. Перекодирование в Excel через формулу =ЕСЛИ

В  PSPP необходимо будет использовать функцию


TRANSFORM / COMPUTE или RECODE или ПРЕОБРА-
ЗОВАТЬ / ВЫЧИСЛИТЬ или ПЕРЕКОДИРОВАТЬ…: с ее
помощью можно на основании имеющихся переменных вы-
числить любые другие переменные (рис.20).

 
 
 
Рис. 20. Перекодирование в PSPP

Кого картинки с формулами и окнами «напрягли» – «спо-


койствие, только спокойствие»: они не страшны, да и рабо-
та с ними занимает на самом деле секунды. Выглядят про-
сто эти окна страшнее, чем для даже более сложных видов
в анализа. Как я говорил, с этими функциями (как в Excel,
так и в PSPP) мы еще отдельно познакомимся далее по ходу
книги.
Что стоит еще просто упомянуть в части подготовки мас-
сива к анализу.
Есть еще процедура нормирования всего массива  –
приведение всех переменных к % значениям или вычитани-
 
 
 
ем среднего с последующим делением на стандартное откло-
нение – но в этих вычислениях Вас запутывать не буду.
Есть еще взвешивание. Вам пока этим также баловать-
ся не  нужно  – и  вряд  ли работая в  организациях (кро-
ме исследовательских социологических или маркетинговых
агентств) Вы с такой необходимостью столкнетесь.
Процедуру взвешивания чаще всего используют опыт-
ные социологи и  политтехнологи. Особенно когда «на  за-
каз» необходимо получить нужные результаты опроса: про-
сто всегда можно подобрать для взвешивания массива ка-
кую-то переменную, чтобы получить нужные результаты.
Например, в опросе реально приняли участие 30% жен-
щин и 70% мужчин, что отражает состав исследуемого ре-
гиона и под это строилась выборка. Но результаты получи-
лись совсем не для PR и формирования мнения избирате-
лей… А вот если «взвесить» массив по общепринятому рас-
пределению мужчин и женщин в мире или стране мы можем
получить ближе к тому, что будет выглядеть более красиво.
Для этого проделывается процедура взвешивания по «целе-
сообразному» распределению – а потом, в случае вопросов
всяких «умников», полученные результаты обосновываются
взвешиванием массива по некой «классической норме для
М и Ж».
Теперь Вы подготовили данные к анализу – можем начи-
нать анализ. Только для отработки навыков Вам нужно ра-
ботать с массивами прямо в программах.
 
 
 
На курсах и тренингах слушатели работают с моими мас-
сивами данных из  разных проектов. Но  при работе с  кни-
гой Вам нужно использовать собственные массивы данных –
возьмите его на  предприятии, по  результатам опроса, соб-
ственную базу клиентов (если Вы фрилансер), или на худой
конец скачайте какие-то данные из интернета.

 
 
 
 
«EXCEL'НЫЙ МИДКВЕЛ»
 
 
Весь бизнес-excel
в 5 основных функциях
 
Я говорил во введении о вынужденной мере с Excel. Как
раз после массивов и в преддверии перехода к описательной
и аналитической статистике время по нему пройтись.
Эту тему придется осветить для ощущения полноты ма-
териала любым читателем. Мои курсы и тренинги посещает
довольно «разношерстная» с точки зрения подготовки ауди-
тория. И многие слушатели поистине с детским восторгом
реагируют на достаточно обыденные возможности Excel.
В  этом разделе я расскажу всего о  нескольких главных
возможностях Excel, которые наряду со  знанием базовых
операций составляют на  сегодняшний момент, пожалуй,
основные границы использования этой программы в  биз-
нес-среде.
Те, кто отлично разбирается в Excel, могут спокойно
всю эту главу пропустить  – она Вам ничего нового
не даст. Максимум – убедитесь, что и так все это знаете.
Современный бизнес построен на  клеточках Excel.
И Excel, с моей точки зрения, надо знать всем работающим
 
 
 
в бизнесе и организациях.
Но работая даже с огромными системными компаниями
(десятки и  сотни тысяч человек) я повсеместно встречаю
в бизнес-среде сотрудников, которые не знают Excel.
Например, как-то попросил в крупной корпорации табли-
цу с  данными выслать  – мне присылают отсканированный
документ с таблицей, набранной в Word. Пишу в ответ «вы-
шлите эти данные в Excel». Через минуту приходит Excel –
открываю, а внутри вложена эта же отсканированная картин-
ка… Вздохнул, и попросил прислать Word-исходник…
В  коммерческой структуре 95% задач легко решить
небольшим функционалом Excel. Если Вы не  знаете этого
функционала, то будет из области как сказали когда-то на од-
ном проекте на Украине «Дви людыны тыждэнь часу» (Два
человека, неделя времени). Это стало моим любимым мемом
на весь проект.
Расскажу эту историю, которую нарочно не придумаешь.
Поставил задачу сотрудникам филиалов прислать данные
по одной теме в виде конкретного массива – и один запад-
ный регион выслал не в том формате. Звоню и говорю, что-
бы ИТ перегрузили данные в другом виде. Те в ответ – «Они
не могут». «Тогда сами переделайте». Ответ «Ну нам надо
время, еще и надо исполнителей задействовать».
Я уже чисто ради интереса спрашиваю «А  сколько вре-
мени понадобится и сколько людей будет вовлечено?» «Ну,
можэ 2 людыны якшо выдилять, то за тыждэнь справымося.
 
 
 
Хиба Вы шось порэкомэндуетэ» (Ну, может если выделят
2-х человек, то за неделю сделаем. Разве что Вы что-то по-
рекомендуете ).
Это был занавес. Переделал массив за 7 минут и отправил
обратно. Ну и порекомендовал учить Excel, а не «дви люды-
ны, тыждэнь часу»…
В  следующих параграфах будет несколько моих уроков
по Excel, за который знающие его на базовом уровне уверен
будут очень благодарны.
Только рекомендую после прочтения каждого параграфа
«отработать» эти функции в Excel файлах, с которыми рабо-
таете на своем предприятии или в учреждении.

 
 
 
 
Базовые функции
 
Начну с нравоучения относительно, казалось бы, «баналь-
щины»: самостоятельно изучите базовые функции – приба-
вить, отнять, умножить, поделить, сумма, количество, сред-
нее.
Также изучите средства визуализации в виде различных
встроенных диаграмм и условного форматирования ячеек.
На них я останавливаться не буду, это сами интуитивно
осилите, прочтете в справке Excel или в интернет-поискови-
ках найдете. Но я о них сказал, потому что многие и их не ис-
пользуют, и действуют неэффективно.
Например, в одной компании иду я по коридору – ловит
меня вице-президент по техническим вопросам и говорит:
«О, зайди на минуту». Захожу (думал может выпить есть ка-
кой повод… – но нет) подводит к экрану монитора и пока-
зывает открытый Excel. Там помесячный график роста до-
бычи сырья в виде столбиков, а внизу под графиком табли-
ца с данными, на основе которой столбики, собственно, по-
строены. Короче стандартная диаграмма Excel.
Я смотрю на диаграмму и пытаюсь уловить, что же он хо-
чет мне на  ней такого показать… А  он кликает все время
на график и сквозь смех говорит «Ты представляешь, при-
несли таблицу, а  я попросил их сделать график чтобы на-
глядно было…».
 
 
 
И тут до меня доходит… Диаграмма не ссылается на таб-
лицу с данными! Она нарисована путем подбора размеров
клеточек в Excel и их закрашивания цветами.
Это ж сколько надо было исполнителю сидеть и этим за-
ниматься, не  жалея своего времени… График был писком
сезона, но кроме него, в таблице сумма была подбита не фор-
мулой, а вручную вписана….
Вот такая банальная небанальщина… В следующих четы-
рех главах приведу главные возможности Excel, изучив кото-
рые наравне с базовым функционалом, можете считать, что
уверенно знаете Excel. Более того, использование даже этих
простых возможностей повысит Вашу эффективность рабо-
ты с данными на 1000%.

 
 
 
 
Сводные таблицы
 
Широко известный функционал, но  многие с  ним про-
сто-напросто не работают.
Расскажу в  качестве примера одну историю. В  одной
крупной корпорации в рамках трансформационного проек-
та поставил задачу проектному институту собрать в  мас-
сив данные по 86 объектам (нефтегазовые месторождения)
и  около 50  переменных (от  объема добычи и  до  наличия
тех или иных промышленных установок на месторождении).
Причем эта информация была в разрозненном виде – от по-
чты и бумаги, до Excel и геологических программных ком-
плексов.
Формат задал в виде массива. И за неделю порядка 100 че-
ловек должны были его заполнить. Но прошла неделя, нача-
лась вторая: меня каждый день кормили завтраками и никак
не отдавали массив. Директор заверял, что выполненная ра-
бота превзойдет ожидания. В итоге я таки получил «превос-
ходство» ожиданий….
Во-первых, в массиве посводили строки ИТОГО по каж-
дому месторождению, предприятию и цеху, еще и пообъеди-
няв ряд ячеек. Во-вторых, цифры были вписаны (без форму-
лы суммы): т.е., явно считались калькулятором и вбивались
в ячейки вручную…
Работы много проделали. Только никому не нужной. То,
 
 
 
что 100 человек подбивали почти дополнительную неделю,
делается сводной таблицей за 1 минуту. Из которой 50 се-
кунд тратится на удаление «результатов» недельного труда
«роты бойцов».
Директору института по  прилету на  совещание в  штаб-
квартиру, я показал и итоги их работы, и ее бесполезность.
И порекомендовал обучить сотрудников основным навыкам
работы с Excel.
Как это работает в Excel. Например, у меня есть массив
данных по этим же нефтяным месторождениям (урезанный
до нескольких переменных для простоты). Сначала вызовем
конструктор сводной таблицы (рис. 21):

 
 
 
Рис. 21. Вызов конструктора сводной таблицы

1. Ставим курсор в первую ячейку заглавной строки мас-


сива
2. Выбираем закладку «Вставка»
3. Нажимаем «Сводная таблица»
4. Видим, что появилось окно «Создание сводной табли-
цы», в котором выделен наш массив
5. Жмем ОК

На новом листе появился конструктор сводной табли-


 
 
 
цы, предлагая в правой части экрана разложить интересую-
щие нас переменные массива по 4 областям (рис. 22).

Рис. 22. Конструктор сводной таблицы

Мы разложили несколько конкретных переменных по по-


лям и получили готовую сводную таблицу (рис. 23), показы-
вающую объемы добычи в разрезах территорий и регионов
2-го уровня.

 
 
 
Рис. 23. Сводная таблица с перенесенными в поля пере-
меными

· Фильтр – перенесли «Регион 1» (Восток, Запад)


· По строкам перенесли «Территория»
· По столбцам (колонкам) – перенесли «Регион 2»
Причем строки и столбцы можно менять местами. Обыч-
но в строки удобнее ставить переменную с большим количе-
ством вариантов / альтернатив, в колонки – с меньшим.
· В область «Значения» перенесли «Объем добычи».
Можем выбирать фильтром (вверху таблицы) укрупнен-
ный регион 1-го уровня и смотреть данные в таблице только
по «отфильтрованным» значениям.
Причем в  области можно переносить и  много перемен-
ных. Например, перенесем «Цех» в то же поле, что и «Терри-
тория». Наша таблица сразу же преобразится (рис. 24), и мы
 
 
 
увидим объемы добычи и в разрезе цехов.

Рис. 24. Сводная таблица: в строки добавлена переменная


«Цех»

Также в области «Значения» можно указать значения, ко-


торые мы хотим вывести. В примере выше мы вывели сум-
марный объем добычи. Но, кликнув на перенесенную в это
поле переменную «Объем добычи» и выбрав в контекстном
меню «Параметры полей значений» ( рис. 25), вместо сум-
марного можно, допустим, вывести средний объем добычи
по цехам и регионам, выбрав «Среднее».

 
 
 
Рис. 25. Изменение параметров поля значений

Как Вы поняли, сводная таблица позволяет себя перестра-


ивать в  считанные секунды. И  если  бы мы захотели уви-
деть не сумму добычи, а количество производственных пло-
щадок. Или сумму добычи и количество производственных
площадок. Или пожелали  бы добавить региональный раз-
рез… То такую информацию не  составит труда получить
с помощью сводной таблицы прямо здесь и сейчас.

 
 
 
 
ЕСЛИ
 
ЕСЛИ (англ. if) – очень полезная формула, работает по ал-
горитму ЕСЛИ  – ТО. Позволяет перекодировать ряд зна-
чений одной переменной в  другую (например, разбить до-
ход на  диапазоны «высокий-средний-низкий» или 1-2-3),
а также делать сложные расчёты с набором условий.
Как это работает. Сначала разберем пример расчетов
с набором условий. У нас есть отделы продаж. Представим,
что есть спецусловия по премированию отделов: к примеру
все отделы Москвы, продавшие более чем на 150.000, полу-
чат 20% от этой суммы в качестве премии.

Рис. 26. Вызов формулы ЕСЛИ для расчета «Размер спец-


премии»

Сначала указываем в формуле условие. Премируются все


отделы Москвы, где объем продаж более 150.000. Значит
в условии две переменные: город и доход. Ставим И, откры-
 
 
 
ваем скобку, выбираем ячейку с доходом ставим знак боль-
ше «>», разделитель точка с  запятой «;», выбираем ячей-
ку по переменной «Город» – пишем равно «=» и указываем
в кавычках (для текста) «Москва» (рис. 27).

Рис. 27. Условие для формулы ЕСЛИ

Дальше указываем, что произойдет для тех объектов, ко-


торые соответствуют указаному нами условию (если значе-
ние истина): умножаем ячейку «Доход» на 0,2 (20%). Ста-
вим разделитель точку с  запятой  – и  напоследок указыва-
ем, что по всем другим вариантам ставить 0. Получается как
на рис. 28.

 
 
 
Рис. 28. Расчет спецпремии для соответствующих (До-
ход*0,2) и не соответсвующих (0) условию отделов

Жмем кнопку «Ввод» (Enter) – и нам рассчиталась сум-


ма выплаты премий для конкретного отдела. Протягиваем
формулу до конца массива – и имеем переменную «Размер
спецпремии» с  конкретными суммами на  выплату премий
для каждого отдела.

Возможно, что премии понадобится дифференцировать:


те, кто более 150.000 – 20%, а кто перешел 100.000 – отдаем
на премию 10%. Можно тогда уточнить условие, «вложив»
внутрь формулы ЕСЛИ еще одну формулу ЕСЛИ. Это тогда
будет выглядеть так (рис. 29):

Рис. 29. Дополнительное условие в 10% для отделов с до-


ходом более 100.000

Мы уточнили условия  – написали вместо прежнего «0»


еще раз ЕСЛИ «Москва» И доход более 100.000, то дадим
10% (т.е. умножим на 0,1) – а остальным 0.
 
 
 
Аналогично с  использованием формулы ЕСЛИ можно
и перекодировать одну переменную (например, интерваль-
ную «Доход») в другую (например, в порядковую «Катего-
рия дохода»). Если более 1 млн. – то категория I, если более
100 тыс. – категория II, остальное – категория III (рис. 30).

Рис. 30. Перекодирование интервальной шкалы (перемен-


ная «Доход») в порядковую (переменная «Категория дохо-
да»)

Полагаю, эта глава о ЕСЛИ помогла Вам разобраться как


работает данная функция.

 
 
 
 
ВПР
 
Функция ВПР (англ. vlookup). О ней я уже упоминал в гла-
ве о консолидации данных. ВПР позволяет подтянуть в еди-
ный массив данных переменные со  значениями из  других
массивов / файлов.
Как это работает. Предположим, у  Вас есть три раз-
ных файла с ИНН сотрудников. Все они содержатся на раз-
ных закладках Excel. Один из них является основным мас-
сивом для анализа, но  в  нем не  хватает двух переменных,
находящихся в  двух других файлах: фактические выплаты
из бухгалтерской программы и количество сгенерированных
заявок из  ИТ сервис-деск. Их надо подтянуть в  основной
массив из двух других массивов (рис. 31).

 
 
 
Рис. 31. В основной массив требуется «подтянуть» пере-
менные из других массивов

Для начала в двух закладках, из которых мы хотим подтя-


нуть данные, переносим колонку с ИНН в самое начало мас-
сива – она должна быть первой (рис. 32).

 
 
 
Рис. 32. Переносим идентификатор «ИНН» в самое нача-
ло массивов, из которых нужно «подтянуть» переменные

Потом в  основном массиве создаем первую перемен-


ную «Фактические выплаты», в  которую подтянем данные
из файла бухгалтерской программы. Для того чтобы их под-
тянуть пишем в первой ячейке =ВПР и открываем скобку –
Excel для формул всегда подсказывает, что необходимо ука-
зать далее (рис. 33).

 
 
 
Рис. 33. Создание переменной и вывод формулы ВПР

Далее ссылаемся на ячейку с ИНН как то, что надо будет


искать в выгрузке из бухгалтерской программы, ставим раз-
делитель точка с запятой «;», выделяем массив на закладке
выгрузки из бухгалтерской программы, зафиксировав его
кнопкой F4 (появился значок $) — рис. 34.

 
 
 
Рис. 34. Идентификатор (искомое значение) и  ссылка
на таблицу, в которой его необходимо искать

Фиксация F4 необходима, чтобы не двигались ячейки таб-


лицы в формуле при ее протягивании вниз по всему масси-
ву. Запомните эту функцию F4: она очень полезна –
а многие ее просто не знают.
Указываем номер столбца, в  котором содержится пере-
менная «Фактические выплаты» в таблице массива-выгруз-
ки из 1С. И выбираем «ЛОЖЬ» – ведь нас интересует точное
(1-в-1) совпадение по ИНН (рис. 35).

 
 
 
Рис. 35. Задаем номер столбца и параметр точного совпа-
дения

Жмем ENTER (Ввод) – и протягиваем формулу по всей


колонке. Нам из выгрузки бухгалтерской программы 1С под-
тянуло в основной массив фактические выплаты (рис. 36).

 
 
 
Рис. 36. «Протягиваем» формулу до конца массива

Проделав то  же самое по  выгрузке количества заявок


из ИТ сервис-деск – получим подтянутые в основной массив
данные о количестве заявок по каждому пользователю.
У  нас получился готовый к  анализу единый массив
(рис. 37).

 
 
 
Рис. 37. Готовый к анализу массив, с подтянутыми значе-
ниями переменной «Факт. выплаты» из 1С и «Заявки» из ИТ
сервис-деск

Вот так работает формула ВПР – попробуйте ее приме-


нить в своих файлах.

 
 
 
 
Справочники
 
В Excel еще удобно делать для массивов данных справоч-
ники, меняя в которых значение отдельных переменных, Вы
сможете управлять расчётами без переписывания формул.
А особенно удобна в справочниках комбинация двух вы-
шеприведенных формул ВПР и ЕСЛИ с использованием еще
и  функционала «Сводная таблица». Все вместе позволит
Вам создать в Excel пусть простенькую, но целую мини-про-
грамму (считайте математическую модель) под конкретную
бизнес-задачу.
Справочник – это, по сути, отдельная закладка, в кото-
рую выводятся некоторые параметры, используемые потом
в расчётах в массиве. И это те параметры, которые достаточ-
но общие, но значения по ним могут меняться.
И вот чтобы при их изменениях не пришлось править все
формулы, в которых они встречаются, а также чтобы нигде
ничего не пропустить при внесении изменений вручную, ис-
пользуется справочник. Замена любого значения в справоч-
нике автоматически будет принята во всех формулах, кото-
рые на него ссылаются.
Кстати, большинство бюджетов даже крупных компаний
в десятки тысяч человек считаются в Excel с помощью этого
подхода. Даже при наличии на этих предприятиях промыш-
ленных ИТ-систем для расчетов бюджетов – проверку отсут-
 
 
 
ствия ошибок в ИТ-системах в подавляющем большинстве
случаев делают именно через такие Excel-файлы.
Формирование справочника будет демонстрироваться
на  примере кейса по  моделированию изменений системы
оплаты труда в компании. В данном случае внедряли грей-
динговую систему и надо было промоделировать сколько бу-
дет получать каждый конкретный человек после внедрения
грейдинга.
Но, естественно, подход к условиям оплаты после каждого
обсуждения с высшим руководством менялся. И если с окла-
дами (вилками оплаты) разобрались быстро (менеджменту
главное было, чтобы люди получали зарплату не меньше, чем
имели до грейдинга), то с бонусом / премией шло не так глад-
ко. Во время заседания постоянно пересматривались вари-
анты (невзирая на то, что на заседание вышли с тремя гото-
выми наиболее оптимальными вариантами). Тем не менее,
вопрос закрыли за одно заседание без лишних итераций.
И  именно благодаря возможности с  помощью справоч-
ника вносить изменения в  файл прямо «здесь и  сейчас».
Справочник позволял не переписывать постоянно формулы,
а  просто меняя значения % премии видеть, как меняется
картина. Любые изменения значений в справочнике автома-
тически запускали пересчет размеров премий в массиве.

Как это работает в  Excel. Мы имеем массив данных


с несколькими переменными (рис. 38).
 
 
 
Рис. 38. Массив данных по сотрудникам предприятия

«Таб. Ном» – табельный номер.


«Оклад» – размер оклада конкретного сотрудника.
«Грейд»  – присвоенный должности сотрудника грейд
 
 
 
в новой системе оплаты труда.
«Годовой оклад»  – переменная «Оклад», умноженная
на 12 (количество месяцев в году).
«Код премии»  – 0  стандартная общекорпоративная;
1 и 2 для продавцов и поддержки продаж соответственно.

Создаем отдельный Лист и  называем его «Справоч-


ник» (рис. 39) – на него выносим все наши «управляющие»
расчетами переменные. В  нашем кейсе такими «управля-
ющими» переменными является грейд и  соответствующий
ему % премии, а также % комиссионных выплат (премий)
для сотрудников отдела продаж.

 
 
 
Рис. 39. Отдельный лист «Справочник»

Возвращаемся в массив данных на листе «общий список»


и создаем в нем две новые переменные – «Премия» и «Го-
довой доход» (рис. 40).

 
 
 
Рис. 40. Создание дополнительных переменных
Далее запишем выражение для расчета размера премии
по переменной «Премия». Сначала укажем как считать для
сотрудников отдела продаж (рис. 41). Если «Код премии»
=  1  (продажи), умножаем «Годовой оклад» на  ячейку с  %
премии для продаж в справочнике (B18) и фиксируем ее F4.
Фиксация нужна (значок $), чтобы указанная ячейка не сме-
щалась при протягивании потом формулы по всему массиву.

Рис. 41. Выражение для расчета суммы премии продавцам

Потом во вложенной ЕСЛИ указываем, что при «Код пре-


мии» = 2 (поддержка продаж) – умножаем «Годовой оклад»
на ячейку с % премии для поддержки продаж в справочнике,
также зафиксировав ее F4 (рис. 42).
 
 
 
Рис. 42. Выражение расчета суммы премии для сотрудни-
ков функции поддержки продаж

Для всех остальных сотрудников указываем в  качестве


выражения для расчета премии умножение «Годового окла-
да» на  значение % премии из  справочника для грейда со-
трудника (рис. 43).

 
 
 
Рис. 43. Выражение расчета суммы премии для остальных
сотрудников

Обратите внимание на  рис. 43, что для «вытягивания»


% премии для грейда используется формула ВПР: мы гово-
рим формуле, чтобы она нашла грейд сотрудника (столбец
С в общем списке) в таблице премий и грейдов в справоч-
нике (не забываем зафиксировать эту таблицу F4) – и «вы-
тянула» оттуда» % премии со 2-й колонки (столбца В).

Протягиваем формулу до  конца массива  – и  получаем


сумму премии по каждому сотруднику (рис. 44).

 
 
 
Рис. 44. Расчет премии для каждого сотрудника

Последний штрих – расчет «Годового дохода» в рублях.


Тут мы просто суммируем ячейки «Годовой оклад» и «Пре-
мия». Протягиваем до конца массива – и имеем все расчёты
(рис. 45).

Рис. 45. Выражения для расчета годового дохода


 
 
 
Теперь меняя, к  примеру, % премий прямо в  справоч-
нике, можем видеть, как поменяются расчетные значения
в массиве.
А  сделав сводную таблицу (или несколько разных свод-
ных таблиц)  – получим отчет, по  которому можно видеть
суммарные или средние затраты, например, по грейдам. См.
рис. 46.

Рис. 46. Сводный отчет

Если Вы, увидев длинное описание, вдруг испугались


и Вам все показалось сложным и непонятным – сядьте и сде-
лайте в Excel.
 
 
 
Некоторые читатели, прочтя эту главу о  справочнике
и зная уже о формуле ЕСЛИ, подумают: зачем заморачивать-
ся, можно ж просто написать формулы с вложенными ЕСЛИ.
Например, если грейд=1, то такой % премии, если 2 – то та-
кой, если 3 то такой….
Да, можно и  так. Но  учитывая 13  грейдов в  примере  –
формула получится очень длинной. А представьте сколько
понадобится времени, чтобы ее исправить при малейших из-
менениях. И сколько Вы пропустите исправлений (человече-
ский фактор), когда много условий и переменных.
Например, когда с 10 грейда начнет добавляться еще кор-
поративная часть премии – и ее % будет отличаться на каж-
дом грейде. А потом еще разные пакеты бенефитов (страхов-
ка, ссуда и т.д.). А еще у Вас на заседании иностранный ме-
неджмент и нужны суммы с учетом курса валют…
В общем, справочник может стать самой важной возмож-
ностью Excel. С ее помощью Вы можете как математическую
модель под свой бизнес-план «сваять», так и любые процес-
сы или бюджеты просчитать и смоделировать.

 
 
 
 
Краткие итоги Excel-раздела
 
Есть пять главных функционалов Excel, которые надо
знать, чтобы покрывать 95% бизнес-задач. Зная их, Вы про-
сто полюбите работу в Excel.
1. Базовый функционал: простые операции + диаграммы
+ условное форматирование + работа со значениями ячеек
(хотя бы формулы ПРАВСИМ, ЛЕВСИМ, СЦЕПИТЬ)
2. Сводные таблицы
3. ЕСЛИ (в частности, совместно с другими логическими
формулами типа И, ИЛИ)
4. ВПР
5. Справочники
Освоите эти нехитрые функции – считай весь Excel для
бизнес-задач знаете. Захотите далее продвинуться  – начи-
найте учить от разных функций, анализа типа «Что-Если» –
и  вплоть до  макросов. Но  это уже не  даст настолько срав-
нительно огромного прироста к эффективности в части ре-
шения основной массы бизнес-задач, как в случае изучения
«с нуля» вышеописанных функций.
И  еще скажу: на  самом деле виртуозное использование
Excel заключается не столько в знании большого количества
формул, сколько в умелой комбинации формул для решения
конкретной бизнес-задачи.
И самое главное – это понять саму бизнес-задачу и пред-
 
 
 
ставить ее модель. А методы и формулы уже легко приме-
ните из того арсенала, что знаете (или найдете и подберете
недостающие).

 
 
 
 
ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ
 
 
Что такое описательные статистики?
 
Описательные статистики. Большинство книг (за исклю-
чением глубоко специализированных учебников, пестрящих
обилием двадцатиэтажных математических формул), либо
вообще не  упоминают об  описательных статистиках как
о само собой разумеющейся вещи, либо бегло «пролетают»
по ним. Эта же книга отдельно остановится на каждой, фо-
кусируясь на их особенностях и практическом применении.
Даже если описания этих простых статистик в книге будет
больше, чем сложнейших методов прогностической анали-
тики.
По сути, это известные большинству вещи (как минимум
о них слышали): среднее значение, медиана, мода, минимум
и максимум, квартили и процентили, частотное распределе-
ние, стандартное отклонение…
От аналитиков можно услышать и более сложные назва-
ния. Например, меры центральной тенденции – использует-
ся для для среднего, минимумов, максимумов, моды и ме-
дианы… А  меры рассеивания или разброса  – для диспер-
сии, стандартного отклонения, размахов между минимумом
и максимумом или квартилями…
 
 
 
На  сленге их называют «одномерками»  – одномерный
анализ данных, только в  одном измерении. И  его задача  –
сжать исходную информацию, будь то с тысяч или милли-
онов цифр, к какому-то единому компактному представле-
нию.
Описательные статистики позволяют привести огромное
число показателей по  какой-то переменной к  какому-то
ограниченному набору значений, которые были  бы типич-
ным и  репрезентативным для всех объектов, наблюдений,
случаев в массиве данных. Т.е., свести все значения к набору
нескольких чисел, которые наилучшим образом бы характе-
ризовали весь миллион цифр: что-то сказали  бы обо всем
миллионе значений в целом (рис. 47).

 
 
 
Рис. 47. Характеристика большого количества значений
двумя цифрами

Для чего это нужно? Когда у Вас одно или несколько зна-
чений, то никаких трудностей в их понимании и интерпрета-
ции не возникает. Но когда значений даже десятки (не гово-
ря о миллионах), то человеку сложно сразу понять, что озна-
чают полученные данные. На помощь приходят обобщенные
 
 
 
статистики для такого большого количества значений.
Т.е., эти описательные статистики дают на бытовом языке
«усредненное» представление / описание всех объектов / на-
блюдений / случаев по какой-то переменной. Другими слова-
ми, они сводят огромное количество значений к небольшо-
му набору значений (или одному, например, среднему), спо-
собному передать суть того огромного количества значений.
Например, если Вы выгрузили данные о транзакциях кли-
ентов через онлайн портал: а  транзакций там миллионы
в день. Сами по себе эти миллионы цифр Вам ничего не ска-
жут.
Но эти же цифры заговорят совсем по-другому, когда Вы
выведете, допустим, среднее, максимальное и минимальное
количество транзакций по  клиенту, а  также какое количе-
ство транзакций покрывает 80% клиентов…
Это еще не аналитическая статистика, которая ищет скры-
тые закономерности и строит прогностические (предсказы-
вающие) модели. Но без разбора данного вопроса мы дальше
не  будем двигаться. Да и  многие описательные статистики
сами по себе помогают в конкретных прикладных вопросах
и решениях.
В  работе чаще всего расчет описательных статистик Вы
будете делать сразу в Excel, не прибегая к отдельному ана-
литическому инструментарию. Это удобнее с точки зрения
бизнес-логики, да и  любой бизнес-пользователь может по-
том посмотреть Ваши расчеты. Потому в книге будет пока-
 
 
 
зан вывод описательных статистик в Excel как отдельными
формулами, так и надстройкой «Анализ данных».
При знакомстве с программой PSPP будет также показано
как их вывести и в этой программе.

 
 
 
 
Частотное распределение
 
Частотное распределение, пожалуй, особых объяснений
не  требует. Но  его надо упомянуть. Частотное распреде-
ление  – это распределение переменной по  альтернативам
в штуках или процентах. Например, для переменной «Пол»
это количество мужчин и женщин. Количество тех или иных
национальностей или религий в стране. Или распределение
курильщиков по количеству выкуриваемых сигарет. Или со-
трудников по уровням удовлетворенности, лояльности или
мотивации.
Обычно распределения визуализируются гистограмма-
ми (рис. 48).

Рис. 48. Гистограмма


 
 
 
Распределения надо уметь описывать и  интерпретиро-
вать. Обычно обращают внимания на  их «скошенность»
в одну или другую сторону, близость к «нормальности» (ко-
локолообразность), «приплюснутость»…

Как работать с частотным распределением в Excel.


Сразу отмечу, что обычный функционал Excel «Встав-
ка/Гистограмма» (или любая другая диаграмма) не предна-
значен для работы с  массивом данных. Этот функционал
предназначен работать уже с обобщенными итоговыми зна-
чениями.
Я рекомендую делать частотное распределение через
сводную диаграмму, чтобы сразу получить распределение
визуализировано и не прибегая к формулам.
Особенно удобно использовать сводную диаграмму,
когда необходимо увидеть частотное распределение
по переменной отдельно в разных группах (например,
мужчины и  женщины)  – в  конце главы будет описан
такой кейс.
Например, на  рис. 49  изображено частотное распреде-
ление курильщиков по переменной «Частота курения», по-
лученное с помощью сводной диаграммы. Выводится сразу
и сводная таблица, и сводная диаграмма.

 
 
 
Рис. 49. Частотное распределение с помощью «Вставка /
Сводная диаграмма»

На диаграмме видим, что подавляющее большинство ку-


рящих курят часто и очень часто.
Но так просто и красиво вывести частотное распределе-
ние получится только с переменными с несколькими значе-
ниями. Т.е., для категориальных и  номинальных перемен-
ных.

А  как быть интервальными переменными с  огромным


количеством значений (например, доход в  рублях)? Ведь
по ним с использованием сводной диаграммы мы получим
 
 
 
просто неимоверное количество значений, да и все они будут
встречаться по одному разу, поскольку находятся в большом
диапазоне…
Для того чтобы красиво показать интервальную перемен-
ную, можно создать отдельную переменную «Категории вы-
плат», а потом, использовав формулу =ЕСЛИ, перекодиро-
вать диапазоны интервальной шкалы в категории выплат за-
дав отрезки-интервалы. И потом использовать сводную диа-
грамму.
А можно сразу же это сделать с помощью формулы =ЧА-
СТОТА, предварительно задав отрезки-интервалы. И далее
получить гистограмму через меню «Вставка / Гистограмма».
Но  удобнее всего вывести гистограмму с  помощью над-
стройки «Анализ данных»  – выбрать в  ней гистограмму
(«Данные / Анализ данных / Гистограмма»). Понадобится
только указать:
1. интервал значений (значения переменной в массиве)
2. интервал «карманов». Это те  же отрезки-интервалы,
что используются для = ЧАСТОТА или =ЕСЛИ: но их про-
грамма может подобрать самостоятельно
3. отметить галочкой «Вывод графика».
Кто сразу отрабатывает на практике – см. рис. 50 и рис. 51.

 
 
 
Рис. 50. Вывод гистограммы с  помощью надстройки
«Анализ данных»

 
 
 
Рис. 51. Параметры и вывод гистограммы

Обещанный кейс
 
 
 
Студенты-психологи решили провести исследование
на предмет того, как реагируют мужчины и женщины в быту
на кровь. Это порез пальца, разбирая губа или нос, крупные
царапины и т. д.
Чтобы исключить фактор «боязнь крови», решили прове-
сти исследование в клиниках на хирургах – те, кто постоян-
но сталкиваются с кровью в работе.
Не переживайте, в ходе исследования никто не пострадал:
нос никому не разбивали, пальцы не резали. Хирургам про-
сто демонстрировали видео и фотоматериалы – и замерялась
интенсивность реакции.
Так кто же интенсивнее реагировал на бытовую кровь –
мужчины или женщины?
Для ответа на этот вопрос с помощью сводной диаграммы
были построены вот такие частотные распределения по ин-
тенсивности реакции для мужчин (код 1) и женщин (код 0) –
см. рис. 51.

 
 
 
Рис. 51. Частотные распределения по интенсивности ре-
акции для мужчин и женщин

Думаю, Вам сразу бросилось в глаза, что высокоинтенсив-


ные реакции были только в группе мужчин – но у 50% муж-
чин были же и самые низкоинтенсивные реакции. Женщи-
ны же реагировали в основном средней интенсивностью.
Возможно, как раз наблюдение у  каждого второго муж-
чины на бытовую кровь низкоинтенсивных реакций (хлад-
нокровно и спокойно) сформировало мнение, что мужчины
менее интенсивно реагируют, чем женщины. Но мы из рас-
пределения видим, что есть и 50% «других» мужчин: реак-
ция которых даже выше, чем женщин (не о них ли в народе
говорят «орет как баба» …).
Интересная наблюдаемая в  нашей выборке закономер-
ность. Но мы пока не можем распространять ее на всю гене-
ральную совокупность. Частотное распределение ведь не да-
ет ответ значимы ли эти различия и будет ли иметь место
обнаруженная нами закономерность в генеральной совокуп-
ности.

 
 
 
 
Среднее
 
Среднее значение, пожалуй, наиболее популярная опи-
сательная статистика. Она используется сплошь и  рядом.
И в основном это обусловлено простотой его расчета, понят-
ного еще со  школы: суммируем все полученные значения
и делим на количество этих значений (рис. 52).

Рис. 52. Среднее значение

 
 
 
Среднее хорошо подходит к  переменным, где есть нор-
мальное распределение и которые измерены в интервальной
шкале (которую статисты еще называют метрической). Сред-
ний рост, вес, размер, объем воды в организме и т. д.
Оно неприменимо к  номинальным и  ординальным (по-
рядковым) шкалам (которые статисты еще называют немет-
рическими). Правда, в одном случае к порядковым его можно
условно применять: когда по своей сути порядковая шкала
является условно интервальной. Например, разница в балах,
которых +/– отражает разницу в реальности – в частности,
используемая в социологических опросах шкала Лайкерта.
В  остальных случаях его применение ограничено. Оно
очень чувствительно к так называемым в статистике «выбро-
сам» – особенно к экстремально малым или большим зна-
чениям. Поэтому часто среднее значение вводит в заблуж-
дение, а не вносит ясность в понимание ситуации. От таких
ограниченний и происходит изречение «средняя температу-
ра по  больнице». Иногда статисты используют усеченное
среднее – выбрасывают те самые крайние выбросы из рас-
чета среднего. Но это на самом деле не особо помогает.
Среднее просто часто используют не там, где следовало бы
применять. Например, средний доход по клиентам. Имеем
100 клиентов, где доходы от одного составляют 1 миллион
долларов, тогда как остальная масса приносит +/-10.000 до-
хода. Это уже даст перекос, указывая что средний доход
от клиентов составляет 20.000. То же самое и с зарплатами
 
 
 
на предприятии.
Или, например среднее из цифр 3, 5, 6, 7, 7, 9, 60 = 13.8.
Вас не смущает, что оно не очень как-то среднее…? А если
это отдельные объекты, например страны по какому-то па-
раметру? Что все оказались ниже среднего?
В Excel среднее очень легко получить (рис. 53).

Рис. 53. Вывод среднего значения в Excel

Можно просто кликнуть на переменную-колонку – и по-


смотреть в нижнем правом углу программы.
Можно использовать функцию =СРЗНАЧ и выделить диа-
пазон, по которому хотим получить среднее. Эту же форму-
лу можно вызвать нажатием на значок ∑ в верхнем правом
углу и указав «Среднее».
На  расчете среднего в  Excel потому останавливаться
не будем, взамен рассмотрим небольшой кейс.
 
 
 
Кейс со средним.
Одна компания планировала переезд в  бизнес-центр
(БЦ) – в БЦ и охрана есть, и уборка, и ресепшн, и админи-
стративно-хозяйственно обеспечение, и т. д. – сконцентри-
руемся на бизнесе!
Чтобы посмотреть коммерческую выгоду, подготовили
«по-быстрому» бизнес-кейс на средних значениях. В итоге
по факту пролетели по расчетам с разницей в 10%. А по фон-
ду оплаты труда (ФОТ) – 30%.
Все бы ничего, но директор был дотошный – «Хочу, что-
бы мы урок вынесли. Принесите мне на стол ошибку в рас-
чётах».
Спустили директору по персоналу расчеты по ФОТ. Она
проверила. В  кейсе взяли среднюю фактическую зарплату
на период расчета по компании, умножили на количество пе-
реехавшего в БЦ персонала. При переезде зарплату ж нико-
му не повышали. Вроде все сходится…
Отчего же разница в 30%? Только несколько раз вернув-
шись к кейсу, в итоге разобрались – настолько среднее вы-
глядело очевидно-правильным показателем.
Просто уборку, охрану, АХО и  другие низкобюджетные
должности компания вывела на аутсорсинг – эту услугу по-
ставлял теперь БЦ. А на этих должностях была самая низкая
ЗП, занижавшая общее фактическое среднее. Но эти долж-
ности в БЦ как раз то и не переехали.
 
 
 
Таким образом, в кейсе использовали существенно зани-
женную среднюю (с  учетом низкобюджетных должностей),
умножив ее на количество переехавших высокобюджетных
должностей, по которым зарплата была на порядок выше.
И на самом деле вот так довольно часто фактические сред-
ние используют при построении бюджетов, бизнес-кейсов,
прогнозов – не учитывая его чувствительность к малейшим
изменениям, особенно в части выбросов (экстремально от-
личающихся значений).

 
 
 
 
Мода и Медиана
 
Так что может заменить так любимое всеми среднее зна-
чение в переменных с номинальными и порядковыми шка-
лами? А с интервальной, которая сильно отличается от нор-
мального распределения?
Есть еще другие показатели: мода и  медиана. Именно
медиана и мода позволяют экстремальным, выбивающимся
из общей массы числам, не влиять на наше обобщенное по-
нимание и  общее впечатление о  характеристиках конкрет-
ной переменной в массиве.
Мода очень проста для понимания – это значение по кон-
кретной переменной, которое встречается / повторяется
в массиве чаще всего. Это самое «модное» число по какой-то
переменной (рис. 54).

 
 
 
Рис. 54. Мода

Например, модой роста для женщин может стать 165 см,


поскольку в Вашем массиве с выборкой в 1000 женщин этот
рост встретился в 423 случаях, а остальные показатели роста
встречались намного меньше раз.
Или если бы Вы посмотрели какую политическую партию,
певца, книгу выбирают или узнают чаще всего, какой цвет
чаще всего предпочитают. Это и будет мода – то самое мод-
ное и популярное значение.

Медиана – это значение, которое делит всю нашу выбор-


 
 
 
ку пополам. Если отсортировать все случаи / объекты / на-
блюдения по возрастанию (как в примерах с листьями), то
медианой будет то число, которое находится посредине слу-
чаев / объектов. Она делит все случаи / объекты на две рав-
ные части: ниже медианы находится 50% случаев / объектов
и  выше этого значения находится 50% случаев / объектов
(рис. 55).

Рис. 55. Медиана

Давайте сразу посмотрим, как мода и медиана отличаются


 
 
 
от среднего на том же примере с листьями (рис. 56).

Рис. 56. Сравнение среднего, моды и медианы

Причем как Вы поняли, чем больше будет низких /высо-


ких значений (особенно экстремально низких / высоких) –
тем ниже / выше будет среднее. Но  на  медиану это никак
не повлияет.
В социально-экономической реальности, например, ана-
лиз зарплаты на рынке или на предприятии, цены на недви-
жимость, производительность предприятий или персонала
и т. д. – более целесообразно рассматривать с точки зрения
моды и медианы, а не среднего.
 
 
 
Как посчитать моду и медиану в Excel.
Посчитать моду и медиану в Экселе несложно – рис. 57.

Рис. 57. Расчет моды и медианы в Excel

Для расчета МОДЫ пишем=МОДА и выделяем перемен-


ную, колонку.
Для МЕДИАНЫ – пишем =МЕДИАНА и также выделяем
переменную\колонку.
Попробуйте посчитать среднее, медиану и моду по любой
переменной в  Вашем массиве. Посмотрите, насколько они
отличаются друг от друга.
Кстати, если все они совпадают – значит Вы имеете дело
с идеальным нормальным распределением .

 
 
 
 
Минимум и максимум
 
Минимум и максимум объяснять вроде не надо, потому
просто скажу:
· Минимум – наименьшее значение по переменной;
· Максимум – наибольшее значение.
Например, если у  нас замеряли рост в  школе у  9-
ти классников и  все значения роста легли в  диапазон
от  1,44  до  1,68  метра, то самый низкий показатель 1,44  =
минимум, а самый высокий 1,68 = максимум.
На  привычных для нас уже листьях минимум  – значе-
ние длины наименьшего листика, максимум – наибольшего
(рис. 58).

 
 
 
Рис. 58. Минимум и максимум

В Excel их рассчитать очень просто. Для минимума пи-


шем =МИН и  выделяем данные, для максимума = МАКС
и выделяем данные (рис. 59).

 
 
 
Рис. 59. Расчет минимума и максимума в Excel

Попробуйте это сделать по  любой переменной в  Вашем


массиве.

 
 
 
 
Процентили / перцентили,
квартили и децили
 
Персентили (их часто еще называют процентилями,
в  книге попеременно будут использоваться оба термина  –
как кому привычно) – это некие ориентиры, реперные точ-
ки. Каждый конкретный процентиль говорит о том, сколько
% случаев / объектов находится ниже него, сколько выше.
С одним из персентилей мы уже знакомы – это медиана, ни-
же и выше которой находятся по 50% случаев.
Персентили являются ориентирами при сравнении от-
дельных значений с общим массивом данных.
Например, если говорят, что математические способности
конкретного менеджера относятся к 98 процентилю в СНГ,
это значит, что в СНГ есть только 2% людей, математические
способности которых выше его. Остальные 98% имеют спо-
собности ниже.
Квартили (от англ. слова quater – четверть, обозначают-
ся Q) – по смыслу те же персентили, но четко отсекающие
на каждом уровне по четверти (25%) значений. Выделяют 1-
й, 2-й и 3-й квартили (рис. 60).

 
 
 
Рис. 60. Квартили (Q1, Q2, Q3)

Первый (Q1) – отсекает 25% значений ниже и 75% выше.


Второй (Q2), 50 на 50. И по сути является медианой.
Третий (Q3) – ниже него находится 75% значений пере-
менной, выше – только 25%.
Отдельного внимания требует интерквартильный раз-
мах – это 50% сконцентрированных вокруг медианы вправо
 
 
 
и влево значений. Т.е., это диапазон между Q1 и Q3 (рис. 61).

Рис. 61. Интерквартильный размах

Интерквартильный размах покрывает «половину средних


значений» – это удобно для ориентиров. А еще по нему удоб-
но искать выбросы – они в зоне ±3 интерквартильных раз-
маха (но об этом мы отдельно еще поговорим далее).
Децили – еще одни специфические процентили, отсека-
ющтие 10% значений. Выделяют верхний D h (число, выше
которого находится только 10% значений) и нижнийD l (вы-
 
 
 
ше которого лежит 90% значений) децили (рис. 62).

Рис. 62. Децили

В  менеджменте все эти специфические процентили ис-


пользуются, например, в обзорах зарплат. Когда собираются
зарплаты по рынку и компания сравнивает, насколько опла-
та труда является конкурентоспособной с другими игроками
 
 
 
(рис. 63).

Рис. 63. Пример квартилей и децилей в обзорах зарплат


рынка (тут целевая политика оплаты – между Q 3 и Dh)

Средние тут использовать глупо, а вот квартили, медиану,


интерквартильный размах и децили – в самый раз. И с ори-
ентирами на эти «реперные точки» выстраивается полити-
ка оплаты: хотим платить выше всех? Или будем придержи-
ваться середины рынка?
Если вернуться к квартилям, то они очень ходовые в про-
фессиональной деятельности и  принятии решений. О  них
отдельно остановимся на интересном кейсе после рассмот-
рения как их посчитать в Excel.
Как их посчитать в Excel. Для расчета любого персен-
 
 
 
тиля – пишем =ПЕРСЕНТИЛЬ, выделяем в массиве значе-
ния переменной, по которой считаем персентиль, указываем
процентное значение в формате от 0 до 1 (рис. 64).

Рис. 64. Расчет персентилей / процентилей в Excel

И  получаем персентиль  – число, ниже которого лежит


указанный % значений, а  выше которого разница между
1 и указанным %.
Квартили и децили – это те же перцентили. Только для
квартилей берем персентиль с долей 25%, 50% и 75%, для
децилей – 10% и 90%.
Для квартилей есть отдельная функция =КВАРТИЛЬ
(рис. 65).

 
 
 
Рис. 65. Расчет квартилей в Excel

Видим, что она позволяет вывести квартили, а также ми-


нимальные и максимальные значения. И еще заметьте, что
в том же Excel формула называется ПЕРСЕНТИЛЬ, а в ок-
не-подсказке для квартилей на  рис. 65 в скобках написано
«Процентиль».
Попробуйте сделать расчеты квартилей и децилей по лю-
бой переменной в Вашем массиве. А также выведите интер-
квартильный размах.

Комплексный менеджмент-кейс

И да – подход, изложенный в этом кейсе, Вы можете ис-


пользовать сразу же на своем предприятии (да и любом дру-
гом) и получить практический результат.

Большая компания в ≈60.000 человек. Цель – сократить


треть персонала за 6 месяцев, при этом не «угробив процес-
 
 
 
сы». «Резать» придется «по живому» – менять сами процес-
сы, технологии и т. д. не предполагается.
Если бы это было производство – посчитали бы по сме-
нам, графикам. А тут все сотрудники умственного труда…
На  задачу пригласили американских консультантов  – те
перелопатили за 2 месяца кучу процессов, процедур, объез-
дили все 52 филиала, изучили работу разных 16 функций,
табели времени, рассчитали средние нагрузки и производи-
тельность сотрудников…
И  после всего ответственно заявили, что максимально
возможное сокращение численности в рамках текущих про-
цессов составляет 15%…
Более того, указали, что в компании в прошлом году было
сокращение численности -10% и директора филиалов в хо-
де бесед жаловались на повышенную нагрузку на персонал.
А в довесок отметили, что структура и так эффективно ра-
ботает: налицо рост выручки по всем филиалам на 1 сотруд-
ника.
Итого на выходе: сокращение в два раза меньше необхо-
димой численности. Да и 2 месяца из 6 уже потеряны…
Но  предприятие смогло сократить 30% персонала ис-
пользуя описательную статистику! Кейс сложный, невзирая
на простоту решения. Разберем по порядку.
Все начинается с  модели. Зайду очень издалека с  по-
этапным «разжевыванием» – потому следите за мыслью, что-
бы увидеть, как методы применяются в рамках моделей. Это
 
 
 
именно то, о чем я говорил, упоминая важность концепций /
моделей. Берем концепцию операционной модели предпри-
ятия (рис. 66).
Представление операционной модели авторское
(усеченное). Но  на  самом деле все операционные
модели содержат ± те  же элементы и  компоненты,
отличаясь в  основном либо их комбинациями, либо
установленными между ними взаимосвязями.

Рис. 66. Операционная модель предприятия: фокусиров-


ка на на компоненте «Роли / должности» элемента «Оргди-
зайн»

Мы видим, что в рамках модели:


· процессы меняться не будут
· требования к людям как навыки, знания, квалификация
остаются теми же
· о поставщиках вообще речи нет: компания в принципе
 
 
 
все делает своими силами.
Таким образом, вопрос касается только одного компонен-
та оргдизайна – количество должностей, не меняя ни од-
ного другого компонента (организационную модель и систе-
му принятия решений, структуру, сами должности, конфи-
гурации ресурсов, грейды).
Мы сузили спектр поиска (в научной среде сказали бы пе-
решли от объекта к предмету). Теперь переходим к тому, что
количество должностей однозначно зависит от объема рабо-
ты. И  теперь ключевой вопрос: как посчитать этот объем?
Имеем 52 филиала, ≈60.000 человек, 16 разных функций….

Переходим к следующей модели, которая описывает, что


такое есть работа (рис. 67). Работа состоит из набора дей-
ствий, на которые уходит время. А действия осуществляют-
ся с определенными объектами – причем и набор, и перио-
дичность действий на одном и том же объекте ± одинакова.

 
 
 
Рис. 67. Модель работы: объекты и операции

Так для HR функции объектами будет количество сотруд-


ников. Для ИТ функции – количество серверов и пользова-
телей ПК. Для юристов – количество распорядительных до-
кументов и судебных дел. И т. д.
Главное правильно определить ключевые факторы / драй-
веры трудозатрат (и  их веса через экспертную оценку при
наличии более чем одного драйвера).
Определили драйверы, собрали данные, получили та-
кие результаты по каждому филиалу (рис. 68) – отсор-
тировано от меньшего к большему, урезано до 26 филиалов.

 
 
 
Рис. 68. Нагрузка по каждому филиалу

Сейчас «зачастим» отдельными рисунками по данной таб-


лице, чтобы с одной стороны читатель уловил ход мыслей,
 
 
 
а с другой стороны – увидел разницу между средним и неко-
торыми другими показателями.

Давайте сначала возьмем среднее в качестве целевой на-


грузки (рис. 69).

Рис. 69. «Подтягивание» филиалов с наименьшей нагруз-


кой под среднее значение

Разделив объем работы в этих филиалах на среднюю на-


грузку, мы получим необходимую для этих филиалов чис-
 
 
 
ленность. Убрав избыток численности (разницу между тем
сколько нужно по  показателю «Объем/Средняя нагрузка»
и тем сколько есть в колонке «Численность») из этих наиме-
нее нагруженных филиалов – выйдем на -19% от общей чис-
ленности всех филиалов. В общем, с использованием сред-
него получим не совсем то, что ожидали – до -30% еще да-
леко…

А если бы применить медиану (значение, которое делит


все филиалы пополам)? Рис. 70.

 
 
 
Рис. 70. «Подтягивание» филиалов с наименьшей нагруз-
кой к медиане

Выходим на  -24%  – это больше, чем -15% и  -19%…


Но ведь также не -30%…

При разборе этого кейса на курсах, тренингах и лекциях


именно в этом месте многие руководители (взглянув на дан-
ные и уловив ход рассуждений со средним и медианой) сра-
зу  же потирая руки говорят: «Так давайте возьмем макси-
мум (рис.71)! Раз в каком-то филиале есть пример функции
с „бешенной“ производительностью, значит другие филиалы
тоже так работать могут!»

 
 
 
Рис. 71. «Давайте возьмем максимум!»

Но принять целевой максимальную нагрузку опираясь


только на эти данные – это нести огромный риск. В этих рас-
четах не хватает данных об эффективности или качестве
работы каждой функции филиала «с бешеной производи-
тельностью».
Ведь может в таких высоконагруженных филиалах клиен-
 
 
 
ты недовольны, просто конкурента-альтернативы нет, а в фи-
лиале с высокой конкуренцией нас ждет фиаско. Может там
сотрудники приходят в  5  утра, уходят в  22.00. Может там
качество неприемлемое. И еще много таких «может» ….
Если бы мы точно знали, что функция в этом филиале при
«сумасшедшей производительности» еще и качественно ра-
ботает по всем параметрам – то можно было бы брать «мак-
симум» за основу. Чтобы разъяснить эту позицию и объяс-
нить данный момент, не обессудьте за «встраивание» в этот
кейс краткого примера из другого кейса.
Когда-то в крупнейшем телеком-операторе делали опти-
мизацию численности функции эксплуатации сети. Технари
люди дотошные, мозг «выели». Но жирную точку над всеми
дискуссиями поставили максимумы нагрузки на сотрудника
и параметры качества сети.
Взяли функцию эксплуатации телеком-сети по всем от-
делениям и сравнили по % времени простоя сети. И оказа-
лось, что в самых производительных отделениях – самые
низкие % времени простоя сети. Оборудование, квалифи-
кации, процессы были одинаковые – поэтому можно было
брать лучшие показатели. Но даже в этом случае для сни-
жения рисков приняли решение взять второй после лучше-
го показатель нагрузки/производительности на сотрудни-
ка. А к лучшему показателю двигаться постепенно в тече-
нии последующих 12 месяцев.

 
 
 
Но этот «встроенный» кейс не наш случай с рассматри-
ваемым предприятием – у нас увы нет параметров качества
по филиалам. А собрать их – длинная история. А сроки ре-
ализации «цели -30%» уже совсем данное предприятие под-
жали.
На  помощь пришли квартили. Предположили, что все
отсекаемые третьим квартилем (Q 3) 25% верхних значений
покроют любые риски. А остальные 75% филиалов ниже тре-
тьего квартиля подтянули к квартильному значению нагруз-
ки (рис. 72).

 
 
 
Рис. 72. Q3 в качестве целевой нагрузки

Причем анализ показал, что можно сократить и 35% чис-


ленности. Но поскольку цель была конкретная, смысла силь-
но сокращаться не было – потому одной из функций (мас-
совый рынок, самые большие риски) нагрузку «послабили»
и сделали целевой медиану. И вышли на необходимые -30%.
Задача сделана за две недели . За оставшиеся 3 месяца
был сокращен весь избыточный персонал в количестве по-
чти 20.000 человек. И в компании операционные процессы
не «легли»: уже более 5 лет успешно работает.
Выглядит кейс и само решение может и просто. Но, по-
верьте, понять какие главные драйверы нагрузки, какие дан-
ные собирать, как они взаимосвязаны – по сути осмыслить
модели под каждую функцию – это сложная интеллектуаль-
ная работа. Сделаете это собственными руками на  своем
предприятии – сами прочувствуете.
Ну и еще замечу, что презентация таким образом пред-
ставленных результатов для директоров филиалов была ко-
ротким мероприятием, а не «балаганом с меряниями хариз-
мами». При презентации этих «оцифрованных» результатов
не работали уже ни должности, ни чины, ни харизмы, ни ли-
дерские приемы и красноречивость – спорить с этими дан-
ными со стороны директоров филиалов было бессмысленно
и глупо. На вопрос генерального директора «Какие есть во-
просы и комментарии?» стояла тишина… которую разбавил
 
 
 
ответ одного из директоров «Так а что тут комментировать?
Тут же уже все понятно что делать надо…».

 
 
 
 
Рассказ еще о паре средних
 
Я постоянно повторяюсь на  лекциях, тренингах, проек-
тах, презентациях, выступлениях, публикациях… но в оче-
редной раз повторюсь  – каждое число, в  том числе «сред-
нее», это число со смыслом, который мы можем наблюдать
в реальном мире. Т.е., число, которое отражает взаимосвязи
и состояние реальности.
Поэтому перед переходом к мерам вариативности (измен-
чивости), сделаем отступление еще о двух средних – сред-
нем геометрическом и гармоническом. Они крайне редко ис-
пользуется основной массой гуманитариев, но бывают кей-
сы, когда они важны. Эти средние как раз используются, ко-
гда у Вас зависимые друг от друга вещи.

Среднее геометрическое. Важно для инвестиционных


и фондовых аналитиков, банковских расчетов, а также с ним
наверняка стыкаются те, кто работает с % инфляции по го-
дам.
Используют там, где данные взаимодействуют между со-
бой через умножение друг на друга и находятся в диапазоне
от 0 до 1. Т.е., являются % величинами.
Допустим, Вам надо понять среднюю доходность инвести-
ционного портфеля за год. Или рост выручки по годам, если
она дана в процентах к предыдущему. Процент инвестиций
 
 
 
за какой-то период умножается, а не складывается в сумму.
Или % скидки в магазине для нескольких талонов с разными
скидкам.
Так, если Вы придете в магазин с 4 скидочными талонами
75%, 50%, 25%, 10%, то Ваша «средняя» скидка на куплен-
ные по ним товары реально будет не 40%, а около 31%. По-
считаете деньги – увидите.
Только надо учитывать ограничение для этого среднего:
нельзя работать с  0  и  отрицательными числами. Т.е., если
у Вас, например, встречается падение дохода по акциям в пе-
риоде -10%, то Вы должны записать 0,9, но никак не -10%.
В  Excel среднее геометрическое выводится формулой =
СРГЕОМ.
Среднее гармоническое. Еще одно интересное среднее.
Используется, где дело касается в основном скорости: про-
цессов и  производственных установок, объемов работ, со-
трудников, целых команд, логистических операций и транс-
порта и т. д.
В Excel выводится формулой = СРГАРМ.
Оно удобно даже в быту. К примеру, у моей супруги каж-
дый год начинается со строительного сезона (частное стро-
ительство). К примеру, необходимо построить бутовый за-
бор. 100 метров длины, 0,5 толщины и 3 метра высоты. Ито-
го 150 «кубов» в объеме. Прораб обещает за месяц ± неде-
ля управиться. Нижний метр они будут идти со скоростью
кладки камня по 4 куба в день, средний – 6, а сверху скорость
 
 
 
замедлится до 2 кубов. Поэтому среднее будет 4 куба в день.
Но моя жена точно знает, что 1,5 месяца будут работать
(это если без выходных и при нормальной погоде – потому
еще неделю смело накидывает). А  почему? А  потому, что
среднее гармоничное говорит о том, что реально кладка бу-
дет идти со скоростью примерно 3,3 куба в день и на 150 ку-
бов потратят чистых 46 дней.
"Ну и что?" – скажете Вы. Когда говорить о малых объе-
мах, то вроде бы ничего.  А когда работ будет 100, 200, 500…
а еще и ограничения строительной площадки, чтобы мате-
риалы разложить и для маневрирования стройтехники место
оставить – то очень даже важно становится. Вы и деньги эко-
номите, и время экономите месяцами – отдохнете или ново-
го клиента проект возьмете.
Еще история. Cостоял я когда-то управляющим партне-
ром в одной транспортной компании: держали на Украине
маршруты в южном направлении Киев-Николаев-Крым.
И  вот как только новый населенный пункт или новый
маршрут  – вот все время какие-то непонятные авралы
с  опозданиями маршруток и  лишняя нервотрепка. И  пока
не накатает водитель пару поездок и не будет фактическо-
го времени в пути – до того времени точно никто посчитать
не может.
Только главный механик всегда говорил: «Мужики, та
с часик накинуть надо».
Закопался я в ту прогнозную модель. Весь сыр-бор ока-
 
 
 
зался в том, что среднюю скорость по среднему арифмети-
ческому считают (раздельно по населенным пунктам и вне
населенных пунктов). Пересчитали по среднему гармонич-
ному – все совпало.
В принципе для агрономов, прорабов и прочих сотрудни-
ков, имеющих дело с физической реальностью – среднее гар-
моническое незаменимая штука.

Я привел достаточно беглое объяснение еще этих сред-


них для того, чтобы стало понятным: выбор среднего значе-
ния зависит от того, как взаимодействуют элементы в груп-
пе (они суммируются? умножаются? становятся обратными
величинами?). А это важный вопрос модели (нашего пред-
ставления о предмете / объекте / явлении, которое мы хотим
обсчитать).

 
 
 
 
Меры рассеивания / Изменчивости
 
Средние, процентили, минимумы и максимумы не полно-
стью характеризуют распределение данных. Не хватает ин-
формации насколько изменчивы данные. Они близко к сред-
ним или далеко? А есть ли экстремальные выбросы?
Зная изменчивость \ рассеивание, мы можем быть более
или менее уверенны, что встретим объект \ случай \ явле-
ние соответствующее нашему среднему. Именно изменчи-
вость характеризует разброс между данными – показывает,
насколько они могут отличаться от среднего (от центра).
Проще говоря, мы всегда хотим понимать не только сред-
нее, а и ± к нему значение, которое повышает точность наше-
го понимания. Например, средняя зарплата начальника це-
ха в регионе 60.000 рублей – менее информативно, чем 60±
10.000 рублей.
Самый простой показатель изменчивости размах или
диапазон значений  – это разница между минимальным
и максимальным значением (рис. 73).

 
 
 
Рис. 73. Размах (интервал, диапазон) значений

Чем меньше размах, тем все наши объекты будут более


близки к среднему.
Но  диапазон (размах) очень чувствителен к  выбросам.
Имея даже по одному выбросу вверх и вниз – Вы получи-
те огроменный показатель диапазона (размаха), но при этом
основная масса значений может «крутиться» (концентриро-
ваться) возле среднего.
Поэтому используют другие параметры  – дисперсию
и стандартное отклонение. Интерпретировать и дисперсию,
и стандартное отклонение просто: чем они выше, тем более
вариативны и изменчивы значения переменной в изучаемой
выборке (т.е. реальные значения могут сильно варьировать-
 
 
 
ся\отличаться от среднего).
В бизнесе пользуются в основном стандартным откло-
нением (хотя по  сути оно просто производная величина
от дисперсии – корень квадратный от дисперсии).
А  зачем два параметра по  сути одинаковы? Дисперсия
используется для статистических расчетов  – это классика.
Но она все возволит в квадрат.
Например, имея средний вес в двух группах мужчин 75 кг,
то дисперсия в  одной 400  кг2 (квадратных килограмм!),
а  во  второй 1600  кг2. Вроде очевидно, что значения веса
внутри групп неороднородны, хотя из среднего этого не вид-
но. Но согласитесь «квадратные килограммы» звучит немно-
го «по-тупому» для интерпретации и  объяснения… Пред-
ставьте, что Вы приносите такое  сравнение в  «квадратных
килограммах» клиенту (или показываете обычным людям):
среднее 75 кг, а разброс в каких-то огромных «слоновых»
величинах, выраженных в кг2…
И вот тут практический смысл для интерпретации и уточ-
нения среднего значения имеет стандартное отклонение, так
как оно выражается в тех же величинах, что и среднее (по су-
ти, в той же размерности шкалы, в которой измерена пере-
менная). И все становится понятнее: например, если сред-
ний вес в двух группах мужчин 75 кг, а стандартное откло-
нение в одной 20 кг, а во второй 40 кг (это корни квадратные
от кг2, что математически превращает их в обычные кг) – то
 
 
 
группы менее однородны по весу, чем выглядит по средне-
му. Но обычные кг уже понятнее любому человеку.

Покажу почему важно понимать вариацию значений


от среднего на примере. Давайте возьмем две группы объек-
тов, по которым среднее одинаково. Например, то же иссле-
дование студентов-психологов интенсивности реакции жен-
щин и мужчин хирургов на кровь в бытовых условиях. Зна-
чит ли одинаковое среднее, что группы одинаковы (рис. 74)?

Рис. 74. Сравнение группы мужчин и женщин с одинако-


выми средними

Среднее в обеих группах 5, но мы и невооруженным гла-


зом видим (ввиду небольшого количества значений), что
во второй группе (мужчины – М) изменчивость данных вы-
ше.
Т.е., несмотря на то, что у этих двух выборок одинаковое
среднее (5), они совершенно разные в силу того, что у второй
 
 
 
выборки (М) показатели интенсивности реакции более силь-
но рассеяны по обе стороны от «центра», а у первой (Ж) –
ближе к «центру». Соответственно, у них будут совершенно
разные дисперсии и стандартные отклонения.
Так, у первой группы (женщины) стандартное отклонение
составляет 1,6, у второй (мужчины) – 4,8. Т.е., мужчины-хи-
рурги менее однотипно реагируют на кровь в быту, чем жен-
щины.
Главное не спешите сделать вывод, что все мужчины бо-
лее разнообразно реагируют на порез пальца. Мы пока толь-
ко можем говорить, что в нашей выборке мужчины прояви-
ли более разнообразную интенсивность реакций, чем жен-
щины. Значимы ли эти различия, можно ли их экстраполи-
ровать на всю генеральную совокупность – это отдельная ис-
тория уже из области аналитической статистики.
Думаю, Вы поняли, что стандартное отклонение надо
сравнивать всегда в  сравнении с  чем-то (например, одну
группу / выборку с другой; или в одной группе, но до и после
изменений). Само по себе оно ничего не говорит.
И конечно же, классически надо упомянуть, что стандарт-
ное отклонение больше всего годится для интервальных (ко-
личественной) шкал с нормально распределенными данны-
ми.
68% значений будут лежать в пределах ±1 стандартного
отклонения от центра. А ±2 стандартных отклонения покро-
ют 95% значений. ±3 стандартных отклонения покроют бо-
 
 
 
лее 99% значений. Эти свойства стандартного отклонения
при нормальном распределении изображены на  рис. 75.

Рис. 75. Покрытие количеством стандартных отклонений


(Ϭ) от среднего (µ) определенного % случаев / объектов / на-
блюдений

Как посчитать меры изменчивости в Excel.


Меры изменчивости также можно посчитать отдельными
формулами. Но основные описательные статистики, по кото-
рым Вы будете часто использовать отдельные формулы, мы
 
 
 
уже прошли. Это среднее, мода, медиана и квартили.
Поэтому далее переходим к  работе с  такой
надстройкой в Excel как «Анализ данных». У кого эта
надстройка не подключена – подключите.
Выбираем закладку «Данные», далее указываем над-
стройку «Анализ данных». В  появившемся окне жмем
«Описательная статистика» и ОК (рис. 76).

Рис. 76. Вывод описательных статистик с помощью над-


стройки «Анализ данных»

Далее задаем параметры вывода описательных стати-


стик  – задаем входной интервал (диапазон значений кон-
кретной переменной в массиве), ставим галочку «Итоговая
 
 
 
статистика» и жмем ОК – на новом листе нам выдало резуль-
таты (рис. 77).

 
 
 
Рис. 77. Параметры описательных статистик и вывод ре-
зультатов

Как видим, здесь уже посчитаны такие меры центральной


тенденции как среднее, мода (у данной переменной ее нет –
#Н/Д – в массиве нет повторяемых чисел) и медиана. Также
указаны минимальное и максимальное значение.
Из  основных мер изменчивости дисперсия и  стандарт-
ное отклонение. Также указан размах (тут он назван «интер-
вал») – как разница между минимальным и максимальным
значениями.
Еще обращу внимание на стандартную ошибку (вторая
строка на рис.77, сразу же под средним) – ее иногда путают
со стандартным отклонением. Но это «другого поля ягода».
В данном случае это стандартная ошибка полученно в вы-
борке  среднего (она потому под ним и  находится) относи-
тельно генеральной совокупности. И расчитывается она как
стандартное отклонение деленное на  корень квадратный
из  количества наблюдений\объектов в  выборке . Соответс-
венно, раз эта ошибка зависит от количества наблюдений, то
она будет уменьшаться по мере увеличения количества объ-
ектов в выборке (чем больше выборка, тем меньше стандарт-
ная ошибка среднего, вычисленного по ней – и это лиогич-
но, поскольку среднее значение большой выборки, вероятно,
будет ближе к истинному среднему в генеральной совокуп-
ности).
Так вот: разброс значений количественно определя-
 
 
 
ет как раз стандартаное отклонение. А  стандартная
ошибка среднего условно дает количественную оценку
того, насколько точно Вы можете смотреть на полу-
ченное в Вашей выборке среднее как среднее значение в ге-
неральной совокупности.
Вы можете вывести «Описательные статистики» в  сво-
их массивах для разных переменных (и даже разных групп)
и сравнить в какой группе показатели по конкретной пере-
менной более изменчивы.

 
 
 
 
Скошенность распределения данных
 
Помните, ранее в книге упоминалось, что в реальности Вы
вряд ли увидите нормальное распределение и распределения
данных будут скошены влево \ вправо, более плоские или
более «тянущиеся» вверх?
Есть в  описательных статистиках две величины, позво-
ляющие определить направления «крена» распределения:
асимметрия и эксцесс.
Асимметрия – насколько распределение скошено влево
(если знак плюс) или вправо (если знак минус).
Плюс (+) говорит, что в выборке преобладают значения
ниже среднего, минус (-) – что преобладаю значения выше
среднего.
Давайте посмотрим о чем речь на графиках, построенных
в  Excel (рис.78). На  них  же наложена кривая нормального
распределения, чтобы визуально видеть смещение.

 
 
 
Рис. 78. Правосторонняя и левосторонняя асимметрии

Для примера: если заявленная средняя зарплата на пред-


приятии 80.000 рублей, то при "+" асимметрии мы сразу же
понимаем, что большинство сотрудников такого предприя-
тия на самом деле получает меньше этой суммы.

Эксцесс – показатель, по которому понятен относитель-


ный «вес хвостов» распределения от среднего: они большие
и толстые, или малые и тонкие. Соответственно с уменьше-
нием «веса хвостов» идет увеличение количества значений
близких к среднему, и визуально вершина кривой распреде-
ления становится остроконечной, а с увеличением – наобо-
 
 
 
рот более плоской (рис. 79).

Рис. 79. Визуализация эксцесса

Т.е., видно, что чем более «тонкие хвосты» – тем боль-


ше значений ближе к среднему значению. А когда они более
«плотные / толстые» – то реальное среднее значение как та-
ковое отсутствует.
 
 
 
В Excel показатели асимметрии и эксцесса выводят-
ся с помощью той же надстройки «Анализа данных», пункта
«Описательные статистики» – Вы их видели, когда мы выво-
дили меры изменчивости.
Чем же показатели эксцесса и асимметрии помогают? Они
описывают наше распределение наряду с мерами централь-
ной тенденции и изменчивости, еще больше уточняя его.
Т.е., они дают более точное обобщенное понимание всего на-
шего огромного массива данных, будь там хоть миллионы
значений.
Например, посмотрев на  среднее и  размах, выведенные
с  помощью меню «Описательные статистики» надстройки
«Анализ данных», мы понимаем, что показатели вроде как
могут быть разбросаны очень далеко от среднего… (рис. 80).

 
 
 
Рис. 80. Показатель размаха (интервал) говорит, что дан-
ные могут лежать достаточно далеко от среднего…

Но глянув на положительное значение эксцесса – мы сра-


зу же понимаем, что большая их часть на самом деле будет
очень близка к среднему (рис. 81).

 
 
 
Рис. 81. Эксцесс уточняет наше понимание, где  же все-
таки находится большинство значений

И мы сразу понимаем, что могут встречаться отдельные


значения далёкие от среднего – но основная масса «лежит»
возле него.
И наоборот, при маленьком размахе, может оказаться что
данные не имеют какого-то реального среднего, а равномер-
но «растянуты» (рассеяны) вдоль шкалы.

 
 
 
 
Выбросы
 
Выбросы – это резко, экстремально отличающиеся зна-
чения. Причем неважно в  большую или малую сторону.
Именно они способны сильно исказить среднее значение.
Так, один миллиардер в стране третьего мира может иска-
зить реальный средний уровень дохода людей в стране.
Наличие выброса в  первую очередь требует проверки,
а нет ли ошибки ввода. Или может ячейки сместились в мас-
сиве.
Если ошибки нет и это реальное событие / объект / слу-
чай – надо его отдельно проанализировать.
Например, Вы смотрите цену 30 современных домов в од-
ном из поселков возле крупного города. Показывают сред-
нюю 200.000 USD. Но если Вы выкинете из перечня всего
один энергоэффективный дом (с 25 метровым ветрогенера-
тором, солнечными панелями, тепловыми насосами и про-
чими энергосберегающими высокотехнологическими фича-
ми) стоимостью полмиллиона, который скорее там является
рекламным экспонатом, выставленным на продажу, чем до-
мом – то цена сразу же станет более умеренной в 160.000.
Выкиньте еще один за 300.000 – и станет 120.000.
Но выбросы бывают очень интересными. Многие откры-
тия бывают сделаны благодаря выбросам. Многие люди упу-
стили открытия, не уделив им внимания.
 
 
 
Я персонально знаю одну женщину – физика теоретика.
Правда она давно уже занимается вопросами менеджмен-
та. На сегодня ей 65 лет, но в свои 25 она, исследуя элек-
тромагнитные волны, озадачилась некоторыми значения-
ми-выбросами. А в ответ «серьезные люди» сказали просто
отсечь эти случайные выбросы: «это скорее всего погрешно-
сти измерения, не обращай внимания».
Она исходила где смогла пороги, пытаясь доказать,
что «там что-то есть и надо непременно исследовать»…
Но глухо.
А через 20 лет руководитель того НИИ ей позвонил и ска-
зал, что американцы открыли волны, наличие которых она
предположила еще 20 лет назад – именно они создавали те
выбросы…

Также есть также у меня товарищ политтехнолог. Живет


в  Западной Европе (Франция). «Наведывается на  работу»
в страны СНГ только на президентские и парламентские вы-
боры. Так он всегда требует два анализа результатов опросов
общественного мнения – с выбросами и без. В основной мас-
се на общие выводы их наличие с его слов не влияет, но ино-
гда натыкается на интересные инсайты.

Экстремальные выбросы лежат обычно где-то в  зоне


±3 интерквартильных размаха IQR (напомню: IQR – это диа-
 
 
 
пазон между первым и третьим квартилем) – рис. 82.

Рис. 82. Зона выбросов

Например, Q1 = 100, а Q3 = 120. Интерквартильный раз-


мах составит 20 (120 -100 = 20). Все, что ниже 40 и более
180 надо посмотреть внимательно. Рук человеческих ошиб-
ки устранить (неправильный ввод данных, смещение ячеек
в  массиве и  т.д.), реальные выбросы внимательно посмот-
реть. Подумать: а что их объединяет? Как их можно описать
и объяснить? Какие их особенности?

Есть еще другие выбросы  – нетипичные показатели


 
 
 
для группы или взаимосвязей нескольких перемен-
ных. Они не относятся уже к одномерным распределениям
и описательной статистике, но я о них упомяну, так как мы
уже приближаемся к аналитической статистике.
Для дву- и многомерных измерений (несколько перемен-
ных, создающие оси ОХ, OY, OZ) эти выбросы могут выгля-
деть так, как изображено на рис. 83.

Рис. 83. Выбросы в аналитических измерениях

Их также надо рассматривать и анализировать отдельно,


так как они могут очень обо многом сказать в части анализа
данных.

 
 
 
 
А как это все можно
компактно представить?
 
Невзирая на все множество описательных статистик, они
очень удобно и  наглядно представляются. Вначале книги
сделано ударение, что речи о визуализации в ней не будет:
но в заключение немного напишу, в чем можно компактно
представлять описательные статистики.
Классическим удобным инструментом визуализации
в  Excel являются диаграммы  – и  их просто множество! Я,
признаюсь, и сам любитель «настрогать» различных графи-
ков – а потом сижу и перебираю, что же из них показать…
Причем визуализации могут быть простыми и несложны-
ми (даже примитивными) и для сложнейших проектов.
Для примера, в одном из моих проектов вот как выгля-
дела диаграмма операционной эффективности предприятий
по регионам (рис. 84).

 
 
 
Рис. 84. Операционная эффективность предприятий
по регионам

Здесь использована биржевая диаграмма.


· Отрезки / линии отражают расстояние между миниму-
мом и максимумом в каждом регионе.
· Зеленой линией соединены Q 3 в каждом регионе. Сразу
видим, насколько разнится производительность по значени-
ям, отсекающим 25% верхних лучших показателей.
· Синие точки – предприятия, считающиеся региональны-
ми флагманами в  холдинге. Вот только по  итогам анализа
оказалось, что в большинстве случаев они имеют более низ-
кую операционную эффективность в сравнении с 25% реаль-
но лучших предприятий в своем регионе.
И по такой диаграмме сразу же были вынесены ряд управ-
ленческих решений: от стандартизации Q 3 для всех регио-
нов и  до  точечного повышения уровня операционной эф-
фективности. Только это уже история не о визуализации.
 
 
 
Но главное, что хотелось бы донести: вопрос совершенно
не в диаграммах или их красоте. Важно понять, что данные –
это всего лишь цифры. А чтобы они визуально заговорили,
нужно определиться, о чём с помощью них мы хотим рас-
сказать. Какой вывод сделать, какую идею, какую главную
мысль донести. Вот это самое главное: посмотрите на данные
и  спросите «а  что они говорят?», «а  что я хочу сказать?».
Часто одна-единственная цифра может сказать больше, чем
десятки таблиц-графиков-диаграмм.
И избегайте излишней детализации – это самая ходовая
ошибка при визуализации. Не  надо стараться «впихнуть»
в диаграмму все, что возможно, чтобы в итоге ней ничего
нельзя было разобрать. Отражайте всегда только то, что пе-
редает одну основную мысль. И выделяйте то, на что хотите
обратить внимание: используйте другой цвет, оттенок, выде-
ление, стрелка-указатель… – да что угодно.
Еще скажу, что на практике в бизнес-среде достаточно бу-
дет сконцентрироваться на 7 типах диаграмм (рис. 85).

 
 
 
Рис. 85. Основные 7 типов диаграмм

Изучите эти типы диаграмм (какие таблицы нужны для их


построения, что с их помощью можно показывать и т.д.) –
 
 
 
и  Вы виртуозно сможете визуализировать различные дан-
ные.
Естественно, не Excel’ем единым: есть и более красивые
средства \ инструменты визуализации и инфографики типа
Tableau или Microsoft Power BI. Много средств визуализации
также поставляются онлайн и бесплатно. Но визуализация –
это вообще отдельная история, которая, увы, не поместится
в эту книгу.

 
 
 
 
Итоги описательных статистик
 
Итак, мы рассмотрели описательные статистики (рис. 86):
· Частотные одномерные распределения
·Меры центральной тенденции: разные средние, мини-
мум, максимум, квартили и т. д.
· Меры рассеивания или разброса – дисперсия, стандарт-
ное отклонение, размахов между максимумом и  миниму-
мом, а также между Q3 и Q1.

Рис. 86. Вспоминая описательные статистики…

Поняли, что их задача  – сжать исходную информацию


 
 
 
с тысяч, сотен тысяч и миллионов цифр к какому-то едино-
му компактному представлению. Они позволяют привести
огромное число показателей по какой-то переменной к ка-
кому-то значению, которое было бы типичным и репрезен-
тативным для всех объектов (рис. 87).

Рис. 87. Описательные статистики: типичное значение,


репрезентативное для огромного множества значений
 
 
 
По ним можно сделать уже много выводов и интерпрета-
ций, а  также принять ряд управленческих решений  – воз-
можно данный раздел кому-то из читателей даже помог ре-
шить конкретно-прикладные задачи.
Но все что, мы прошли до этого – это только «подводка»
к аналитической статистике, которая ищет скрытые взаимо-
связи и строит прогностические (предсказывающие) модели.
В следующей главе мы, собственно, переходим к аналити-
ке.

 
 
 
 
АНАЛИТИКА
 
 
Напомнить особенности социально-
экономической реальности
 
В технических и естественных науках большинство пред-
сказаний и прогнозов легко сделать со 100% точностью.
Можно предсказать время полета 80  килограммового
мешка с высоты 30 метров и силу его удара о Землю. Можно
рассчитать изменение массы пятитонного грузовика на Лу-
не. Можно точно сказать свойства кислоты, полученной сме-
шением нескольких компонентов.
В социально-экономических науках не все так очевидно.
Вариативность присутствует везде. Очень большое влияние
разных переменных, а также не всегда очевидные, однознач-
ные и одинаковые взаимосвязи. Я уже об этом упоминал ра-
нее.
В науке и бизнесе основой для понимания и интерпрета-
ции данных, проверки существующих моделей, создания но-
вых и построения прогнозов (или предсказаний) являются
аналитические методы, оперирующие:
· вероятностями
· значимостью различий между группами
 
 
 
· взаимосвязями между несколькими переменными
· классификации (группировки) случаев на базе вероят-
ностей, взаимосвязей и распознавания отличий по перемен-
ным.
И эти аналитические методы позволяют нам искать скры-
тые закономерности и делать предсказания: как по значени-
ям переменных в зависимости от остальных, так и принад-
лежности объектов / случаев к какой-то группе / классу.

 
 
 
 
Три главные блока задач аналитики
 
В  начале книги упоминалось, что статистика делится
на описательную и аналитическую.
Для ученых, бизнеса и менеджмента описательные стати-
стики (средние, квартили, разбросы и т.д.) по какой-то од-
ной переменной – вещи интересные и полезные. Мы в этом
убедились в прошлой главе.
Описательные статистики фокусировались на каждой от-
дельно взятой переменной. И их главная задача – компактно
представить весь набор данных. Вывести по нему какое-то
типичное значение, репрезентативное для всего множества
цифр.
Но намного больший интерес представляет
· одновременный анализ более чем одной переменной
(в  т.ч. для уменьшения размерности или количества пере-
менных)
· классификаця (группировка) объектов / случаев / наблю-
дений
· а  также определение значимости различий между
несколькими группами (выборками) по одной или несколь-
ким переменным.
В  этом и  заключается главное отличие аналитической
статистики от  описательной  – она дает возможность най-
ти скрытые взаимосвязи между переменными (в  т.ч. поз-
 
 
 
воляет на  основании взаимосвязей заменить наборы пе-
ременных в  более «крупные» переменные), найти разли-
чия по конкретным переменным между разными объектами
и построить предсказания. Причем предсказания (прогнозы)
как в виде расчетов какой-то переменной, так и в виде пред-
сказания принадлежности объекта или случая к какому-то
классу / группе.
Это и отражает три главные задачи аналитики (рис. 88):

Рис. 88. Три главные блока задач аналитики

И, по сути, на этих трех китах и строится вся предиктив-


 
 
 
ная (предсказательная, прогностическая) аналитика, задача
которой предсказать с определенной вероятностью будущее
на основании неких отстроенных статистических моделей.
Например, обнаружив значимые различия между мужчи-
нами и  женщинами по  какому-то набору переменных, мы
можем строить классификации (т.е., предсказывать) к како-
му полу будет относиться тот или иной объект на основании
значений переменных (например, анкетных форм в Интер-
нете), не выясняя пол напрямую.
Или, обнаружив значимую зависимость и  коэффициен-
ты между переменными, можем делать расчёт значения кон-
кретной переменной на  основании значения других пере-
менных, которые на нее влияют.
Таким образом, аналитическая статистика ищет скрытые
взаимосвязи между переменными, показывает значимость
различий между выборками / группами, классифицирует
объекты.
И  это нужно бизнесу не  просто чтобы понять прошлое
и текущее положение дел, определить взаимосвязи или сег-
ментировать клиентов или персонал – это все нужно, чтобы
построить прогнозные (предсказательные) модели.
Проблематика прогностической аналитики, вопросы кор-
ректного распознавания \ классификации объектов на  ос-
новании паттернов переменных, уменьшение размерностей
данных и переменных и т. д. – отнюдь не новы.
Но на сегодня ввиду накопления огромных массивов дан-
 
 
 
ных, а также технических возможностей быстрой их обра-
ботки с «взрывным» развитием ИТ-технологий, они приоб-
рели очень большой вес во всех профессиях в бизнесе и ме-
неджменте, а не только в среде ученых.

 
 
 
 
Снова к истокам:
гипотезы и вероятность
 
Аналитическая статистика использует методы, позволяю-
щие рассчитать взаимосвязи между параметрами, а  также
понять, являются  ли эти взаимосвязи просто случайными
совпадениями или реальными закономерностями.
Прежде чем перейти к изучению какого-то объекта / слу-
чая / процесса, необходимо выдвинуть какую-то гипотезу,
которую мы будем проверять. В основном в аналитике гипо-
тезы связаны:
· Либо с различиями какой-то переменной в разных груп-
пах в генеральной совокупности. Например, мужчины умнее
женщин (или наоборот)
· Либо с наличием взаимосвязей в генеральной совокуп-
ности. Например, что лояльность потребителя зависит от его
удовлетворенности ценой товара, качеством обслуживания
и брендом самой компании.
Как Вы помните, самым страшным и  критичным
считается обнаружить при анализе закономерности
или различия, которых на  самом деле в  генеральной
совокупности не существует.
А если Вы не обнаружили какие-то реально существую-
щие взаимосвязи (особенно которые и до этого были неиз-
 
 
 
вестны) – то это не так страшно.
В книге ранее уже освещалось понятие нулевой (H 0) и аль-
тернативной (H 1) гипотез, но сейчас время сказать об этом
снова. Каждая из этих гипотез гласит:
· H0 – различий или взаимосвязей в генеральной совокуп-
ности не существует
· H1 – говорит, что они есть.
Все просто (рис. 89).

Рис. 89. Нулевая (H 0) и альтернативная (H 1) гипотезы

И по этим гипотезам рассчитывают вероятность, которая


 
 
 
всегда принимает значение от 0 до 1 (0 – 100%).
Исходя из  упомянутой выше критичности ошибки рас-
пространить несуществующие закономерности на генераль-
ную совокупность, рассчитывают как раз вероятность для
нулевой гипотезы (H 0) – существенных различий или вза-
имосвязей нет.
Если вероятность того, что эта нулевая гипотеза (H 0) вер-
на, крайне мала – (менее 5% или значение значимости, зву-
чащее англ. Sig. <0,05) – то принимается альтернативная ги-
потеза (H1) о наличии различий и в генеральной совокупно-
сти.
И  соответственно, вероятность ошибиться, приняв аль-
тернативную гипотезу о наличии различий или взаимосвя-
зей в генсовокупности, будет составлять менее 5%.
Именно этой вероятностью ошибиться при применимо-
сти обнаруженной закономерности ко всей генеральной со-
вокупности и оперирует практическая аналитика. Т.е., прак-
тический аналитик спрашивает себя не «Какая гипотеза вер-
на?», а «Какая вероятность того, что обнаруженная законо-
мерность или различия между группами является ошибоч-
ной? Какая вероятность, что я ошибаюсь насчет того, что,
например, женщины умнее мужчин?»
Запомните: уровень значимости различий
и взаимосвязей должен быть менее 0,05 или 5%.
Данная классификация уровней значимости (вероятности
 
 
 
ошибки) является всего лишь соглашением, принятым ста-
тистами-аналитиками. На основе практического опыта в той
или иной отрасли Вы будете принимать свои значения как
предельно допустимые – и они могут быть меньше этого зна-
чения хоть и до уровня 0,00000001.
И помните: от ошибок никто не застрахован ни при ка-
ких бы то ни было значимых статистических коэффициен-
тах. Но, принимая то или иное значение вероятности ошиб-
ки, Вы должны чувствовать себя комфортно, распространяя
полученные на выборке закономерности на всю генеральную
совокупность. Часто решение может стоить просто зря по-
траченных усилий и бюджетов, но часто может стоить жизни
людей.
Представьте, что Вы, например, определяете необходи-
мость пройти обследование человеку на  серьезное заболе-
вание на  основании ряда переменных (показатели анализа
крови и т.д.). И ошибка диагноза составляет более 5%. Т.е,
ставится «необходимо обследование» здоровым в более чем
5% (т.е., 5 из 100). Но ведь на порядок хуже, когда ставится
«нет необходимости обследования» серьезно больным лю-
дям. Исходя из этого Вы уже будете решать какой уровень
вероятности ошибки для Вас приемлем.
Невзирая на то, что о вероятности и значимости различий
или взаимосвязей писалось во  введении, пишется еще раз
здесь – мы будем возвращаться к этому вопросу и в следую-
щих главах книги.
 
 
 
 
Важная бесплатная
аналитическая программа
 
Вначале книги обозначалось, что ряд расчетов мы будем
делать в Excel. И до этого мы ограничивались этим инстру-
ментом.
Более того, это были те вещи, которые Вы скорее всего бу-
дете рассчитывать именно в Excel, чтобы просмотреть фор-
мулы мог Ваш руководитель, коллега или любой другой со-
трудник.
Но теперь мы переходим к аналитике. И ее выполнение
в Excel будет очень сложным, а многие методы потребуют на-
писания макросов. Т.е., Вам придется либо в мученьях пи-
сать длинные таблицы или макросы, либо искать и покупать
готовые надстройки к  Excel, чтобы упростить себе жизнь.
И после этого их вряд ли сможет просмотреть руководитель,
коллега или другой неподготовленный сотрудник.
Целью написания книги является привить у читателя лю-
бовь к анализу, а не «утопить» в технических моментах и на-
писании формул. И более того, хочется, чтобы читатели схо-
ду смогли применять анализ на  рабочем месте. И  без по-
купки дорогостоящего ПО или изучения специального язы-
ка и среды программирования.
Поэтому далее мы с Вами будем пользоваться официаль-
ной бесплатной программой PSPP  – это, по  сути, аналог
 
 
 
IBM'овской SPSS, только бесплатно.
Она позволяет в пару нажатий кнопок мыши делать слож-
нейшие виды анализа, на которые в Excel придется большую
часть времени тратить на формулы и скрипты. Более того, ее
интерфейс очень похож на Excel и фактически работа с ней
не отличается от того, как мы в Excel работали с надстрой-
кой «Анализ данных» для вывода описательных статистик.
Программа PSPP спокойно позволяет считывать Excel
файлы формата. csv (даже просто можно скопировать мас-
сив и вставить его в интерфейс PSPP) и сохраненные файлы
SPSS. sav
Работа с  ней Вам, уверен, покажется очень простой
и удобной.
Ее бесплатный дистрибутив Вы можете найти в  сво-
бодном добступе через любой интернет-поисковик (yandex,
google, yahoo, bing и т.д.).
Я скачал последнюю версию PSPP для Windows
по ссылке: https://sourceforge.net/projects/pspp4windows/
Тут же по ссылке можно подписаться на обновления про-
граммы, оставив свой е-мейл в поле «Keep Me Update».
Для других операционных систем программу PSPP
можно забрать с  официального сайта  https://www.gnu.org/
software/pspp/
Скачайте программу PSPP на  Ваш компьютер,
установите ее  – переходите к  изучению следующих
 
 
 
разделов и глав книги.
Еще из  неплохих бесплатных программ для аналитики
есть облачная программа https://jasp-stats.org/

 
 
 
 
Короткое знакомство с PSPP
 
Коротко расскажу об  интерфейсе программы: выглядит
она похожей на Excel. В ней есть две закладки.
«Просмотр данных» (рис. 90) – закладка является масси-
вом и по сути аналогичен таблице данных в Excel.

 
 
 
Рис. 90. Закладка-массив «Просмотр данных»

По  колонкам, как и  в  Excel, идут переменные, по  стро-


кам – наблюдения / объекты / случаи.
 
 
 
«Просмотр переменных» (рис. 91) – закладка, на которой
можно задать параметры переменных (это так называемый
«паспорт» для переменных).

Рис. 91. Закладка «Просмотр переменных» (паспорт пе-


ременных)

Здесь мы можем вписать название каждой переменной


(например, «Пол»), подписать значения цифр в поле «Мет-
 
 
 
ки» (например, 0 =жен, 1=муж).
Обратите внимание, что здесь после внесения
данных нужно нажимать клавишу TAB – иначе данные
не сохранятся.
Также важно указать «Шкалу» – это выбор из тех трех ти-
пов шкал, которые мы рассматривали еще во введении в ста-
тистический анализ: номинальная, порядковая и интерваль-
ная (здесь называется масштаб).

Вверху командная панель  – мы будем работать в  ос-


новном с  пунктами меню «Трансформировать» и  «Ана-
лиз» (рис. 92).

Рис. 92. Командная панель

Чтобы уловить логику работы программы, давайте в каче-


стве тренировки выведем с помощью меню «Анализ» описа-
тельные статистики, которые мы делали в Excel.
 
 
 
Жмем «Анализ» \ «Описательные статистики» \ «Часто-
ты» (рис. 93).

Рис. 93. Меню вывода описательных статистик

В левом поле выбираем интересующую нас переменную


и переносим ее в правое поле «Переменные» (рис. 94).

 
 
 
Рис. 94. Указание переменной (ых), по которой (ым) мы
хотим получить описательные статистики

В  поле «Статистики» ниже дополнительно отмечаем


галочками Асимметрию, Эксцесс, Диапазон и  Медиану
(рис. 95).

 
 
 
Рис. 95. Выбор интересующих описательных статистик

В  кнопке «Диаграммы» в  разделе «Гистограмма» выби-


раем «Рисовать гистограммы» и сразу выбираем «Наложить
кривую нормального распределения». Жмем кнопку «Про-
должить», и в конце жмем ОК (рис. 96).

 
 
 
Рис. 96. Вывод гистограммы с кривой нормального рас-
пределения

В  окне вывода результатов вывело распечатку с  описа-


тельными статистиками (рис. 97).

 
 
 
Рис. 97. Вывод распечатки описательных статистик

На рис. 97 вначале видим таблицу частотного распреде-


ления, потом таблицу с описательными статистиками анало-
гично как мы видели в Excel, а в конце гистограмму частот-
ного распределения с наложенной кривой нормального рас-
пределения.
 
 
 
Аналогичные описательные статистики (только без гисто-
граммы) можно вывести и в меню «Анализ»/ «Описательные
статистики» / «Описательные статистики».
Те же описательные статистики и квартили можно выве-
сти через меню «Анализ» / «Описательные статистики» /
«Исследовать», отметив в кнопке «Статистика» описатель-
ные статистики и процентили (процентили в распечатке ре-
зультатов будут называться «угловые точки Туки»).
Скопируйте любой Ваш массив с Excel в PSPP и задайте
основные параметры переменных на закладке «Просмотр пе-
ременных». Потом попробуйте вывести описательные стати-
стики всеми тремя описанными способами с помощью PSPP
в Ваших массивах – и убедитесь, что работать с программой
быстро и просто.
Еще отмечу, что с дидактических соображений (и с уче-
том размеров книжных страниц) в книге при работе с PSPP
будут демонстрироваться малые массивы данных с урезан-
ным числом случаев и переменных. В реальности в массивах
Вы будете иметь намного большее число переменных и слу-
чаев – но это не меняет сути использования того или иного
метода.

 
 
 
 
Проверка на соответствие
нормальному распределению
 
Вначале книги упоминалось, что все переменные перед
анализом надо проверить на  «нормальность» распределе-
ния. От этого будет зависеть какие методы к ним лучше все-
го применять (пошаговая логика такой проверки визуализи-
рована на рис. 98).

Рис.98. От  проверки на  нормальное распределение  –


до выбора аналитических критериев

Тут важно запомнить, что к интервальным шкалам с нор-


мальным распределением (и  лучше с  количеством строк
 
 
 
(объектов / наблюдений / случаев / испытуемых) более 100)
применяются параметрические критерии, к остальному –
непараметрические критерии. В  каких меню PSPP эти
критерии находятся и какие из них выбирать – далее отдель-
но будем разбирать в каждом разделе.
Но сразу скажу: на практике я ни разу не встречал, что-
бы при больших объемах данных Значимость (двустрон-
няя) в параметрике показала наличие значимых различий,
а аналогичная процедура в параметрических критериях дала
незначимость. Но мы будем следовать классике и проверять
переменные на «нормальность».
Еще есть, конечно, классика (в виде центральной предель-
ной теоремы) гласящая, что когда выборки становятся очень
большими (имеется ввиду, когда в каждой группе 100+ слу-
чаев), то распределение подчиняется нормальному закону.
Причем даже если исходная переменная не  является нор-
мальной или измерена с погрешностью. Но эта классика со-
здавалась для физического мира (в основном рождалась для
биометрики и биологии), а потом перешла в социально-эко-
номический, где работают немного другие законы.
Как же проверить нашу переменную на нормальность рас-
пределения?
Можно и на глаз – наблюдается подобие колоколообраз-
ной кривой или нет. Посмотрев, например, на гистограмму
с наложенной колоколообразной кривой (как в прошлой гла-
ве на рис. 97). Но тут можно и ошибиться.
 
 
 
Можно вывести описательные статистики и  на  цифрах
сделать заключение о нормальности распределения: по бли-
зости медианы, среднего и  моды. А  также близости к  ну-
лю асимметрии и эксцесса. Но это долго, сложно и ошибки
также неминуемы.
Для такой проверки нормальности распределения были
разработаны специальные статистические критерии. Самый
популярный – тест Колмогорова-Смирнова. Этот тест про-
веряет нулевую гипотезу (H 0), что распределение проверяе-
мой (тестируемой) переменной не отличается от нормально-
го (т.е. соответствует колоколообразной кривой).
В Excel его сделать – это «вырванные годы», а в специ-
альных статистических программах типа PSPP он делается
быстро.
В  PSPP в  меню «Анализ» выбираем «Непараметриче-
ская статистика», указываем «1 sample KS» (с английского
1  sample = одна выборка, а  КS  – сокращение от  Колмого-
ров-Смирнов) – рис.99.

 
 
 
Рис. 99. Меню для проверки на «нормальность» частот-
ного распределения тестируемых переменных

Переносим переменную (ые) для проверки на  соответ-


ствие нормальному распределению в поле «Список перемен-
ных для тестирования», в блоке «Проверка распределения»
отмечаем «Нормальное» и жмем ОК (рис. 100).

 
 
 
Рис. 100. Проверка на нормальное распределение

Программа выводит распечатку результатов теста по ука-


занным переменным (рис. 101).

Рис. 101. Результаты проверки на соответствие нормаль-


 
 
 
ному распределению

Смотрим в поле «Ассимпт. знач (двустороннее)» – пере-


менные, по которым значение менее 0,05 (на рис. 101 видим,
что оно очень низкое 0,000), не соответствуют нормальному
распределению. «Менее 0,05» значит, что вероятность со-
ответствия распределения конкретной переменной нормаль-
ному составляет менее 5%. К  переменным, не  подчиняю-
щимся нормальному распределению (или как шутят стати-
сты с «ненормальным» распределением), применяются непа-
раметрические критерии.
Относительно интервальных переменных, по которым ве-
роятность была  бы более 0,05, мы не  могли  бы утвер-
ждать, что их распределение отличается от  нормального.
Т.е., считается, что такие переменные нормально распреде-
лены и к ним можно применять параметрические критерии
для определения значимости различий или взаимосвязей.
И еще раз: все переменные  перед анализом проверяются
на соответствие нормальному распределению для того, что-
бы определить какие методы анализа к ним применить.

 
 
 
 
АНАЛИТИКА: СРАВНЕНИЕ
ГРУПП (ВЫБОРОК)
 
 
Для чего это применяется
 
Самым простым представлением поиска различий между
группами, пожалуй, будет ученый в лаборатории. Исследую-
щий, например, увеличение продолжительности жизни.
Он делит мышей на  2  группы (выборки)  – контроль-
ную и экспериментальную. Создает им идентичные условия.
Но  контрольная просто живет в  этих условиях, а  экспери-
ментальной группе скармливается еще какое-то вещество.
И ученый кропотливо изо дня в день замеряет какие-то
параметры – а главное в конце концов фиксирует сколько та
или иная мышь прожила. После того как все мыши погиба-
ют (длительность их жизни около 2 лет), он сравнивает дли-
тельность жизни в каждой из групп и делает вывод об эф-
фективности препарата.
Если оторваться от ученого с мышами, то запоминающим-
ся примером является сравнение группы больных и здоро-
вых пациентов. В каждой группе проводятся замеры уровня
лейкоцитов, лимфоцитов и других показателей, чтобы найти
по этим показателям различия между больными и здоровы-
 
 
 
ми.
Вроде бы это все медицина и биология, но подход ничем
не  отличается от  поиска различий между теми, кто отдает
или не отдает кредиты, кто остается работать в компании или
покидает ее, эффективной и неэффективной рекламой…
Т.е., сравнение групп (выборок) применяется также в ме-
неджменте и бизнесе. И примеров такого применения очень
и очень много. Отличаются ли предпочтения мужчин и жен-
щин по  какому-то товару? Есть  ли различия между воз-
растными группами по восприятию того или иного кандида-
та? По каким переменным отличаются определенные груп-
пы пользователей нашего сайта? Более  ли эффективна ре-
клама А от рекламы В? По каким переменным есть различия
между группой лояльных или нелояльных сотрудников? Ну
и т. д.
Главная задача сравнения групп: определить по  ка-
ким переменным эти группы отличаются и значимы ли эти
различия. Т.е., можно ли различия распространять на гене-
ральную совокупность, или они являются случайным совпа-
дением.
Если вспомнить любимый всеми офисными сотрудника-
ми Excel, то для поиска отличий между группами стандарт-
ная надстройка Excel «Анализ данных» работает только с па-
раметрическими критериями (интервальная шкала) типа Т-
тест Стьюдента. И  только для относительно «нормально»
распределенных переменных. А кроме того, часто требует,
 
 
 
чтобы количество объектов / случаев в  выборке (группе)
не ограничивалось парой десятков, а было от 100 и более…
Но мы ведь помним, что «нормальность» – редкое явле-
ние в социально-экономических дисциплинах.
И  потому мы будем работать в  бесплатной программе
PSPP, где есть и  параметрические (интервальные шкалы,
нормальное распределение), и непараметрические (включая
порядковые шкалы и  отсутствие нормального распределе-
ния).

 
 
 
 
Значимость различий при
сравнении групп (выборок)
 
Ранее упоминалось, что наряду с  отличиями как тако-
выми между группами (например, мужчины или женщины
по проводимому в соцсетях времени), важным также явля-
ется вопрос значимости этих различий. Т.е., можем  ли
мы обнаруженные различия экстраполировать на генераль-
ную совокупность.
Вы ведь помните, что аналитик-практик, найдя различия
между разными группами, всегда должен спрашивает себя:
«А  какая вероятность, что обнаруженные различия явля-
ются ошибочными и  их нет в  генеральной совокупности?
К  примеру, какая вероятность, что я ошибаюсь насчет то-
го, что женщины проводят в соцсетях больше времени, чем
мужчины?»
На рис. 102 схематически визуализирован «алгоритм раз-
мышлений» аналитика-исследователя.

 
 
 
Рис. 102. «Алгоритм размышлений» аналитика-исследо-
вателя

Уровень значимости различий должен быть МЕ-


НЕЕ 0,05 – это уровень вероятности ошибки при примене-
нии различий к генеральной совокупности.
А  на  основе практики в  Вашей отрасли Вы будете уже
принимать свои предельно допустимые значения вероятно-
сти ошибки – но Ваше значение не должно превышать 0,05.
Оно может быть только на порядок меньше этого значения
вплоть до уровня 0,000000000001.

 
 
 
 
Зависимые и независимые выборки
 
При сравнении групп (выборок) важно понимать, что они
бывают двух типов: зависимые и независимые.
Зависимые  (или еще их называют связанные или пар-
ные) – это когда замеряют изменение значений переменных
у одних и тех же объектов (людей, животных, предприятий,
процессов) по  прошествии времени или до  и  после како-
го-либо воздействия. Например, уровень навыков или эф-
фективности одних и тех же сотрудников до и после тренин-
га.
В этих выборках каждому конкретному случаю / наблю-
дению / объекту отвечают каждые конкретные значения пе-
ременных замеренных до и после воздействия (рис. 103).

 
 
 
Рис. 103. Зависимые (связанные, парные) выборки

Например, мы точно знаем, что у Ивана до воздействия


(например, тренинга) уровень аналитических навыков был
2 балла, а после обучения стал 7 баллов.
Независимые – когда берутся две несвязанные группы
объектов \ случаев и сравниваются между собой (рис. 104).

 
 
 
Рис. 104. Независимые выборки

Это, к примеру, сравнение кто больше сидит в соцсетях –


мужчины или женщины.
Или, если продолжить пример с тренингом: мы могли бы
взять две группы сотрудников с одинаковой производитель-
ностью до тренинга – и, проведя для одной из них тренинг,
замерить изменились ли ее показатели в сравнении с груп-
пой, которая тренинг не проходила.
И подобные сравнения различий между разными группа-
ми проводят как психологи, так и маркетологи, менеджеры
и т. д.
Но, очень важно понимать: зависимые или независимые
 
 
 
группы (выборки) Вы сравниваете. И во многих практиче-
ских кейсах Вы будете комбинировать сравнение зависимых
и независимых выборок (групп).

Затронув пример с тренингами, расскажу один объ-


ясняющий комбинирование замеров кейс. В  крупной
розничной компании планировалось улучшить навыки ли-
нейного менеджмента по всем магазинам (более 1000 соб-
ственных торговых точек в СНГ, не считая франчайзинго-
вых). Была разработана недешевая программа. Увидев об-
щий бюджет, собственник захотел убедиться, что программа
будет эффективна. И убедиться «малой кровью» до того, как
ее запустят (до запуска оставалось 6 месяцев).
В одной из стран выбрали из разных районов небольшую
группу среднего менеджмента и прогнали через программу
обучения. Предварительно «сняли замеры» объема продаж,
текучки персонала и результатов оценки тайных покупате-
лей в точках, где работали эти менеджеры до начала обуче-
ния. Параллельно «сняли замеры» и в остальных точках, ко-
торые не проходили обучение.
И потом сравнили показатели между теми точками, ме-
неджеры которых будут обучаться, и теми в которых не бу-
дут. Это было сравнение независимых выборок – одни
и те же переменные, но случаи \ объекты \ наблюдения со-
вершенно разные. Статистически значимых различий обна-
ружено не было (уровень значимости 0,8).
 
 
 
Через 6 месяцев сравнение «до-после» в обучаемой груп-
пе показало, что все показатели в торговых точках, где ра-
ботали эти менеджеры, улучшились. И это улучшение было
статистически значимым (уровень значимости 0,0001). Это
уже пример сравнения зависимой выборки – одни и те же
люди по одним и тем же переменным.
Но, чтобы исключить влияние других организационных
факторов (например, рекламные активности, другие това-
ры, изменения процессов в компании и т.д.), которые мог-
ли повлиять на улучшение ситуации в течение 6 месяцев –
провели еще сравнение точек, возглавляемых обученными
менеджерами, с теми торговыми точками, где менеджеры
не проходили обучение. Это было опять сравнение независи-
мых (несвязанных) групп. И это сравнение также показало
статистически значимые различия между группами (0,0001).
Т.е., по точкам, где менеджеры прошли обучение, показа-
тели значительно улучшились – и это изменение нельзя бы-
ло объяснить случайностью или влиянием каких-то других
факторов, помимо обучения.

 
 
 
 
Таблицы перекрестной
классификации (сводные, кросстабы)
 
Самым простым способом сравнения групп, с  которым
наверняка все сталкивались в работе, являются таблицы пе-
рекрестной классификации или как их еще называют «крос-
стабы». Это, по сути, сводные таблицы в Excel.
Они очень популярны – ведь они просты и понятны для
понимания, а также очень наглядны. Именно их предпочи-
тают использовать, чтобы показать взаимосвязь между пе-
ременными, особенно относящимися к номинальной шкале
(например, пол) или к порядковой шкале с небольшим ко-
личеством категорий (3—5).
Допустим, у нас есть замеры 1000 человек по уровню ин-
теллекта (низкий, средний, высокий) и переменная пол. Мы
можем построить сводную таблицу, где будет по  строкам
указан уровень интеллекта, по столбцам пол – а на пересече-
нии количество людей, попавших в ту или иную группу (рис.
105).

 
 
 
Рис. 105. Пример таблицы перекрестной классификации

Но Вы же помните, что важны не только различия как та-


ковые, а значимость этих различий. Значимость в таких таб-
лицах проверяется для коэффициента ХИ 2.
 
 
 
Немного теории о ХИ2 (если Вы абсолютный гуманита-
рий, то можете просто пропустить следующие 6  абзацев  –
ничего страшного). Он работает с реальным (наблюдаемым)
и ожидаемым распределением частот. Если, к примеру, по-
пытаться рассчитать вероятность того, что нулевая гипотеза
(H0= различий нет) верна по ХИ2 в Excel с помощью форму-
лы «=ХИ2.ТЕСТ» – то в формуле первым делом попросит
указать реальное и ожидаемое частотное распределения.
Что такое реальное (наблюдаемое) распределение боль-
шинству обычно понятно – это то, что содержится в табли-
це (например, на рис. 105). А вот относительно ожидаемо-
го распределения частот у начинающих осваивать аналитику
всегда возникает вопрос: «А что это? Что ожидать то?».
На самом деле все просто: под ожидаемым имеется в ви-
ду такое распределение частот, которое бы подтвержда-
ло H0. К примеру, сказать, что различий между мужчинами
(М) и женщинами (Ж) нет можно было бы в том случае, ес-
ли бы на рис. 105 наблюдалось одинаковое распределение М
и Ж по уровням интеллекта. Т.е., процент Ж и М на каж-
дом уровне совпадал бы с общим процентом М+Ж на этом
уровне.
На примере той же таблицы на  рис. 105. На «Высоком»
уровне имеем 250 человек (200 М +50 Ж), что составляет
25% от всей выборки в 1000 человек (250/1000).
В таблице количество всех Ж=500, М=500. Значит ожи-
 
 
 
даемым распределением для уровня «Высокий» для муж-
чин будет 500*0,25=125  и  соответственно для женщин
500*0,25=125.
Придерживаясь такой логики по  каждому уровню мож-
но заполнить всю таблицу ожидаемыми частотами, которые
безоговорочно подтверждали бы H 0.

Теперь давайте посмотрим, как работать со  свод-


ной таблицей на практике в программе PSPP (все алго-
ритмы расчета значимости и необходимых реальных и ожи-
даемых частот в программе уже заложены, достаточно про-
сто нажать несколько кнопок).
Возьмем рассматриваемый ранее пример с  интенсивно-
стью реакции мужчин и женщин хирургов на бытовую кровь
(мы его рассматривали в разделе «Описательные статисти-
ки», когда разбирали частотное распределение в  Excel).
И построим таблицу перекрестной классификации в PSPP.
Для начала для наглядности уменьшим количество значе-
ний переменной «Интенсивность реакции»: превратим 12-
бальную шкалу в  три категории. Перекодирование осуще-
ствим с помощью меню «Трансформировать» / «Перекоди-
ровать в разные переменные» (рис. 106).

 
 
 
Рис. 106. Вызов меню перекодировки переменной:
«Трансформировать / Перекодировать в  разные переме-
ные…»

Переносим интенсивность реакции в «Переменные», в по-


ле «Новая переменная» пишем ее название и  нажимаем
кнопку «Замена» – возле переменной появилось новое на-
звание. (рис. 107).

 
 
 
Рис. 107. Перенос перекодируемой переменной и назва-
ние для создаваемой на ее основе новой переменной

Далее пойдут самые сложные для восприятия из книги,


но  простые в  практической реализации шаги. Нажимаем
кнопку «Предыдущие и новые значения».
В появившемся окне ввода новых значений задаем старые
интервалы и соответствующие им новые значения уровней
от 1 до 3 (поочередно задавая значения и нажимая кнопку
«Add»), после указания всех диапазонов жмем кнопку «Про-
должить» и ОК. У нас в массиве появилась новая перемен-
ная (рис. 108).

 
 
 
Рис. 108. Указание старых диапазонов и соответствующих
им новых значений с последующим перекодированием в но-
вую переменную

Теперь построим сводную таблицу и  выведем уровень


значимости. Жмем «Анализ»/ «Описательные статистики» /
«Таблицы сопряженности» (рис. 109).

 
 
 
Рис. 109. Меню для построения таблиц перекрестной
классификации (сопряженности, кросстабов, сводных)

В поле строк переносим созданную переменную «Уровень


реакции», в поле столбцов – «Пол». По сути, мы задаем ко-
лонки и строки сводной таблицы (рис. 110).

 
 
 
Рис. 110. Перенос переменных в строки и колонки свод-
ной таблицы

По кнопке «Ячейки» для простоты оставим вывод только


количества. Жмем «Продолжить» и ОК (рис. 111).

 
 
 
Рис. 111. Выбор параметров ячеек таблицы

Появилось окно вывода результатов ( рис. 112).

 
 
 
Рис. 112. Вывод результатов для таблицы сопряженности

В нем имеем сводную таблицу с количеством. Ниже этой


таблицы находится таблица с посчитанными для ХИ 2  пара-
метрами: смотрим «Ассимпт. знач (двустороннее)» – значе-
ние менее 0,0000. Значит различия реакции мужчин и жен-
щин статистически значимы.
И вот здесь сделаю важную оговорку о ХИ 2. Когда
в  сводной таблице мало значений более чем в  20% ячеек
(речь о ячейках, в которых менее 5 значений и особенно ко-
 
 
 
гда есть ячейки с 0) – критерий ХИ2 теряет свою силу. В на-
шем примере в половине ячеек менее 5 – поэтому в данном
случае не стоит доверять только тесту ХИ 2.

 
 
 
 
Сравнение независимых выборок
 
Кстати, приведенный в предыдущей главе пример отно-
сился к независимым выборкам.
Но понять, есть ли отличия между группами (выборками)
можно и другим, более ходовым способом. Я сам (как и боль-
шинство аналитиков) обычно пользуюсь именно им.
Сравнивать не частоты, а средние значения (средние, ме-
дианы, моды, средние ранги) или дисперсии значений в вы-
борках (в  предыдущей главе это была  бы группа мужчин
и группа женщин).
Этот же подход применяется, когда Вы лечите людей или
обучаете их двумя разными методиками – и хотите понять
какая эффективнее. Или тестируете эффективность внешне-
го вида рекламы (те же популярные А/В тестирования).
Чтобы не частить с примером женщин и мужчин-хирур-
гов, разберем пример из  области менеджмента организа-
ций. Возьмем обучение рабочих нефтегазового предприятия
с помощью традиционных методов и методов AR (аббреви-
атура от агнгл. augmented reality – дополненная реальность)
с последующим сравнением количества ошибок, допускае-
мых в работе в первые месяцы после выхода на объекты.
Итак, в колонках PSPP у нас данные о количестве оши-
бок (переменная «КвоОшиб») по двум группам (переменная
«Метод»): классическое обучение (1) и AR (2) – рис. 113.
 
 
 
Рис. 113. Массив с переменными «Метод» и «КвоОшиб»
в PSPP

Напомню. В колонке «Метод» – единицей (1) отмечены


люди из  группы обучающейся классически, двойкой (2)  –
с использованием AR.
В  колонке «КвоОшиб»  – указано количество зареги-
стрированных мастерами ошибок, сделанных обучавшими-
ся в работе в первые месяца после выхода на объекты.
Шкала интересующей нас переменной «КвоОшиб» ин-
тервальная и  известно, что частотное распределение пе-
ременной  не  подчиняется нормальному распределению
(проверено тестом Колмогорова-Смирнова – значимые раз-
личия от нормального распределения на уровне 0,004).
 
 
 
Поскольку данные не  подчиняются нормальному рас-
пределению, мы будем использовать непараметрические те-
сты.
Поэтому жмем в PSPP «Анализ» / «Непараметрическая
статистика» / «К-Independent Sample» (пункт меню в теку-
щей версии программы не  переведен с  английского: К  –
означает несколько, а  Independent Samples  – независимых
выборок) – рис. 114.

Рис. 114. Вывод меню для непараметрических тестов зна-


чимости различий для независимых выборок

Программа вывела окно для настройки непараметриче-


ского теста различий между группами (рис. 115).

 
 
 
Рис. 115. Окно настройки непараметрического теста меж-
ду независимыми выборками

В появившемся окне переносим в поле «Список перемен-


ных для тестирования» количество ошибок (КвоОшиб)  –
ведь мы хотим проверить отличаются ли наши группы по ко-
личеству ошибок.
А в поле «Группировка переменной» переносим перемен-
ную «Метод» – это идентификатор группы с классическим
обучением и группы с использованием AR.
Далее жмем кнопку DEFINE GROUPS (англ. «задать
группы») – в появившемся окне выбираем группы для срав-
нения (у нас их две, но бывают случаи что групп много и на-
до указать, какие хотим сравнивать). Жмем кнопку «Про-
должить» (рис. 116).
 
 
 
Рис. 116. Указываем сравниваемые группы

Выбираем тип теста «Крускала-Уоллиса» и давайте также


для сравнения возьмем «Медианный». Жмем ОК (рис. 117).

 
 
 
Рис. 117. Выбор непараметрических критериев тестов для
сравнения групп

В распечатанном отчете (рис. 118) первые две таблицы от-


носятся к ранговому тесту Крускала-Уоллиса, две вторые –
к медианному тесту.

 
 
 
Рис. 118. Вывод распечатки результатов непараметриче-
ского сравнения независимых выборок

В  обоих случаях видим, что различия между группами


по  количеству ошибок статистически значимы  – Ассимт.
знач. (двусторонняя) 0,001.
Если детально по таблицам, то видно, что средний ранг
в обучавшейся по AR группе ниже – значит они делают мень-
ше ошибок.
Те же результаты показывает и медианный тест (что та-
кое медиана читатель наверняка помнит: это значение, де-
лящее выборку пополам  – 50% случаев находятся выше,
50% ниже) – в группе AR из 34 человек 29 находятся в чис-
ле 50% тех, кто делают меньшее число ошибок.

Вот так сравниваются независимые группы (выборки)


и определяется значимость различий.
Напомню, что мы использовали непараметрические кри-
терии, поскольку не было подчинения нормальному распре-
делению.
Если  б это была та  же интервальная шкала, подчиняю-
щаяся нормальному распределению  – мы бы по классике ис-
пользовали параметрику и  выбрали  бы меню «Анализ» /
«Сравнение средних» / «Т-проверка независимых выборок»
с  Т-критерием Стьюдента. Кстати, если захотели  бы срав-
нивать более двух групп (выборок) не «перебирая» их – то
 
 
 
можно вместо «Т-проверка независимых выборок» выбрать
пункт «ANOVA». Эти пункты меню указаны на рис. 119.

Рис. 119. Меню для вызова параметрических тестов неза-


висимых выборок (групп)

Небольшое отступление о товарище Стьюденте, чей Т-


тест был упомянут выше… С  ним история аналогично
Льюису Кэрролу. В том смысле, что это псевдоним. Этот
человек работал на  промышленную пивоваренную компа-
нию – и там разработал тест значимости, который опуб-
ликовал под псевдонимом Стьюдент в  статистическом
журнале. Метод стал очень популярным и этот тест проч-
но вошел в жизнь под названием «Т-тест Стьюдента».

 
 
 
 
Сравнение зависимых выборок
 
В предыдущем разделе мы рассмотрели сравнение неза-
висимых выборок – когда сравниваются показатели в груп-
пах, которые состоят из разных наблюдений / объектов.
Но бывают случаи, когда по одним и тем же объектам /
наблюдениям делаются замеры ДО и ПОСЛЕ какого-то воз-
действия (прохождение обучения, прием лекарств, просмот-
ра рекламы, посещения мероприятия, эффективность нави-
гации по сайту одними и теми же пользователями до и после
редизайна и т.д.).
Измеряется та же вероятность для нулевой гипотезы H 0,
что различий до  и  после воздействия нет (т.е., показатели
в генеральной совокупности одинаковые). Только использу-
ются другие критерии.
В  разделе, где разбиралось понятие зависимой (связан-
ной, парной) и независимой выборок, приводился пример,
когда в одной из стран выбрали из разных районов неболь-
шую группу среднего менеджмента и  прогнали через про-
грамму обучения. А потом сделали замеры объема продаж,
текучки персонала и результатов оценки тайных покупате-
лей в точках, где работали эти менеджеры ДО начала обуче-
ния и ПОСЛЕ 6 месяцев.
Сейчас на файле с этими переменными и замерами (рис.
120) мы посмотрим, произошли  ли значимые изменения
 
 
 
по итогам обучения по каждой переменной.

Рис. 120. Замеры ДО и замеры ПОСЛЕ

Все эти переменные не распределены нормально по кри-


терию Колмогорова-Смирнова (уверен, все помнят, о  чем
речь). Только переменная «Тайный после» (результаты оцен-
ки методом «тайный покупатель») находится на  границе
0,05 – но это некритично, так как переменные ДО обучения
не подчиняются нормальному распределению.
Итак, нажимаем в PSPP «Анализ» / «Непараметрическая
статистика» / 2 related samples (с англ. 2 зависимые или свя-
занные выборки) – рис. 121.

 
 
 
Рис. 121. Вывод меню для непараметрических тестов зна-
чимости различий для связанных выборок

Очень внимательно поочередно переносим соответству-


ющие пары переменных в  окно «Тест пары». Для провер-
ки давайте возьмем критерий Уилкоксона и Знаковый тест
(МакНемар берется для дихотомий, это не  наш случай).
Жмем Ок. Эти действия отмечены на рис. 122.

 
 
 
Рис. 122. Настройка параметров для тестирования пере-
менных в связанных выборках

В выведенной распечатке результатов видим, что и «Ас-


симпт. значимость», и «Точные значимости (двусторонние)»
менее 0,05 (0,000) – рис. 123.

 
 
 
Рис. 123. Вывод результатов критерия Уилкоксона и зна-
кового теста для связанных выборок

Значит значения ДО и ПОСЛЕ значимо различаются. На-


блюдаемое улучшение показателей будет и в генеральной со-
вокупности.
Но на практике я ни разу не встречал, чтобы Значимость
(двусторонняя) в непараметрике расходилась с параметри-
кой. Если провести аналогичный параметрический тест для
этого массива через меню параметрических тестов «Ана-
лиз» / Сравнение средних / Т-проверка парных выборок – то
также будет подтверждено наличие значимых различий (см.
 
 
 
в выводе результатов в таблице «Проверка парных выборок»
критерий «Знач. (двустороннее)») – рис. 124.

Рис. 124. Вывод результатов параметрического теста для


связанных выборок

 
 
 
 
Анализ последовательностей
 
Отдельно упомяну последовательности – это упорядочен-
ные в пространстве или в неслучайные моменты времени на-
блюдения. Например, привязанные к датам случаи (цена ак-
ций, объемы продаж, очередь в магазин или кинотеатр, чис-
ло пользователей сайта или сервиса и т.д.).
Главное отличие анализа последовательностей от анали-
за выборок (групп) – в его базировании на предположении,
что последовательные значения в файле данных наблюдают-
ся через какие-то равные промежутки времени или разме-
щаются с какой-то последовательностью в пространстве (на-
пример, всплески волн в физике, объемов продаж, чередо-
вание пар с детьми в очереди магазина, посещение мужчи-
нами и женщинами веб-сайта и т.д.).
При ранее рассмотренных анализах выборок нам не важ-
на и не интересна привязка наблюдений ко времени или про-
странству – а при анализе последовательностей четко идет
привязка к годам, месяцам, дня, часам или даже минутам/се-
кундам, к расположению и т. д.
При анализе последовательностей в  книге сконцентри-
руемся только на  проверке гипотез о  наличии-отсут-
ствии закономерностей / трендов в последовательно-
стях. Т.е., рассмотрим, как проверить, является ли последо-
вательность случайной или в ней есть систематические по-
 
 
 
вторяемые с определенной долей вероятности значения.
Базово проверяется нулевая гипотеза (H 0), что последова-
тельность носит случайный характер. И если имеем низкую
вероятность того, что это случайность – менее 5% (0,05) –
считаем, что в последовательности есть закономерности.
Сами закономерности уже надо посмотреть с  помощью
диаграмм и  графиков, и  на  основании понимания модели
явления, которое эта последовательность отражает, опреде-
лить суть и природу закономерностей.
Например, можно проверить, что выигрышные шары в ло-
терее выпадают случайно. Запускаем метод анализа последо-
вательностей – и если вероятность этого низкая (менее 5%)
можем подымать вопрос, что таки с этой «лотерейкой» что-
то «химичат».
Давайте проведем анализ последовательности в  PSPP.
Классический самый простой пример. Есть очередь в кино-
театры в будние дни недели, а есть в те же будние дни за неде-
лю до  8  марта. И  ведется регистрация мужчин и  женщин
в очереди именно в порядке нахождения в ней.
Выглядят очереди по-разному (фактор жанра фильма вы-
несен за скобки, чтобы не усложнять) – рис. 125.

 
 
 
Рис. 125. Разные последовательности в очередях киноте-
атра

Эти данные отражены в массиве. Каждая очередь = пере-


менная. Нажимаем «Анализ» \ «Непараметрическая стати-
стика» \ «Runs» (рис. 126).

 
 
 
Рис. 126. Вывод меню для тестирования случайности по-
следовательностей

В окне анализа переносим переменные с очередями в пра-


вое поле. В  секции «Пороговое значение» обычно лучше
брать медиану, но  для дихотомий (а  у  нас пол  – дихото-
мия) с  кодом 0  и  1  указывают свои значения в  пункте
«Нестандартный», используя разделителем значение 1. На-
жимаем ОК. Эти действия отражаны на рис. 127.

 
 
 
Рис. 127. Настройка параметров для проверки последова-
тельностей на случайность

В  распечатке результатов (рис. 128) смотрим строку


«Асимпт. знач. (двустороннее)»  – там, где значение менее
0,05  (существенные отличия от  случайного порядка), там
есть закономерность.

 
 
 
Рис. 128. Вывод результатов теста случайности для после-
довательностей (в «Очередь8» есть закономерность)

В данном случае наблюдается закономерность в очереди


за неделю до 8 марта: а если внимательно посмотреть на сам
массив, то видно, что мужчины и женщины стоят в очереди
«парами».

 
 
 
 
Временные ряды
 
Частным случаем последовательностей, который надо хо-
тя  бы упомянуть, затронув тему последовательностей, по-
скольку они очень используемы в  бизнесе, являются вре-
менные ряды.
Это набор наблюдений / случаев / объектов, полученных
путем регулярного измерения одной переменной в течение
некоторого периода времени. Если проще: ну кто не любит
смотреть на график дохода или продаж с прогнозом на бу-
дущие периоды? А на рост числа пользователей сервиса или
сайта с прогнозом? (рис. 129)

Рис. 129. Простой временной ряд


 
 
 
В книге этой теме будет бегло (обзорно) посвящена только
эта глава. Но если в теме «закопаться», то получится не одна,
а несколько отдельных немаленьких книг. Поэтому если Вы
захотите углубиться в тему временных рядов – то отдельно
ищите специализированную литературу, курсы или статьи.
Под анализ временных рядов во многих статистических
программах созданы целые наборы методов.
На практике временные ряды изучают для того, чтобы по-
добрать статистическую модель, описывающую временной
ряд, и позволяющую с какой-то долей вероятности предска-
зывать будущие его значения.
Причем с точки зрения практики задача скорее не столько
точного предсказания, сколько наложения линии тренда  –
т.е., сказать, будут ли значения этого ряда увеличиваться или
уменьшаться и насколько сильно.
Аналитические методы анализа временных рядов  – это
очень специфическая область статистики, отличающаяся
как по  набору задач и  методов их решения, так и  по  кру-
гу пользователей, применяющих эти методы. В статистиче-
ских пакетах их потому часто выделяют в отдельный модуль.
Например, в  том  же «коммерческом брате» нашего PSPP
(в программе SPSS) это модуль «SPSS Trends».
Последовательности по классике разделяют на два обоб-
щенных вида:
· Тренд (когда есть четкие линии – либо вверх, либо вниз,
либо нет тренда или «стоим на месте»)
 
 
 
· Сезонность (повторяемость с определенной частотой) –
например, когда мы знаем, что всегда в определенный пери-
од будет всплеск продаж, или в  сельхоз работах основные
трудозатраты потребляются на весну-осень.
Отдельно выделю со своей колокольни такой вид тренда
как «Цикл» – когда тренд повторяется целиком с определен-
ным длинным периодом.
Все эти три обобщенных вида трендов изображены
на рис. 130.

Рис. 131. Три обобщенных вида трендов


 
 
 
И на самом деле в реальности Вы будете иметь скорее все-
го наложение нескольких видов трендов (все изображенные
на рис. 130) – например, восходящий с сезонностью и повто-
ряемый в 3 годичных циклах…
С функциональной т.з. тренды бывают линейные, степен-
ные, экспоненциальные и логарифмические.
Их можно легко построить и  проанализировать в  Excel.
Например, построив любой график, Вы можете добавить
на нем линию тренда того или иного типа на необходимое
число периодов (рис. 131).

 
 
 
Рис. 131. Интерфейс добавления линий тренда в Excel

Но важно чтобы Вы четко понимали, какому именно зако-


ну подчиняется тренд – линейное, логарифмическое, поли-
номинальное…? Правда, в основном все используют сколь-
зящее среднее на пару периодов или линейную зависимость
с экспоненциальным сглаживанием.
 
 
 
Специализированные продвинутые статистические про-
граммы позволяют автоматически подбирать наиболее под-
ходящие линии трендов, а также имеют сложные методы ана-
лиза, включая авторегрессии со скользящим средним и ве-
роятностные расчёты точности построенной модели, а также
диапазонов ошибки.
У меня персонально свое отношение к анализу временных
рядов. Как по мне, проще прогнозировать на базе концепту-
альных моделей и регрессии, чем искать ответы во времен-
ном ряде.
Просто с моей т.з., временной ряд может дать только ор-
ганический прогноз при условиях стабильности среды (т.е.
ничего не  меняется в  соотношении сил на  рынке  – рынок
на том же уровне зрелости, конкуренты с Вами ведут те же
активности, нет новых конкурентов или заменителей и т.д.).
Умалчивая о черных лебедях – это из Насима Талеба (кто
не читал – советую почитать его книги на досуге) – явления,
которые неожиданны и их спрогнозировать нереально, и ко-
торых все больше на все более узкие периоды времени появ-
ляются в современном мире.

 
 
 
 
Сравнение групп (выборок)
крупными мазками
 
Сравнение групп используют чтобы понять, какие меж-
ду ними есть различия, а также определить значимость этих
различий (возможность распространять на генеральную со-
вокупность).
Группы (выборки), между которыми ищут различия, бы-
вают:
· независимыми  – когда разные объекты / наблюдения /
случаи сравниваются между собой (например, мужчины
и женщины; сотрудники разных отделов, избиратели из раз-
ных городов и т.д.)
· связанными (парными, зависимыми) – когда одни и те же
объекты / наблюдения / случаи сравниваются ДО и ПОСЛЕ
какого-то воздействия (до и после тренинга, до и после про-
смотра рекламы, до и после приема лекарства и т.д.).
Для сравнения выборок используются либо параметриче-
ские, либо непараметрические критерии.
Если переменная измерена в  интервальной шкале, нор-
мально распределена и  случаев / наблюдений / объектов
много – используют параметрические критерии (Т-критерий
Стьюдента).
Если переменные имеют другие шкалы или измерены
в  «ненормально» распределённой интервальной шкале  –
 
 
 
то используют непараметрические критерии (Вилкоксона,
медианные и  знаковые тесты). Рекомендуется проверять
по нескольким непараметрическим критериям. Обычно, ес-
ли по какому-то из них показывает значимые различия, то
и по другим их также покажет. Но бывают нюансы: напри-
мер, в ранговых критериях, когда встречается большое коли-
чество одинаковых значений – и они попадают в один ранг.
Различия между группами считаются значимыми, если
вероятность ошибки (то, что показывает значимость и обо-
значается «Значимость» или «Ассимпт. знач.») менее 0,05.
Отдельно можно анализировать последовательности (те-
стируется последовательность случайна или в ней есть некая
закономерность) и временные ряды (для начинающих лучше
использовать Excel).

 
 
 
 
Закрепляющий кейс
на сравнение групп (выборок)
 
Озвученную ситуацию прошу считать моей выдумкой,
а все совпадения с реальностью случайными.
Одна леди исследовала влияние агрессивно-кровавых ви-
дов спорта на формирование агрессивности. Долго опреде-
лялась, как и где провести (то бокс, то другие бои присмат-
ривала).
Нашла вариант: конно-спортивный комплекс в черте ме-
гаполиса. Взяла группу тех, кто 3 года приходят заниматься
конным спортом, и тех, кто 3 года занимаются охотой.
Она целилась в поиск различия между группой конников
и охотников по «Агрессивности» (использовала психологи-
ческие тесты). Это сравнение должно было доказать влияние
кровавого спорта на уровень агрессивности.
Следуя классике, после сбора данных она проверила их
на соответствие нормальному распределению. Потом нашла
различия между этими независимыми группами (выборка-
ми), использовав и  непараметрические критерии, и  свод-
ные таблицы (таблицы сопряженности) с критерием Хи². Все
тесты показали статистически значимые различия (уровень
значимости <0, 05).
Но когда она представила выводы и расчёты в качестве до-
казательства влияния более кровавых видов спорта на фор-
 
 
 
мирование агрессивности подкованной в аналитике публи-
ке – ее доводы были разбиты «в пух и прах».
Не читая далее, подумайте в чем была промашка этой ле-
ди?

Многие начинают искать ответ в неправильно подобран-


ных методах – но его там нет, все методы были подобраны
правильно.
Ее промах не касался методов сравнения групп. Он ка-
сался модели исследуемого явления и планирования
исследования на базе модели.
На  самом деле влияние охоты на  уровень агрессивно-
сти это сравнение никак не доказывает. Таким исследовани-
ем просто констатируется факт о значимой разнице между
группами конников и охотников.
Если посмотреть всю модель реальности, то скорее напра-
шивается вывод, что люди с высоким уровнем агрессии вы-
бирают более кровавые виды спорта. Поэтому и в группах
есть различия – охота, как вид спорта, изначально выбира-
ется людьми с более высоким уровнем агрессивности.
Чтобы доказать влияние на уровне разницы между груп-
пами, в идеале нужно было бы взять связанные выборки –
одних и тех же людей, когда они только начали заниматься
охотой и через три года (рис. 132).

 
 
 
Рис. 132. Момент выбора – и через 3 года

Но это очевидно было невозможно – ждать 3 года (даже


меньше), да и не факт, что все испытуемые не сменились бы
за это время.
Поэтому в данном случае более целесообразно было бы
взять немного другие независимые выборки: тех, кто толь-
ко пришел заниматься спортивной охотой и тех, кто 3 года
уже ею занимается. И сравнить уровень агрессивности меж-
ду этими выборками (группами) – рис. 133.

 
 
 
Рис. 133. Независимые выборки: те, кто выбрал занимать-
ся охотой и те, кто несколько лет ею занимается

И в случае наличия значимых статистических различий


говорить, что уровень агрессивности тех, кто 3 года занима-
ется охотой выше, чем тех, кто только пришел ею занимать-
ся.
Этим кейсом еще раз обращается внимание, что понима-
ние реальности (в виде модели) исследуемого явления важ-
нее методов. Оно важно чтобы с одной стороны правильно
понимать цифры, а с другой – чтобы правильно планировать
замеры и отбирать данные и группы (по сути, планировать
весь наш эксперимент), которые нам нужны для получения
правильных ответов на вопросы. И дополнительно еще раз
видим, что аналитические методы не заменяют человека –
интерпретацию делает не машина и методы, а человек.
 
 
 
 
АНАЛИТИЧЕСКАЯ
СТАТИСТИКА: АНАЛИЗ
ВЗАИМОСВЯЗЕЙ ПЕРЕМЕННЫХ
 
 
Зависимые и независимые
переменные
 
Одной из важных задач аналитики является установление
зависимостей или, другими словами, взаимосвязей между
многими переменными. В этом параграфе мы разберем по-
нятие зависимых и независимых переменных.
Это один из  важнейших вопросов  – какую переменную
считать зависимой (т.е., на которую влияют), а какие неза-
висимыми (которые на нее влияют). И важно не перепутать
причину со следствием.
Вопрос причинности – в принципе отдельный ключевой
вопрос, который надо упомянуть. Особенно он важен в соци-
ально-экономической реальности, так как здесь, в отличии
от инженерно-естественных наук, больше всего процветает
подмена причин и следствий.
Наличие связи между переменными не значит причинную
обусловленность. Например, количество пожаров в  городе
 
 
 
будет очень сильно коррелировать (иметь значимые стати-
стические взаимосвязи) с  количеством выездов пожарных
машин. Но никто в здравом уме ведь не станет утверждать,
что выезд пожарной машины вызывает пожар.
А в социально-экономической реальности «исследовате-
ли» легко скажут, что игра в  «шутеры» (вид компьютер-
ных игр, в которых необходимо убивать противников) влия-
ет на уровень агрессии – и будут доказывать это утверждение
наличием статистически значимых взаимосвязей. Хотя, воз-
можно, просто более агрессивные люди любят играть в «шу-
теры»…
С  помощью аналитических методов мы можем обнару-
жить наличие (или отсутствие) определенных статистиче-
ских, а не причинно-следственных зависимостей.
Вопрос о том, какая из переменных – причина (влияет),
а какая меняется под воздействием этой причины, не может
быть решен любым статистическим методом. Это вопрос по-
нимания той модели, которую мы проверяем статистически-
ми методами.
И даже при подтверждении статистически мы все равно
не можем утверждать, что «наша модель верна», либо «наша
модель ложна»: мы можем только сказать, что данные и об-
наруженные в них взаимосвязи не противоречат (или проти-
воречат) построенной нами модели.
Т.е., взаимосвязи не являются гарантией истинности мо-
дели, так как в реальности могут быть и другие скрытые ве-
 
 
 
щи, пока недоступные нашему пониманию.
Схематически зависимость и независимость переменных
выглядит так (рис. 134):

Рис. 134. Влияние независимых переменных на  зависи-


мую

Но на самом деле это очень упрощенная картина, посколь-


ку между независимыми переменными также могут быть свя-
зи друг с другом.
Но чтобы не запутать читателей с «зависимость-независи-
мость» и не вдаваться в философские дебри, считайте зави-
симой переменную, которую Вы изучаете в Вашем анализе,
а независимыми – все остальные переменные, которые Вы
 
 
 
считаете на нее влияют.
Если посмотреть глазами ученого-экспериментатора в ла-
боратории – то зависимой переменной (допустим, жизнен-
ные показатели клетки) мы не управляем, а просто регистри-
руем изменение ее параметров, а независимыми (радиация,
окружающая среда, поступающие в клетку вещества и т.д.) –
управляем и меняем их параметры, чтобы увидеть, какие из-
менения претерпевает зависимая переменная (клетка).
Например, если мы пытаемся понять какие факторы вли-
яют на выбор потребителями товаров, то сам выбор (т.е., вы-
бор как поведение потребителя) будем считать зависимой,
а параметры товара (упаковка, цена, цвет, местоположение
и т.д.) – независимыми.
Или если говорить об обучении: усвоение навыков можем
считать зависимой переменной, а объем подаваемой инфор-
мации и методы обучения – независимыми.

 
 
 
 
Статистические взаимосвязи
 
Чуть поговорим детальнее о  взаимосвязях. Социаль-
но-экономические явления складываются под множеством
переменных, которые действуют одновременно и еще в при-
дачу могут иметь взаимосвязи друг с другом.
И  эти взаимосвязи носят не  жестко предопределенный
функциональный характер, когда изменениям одного па-
раметра жестко соответствуют значение другого парамет-
ра (например, кинул предмет в земных условиях – он упал
с определенной скоростью в зависимости от массы и нанес
определенный урон).
Они носят именно статистический характер  – когда ка-
кому-то конкретному значению переменной может соответ-
ствовать какой-то набор или диапазон значений другой пе-
ременной с определенной вероятностью. Т.е., не одно кон-
кретное значение.
И более того, повторяемость изменения одной перемен-
ной в  связи с  изменением другой с  достаточной степенью
вероятности, нередко будет наблюдаться только если не из-
менились (или изменились незначительно) базовые условия
(среда наблюдения). А  в  социально-экономических дисци-
плинах (в отличии от естественных наук) изменение внеш-
ней и внутренней среды (рынка, компании и т.д.) – достаточ-
но часто встречаемое явление.
 
 
 
С точки зрения статистики «взаимосвязь» – это степень
зависимости переменных, которую можно измерить в  раз-
ных коэффициентах. Чем выше этот коэффициент  – тем
сильнее взаимосвязь. И важный вопрос – насколько сильна
каждая взаимосвязь зависимой переменной с каждой неза-
висимой переменной (рис. 135).

Рис. 135. Важна сила взаимосвязей

Только всегда помните, что на взаимосвязи еще постоян-


но накладывается воздействие случайных факторов и веро-
ятности.
И повторю, что нельзя путать статистические взаимосвя-
 
 
 
зи с причинно-следственными. Вопрос о том, какая из пере-
менных причина (влияет), а какая меняется под воздействи-
ем этой причины, не может быть решен никаким статистиче-
ским методом. Это вопрос понимания той модели, которую
мы методами проверяем.
При поисковых исследованиях (когда нет модели, мы по-
стигаем неизведанное) любой исследователь Вам скажет, что
большой проблемой для поиска истины являются ложные
взаимосвязи или корреляции – когда, к примеру, взаимосвя-
зи между двумя переменными не существует, но у обеих есть
связь с третьей переменной, которая влияет на них.
Например, взяв официальные статданные в какой-то стра-
не, исследователь обнаружил, что доступность высшего об-
разования коррелирует с продолжительностью жизни ( рис.
136). Так получается высшее образование увеличивает про-
должительность жизни? Или длительность жизни определя-
ет возможность получить высшее образование?

 
 
 
Рис. 136. Корреляция высшего образования и длительно-
сти жизни

Нет. Просто на обе эти переменные влияет другая пере-


менная  – уровень жизни в  стране, от  которого зависят
 
 
 
и доступ к образованию, и доступность качественной меди-
цины, и продуктов питания. А от них уже и продолжитель-
ность жизни (рис. 137).

Рис. 137. Пример ложной взаимосвязи (корреляции)

О ложных корреляциях мы поговорим в книге чуть позже.

 
 
 
 
Еще раз о значимости
статистических взаимосвязей
 
Коэффициенты зависимости или взаимосвязи легко по-
нять и измерить, но вот о статистической значимости , от-
ражающей насколько надежны обнаруженные закономерно-
сти – не лишним будет повторить. В книге о значимости по-
вторяется четвертый и последний раз – под другим ракур-
сом, но все вокруг одного и того же. И делается это с глубо-
кой надеждой, что даже читатели-новички в аналитике этот
момент уловили и поняли.
Крайне важно не  просто найти взаимосвязи в  одной
конкретной выборке, а  понять, насколько вероятно, что
взаимосвязь будет воспроизводиться (повторяться) на дан-
ных любой другой репрезентативной выборки, извлеченной
из той же самой генеральной совокупности.
Другими словами, понять, можно ли говорить о том, что
эта взаимосвязь есть во  всей генеральной совокупности,
а не просто является нелепой случайностью нашей выборки.
Ведь редко задача сводится к изучению конкретной вы-
борки: обычно интересует не выборка, а именно генераль-
ная совокупность, из которой выборка извлечена. Выборка
просто дает информацию об этой генеральной совокупности
(конечно, при условии, что выборка является репрезентатив-
ной).
 
 
 
Статистическая значимость  – это вероятность ошибки,
связанной с  распространением найденной закономерности
на всю генеральную совокупность. Именно ошибки принять,
что закономерность имеет место в генеральной совокупно-
сти, хотя ее в ней не существует.
Вы ведь помните, что в статистике более страшной ошиб-
кой является применить к генеральной совокупности зако-
номерности или различия, которых в ней реально не суще-
ствует. Не распространить на генеральную совокупность ре-
ально существующую закономерность или отличие – это ме-
нее страшная ошибка.
Общепринято допустимо приемлемым считается доста-
точно низкий уровень: ниже 0,05 (т.е., когда вероятность то-
го, что зависимости в  генеральной совокупности не  суще-
ствует составляет меньше 5%). Запомните – МЕНЕЕ 0,05.

 
 
 
 
Корреляции
 
Корреляция  – показатель взаимной изменчивости пере-
менных. Интерпретируют ее как взаимосвязь между пере-
менными, при которой изменение одной переменной ведет
к изменению второй.
Измеряется сила связи между переменными коэффициен-
том корреляции, который лежит в диапазоне от -1 до 1 (рис.
138).

Рис. 138. Значения коэффициента корреляции

 
 
 
Чем ближе коэффициент корреляции к нулю – тем связь
слабее, чем ближе к любому из полюсов единицы – тем силь-
нее (±1 означает максимальную однозначную взаимосвязь).
Минус – говорит, что связь обратная (т.е., если одна пере-
менная станет больше – то другая меньше). Например, чем
выше нормы будет уровень сахара в крови, тем хуже будет
самочувствие (рис. 139).

Рис. 139. Демонстрация обратной взаимосвязи

Плюс говорит, что связь прямая – чем выше одна пере-


менная, тем выше будет другая. Например, чем больше кли-
енты довольны сервисным обслуживанием, тем выше уро-
 
 
 
вень их лояльности к бренду – и наоборот (рис. 140).

Рис. 140. Демонстрация прямой взаимосвязи

Обозначаются корреляции английской буквой r. Эти вот


корреляции можно представить графиками, именуемыми
«диаграммой рассеивания» или «точечными диаграмма-
ми» (англ. – Scatterplot) – рис. 141.

 
 
 
Рис. 141. Диаграмма рассеивания (точечная диаграмма) –
визуальное представление для корреляций

Есть три в основном используемых коэффициента корре-


ляции (рис. 142):
· Пирсона – для нормально распределенных интервальных
шкал;
· Спирмена и Кэндала – для порядковых и ненормально
распределенных интервальных шкал.
В случае, когда одна из шкал дихотомическая (например,
пол) – допускается применять только коэффициент корре-
ляции Спирмена.

 
 
 
Рис. 142. Коэффициенты корреляции

На практике самые ходовые Пирсон (нормально распреде-


ленные интервальные, хотя редко кто проверяет «нормаль-
ность»  – как видят интервальную шкалу, так применяют
Пирсона) и Спирмен (все остальное, хотя многие использу-
 
 
 
ют только Пирсона всегда).

Интерпретация силы взаимосвязи, следующая (рис. 143):

Рис. 143. Интерпретация коэффициентов корреляции

В PSPP коэффициенты корреляции можно вывести при


выводе таблиц сопряженности (сводных, кросстабов).
Возьмем исследование посетителей торговой точки. У нас
есть массив с переменными «Оценка работы магазина», «Ка-
чество обслуживания» и «Широкий ассортимент».
Давайте посмотрим, как на оценку магазина влияет ши-
рота ассортимента. Заходим в меню «Анализ» / «Описатель-
ные статистики» / «Таблицы сопряженности» (рис. 144).

 
 
 
Рис. 144. Меню вывода таблиц сопряженности

В открывшемся окне переносим переменную оценки ра-


боты магазина «РаботаМаг» в строку, переменную воспри-
нимаемого разнообразия ассортимента «Ассортимент»  –
в столбец (рис. 145).

 
 
 
Рис. 145. Перенос переменных в строки и столбцы

Далее жмем кнопку «Статистика» и  выбираем корреля-


ции, а также тау-би и тау-си Кэндала. Жмем кнопку «Про-
должить» и далее ОК (рис. 146).

 
 
 
Рис. 146. Выбор коэффициентов взаимосвязи

В распечатке в таблице «Симметричные шкалы» мы по-


лучили коэффициенты корреляции (рис. 147). Причем, за-
метьте, в  таблице сразу указано, к  каким переменным ре-
левантны те или иные коэффициенты корреляции. У  нас,
по сути, порядковая к порядковой (или категориальная к ка-
тегориальной), но можем и Пирсона также глянуть (так как
в данном примере замеры переменных были сделаны «псев-
до-интервалом» по типу шкалы Лайкерта).
 
 
 
Рис. 147. Вывод коэффициентов корреляции

Видим по  коэффициенту, что корреляция обрат-


ная, но  слабая (-0,17  по  Спирмену; -0,12  по  Кэндалу
и -0,2 по Пирсону). Потому можем считать, что оценка ра-
боты торговой точки не связана с воспринимаемой посети-
телями широтой ассортимента товаров в этой точке.
Еще в PSPP для расчета корреляции Пирсона (интерваль-
ные, нормально распределенные шкалы) есть еще отдельное
меню: «Анализ» / «Двумерная корреляция» – там выводятся
те же значения, что и в таблицах сопряженности, но добав-
ляется еще уровень значимости.
Визуализировать корреляции в PSPP можно через коман-
ды Graph / Scatterplot (диаграмме рассеивания)  – перено-
сим переменные в  ОX и  ОY  – жмем ОК и  получаем гра-
фик рис. 148.

 
 
 
Рис. 148. Визуализация корреляции в PSPP – диаграмма
рассеивания

Как видите, посчитать и  проинтерпретировать корреля-


ции не составляет труда. Но вот очень важными двумя груп-
пами вопросов при рассмотрении корреляций являются
следующие:
Первая группа: вопросы причины и следствия
Что причина, а что следствие? Это из области: то ли ча-
сы компьютерных игр (шутеров-стрелялок) делают людей
агрессивными, то ли более агрессивные люди любят играть
в компьютерные игры…. Так же, как и в случае с конниками
и охотниками: охота делает людей более агрессивными или
просто агрессивные люди выбирают охоту…
Вторая группа: вопросы ложных корреляций.
Когда есть третья скрытая переменная, влияющая
 
 
 
на несколько других переменных – и выглядит как будто эти
несколько других переменных связаны между собой, хотя
связи между ними нет.
Например, когда-то в  нескольких округах зависимость
урожайности от  частоты полива и  осадков исчезла… Все
в шоке: биологи начали искать причины в адаптации расте-
ний, геологи – в изменениях русл подземных рек, уфологи –
аномалиях и еще черти-какой беллетристике… Потом ока-
залось, что там земли принадлежали одному аграрному хол-
дингу, который повсеместно начал применять препарат для
задержки воды в почве, тем самым резко снизив необходи-
мость поливов.
И таких примеров ложных корреляций огромное количе-
ство.
Классический пример с  сильной обратной корреляцией
количества лошадей и электрических опор (столбов) на ули-
цах Британии – третьей переменной был технический про-
гресс.
Или пример, когда на  одном производстве обнаружили
зависимость между длительностью плавки и браком. Долго
решали ребус, а оказалось, что качество сырья влияет: для
некачественного сырья требовалась более длительная плавка
и брака с него было больше. Т.е., длительность плавки и брак
сами по себе независимы, но связаны другой переменной.
И эти две группы вопросов (причинности и ложных корре-
ляций) еще раз доказывают важность модели, для правиль-
 
 
 
ной интерпретации и понимания взаимосвязи.
Так в чем тогда практическая польза корреляции, раз нет
никакой однозначности?
Во-первых, даже не  являясь доказательством причин-
но-следственной связи, корреляция позволяет выдвигать ги-
потезы о наличии такой связи.
Во-вторых, корреляция заставляет включить мозги и ис-
кать «скрытую причину» хорошо коррелированных пере-
менных – тот самый неизвестный скрытый фактор.
А  в-третьих, отсутствие корреляции обычно указывает
на отсутствие причинно-следственных связей.
Но, повторюсь, главная польза корреляций – при условии
наличия и понимания модели по ним можно строить сужде-
ния. К примеру, зная, что количество выездов пожарных ма-
шин (следствие пожара) увеличилось – можем с определен-
ной вероятностью (возможны  же ведь еще учения, ремонт
машин, ложные вызовы…) полагать, что увеличилось и ко-
личество пожаров (основные причины выезда пожарных ма-
шин).
Корреляционный анализ достаточно полезен в современ-
ной бизнес-практике: он позволяет проверять предположе-
ния о взаимосвязях и принимать более продуманные управ-
ленческие решения.
А с точки зрения методов аналитической статистики – то
на основе корреляционных связей по большому счету стро-
ятся более сложные методы анализа.
 
 
 
Главное помнить, что корреляции показывают линейные
связи.
Если взаимосвязи нелинейные и четко бросаются в глаза
на диаграмме рассеивания (примеры на рис. 149), то корре-
ляции вряд ли помогут.

Рис. 149. Нелинейные взаимосвязи (диаграммы рассеива-


ния)

И скажу по таким взаимосвязям: не существует простых


методов исследования нелинейных зависимостей – все суще-
 
 
 
ствующие методы требуют наличия у исследователя большо-
го практического опыта работы с такими данными.

 
 
 
 
Практический кейс: корреляции
и работа с выбросами
 
В предыдущей главе о корреляциях приводился пример
оценки работы магазина и широкого ассортимента. На этом
примере выводились коэффициенты корреляции в  PSPP.
В том массиве еще была переменная воспринимаемого каче-
ства обслуживания «КачОбсл».
С ней также маркетологи провели корреляционный ана-
лиз, который показал наличие слабой прямой связи (рис.
150).

Рис. 150. Коэффициент корреляции Пирсона между


оценкой работы магазина и оценкой качества обслуживания

Они получили коэффициент корреляции Пирсона (а Вы,


читатель, какой коэффициент предпочли  бы в  данном
случае?) 0,29  (уровень значимости «Знач. (двустороннее)»
 
 
 
0.133 – взаимосвязь незначима, так как значение более 0.05).
Но  при просмотре диаграммы рассеивания (ScatterPlot)
был обнаружен странный выброс (рис. 151) – в левом верх-
нем углу точка (-5; 10).

Рис. 151. Наличие в массиве данных выброса

Значение «-5» вообще не предполагалось в оценке: шкала


начиналась с 1…
Два варианта природы этого выброса:
· Ошибка ввода оператором, «переносящим» данные с бу-
мажной анкеты в электронный массив
· Клиент был настолько недоволен, что ему не хватило зна-
чения 1 – и он поставил свою оценку (-5).
 
 
 
В  таких случаях нужно поднять анкету и  проверить,
не ошибся ли оператор – если ошибся, то исправить значе-
ние в массиве.
Если оператор не ошибся, то по характеру ответов кли-
ента на другие вопросы попытаться понять: это выражение
недовольства (тогда просто перекодировать в минимальное
значение 1) или непонятно что (тогда принимать решение
удалять ли целиком случай / клиента или убрать только его
оценку по этой переменной в массиве).
В данном случае клиент просто отмечал оценки в анке-
тах, а потому не мог написать (-5) – подняли анкету, а там
вообще значение 7… Явная ошибка ввода оператором (при-
шлось за этим оператором и другие анкеты проверить для
подстраховки – но все было введено нормально, т.е. ошибка
была просто случайностью).
Нашли значение (-5) в массиве (рис.152) и заменили его
вручную на 7.

 
 
 
Рис. 152. Выброс в массиве

После повторного пересчета коэффициента корреляции


взаимосвязь стала сильной (0,81) и  значимой (0,000)  –
рис. 153.

 
 
 
Рис. 153. Коэффициент корреляции Пирсона после
«чистки» массива (корректировки выброса)

Этим кейсом демонстрируется, насколько сильное влия-


ние на корреляции (да и любые линейные взаимосвязи) мо-
гут оказывать выбросы: в нашем случае вместо слабой незна-
чимой 0,29 корреляция стала сильной значимой 0,81. И чем
меньше выборка, тем большее влияние выбросы оказывают
на нее.

 
 
 
 
Регрессия
 
Одновременно с  корреляцией начала использоваться
и регрессия. По своей сути регрессия и корреляция – можно
сказать форпост всей текущей стадии развития прогности-
ческой аналитики.
Корреляция и регрессия тесно связаны. Обе служат для
определения наличия или отсутствия связи между перемен-
ными.
Но  если расчёт  корреляции  характеризует силу связи
между двумя переменными, то регрессионный анализ дает
возможность для прогнозирования значения одной (зависи-
мой) переменной, отталкиваясь от значения другой/их (неза-
висимой) переменной/ых.
Уравнение регрессии описывает числовое соотношение
между величинами в виде конкретной формулы. Это очень
важно для задач прогнозирования.
Не будем вдаваться в длинные объяснения как в корреля-
ции – перейдем сразу к практике. Так будет понятнее.
Например, мы предполагаем, что воспринимаемое клиен-
тами качество обслуживания и широта ассортимента снизят-
ся ввиду оптимизации и перестроения системы обслужива-
ния и новой ассортиментной политики. И хотим спрогнози-
ровать, какое будет значение лояльности клиентов (именно
цифровое), если воспринимаемое качество сервиса и ассор-
 
 
 
тимент понизятся.
Берем массив с переменными, полученный по итогам ис-
следования клиентов (опрос). Нажимаем в PSPP «Анализ» /
«Регрессия линейная» (рис. 154).

Рис. 154. Меню для вывода линейной регрессии

В  зависимые переменные ставим лояльность, в  незави-


симые (влияющие)  – качество сервиса и  ассортимент (как
их воспринимают сейчас клиенты). Эти действия отражены
на рис. 155.

 
 
 
Рис. 155. Определение зависимых и  независимых пере-
менных для регрессионного уравнения

Отмечаем, чтобы сохранились прогнозные значения


по  каждому клиенту (кнопка «Сохранить», галочка «Про-
гнозные значения» и кнопка «Продолжить») прямо в масси-
ве. Нажимаем ОК. Рис. 156.

 
 
 
Рис. 156. Сохранение прогнозных значений в массив

Смотрим распечатку результатов регрессионного анализа


(рис. 157).

Рис. 157. Вывод результатов регрессионного анализа

R квадрат  – это параметр качества модели, меряется


от 0 до 1. 74% (0,74) – хорошее качество.
 
 
 
Далее смотрим таблицу «Коэффициенты (Лояльность)»
с коэффициентом B. По сути коэффициент В – это вес каж-
дого фактора (независимой переменной) в модели. Умножив
вес на  значение независимой переменной, просуммировав
их и добавив константу – мы получим прогнозное значение
лояльности.
Отбираем те переменные, по  которым «Знач.» менее
0,05 (вероятность того, что переменная не влияет и соответ-
ственно ее вес в  уравнении стремится к  0). В  нашем слу-
чае все переменные имеют статистическую значимость ме-
нее 0,05.
Теперь у нас есть формула – регрессионное уравнение (за-
писана красным фломастером на рис. 157). По ней мы зака-
зали сохранить автоматически расчетное значение по каж-
дому клиенту (когда нажимали кнопку «Сохранить») – оно
в конце массива добавлено отдельной переменной.
Но главное то, что по этой формуле мы теперь можем
прогнозировать, как изменится лояльность клиентов при
падении, к примеру, восприятия качества сервиса и ассор-
тимента на  1  балл. Подставляем в  формулу уменьшенные
на 1 балл средние значения восприятия сервиса и ассорти-
мента – и можем посчитать как изменится лояльность ( рис.
158).

 
 
 
Рис. 158. Прогноз уровня лояльности при падении вос-
приятия сервиса и ассортимента на 1 балл

Причем можем это сделать как в целом, так и по каждому


клиенту.
Ничего сложного, как видите. Главное помнить, что
на любые линейные связи очень сильно влияют вы-
бросы. И  линейная регрессия не  исключение (пример
на рис. 159).

Рис. 159. Влияние выброса на регрессию


 
 
 
Поэтому анализ выбросов важен: может они случайная
ошибка, может человеческих рук дело (ошибки ввода, как
мы видели в случае с корреляциями), а может и что-то ин-
тересное вплоть до научного открытия…
Нами была рассмотрена линейная регрессия, которая ра-
ботает с интервальными шкалами: PSPP пока позволяет рас-
считывать только ее. Но есть еще порядковая и нелинейная
регрессии – в пакете SPSS они реализованы и, думаю, в ско-
ром будущем появятся и в PSPP. Логика работы с ними ана-
логична линейной регрессии – все построено на понятии за-
висимая и независимые переменная.
В меню «Регрессия» PSPP Вы еще увидели бинарную ло-
гистическую регрессию – она похожа по сути, но я ее отношу
к методам прогнозной классификации. Она решает, к при-
меру, такие задачи как отнесение наблюдения / случая / объ-
екта к какой-то группе (предсказать пол, купит-не купит то-
вар, вернет / не вернет кредит, проголосует / не проголосует
за партию и т.д.). Но эти вопросы мы рассмотрим в последу-
ющем разделе в задачах классификации.
А пока в следующих главах по части поиска скрытых вза-
имосвязей поговорим еще о снижении размерности (фактор-
ный анализ) и надежности-согласованности.

 
 
 
 
Факторный анализ
 
Мы рассмотрели корреляции и  регрессии. На  базе вза-
имосвязей между переменными разработаны еще методы
«уменьшения размерности» – снижения числа переменных
для более компактного понимания структуры массива дан-
ных.
Нередко данные бывают представлены в  виде просто
«тонны» (десятки, сотни, тысячи…) переменных и  цифр
(рис. 160).

 
 
 
Рис. 160. Массив с огромным количеством переменных

Естественно, между всеми переменными существуют вза-


имосвязи разной силы и направленности (рис. 161).

 
 
 
Рис. 161. Взаимосвязи между переменными

И  во  всем этом многообразии нужно изучить структу-


ру показателей и выявить что же они собой представляют.
 
 
 
Также такое изучение полезно, когда Вы собрали данные
(или Вам попал в руки массив) в конкретной области и те-
ме  – но  у  Вас в  нем несколько десятков, сотен или тысяч
переменных, которые надо бы как-то сгруппировать в более
крупные блоки на основании их взаимосвязей друг с другом.
А когда мы говорим о психологических или социологиче-
ских исследованиях, то для изучения того, что у людей в го-
ловах с чем «связывается», без поиска укрупненных блоков
не обойтись в принципе.
И тогда в помощь приходит факторный анализ: он все пе-
ременные, сильно коррелирующие между собой, объединяет
в единый фактор (рис. 162).

 
 
 
Рис. 162. Объединение переменных в «факторы» на осно-
ве взаимосвязей между ними

И  считается, что за  каждым таким крупным комплекс-


ным фактором (узлом переменных) находится некая общая
 
 
 
скрытая переменная, которая может объяснить все вошед-
шие в фактор переменные (рис. 163).

Рис. 163. Фактор как скрытая переменная, объясняющая


все остальные вошедшие в него переменные

Переменные из разных факторов слабо коррелируют меж-


ду собой, а  потому полученные на  выходе факторы также
не имеют между собой значимых корреляций.
В общем, можете считать факторный анализ своего рода
классификацией всех Ваших переменных по более крупным
группам-факторам на основании взаимосвязей между ними.
Теперь посмотрим, как работает факторный анализ
 
 
 
на массиве исследования персонала в одном из крупных бан-
ков.
В  ходе исследования опросили более 6000  сотрудников
о  работе в  банке  – от  условий труда, морального климата
и удовлетворенности зарплатой – и до престижа компании,
веры в нее и карьерного роста в ней.
В PSPP для проведения анализа используем меню «Ана-
лиз» / «Factor Analysis» (рис. 164).

Рис. 164. Меню вывода факторного анализа

В появившемся окне переносим все переменные (за ис-


ключением номинальных, они не могут применяться в фак-
торном анализе) в поле «Переменные» – рис. 165.
 
 
 
Рис. 165. Выбор переменных для факторного анализа: пе-
ренос в поле «Переменные»

Кнопка «Вращение» – по ней установлены наиболее хо-


довые настройки по умолчанию (метод вращения Варимакс,
развернутое решение и максимум 25 итераций до сходимо-
сти) – рис. 166.

 
 
 
Рис. 166. Параметры вращения – рекомендуется исполь-
зовать установки по умолчанию

Забивать голову «матстатистическими» объяснениями


каждого пункта не  буду (да и  менеджерам и  гуманитари-
ям они не  нужны для практической работы): именно эти
настройки я рекомендую использовать, особенно тем, кто
только начинает пользоваться этим методом. Просто зайди-
те и убедитесь, что они установлены.
Кнопка «Извлечение» позволяет указать параметры из-
влечения факторов из массива (рис. 167).

 
 
 
Рис. 167. Настройка параметров извлечения факторов
из массива данных

В качестве метода оставляем метод главных компонент –


опция «Анализ основных компонент» в поле «Метод». Для
анализа укажем матрицу корреляций. А  в  поле «Извлечь»
можем или оставить все на откуп программе (создать факто-
ры с собственными значениями более 1), или указать сколь-
ко факторов попробовать найти.
Я предпочитаю оставлять все на откуп программе, кроме
случаев, когда есть конкретные цели по уменьшению коли-
чества или конкретному числу факторов. В качестве приме-
ра поставлено значение 1,2. Жмем «Продолжить» и ОК.
 
 
 
Теперь мы получили распечатку результатов факторного
анализа. В ней практический интерес представляют  2 таб-
лицы: «Распределение совокупной дисперсии» и «Обернута
матрица компонентов».
Таблица «Распределение совокупной дисперсии»  по-
казывает какой % дисперсии объяснено найденными факто-
рами (рис. 168).

Рис. 168. Количество выделенных факторов и часть объ-


ясняемой ими дисперсии

Конкретного правила нет, но чем больше % дисперсии –


тем лучше. Хотя многие исследователи выводят свои прави-
ла (чаще всего берут то число факторов, пока «прирастают»
максимальные %), я в каждом случае смотрю индивидуаль-
но.
 
 
 
В правой части таблицы мы видим, какое число факторов
рекомендует программа и какой % дисперсии они объясня-
ют (это, по сути, качество модели).
Если объясненная часть дисперсии нас не устраивает, мы
можем при необходимости вернуться в  меню факторного
анализа и по кнопке «Извлечение» понизить параметр «Зна-
чение превышающее чем в…» или задать большее количе-
ство факторов вручную в параметре «Номера факторов».
Например, понизив значение до 1 – мы получим 5 фак-
торов вместо 4. И  с  их помощью будет объясняться 58%
дисперсии. Стоит ли +5% к качеству полученного усложне-
ния размерности в виде дополнительного фактора? А ответ
на этот вопрос уже зависит от понимания Вами исследуемо-
го объекта / реальности и преследуемых целей.
Далее смотрим  «Обернутую матрицу компонен-
тов» (рис. 169).

 
 
 
Рис. 169. Факторы и вошедшие в них переменные

Начинается самая интересная и творческая часть фактор-


ного анализа – надо объяснить и проинтерпретировать полу-
ченные факторы.
Для этого в каждом факторе необходимо отметить пере-
менные с максимальными нагрузками. Рекомендация – от-
метьте все что 0,5 и выше. И прочитав переменные, вошед-
шие в каждый фактор, дайте общее название, которое бы их
все объединяло.
Например, в  нашем случае видим, что карьерный рост,
содержание работы и  профессиональное развитие (отме-
ченные зеленым маркером вопросы 3.5; 3.6; 4; 5; 6; 8;
10 и 12 на рис. 169) объединились в один фактор – назовем
 
 
 
его «Возможности развития». Кстати, это редкая ситуация –
она проявилась конкретно в этом банке как результат того,
как система управления отражается в головах у сотрудников.
Для них это единый фактор.
Далее аналогично смотрим, размышляем и  называем
остальные факторы (выделены другими цветами маркера
на  рис. 169)  – «Эмоциональная привязанность», «Коллек-
тив» и «Условия работы».

Итак, мы увидели, как с  помощью факторного анали-


за большое число переменных можно свести к  намного
меньшему количеству факторов. На момент написания кни-
ги PSPP не сохраняет значения факторов непосредственно
в массиве данных – но, думаю, такая возможность должна
скоро добавиться.
К примеру, в SPSS можно сохранить значения факторов
в массиве и использовать их в регрессионном анализе – по-
смотреть, например, как каждый из факторов (в виде неза-
висимой переменной) влияет на мотивацию персонала (как
зависимую переменную). И отсюда прогнозировать как из-
менится уровень мотивации сотрудников при воздействии
на тот или иной фактор.

 
 
 
 
Анализ надежности-согласованности
 
Еще анализ надежности-согласованности называют ана-
лизом пригодности. Этот анализ также базируется на взаи-
мосвязях между переменными.
Его главная задача  – определить коэффициент согласо-
ванности между какими-то несколькими переменными, что
может свидетельствовать о  том, что за  этой группой пере-
менных стоит нечто общее, какой-то единый фактор (рис.
170).

 
 
 
Рис. 170. Главный вопрос, на который отвечает анализ на-
дежности-согласованности

Инженерно-техническими специальностями этот анализ


применяется редко. Чаще всего этот метод используется при
 
 
 
разработке тестов и опросов, измеряющих какие-то свойства
личности, потребителя, сотрудника и т. д. Потому анализ на-
дежности-согласованности широко используется политоло-
гами, психологами, социологами, специалистами по образо-
ванию, маркетологами и т. д. По нему они подбирают вопро-
сы к тестам, заданиям или опросам, в которых меряется ка-
кая-то переменная-индекс (отношение к партии или канди-
дату в президенты, лояльность клиента, мотивация сотруд-
ника и т.д.).
Маркетологи часто применяют его в  маркетинговых ис-
следованиях: сначала используют  фокус-группы  для того,
чтобы осветить столь много аспектов, сколь это возмож-
но – а потом просят выборку клиентов оценить эти вопросы.
И далее смотрят (наряду с факторным анализом по всем пе-
ременным) надежность-согласованность между вопросами,
по которым меряются какие-то суммарные индексы.
Самым популярным коэффициентом, измеряющим на-
дежность-согласованность, является альфа Кронбаха
(рис. 171).

 
 
 
Рис. 171. Коэффициент надежности-согласованности
«альфа Кронбаха»

Сначала коэффициент альфа Кронбаха рассчитывается


для всех переменных, которые мы предполагаем меряют что-
то общее. А потом рассчитывается его значение при  удале-
 
 
 
нии из перечня каждой переменной. И те переменные, при
удалении которых коэффициент альфа Кронбаха увеличива-
ется, убирают из шкалы (или переформулируют задания-во-
просы, или заменяют другими).
Небольшой объясняющий кейс из  практики. Мне
этот коэффициент помог в  практике при разработке шка-
лы для измерения лояльности и мотивации, еще когда впер-
вые задался этим вопросом в 2003 году. Тогда в рамках про-
екта требовалось решить конкретный прикладной вопрос
для телеком-оператора (сумасшедшая текучесть персонала
огроменного Контакт-Центра), а все методики меряли толь-
ко удовлетворенность.
По мотивации за основу была взята модель В. Врума: она
непопулярная (тогда в моде вообще был Герцберг и кроме
него ничего ни одна HR служба назвать не могла), зато обла-
дала всеми признаками нормальной модели (позволяла опи-
сать, измерить и прогнозировать мотивацию).
По лояльности разработана собственная модель – по боль-
шому счету мое теоретическое представление. Набросав по-
сле долгих размышлений на листе от руки модель, я собрал
проектную команду – и мы под эту модель набросали набор
вопросов, которыми предполагали можно ее измерить (т.е.,
с нашей точки зрения эти вопросы чисто на очевидном уров-
не должны были мерять лояльность).
Написать вопросы – это исключительно творческий про-
цесс: было создано максимально много вопросов, которыми,
 
 
 
как мне и проектной группе виделось, можно померить ло-
яльность исходя из модели.
После опроса группы сотрудников ИТ подразделения
(не Контакт-Центра, чтобы окончательно не распугать теле-
фонных операторов) сначала сравнили группу тех, кому при-
ходилось отказывать в предложении о работе от других ра-
ботодателей на  условиях не  хуже чем в  компании, и  груп-
пу тех кто сказал, что если бы ему поступило предложение
не хуже чем в компании – он бы принял его не задумываясь.
Шкала для измерения лояльности четко различила (дискри-
минировала) обе группы – мы получили значимые различия
между группой лояльных и нелояльных сотрудников.
А  в  дополнение к  сравнениям групп потенциально ло-
яльных-нелояльных сотрудников ИТ-департамента, после
опроса уже персонала Контакт-Центра проверили надеж-
ность-согласованность шкалы, дабы убедиться, что она ме-
ряет что-то общее. И коэффициент альфа Кронбаха показал
высокую надежность шкалы.
Как cделать анализ надежности-согласованности
в PSPP.
Посмотрим на массиве этого же Контакт-Центра, но уже
через 4 года.
Заходим в меню «Анализ» / «Достоверность» (так в PSPP
переведен анализ пригодности или надежности-согласован-
ности) – рис. 172.

 
 
 
Рис. 172. Меню вывода анализа надежности-согласован-
ности

Переносим все переменные в список переменных (в книге


по дидактическим соображениям присутствуют только неко-
торые переменные из шкалы лояльности плюс несколько со-
вершенно «левых» переменных: чтобы читатели увидели,
как это работает).
Отмечаем галочкой «Показать описательные статистики
для шкалы, если элемент удален». Жмем ОК. Эти действия
отмечены на рис. 173.
 
 
 
Рис. 173. Настройка параметров вывода результатов
анализа надежности-согласованности (коэффициент альфа
Кронбаха)

Нам вывело распечатку результатов анализа.


Во  второй таблице «Статистика годности» видим коэф-
фициент альфа Кронбаха (рис. 174).

Рис. 174. Таблица «Статистика годности» с коэффициен-


том альфа Кронбаха
 
 
 
Рекомендовано стремиться чтобы он был минимум
0,7 (его максимум = 1).
В третьей (последней) таблице «Общая статистика» смот-
рим в последний столбец «альфа Кронбаха если пункт уда-
лен» (рис. 175).

Рис. 175. Поиск пунктов, занижающих альфа- Кронбаха

Видим, что напротив некоторых переменных стоит значе-


ние альфа Кронбаха выше, чем 0,63 – это значение, на кото-
рое вырастет коэффициент альфа Кронбаха, если эти пере-
менные убрать из набора для измерения лояльности (и, со-
ответственно, шкала станет мерять ее более точно).
Повторив процедуру, убрав две переменные, занизившие
альфа Кронбаха – мы получим шкалу с высокой надежно-
стью и точностью (альфа Кронбаха станет = 0,77!) меря-
ющую что-то одно (в данном случае лояльность).
В общем с аналитической точки зрения процедура проста:
 
 
 
1. Смотрим альфа Кронбаха по набору переменных
2. Смотрим есть  ли переменные, занижающие альфа
Кронбаха
3. Убираем эти переменные – и получаем надежную со-
гласованную шкалу для измерения чего-то общего.
А  вот проблематика изначального отбора переменных /
вопросов для шкалы – это уже вопрос модели как концепту-
ального представления явления / объекта, которые мы пыта-
емся измерить этой шкалой.
Благодаря этому методу я сам разработал четыре полно-
ценные диагностические методики. Пользуюсь ими в проек-
тах уже более 10 лет и доволен их эффективностью.

 
 
 
 
Итоги поиска скрытых
взаимосвязей между переменными
 
Подведем итоги поиска взаимосвязей между переменны-
ми. Итак, в этом разделе мы:
1. Разобрали что такое зависимые (на которую влияют,
которую изучают) и  независимые (те по которым меняют
параметры, чтобы понять, как меняется зависимая) пере-
менные.
2. Поняли, что статистические связи не означают на-
личие причинно-следственной связи. Причинно-след-
ственные связи могут быть объяснены только в рамках моде-
ли. А понимание модели в социально-экономических дисци-
плинах на порядок важнее, чем в естественно-технических,
где действуют жестко предопределенные законы.
3. Вспомнили, что значимыми считаются взаимосвязи,
по которым вероятность ошибки (то, что показывает значи-
мость и обозначается «Значимость» или «Ассимпт. знач.»)
менее 5% (0,05).
4. Изучили корреляционный и регрессионный мето-
ды анализа как оплот всей современной прогностической
аналитики и главные методы поиска взаимосвязей.
5. Рассмотрели еще два метода анализа, очень часто ис-
пользуемые социально-экономическими специальностями.
 
 
 
Факторный анализ, задача которого уменьшить коли-
чество переменных и найти скрытые более общие перемен-
ные.
Анализ надежности-согласованности (коэффициент
альфа Кронбаха), задача которого понять, стоит  ли за  на-
бором переменных какая-то более общая переменная и на-
сколько хорошо / точно этот набор переменных ее измеряет /
диагностирует.
6. Запомнили, что это все методы анализа линейных зако-
номерностей. И на них сильно могут влиять выбросы, осо-
бенно на малых выборках. Нелинейные закономерности
требуют другого подхода и большого соответствующего опы-
та.

Далее переходим к разделу, разбирающему задачи класси-


фикации объектов / случаев / наблюдений. Эти методы поз-
воляют по переменным предсказывать принадлежность объ-
екта к тому или иному типу / виду. И мы в книге рассмот-
рим несколько основных методов для решения этого класса
задач.

 
 
 
 
АНАЛИТИЧЕСКАЯ
СТАТИСТИКА:
КЛАССИФИКАЦИИ
 
 
Зачем это?
 
Мы с Вами прошли две главные задачи аналитики – срав-
нение групп и поиск скрытых взаимосвязей, вплотную подо-
бравшись к третьей задаче (рис. 176).

 
 
 
Рис. 176. Три главные задачи аналитики

В завершение главных задач аналитики книга рассматри-


вает задачу классификации – самая популярная задача в ана-
литике (и в новомодном названии как Машинное Обучение
или Machine Learning).
Даже не  имея опорных статистических данных, можно
смело заявить, что на сегодня классификация – пожалуй са-
мое развивающееся направление.
Задача классификации  – обратная от  поиска различий
между группами и взаимосвязей между переменными. Если
там мы работали с переменными, то здесь нужно разбить все
 
 
 
наблюдаемые объекты / случаи / наблюдения на однородные
по определённым переменным / критериям группы.
Например, классификация получающих кредит на  тех,
кто его отдаст и не отдаст; определение будет клиент пользо-
ваться услугами далее или отключится от сервиса; группи-
ровка сотрудников на тех, кто покинет компанию и тех, кто
останется работать; классификация пользователей по инте-
ресам в социальной сети; автоматическое разнесение постов
по тематикам; разделение е-мейлов на спам и не спам и т. д.
Те  же алгоритмы распознавания объектов на  фотогра-
фиях с выделенными квадратиками (вот тут два человека,
за ними машина и на заднем фоне дом) – тоже классифика-
ционные задачи. Или еще сложнее, когда гугл (google) берет
и находит по лицам на Вашем фото других людей и предла-
гает их в друзья или создать фотоальбом с ними.
Еще классификации позволяют найти отклонения от нор-
мы (выбросы) – те объекты, которые не смогли классифици-
ровать. Но это скорее вопросы качества алгоритма класси-
фикации, хотя могут быть и интересные открытия.
В  медицине, биологии и  на  биржах классификацион-
ные алгоритмы обычно уже достаточно хорошо отработаны:
и любой неклассифицируемый или сильно аномальный объ-
ект – сразу становится предметом интереса.
Для классификации используются специальные отдель-
ные методы, некоторые основные из  них мы разберем
в этом разделе с описанием реализации на практике в PSPP,
 
 
 
по остальным – обзорно пройдемся (рис. 177).

Рис. 177. Методы классификации в рамках книги

 
 
 
 
Бинарная логистическая регрессия
 
Бинарная логистическая регрессия  – наверное один
из наиболее встречаемых в бизнес-структурах методов клас-
сификации. Он достаточно прост как для реализации, так
и для понимания – этим и объясняется его популярность.
Применяется логистическая регрессия для того, чтобы
с определенной вероятностью классифицировать все объек-
ты / случаи в две категории (рис. 178).

 
 
 
Рис. 178. Визуальное представление логистической ре-
грессии: классификация только в две категории

Например, мужчина-женщина, отдаст кредит-не отдаст,


покинет компанию-останется, будет эффективно продавать
или нет, провал-успех, произойдет-не произойдет событие,
больной-здоров и т. д.
Работает она похоже на множественную линейную регрес-
 
 
 
сию, которую мы рассматривали в  задачах поиска взаимо-
связей и  предсказания (прогнозирования) значения пере-
менной. Но только задача логистической регрессии класси-
фицировать случаи в одну из двух групп с определенной ве-
роятностью, а не предсказать расчетное числовое значение
какой-то переменной на основании других переменных как,
в случае с множественной линейной.
В качестве зависимой переменной в логистической регрес-
сии выступает дихотомия, т.е. переменная, принимающая
только два значения (например, «Пол»: 1\0 или м\ж). А в ка-
честве независимых – любые другие переменные, причем из-
меренные в любой шкале.
Как этот метод работает в PSPP. Дам запоминающий-
ся случай из медицины: сколько бы более практических при-
меров не приводил ближе к менеджменту (и отток абонентов
и подписчиков, и текучесть персонала, и кредиты, и перспек-
тивность портфеля акций, и успешность проекта, и голосо-
вание на выборах…), а слушатели лучше всего улавливают
и  запоминают именно этот. И  легко его переносят на  биз-
нес-задачи.
Необходимо было спрогнозировать исход: выживет или
нет больной после проведения операции (естественно, с уче-
том вероятности).
У  нас есть массив предыдущих операций с  их исходом
(выжил (1) или погиб (0)), а также с результатами несколь-
ких анализов и регистрации времени от начала симптомов.
 
 
 
Выбираем «Анализ» / «Регрессия» / «Бинарная логисти-
ческая» (рис. 179).

Рис. 179. Меню вывода логистической регрессии

В  поле зависимых переменных переносим переменную


«Группа» (0 – погиб, 1 – выжил), в поле «Независимые» –
переносим все остальные переменные, от которых мы пола-
гаем зависит выживание. Жмем ОК – см. рис. 180.

 
 
 
Рис. 180. Указание переменных для логистической ре-
грессии

Нам выводит результаты анализа.


Первая таблица «Кодирование зависимой переменой» по-
казывает, как закодировала система значения «для себя» –
она всегда переводит их в 0 и 1 (рис. 181).

Рис. 181. Внутреннее кодирование системой: превраще-


 
 
 
ние зависимой бинарной переменной в 0 и 1

Например, если бы погиб-выжил были закодированы зна-


чениями 1 и 2, то 1 стала бы 0, 2 – 1. В нашем случае коды
и так были 1 и 0, потому никакого перекодирования не осу-
ществлялось. Но эту логику важно понимать тем, кто будет
кодировать переменную другими бинарными значениями.
Далее смотрим в  таблицу «Суммарная модель»  –
в ней находим коэффициент детерминации R² Нагелькерке
(рис.182).

Рис. 182. Таблица «Суммарная модель»: коэффициент ка-


чества полученной логистической регрессии

Этот коэффициент показывает, насколько хорошо регрес-


сия описывает случаи. Часть дисперсии, объяснимой с по-
мощью нашей логистической регрессии, в данном примере
составляет 87%. Это очень хороший результат.
Далее идет «Таблица классификации», которая показы-
вает, насколько хорошо с  помощью логистической регрес-
сии были по заданным переменным классифицированы на-
ши объекты (рис. 183).
 
 
 
Рис. 183. Таблица классификации: прогностические спо-
собности логистической регрессии для данного набора пере-
менных

Красным цветом видим количество ошибок: сколько тех,


кто выживет, алгоритм поместил в группу погибнет, и сколь-
ко тех, кто погибли, поместил в  группу выживет. И  вы-
веден общий % правильно классифицированных случаев:
в данном случае получилось 93% верно классифицирован-
ных случаев.
Далее самая важная таблица «Переменные в  уравне-
нии» (рис. 184).

Рис. 184. Коэффициенты В  и  уровни значимости пере-


менных в регрессионном уравнении
 
 
 
Тут видим уровень значимости: у  всех переменных они
менее 0,05.
В этой же таблице находятся коэффициенты В, но их при-
менение в задаче бинарной классификации немного отлича-
ется от использования в регрессии при предсказании значе-
ния переменной.
Здесь уравнение регрессии и его коэффициенты В помо-
гают рассчитать вероятность того, что конкретный па-
циент выживет или погибнет. На основании регрессионно-
го уравнения определяется вероятность выжить, поскольку
считается вероятность для большего числа – а у нас в масси-
ве значение «выжить» закодировано 1, т.е. большим числом.
Пакет SPSS позволил бы нам сразу рассчитать значение
вероятности выжить в массиве напротив каждого человека.
Но в PSPP такой опции пока нет, поэтому чуть объясню, как
ее посчитать «вручную».
Здесь все-таки ближе к концу книги немного поизго-
ляемся в математике – ее и так уже всю книгу избегали.
Поскольку у  нас только два значения (1-выжил и  0-по-
гиб), то надо ограничить рассчитанные регрессионным урав-
нением значения не выше и не ниже этого диапазона. Поэто-
му для расчета вероятности используется логит-преобразо-
вание. Но Вы не забивайте себе голову что за преобразова-
ние такое, просто формулу уловите (рис. 185).

 
 
 
Рис. 185. Расчет вероятности выжить

Как написать уравнение регрессии (Х) читатели, наде-


юсь, помнят из линейной регрессии: сумма коэффициентов
В  умноженных на  значение соответствующих переменных
с прибавлением к итоговой сумме константы.
Это будет выглядеть примерно так (рис. 186):

Рис. 186. Уравнение регрессии для определения степени


«x» при расчете вероятности выжить
А  сейчас все те, кто испугался первой
 
 
 
математической формулы в  книге и  по  привычке
избегания неудач просто пропустил ее  –
вернулись двумя рисунками назад, расслабились
и помедитировали над ней. Она на самом деле простая
и понятная.
Теперь взяв, например, этот же или новый массив с паци-
ентами со  значениями показателей мы можем по  формуле
посчитать вероятность выживания каждого.
Можно использовать Excel, в котором сделать на основа-
нии этих формул «калькулятор выживания» (рис. 187).

Рис. 187. «Калькулятор выживания» в Excel

В Excel им смогут пользоваться в регистратуре или мед-


сестры (это я частные клиники имею ввиду – не хочу нико-
го обидеть, но на сегодня в государственных учреждениях
и  с  компьютерами бывает туго, не  говоря о  компьютерной
грамотности регистратуры). Вбивают показатели – на выходе
вероятность выжить. Если менее 50% – записываем в группу
«Погибнет», если более 50% – в группу «Выживет».
 
 
 
Но это вычисление можно сделать и в PSPP – и, пользу-
ясь случаем, я приведу здесь пример вычисления новых пе-
ременных в  массиве. Вычислить новые переменные прямо
в массиве позволяет меню «Трансформировать» \ «Вычис-
лить» (рис. 188).

Рис. 188. Меню для вычисления новой переменной в мас-


сиве

Нам вывело калькулятор для вычисления переменных


(рис. 189).

 
 
 
Рис. 189. Калькулятор для вычисления новых переменных
в массиве

Сначала рассчитаем регрессионное уравнение для опре-


деления степени Х. Пишем в «Переменная для обработки»
Х, далее задаем числовое выражение уравнения регрессии
с использованием коэффициентов В. Жмем ОК – и получаем
в массиве вычисленную по регрессионному уравнению пере-
менную Х. См. рис. 190.

 
 
 
Рис. 190. Выражение (регрессионное уравнение) для
определения степени (Х) в формуле расчета вероятности вы-
живания

Теперь вычислим вероятность выживания пациентов.


Возвращаемся в  «Трансформировать» / «Вычислить». Пи-
шем в переменная для обработки Р далее задаем числовое
выражение расчета вероятности. Жмем ОК  – и  получаем
в массиве возле каждого пациента значение вероятности вы-
живания. См. рис. 191.

 
 
 
Рис. 191. Выражение для вычисления вероятности (P) вы-
живания

Вот так работает самый популярный регрессионный ме-


тод для классификации. Как Вы поняли, вместо погиб / вы-
жил у Вас может быть отдаст / не отдаст кредит, будет / не бу-
дет хорошо продавать, отключится от подписки / продлит ис-
пользование, проработает год в компании / уволится до года
и т. д.

 
 
 
 
Короткий кейс из бизнеса:
«логистика» с интернет сервисом
 
Этот кейс я обычно даю на курсах и тренингах в качестве
упражнения для слушателей. В книге его опишу и приведу
пример распечатки результатов анализа из PSPP – чтобы Вы
ее посмотрели и изучили (это особенно будет ценно для тех,
кто пытается понять и применять, а не просто прочитать для
общего развития).
Если из распечатки ничего не поняли – то просто пере-
читайте предыдущий раздел о логистической регрессии еще
раз. А усвоен Вами этот метод или нет – Вам помогут понять
три вопроса по кейсу.
Одной компанией был запущен ИТ-сервис. Всем заин-
тересовавшимся потенциальным пользователям сообщалось
о его стоимости и предлагался бесплатный пробный период
1 месяц после регистрации, включавшей заполнение неболь-
шой опросной онлайн формы.
Только часть пользователей продлевали подписку на плат-
ной основе после бесплатного периода. И вот возникла за-
дача: каждого оформившего бесплатную подписку сразу же
классифицировать как на  того, кто ее вероятно продлит
на платной основе, и того, кто не продлит.
Выгрузили массив, в  котором были как отказавшиеся
от подписки после бесплатного пробного периода пользова-
 
 
 
тели, так и те, которые перешли на платную версию. В этом
массиве содержались ответы пользователей на отдельные во-
просы анкеты, а также проведенное ими в приложении ИТ-
сервиса время.
С помощью логистической регрессии построили прогно-
стическую модель (честно скажу, получилось не  с  перво-
го раза), которая классифицировала каждого подписчика
пробного периода: она предсказывала (рассчитывала вероят-
ность) кто из них перейдет на платную версию. Распечатка
результатов анализа на рис. 192.

Рис. 192. Распечатка вывода результатов анализа методом


логистической регрессии

Найдите на распечатке ответы на следующие вопросы:


1. Качество модели?
 
(подсказка – ищите 92%)
 
 
2. Процент верно классифицированных подписчиков?
(подсказка – ищите ~95%)

3. Формула для расчета вероятности подписки?


(подсказка – см. рис. 186 в предыдущем разделе)

В  данном кейсе логистическая регрессия помогла сра-


зу же определять вероятности тех, кто скорее всего подпи-
шется.
Но, кроме этого, неподписавшихся разбили на две груп-
пы – тех, кто при запросе на платную подписку отклонил ее,
указав что «система непонятна», и остальных.
Потом методами сравнения групп, которые мы рассматри-
вали вначале аналитических задач (помните, что это за мето-
ды?), выделили тех, кому действительно система была непо-
нятна.
И  всем пользователям, вероятностно отказывающимся
из-за непонимания системы, по ходу пробного периода пред-
лагали подсказки и звонок консультанта. Конверсия (пере-
ход на  платную подписку после пробного периода) клас-
сифицированных в  группу «Система непонятна» выросла
до 75%.
Это пример как аналитика помогает бизнесу решать при-
кладные задачи и повышать эффективность с применением
нескольких методов.
 
 
 
 
ROC кривая
 
После логистической регрессии как бинарного метода
классификации как раз в тему будет упомянуть ROC-кри-
вую. Эту кривую считают методом, но  с  моей колокольни
на  сегодня по  факту ROC-кривая (аббревиатура от  англ.
Receiver Operator Characteristic) на практике в подавляющем
большинстве случаев скорее используется для представле-
ния (визуализации) результатов бинарной (дихотомической,
двоичной, да-нет) классификации в  машинном обучении.
О машинном обучении мы обзорно еще поговорим в следу-
ющем разделе.
Эта кривая показывает зависимость количества верно
классифицированных случаев / объектов от  количества
неверно классифицированных случаев / объектов (рис. 193).

 
 
 
Рис. 193. Схематическое представление ROC-кривой

Для идеального классификатора график ROC-кривой


проходит через верхний левый угол (или нижний правый,
если обратная категория предсказывания): именно здесь %
правильно классифицированных случаев составляет 100%.
Чем ближе кривая к верхнему левому углу, тем выше про-
гностическая способность классификатора, а  чем меньше
изгиб кривой и чем ближе она расположена к диагональной
прямой – тем менее эффективен классификатор.
Диагональ  – это показатель неэффективного классифи-
катора, который вообще не различает две группы объектов
(рис. 194).
 
 
 
Рис. 194. Близость к диагональной опорной линии – неэф-
фективный классификатор

Давайте, например, посмотрим на  возможности класси-


фикации обратившихся в приемную частной клиники муж-
чин и женщин возрастом 30±5 лет по росту, весу и темпе-
ратуре тела. Для большей наглядности в дидактических це-
лях «крупные» женщины и «небольшие» мужчины удалены
из массива. Пример наглядно демонстрирует суть метода.
Жмем в PSPP «Анализ» \ «ROC-кривая» (рис. 195).

 
 
 
Рис. 195. Меню вывода ROC-кривой

В  переменные для проверки переносим «Рост», «Вес»


и «Температура». В переменную состояния – «Пол». И за-
даем, например, для мужчин. Также выведем диагональную
опорную линию и коэффициент значимости. Жмем Ок. Эти
действия помечены на рис. 196.

 
 
 
Рис. 196. Настройка параметров вывода ROC-кривой

Нам в распечатке результатов вывело ROC-кривую (рис.


197).

 
 
 
Рис. 197. ROC-кривая в распечатке результатов PSPP

Видим, что в нашей выборке рост и вес прекрасно пред-


сказывают пол мужчин – обе кривые идут по верхнему ле-
вому углу. Температура – плохой классификатор для пред-
сказания пола (это и не удивительно), поскольку идет близко
к диагональной линии.
В таблице «Площадь под кривой» мы видим какую пло-
щадь занимает кривая на рисунке, а также коэффициент зна-
чимости в колонке «Ассимпт. знач.» (рис. 198).

Рис. 198. Таблица «Площадь под кривой»

В этой таблице цифрами выражен наш график – она го-


ворит, что в выборке вес позволил верно классифицировать
100% случаев, рост – 99%. Температура – только 41%.
Если провести в этом же файле сравнение независимых
групп (помните как проводить?), то получим значимые раз-
личия между мужчинами и  женщинами по  переменным
 
 
 
«Рост» и «Вес», и незначимые по «Температуре тела». Что
очевидно, поскольку в своем большинстве мужчины крупнее
женщин, а вот температура тела не имеет большого размаха
(а в норме, субфебрильном состоянии и при ОРВИ – вообще
у всех ±одинакова).

 
 
 
 
Кластерный анализ
 
Этот аналитический метод используется для сегментации
клиентов, сотрудников, населения и  любых других объек-
тов / случаев / наблюдений.
Кластерный анализ разделяет все наши объекты / случаи
на группы со сходными параметрами переменных. Члены од-
ной группы (одного кластера) обладают схожими проявле-
ниями переменных, а члены разных групп – разными.
Причем программа сама ищет похожие объекты и объеди-
няет их в кластеры – мы только задаем количество класте-
ров, которые хотим получить (или доверяем определить ко-
личество машине).
Этот тип анализа распространен и  в  инженерно-есте-
ственных науках – например, в геологии для поиска схожих
пород.
Суть кластерного анализа схематически условно можно
визуализировать следующим образом.
Представьте, что на одной плоскости (к примеру, на листе
бумаги) все Ваши объекты / наблюдения / случаи (рис. 199).

 
 
 
Рис. 199. Объекты на листе бумаги

Сначала каждый объект / наблюдение – рассматривается


машиной как отдельный кластер. Берем, к примеру, 2 слу-
чайных объекта (рис. 200).

 
 
 
Рис. 200. Выбор двух объектов

А потом ближайшие (соседние) объекты / наблюдения на-


чинают «объединяться» друг с другом (рис. 201).

 
 
 
Рис. 201. Соседние ближайшие объекты начинают «погло-
щаться» центрами

И  объединения будут происходить пока все объекты


не разделятся на нужное количество кластеров с центрами
в виде изначально выбранных объектов (рис. 202).

 
 
 
Рис. 202. Дальнейшее «поглощение» объектов кластера-
ми

После того, как все объекты «поглощены» и  разбиты


на две группы, программа ищет наилучшие центры для каж-
дого кластера (по большому счету – некую середину). На бу-
маге это выглядело бы как будто машина начинает «двигать»
изначальные центры кластеров (выбранные изначально объ-
 
 
 
екты) в самую «гущу» ближайших объектов – пока не най-
дется самая удачная точка для каждого центра (рис. 203).

Рис. 203. Поиск «наилучших центров» для кластеров

Машина, естественно, делает это методом перебора и пе-


ребрав все варианты, точно найдет самые удачные точки.
Вы наверняка заметили, что кластерный анализ чем-то
напоминает факторный анализ – только там группируются
переменные, а в кластерном – случаи / объекты / наблюде-
ния. Кстати, в SPSS можно заказать кластеризацию не только
 
 
 
случаев / объектов, а и переменных. В текущей версии PSPP
такой возможности нет. Да и в принципе вывод результатов
кластерного анализа в PSPP очень ограничен.
В PSPP для проведения кластерного анализа воспользу-
емся массивом данных по  клиентам одного супермаркета
формата «у дома».
В  массиве собраны данные о  частоте покупок, покуп-
ках со скидкой, количестве приведенных рефералов по ре-
феральной программе, а также социально-демографических
данных типа пол, возраст и количество детей до 16 лет.
Будем искать какие-то кластеры на основании этих пере-
менных.
Нажимаем меню «Анализ» / «Кластер k-средних» (рис.
204).

 
 
 
Рис. 204. Меню вывода кластерного анализа

Далее в  правое поле переносим переменные, указываем


количество кластеров (пусть будет 3) – жмем ОК (рис. 205).

 
 
 
Рис. 205. Настройка параметров кластерного анализа

Рассмотрим распечатку результатов кластерного анализа.


В первой таблице «Центры окончательных кластеров» мы
имеем значения переменных в кластерах – исходя из них мо-
жем охарактеризовать кластеры (рис. 206).

Рис. 207. Центры окончательных кластеров – характери-


 
 
 
стики каждого кластера

Например, в нашем случае первый кластер – это мужчины


40 лет с детьми, ходят за покупками в два раза реже осталь-
ных кластеров, не используют скидочные талоны и не при-
водят рефералов.
Оставшиеся 2 кластера – женщины, еженедельно делают
покупки и активно пользуются скидочными талонами – ви-
дим, что центры для количества покупок и покупок с тало-
нами совпадают.
Но если во втором кластере это женщины 30 лет с детьми,
то в  третьем  – женщины уже под 50  без детей. А  главное
отличие (вообще все отличия отражены красным и зеленым
маркером на рис. 207) – в третьем кластере приводят в три
раза больше рефералов, чем во втором.
Уже можем сделать вывод, что на женщинах нужно дер-
жать отдельный фокус ввиду частоты покупок и рефераль-
ной активности – в частности именно на них нацелены ски-
дочные купоны. А  отделу, отвечающему за  реферальную
программу, первым делом налаживать работу с  женской
аудиторией 50—55  лет (при условии «привода» ими каче-
ственных рефералов).
Во  второй таблице «Количество наблюдений в  каждом
из кластеров» распечатки результатов кластерного анализа
выводит количество случаев / объектов / наблюдений в мас-
сиве, относящихся к тому или иному кластеру.
 
 
 
К  сожалению, в  PSPP нельзя заказать автоматическое
сохранение в  виде отдельной переменной принадлежности
каждого объекта / случая к тому или иному кластеру. Но зная
центры кластеров, можно сделать этот расчет отдельно через
меню «Трансформировать / Вычислить».
Такой вот простейший кластерный анализ  – мы нашли
кластеры, охарактеризовали их исходя из значений перемен-
ных, увидели числовой «объем / емкость» каждого кластера.

 
 
 
 
Беглый обзор других методов:
дискриминантный анализ, деревья
решений, опорные вектора
 
Есть еще набор методов, которые используются для клас-
сификации и  достаточно эффективны. В  PSPP они пока
не  реализованы, но  такие статистические программы как
SPSS и Statistica их поддерживают (для продвинутых чита-
телей, дружащих с  R или Python реализация этих методов
вообще не проблема).
В этой последней посвященной конкретным методам гла-
ве, сделаем краткий обзор по  дискриминантному анализу,
деревьям решений и методу опорных векторов.
Как и у всех методов классификации, основная идея этих
анализов заключается в  том, чтобы определить, отличают-
ся ли выборки (группы) по среднему какой-либо перемен-
ной (или набору переменных), и затем использовать эти пе-
ременные, чтобы предсказывать с определенной долей веро-
ятности к каким группам принадлежат новые объекты /слу-
чаи / наблюдения.
Итак, дискриминантный анализ. Он достаточно ча-
сто используется в  биологии, медицине, инженерных нау-
ках. В социально-экономической среде этот метод анализа
не очень популярен, но тем не менее его нельзя не упомя-
 
 
 
нуть.
С  помощью дискриминантного анализа на  основании
некоторых признаков (независимых переменных) наблюде-
ние /событие / объект может быть причислен к одной из двух
(или к одной из нескольких) заданных заранее групп. Т.е., он
решает, по сути, ту же задачу что и логистическая регрессия
(если групп две) или кластерный анализ (если групп много).
Я сам, когда его изучал, поначалу все не мог взять в толк,
а зачем еще и этот анализ, когда можно решить задачу ре-
грессией и кластерами?
А «фишка» в том, что он может работать с номинальными
переменными – т.е. шкалами наименований.
А  еще дискриминантный анализ может решать задачу,
сходную со сравнением групп – давать ответ о том, какие пе-
ременные наилучше всего различают (дискриминируют) две
или более совокупности (группы).
Примеры приводить не буду, так как все эти задачи можно
порешать и без дискриминантного анализа – и в организаци-
ях они решаются именно регрессиями, кластерами и срав-
нением групп. Но просто хотя бы знать об этом методе как
минимум надо.
Второй метод – деревья решений (англ. Answer Tree).
Деревья решений – являются пошаговыми и на каждом ша-
ге используют самую простую регрессию, что просто
сформировать ответ ДА\НЕТ. Тем не менее это делает
этот метод очень гибким, не требуя наличия каких-то кон-
 
 
 
кретных переменных – на каждом этапе может использовать-
ся свой набор.
Т.е., при построении дерева решений программа разделя-
ет все данные на вопросы, ответы на которые «да» или «нет».
Схематически см. рис. 208.

Рис. 208. Схематическое представление простого дерева


решений – на его «концах» варианты ответов

Если на  простом примере, то допустим мы знаем, что


спортивная команда выходит гулять на яхтах в определен-
ные дни (пятница и суббота). Причем, если дождь с сильным
ветром, то не выходят. Если солнечно от +40 – тоже не выхо-
дят, а сидят на пирсе и пьют пиво. Вот так выглядит дерево
решений под такую задачу (рис. 209).
 
 
 
Рис. 209. Дерево решений под прогнозирование выхода
команды в плавание на яхте

Программа, естественно, не  улавливает логику как мы


с Вами, а просто начинает дерево с каждой переменной, пе-
ребирает комбинации с другими – и выбирает в итоге для ре-
шения ту комбинацию, которая лучше всего «угадала» выхо-
ды / не выходы команды в море. И предлагает это дерево для
прогнозирования. И когда переменных много, то, естествен-
но, такой машинный метод как нельзя кстати, чтобы выбрать
лучшую комбинацию.
Невзирая на банальную простоту, деревья решений при-
меняются повсеместно.
В  таком простом чистом виде  – конечно не  для анали-
тики, но наборы деревьев решений (так называемые ансам-
бли) – очень даже. А особенно мультиметодные ансамбли:
когда дерево решений используется вместе с другими мето-
дами. Но об ансамблях расскажет отдельная глава.
Третий метод – SVM support vector machine. Или метод
опорных векторов.
 
 
 
По сути, этот метод отвечает на вопрос как провести ли-
нию между категориями таким образом, чтобы между ними
образовался наибольший зазор. Линию называют гиперплос-
костью, поскольку задача разрезать плоскостью простран-
ственную разницу – об этом поясню отдельно.
Например, на  рис. 210 изображены показатели по пере-
менной в группе мужчин и женщин.

Рис. 210. Несколько гиперплоскостей, разделяющие груп-


пу мужчин и женщин

Между ними можно провести несколько линий (гипер-


 
 
 
плоскостей), но оптимальной будет та, которая задает мак-
симальное расстояние между группами.
А опорными векторами для этой оптимальной линии бу-
дут параллельные линии, проходящие через точки крайних
объектов от гиперплоскости (рис. 211).

Рис. 211. Оптимальная гиперплоскость и опорные векто-


ра

Многие слушатели при беглом знакомстве с  методом


на этом месте говорят: «Какая-то ерунда…". Аргументиру-
ют, что это вообще неприменимо, где увидеть, чтобы так
 
 
 
красиво точки лежали в реальности…
Но  SVM  – это не  обязательно линейные линии. Гипер-
плоскость можно нелинейно преобразовать (в  программе
будет красивее, а  от  руки  – не  так красиво) и  будет как
на рис. 212.

Рис. 212. «Искривление» гиперплоскости для разделения


объектов

Не  ну, так тоже, наверное, редко. А  если линией никак


не поделить? Поделить можно всегда (правда с определен-
ной точностью и  вероятностью)  – главное уметь мысленно
 
 
 
«отрываться» от двумерного пространства. Все делится, да-
же когда у Вас данные вот так (рис. 213).

Рис. 213. Линейная неразделимость?

Для решения этой задачи уходим в  трехмерное измере-


ние. Искривляете пространство, в котором лежат точки (че-
ловеческим языком: сгибаем лист пополам) – рис.214.

 
 
 
Рис. 214. Переход в трехмерное пространство

И далее спокойно режете лист гиперплоскостью (причем


под любым углом и, если нужно, даже с искривлением еще
и самой гиперплоскости) — рис. 215.

 
 
 
Рис. 215. Разрезание «вогнутых» данных гиперплоско-
стью

Важное практическое свойство этого метода: если Вы да-


же уберете все точки – сама гиперплоскость с опорными век-
торами остается.
Вот, собственно говоря, еще такие три метода классифи-
кации: дискриминантный анализ, деревья решений и опор-
ные вектора.
 
 
 
Но давайте в следующей главе еще разберем упомянутое
тут понятие ансамблей.

 
 
 
 
Ансамбли
 
Закончу понятием ансамблей, раз уже их упомянул.
Странное название, но оно ничего общего с ансамблем «пес-
ни и пляски», который кто-то мог себе представить, не име-
ет.

В аналитике ансамбли это когда, например, дерево реше-


ний используется вместе с другими методами или когда ему
«скармливаются» специально подобранные данные.
Это, конечно, совсем уже не для гуманитариев тематика,
но просто будет неплохо иметь об этом общее представле-
ние.
Ансамбли делаются для того, чтобы методы исправляли
ошибки друг друга, повышая точность предсказания. Напри-
мер, сложные интернет-поисковики, распознавание объек-
тов на фото или видео – это не один метод, а целые наборы
методов.
Чаще всего в ансамбли берут деревья решений и регрес-
сии – они ведь нестабильны в предсказаниях, особенно при
наличии аномалий и выбросов.
Какие бывают ансамбли:
1. Одни данные, много методов (рис.216).

 
 
 
Рис. 216. Данные, загружаемые в несколько методов

Берем данные  – прогоняем через классификацию кла-


стерным анализом, деревом решений и  МОВом. Получен-
ные ими результаты гоним через регрессию  – вот ответ,
это мужчина. Т.е., работали несколько методов  – а  итого-
вое решение принял вообще другой. В среде DataScientist’ов
ИТшников это называют «СТЭККИНГ».
2. Разные случайные данные из одного набора дан-
ных – один метод с возможным отличием на выходе
(рис. 217).

 
 
 
Рис. 217. Случайные выборки, загружаемые в один метод

Берем один большой набор данных (большую выборку).


И начинаем из нее извлекать случайные выборки поменьше.
И даем их анализировать одному и тому же методу (напри-
мер, регрессии). А на выходе просто усредняем предсказа-
ния регрессии по каждой извлеченной выборке, допустим,
алгоритмом случайного леса (англ. Random Forest) – популя-
рен благодаря возможности делать огромное количество вы-
числений параллельно, что важно для распознавания объек-
тов на фото или видео в он-лайн режиме. Этот подход в среде
DataScientist’ов ИТшников называется Bootstrap aggregating,
или «БЭГГИНГ».

3.  Разные неслучайные данные  – один метод (рис.


218).

 
 
 
Рис. 218. Анализ ошибочных остатков / излишков одним
и тем же методом – до 100% классификации

Самый точный ансамбль, но ввиду обязательной последо-


вательности вычислений у подхода «хромает» скорость. Бе-
рется один метод, в него вгоняются данные, потом извлека-
ются данные, на которых он ошибся – и вгоняются в такой же
метод  – и  так до  бесконечности (точнее пока не  будет по-
чти 100% результата классификации / распознавания). Это
опять DataScientist’ы ИТшники зовут «БУСТИНГОМ». Все
алгоритмы построения тех же «Растущих деревьев» разви-
вались сначала от приложения метода бустинга и до регрес-
сионных деревьев. Но идея бустинга осталась: каждое после-
дующее дерево строится для остатков прогноза предыдуще-
го дерева.
 
 
 
В гуманитарных и социально-экономических профессиях
Вы если и доберетесь до аж таких классов задач – то скорее
всего наймете специалистов-технарей для помощи в их ре-
шении, чем будете пытаться изобразить что-то сами и зани-
маться самодеятельностью.
Без надлежащего знания языка программирования и опы-
та при попытке «дирижировать» ансамблями высока веро-
ятность «наломать дров» и из деревьев решений, и из расту-
щего леса, и даже из регрессии.

 
 
 
 
Итоги классификации
с высоты птичьего полета
 
Итак, Вы познакомились с методами классификации, ко-
торые помогают предсказывать принадлежность объектов /
случаев / наблюдений к той или иной группе на базе опреде-
ленных значений переменных.
Я бы очень хотел, чтобы по итогам раздела читатели-гу-
манитарии научились работать с логистической регрессией
и кластерным анализом (рис. 219).

Рис. 219. Логистическая регрессия и кластерный анализ –


чаще всего применяются для решения бизнес-задач

Остальные методы – для начала Вам будет достаточно по-


ка понимания, что они есть.
А если говорить про применение наборов методов и под-
борки для них данных, для более точного прогнозирования,
 
 
 
чем использование каждого по отдельности – это уже выс-
ший пилотаж «дирижирования» ансамблями. К ним лучше
приступать, когда уже есть весомый опыт с каждым методом
по отдельности.
Далее мы переходим к  заключительному чисто обзор-
но-познавательному разделу, проясняющему разные ново-
модные веяния и названия в сфере работы с данными и их
анализе.

 
 
 
 
MACHINE LEARNING, AI,
BIG DATA и прочий новояз…
 
 
Поговорим по понятиям
 
Мир изменился. Ускорился. Стал цифровым. Мы научи-
лись собирать в кучу неимоверные объемы данных. Эти дан-
ные стали живыми и идти целым постоянно изменяющимся
потоком.
Более того, они теперь не только цифрово-табличные (как
мы рассматривали в этой книге), а и видео, и аудио, и тек-
стовые, и невесть какие-другие…. Чтобы это все обрабаты-
вать у нас есть компьютеры сумасшедшей мощности с нево-
образимыми видеокартами.
И  этому всему нужны методы (алгоритмы) обработки
фактически в режиме реального времени. Чтобы уметь на-
ходить закономерности и  различия  – и  на  их базе стро-
ить предсказания (либо будущих событий, либо значений
каких-то переменных, либо классификации объектов к ка-
ким-то группам).
Естественно, на этом родилась целая отрасль знаний. Ме-
тоды при этом в  подавляющем большинстве используются
изобретенные в течение 1900-х годов. Та же регрессия и кор-
 
 
 
реляции с вероятностными категориями все еще являются
оплотом всей прогностической аналитики и Data Science.
Просто они в те года не могли найти такого применения
как сейчас. Именно в последнее десятилетие произошло на-
копление факторов, которые позволили сделать качествен-
ный рывок вперед:
· развитие онлайн среды и облачных технологий
· возможности накопления огромных баз различных дан-
ных
· рост вычислительных мощностей компьютеров
· хорошо проработанные высокоуровневые языки про-
граммирования, стеки и  фреймворки (благодаря чему нет
необходимости копаться в 0 и 1 и даже в тысячах строк кода).
Но эта отрасль начала обрастать страшными терминами
(рис. 220), которые многих людей вводят в ступор и рисуют
фантастический мир роботов-терминаторов, искусственно-
го интеллекта и таинственных людей «дата-саентистов», ко-
торые во всем этом что-то понимают…

 
 
 
Рис. 220. Новомодные иностранные термины-упаковки

Я хочу бегло и  условно коротко пройтись по  несколь-


ким главным англоязычно-русскопереведенным понятиям
из этого цифрового «мира будущего».

 
 
 
 
Big Data / Быг дата / Большие данные
 
Благодаря развитию вычислительной мощности компью-
теров и увеличению вместимости хранилищ, подключению
к Интернету большего количества устройств и обмену дан-
ными между ними, стало возможным накапливать и обраба-
тывать больше данных, чем когда-либо ранее в истории че-
ловечества.
Тут и появился термин «Big Data» или «большие данные».
Термин по факту часто путают с аналитикой, но, по сути, это
просто определение огроменно-обширного массива разно-
форматной и  разноприродной информации, которая мгно-
венно меняется и обновляется. Причем она может быть со-
вершенно неструктурированная и  ее тяжело обрабатывать
обычной математикой или логикой.
Например, пользователь в интернете здесь и сейчас смот-
рит видео, а  алгоритмы уже анализируют, что именно он
смотрит в  этом видео, подтягивают из  баз данных все
его предыдущие просмотры других видео, тянут интересы
(и еще чёрт знает какие данные чёрт знает в каких форма-
тах)…
И зачастую все это ради того, чтобы вот прямо сейчас (по-
ка актуально) вычислить какую рекламу какого товара под-
кинуть пользователю, который он с большой вероятностью
купит…
 
 
 
Уныло, конечно, выглядит то, что человечество в век ка-
питализма накапливает огромные данные и развивает такие
мощные алгоритмы, не  столько ради медицины и  науки  –
например, от диагностики организма до помощи в решении
глобальных научных задач. Их развитие ведется больше ра-
ди того, чтобы подкидывать пользователю интересные кар-
тинки (чтобы он подольше висел в приложении) или «впа-
ривать» товары. Но такова текущая реальность.

 
 
 
 
AI / ИИ / Искусственный интеллект
 
Упоминая большие данные сразу же говорят, что когда вы
всю кучу этих больших данных переварите через увязанные
наборы методов машинного обучения (ансамбли) – получит-
ся тот самый AI или искусственный интеллект.
Но  Вы поняли уже, что речь опять  же не  о  Скайнете
из  «Терминатора». Интеллект такого уровня (самосознаю-
щий себя) родится и без нашего вмешательства – достаточно
наращивать по закону Мура мощности и количество обме-
нивающихся между собой устройств – и не за горами, когда
это все однажды сможет начать отражать реальность и само-
осознавать себя. Но над этим пусть фантасты и футурологи
рассуждают. В книге о прикладном поговорим.
На  самом деле ИИ считайте достаточно широкой обла-
стью знаний. Она родилась еще из  кибернетики (кстати,
в СССР эта область, пожалуй, до поздних 70-х относилась
к кибернетике – к кибернетике тогда много чего относилось,
ввиду борьбы за партместа и бюджеты академиков), а потом
плавно перетекла в информатику.
Но это по факту фундаментальная и огромная отдельная
область. Она изучает как возможности решения машинами
(компьютерами) задач на уровне человека (включая и твор-
ческие способности, и механизмы познания мира, и мыш-
ления как такового  – что некоторые практики выделяют
 
 
 
в  отдельную область под названием Cognitive Science), так
и взаимодействие человека с машиной (т.е., биологического
и синтетического разума).
Мы (человечество) еще и близко не подошли к понима-
нию того, как создать ИИ и находимся только на уровне на-
боров похожих на решение человеком задач и методов, мно-
гие из которых объединяются в группу под названием «МА-
ШИННОЕ ОБУЧЕНИЕ» и  имеют непосредственное отно-
шение к аналитике.

 
 
 
 
Machine Learning/
Машинное обучение
 
Как я уже говорил  – машинное обучение модная тема.
Но это не об обучении роботов. Это об аналитических мето-
дах. Машинное обучение (Machine Learning) включает в се-
бя ряд углубленных методов для решения задач регрессии
и  классификации на  основе взаимосвязей между множе-
ственными зависимыми и независимыми переменными.
Цель современного машинного обучения  – по  входным
данным предсказать результат или классифицировать объ-
ект к какому-то классу (группе), понимая основные разли-
чия между группами и взаимосвязи между различными при-
знаками / переменными.
Т.е., все сводится к главным задачам аналитики как тако-
вым (рис. 221).

 
 
 
Рис. 221. Три главные задачи аналитики

Проблематика прогностической аналитики, распознава-


ния / классификации объектов / случаев на основании пат-
тернов переменных, уменьшение размерностей переменных
и т. д. – отнюдь не новы.
И да, это все как я уже говорил, ряд студентов (даже гума-
нитарных факультетов) изучали в СССР и СНГ еще в дале-
ких 80-90-х. А многие из популярных методов созданы бо-
лее чем полвека назад – просто области их применения были
ограничены ввиду того, что не было широкого распростра-
нения средств сбора всевозможных данных в единые базы.
 
 
 
Cхематически машинное обучение можно изобразить так
(рис. 222):

Рис. 222. Схематическое представление машинного обу-


чения

Это то, что мы с  Вами проделывали, к  примеру, в  би-


нарной логистической регрессии: брали данные с классифи-
цирующими признаками (выживет-погибнет, мужчина-жен-
щина, продлит-не продлит подписку…), пытались по  ним
сделать уравнение (обученный классифицировать объекты
 
 
 
алгоритм)  – прогнозировали по  «обученному» алгоритму
будущие значения переменных или отнесение объекта / слу-
чая в какую-то группу.
Сам по  себе каждый отдельный отлаженный алгоритм
по итогам машинного обучения решает обычно узкую задачу
(например, решает задачу NLP – но не нейролингвистиче-
ское программирование, а Natural Languahge Processing т. е.
обработка и распознавание естественной речи).
Но  как только речь заходит о  распознавании, например
автомобиля – опять требуется новое машинное обучение.
В общем, алгоритм, умеющий прекрасно играть в шахма-
ты, не умеет решать кроссворды. И ни одна из этих программ
не умеет отвечать на вопросы «Что? Где? Когда?» или «Поле
чудес» – для этого надо третья программа со своим набором
методов.
Поэтому уже появляются объединения методов, которые
распознают многое.
Разделяют машинное обучение с инструктором и без ин-
структора.
С инструктором: это когда человек задает правила и пе-
ременные, указывает принадлежности к группам. Сюда от-
носятся сравнения выборок, регрессии.
Если на  простом примере, то тут задача ставится как
в сказке о Золушке: разобрать горох и фасоль с общей кучи
отдельно. Условия задаете Вы, дискриминирующие (разли-
чающие) переменные задаете Вы (поскольку знаете разницу
 
 
 
между горохом и фасолью – форма, цвет, сочность…).
Или, например, расставить посуду в  три кучки исходя
из ее объема. Т.е., Вы показываете программе в чем именно
отличаются объекты – программа на основании этих приме-
ров идентифицирует такие же объекты из массы других.
Это как я учил детей собирать игрушки – книжки сюда,
машинки сюда, кубики сюда. А если попадется не книжка,
машинка или кубик? Кинул куклу в кубики – ошибочно, со-
здавай новую «ячейку» для кукол.
Без инструктора: когда машине просто предлагают пере-
брать какие-то данные и понаходить между ними закономер-
ности (здесь, к примеру, используют и методы снижения раз-
мерности типа факторного анализа, и многомерного шкали-
рования, и также кластеризация). Это уже задачи из области
«разложить кучу объектов по схожести каких-то признаков».
При этом, если у Золушки в куче будут чечевица, горох,
фасоль, яблоки и груши – то машина горох, чечевицу и яб-
локи может объединить в  одну группу (исходя из  круглой
формы), а груши и фасоль в другую (рис. 223).

 
 
 
Рис. 223. Классификация машиной при наличии только
данных о форме

Но если будет достаточно других различающих (дискри-


минирующих) переменных (типа твердость, размеры, соч-
ность и т.д.) – то, скорее всего, машина ±верно классифици-
рует их в категории «фрукты» и «бобовые» (рис. 224).

 
 
 
Рис. 224. Классификация машиной при дополнительном
наборе различающих (дискриминирующих) переменных

Методы машинного обучения включают в себя для задач


регрессионных предсказаний и классификации как класси-
ческие методы корреляции, регрессии, кластеризации и де-
ревьев решений, так и  метод опорных векторов (Support
Vector Machines, SVM), метод Байеса, и метод Ближайших
Соседей (как в кластерном анализе).
Для улучшения методов машинного обучения используют
 
 
 
ансамбли методов (они упоминались в отдельной главе кни-
ги)  – такие наборы позволяют улучшить прогностические
и распознавательные способности.
Именно методы машинного обучения сейчас на пике по-
пулярности и используются вовсю для решения ряда задач:
распознавание речи и языка, рукописного ввода, медицин-
ской диагностики, спам-фильтров, классификации докумен-
тов, прогноза возврата займов, рекламы и т. д.
Ввиду этой популярности их и  отождествляют зачастую
с АI (ИИ). Так, практически все современные конференции,
заявляющие в своих названиях AI (ИИ), по факту являются
обменом опытом по методам ML (машинного обучения).

 
 
 
 
Нейронные сети
 
Нейроны головного мозга, нейронная сеть… Иногда
от слушателей курсов проскакивает: ну это вот должно быть
оно – что-то близкое к искусственному интеллекту! Но от-
нюдь нет. Не оно. И очень даже далеко.
Это всего лишь один из  методов машинного обучения
из огромного их множества. Его не рассматривали обзорно
в классификации, а оставили на закуску. Этот метод уже от-
носится к продвинутому (то, что на англ. пишут Advanced)
уровню, чтобы вооружаться им без практики и  отдельной
подготовки.
Нейронные сети успешно применяются в  разных обла-
стях – бизнесе, менеджменте, медицине, технике, геологии,
физике, ИТ и т. д. Они успешно решают задачи прогнозиро-
вания, классификации или управления.
Название взяли действительно из биологии – нейрон ре-
шает одну простую задачу. А нейронная сеть также состо-
ит из набора нейронов в виде простых аналитических мето-
дов, каждый из которых решает примитивную задачу, выда-
вая на выход ДА – НЕТ или 1—0.
Например, взять сумму цифр пришедших со  связей,
умноженных на вес связей – и если получилось больше како-
го-то числа «х», то зажечь «красный» цвет с цифрой 1, если
меньше – то зажечь «зеленый» цвет с цифрой 0 (рис. 225).
 
 
 
Рис. 225. Пример работы одного «нейрона»

По аналогии с пройденным материалом, таким одним ней-


роном может быть бинарная логистическая регрессия: связи
= веса, а на выходе 1 или 0 с определенной вероятностью.
А в нейронной сетке таких нейронов очень много!
И в сумме такие простые ответы выдают результат гранди-
озной точности. Точность достигается благодаря слоям ней-
 
 
 
ронов. В одном слое нейроны никак между собой не связа-
ны, но четко связаны с нейронами следующего слоя. Так по-
лучается штука, которая в аналитике называется многослой-
ный перцептрон (рис. 226).

Рис. 226. Схематическое представление многослойного


перцептрона

Сначала сеть устанавливает случайные связи и  выдает


на  их основании результат. Например, мы ей показываем
рисунок жирафа, а  она почему-то не  идентифицирует его
по картинкам (рис. 227).

 
 
 
Рис. 227. Схематическое представление попытки распо-
знавания объекта нейронной сетью

Мы говорим, а  ну переустанови связи  – одни отключи,


другие включи… Переустановила – опять ошиблась. Опять
переустановила – и после какого-то миллиона подборов и пе-
реустановок связей она находит тот вариант, при котором
в большинстве случаев идентифицирует жирафа на картин-
ках (рис. 228).

Рис. 228. Схематическое представление распознавания


объекта нейронной сетью
 
 
 
Естественно, мы ничего сетке словесно не говорим – мы
просто запускаем в нее данные, где в массиве есть размече-
ны признаки жирафов, и машина посредством алгоритмов
автоматически настраивает веса, пути в алгоритме и вклю-
чение \ выключение тех или иных нейронов так, чтобы четко
сортировать картинки с жирафом и без жирафа.
Но в любом случае нейронная сеть может обучаться толь-
ко на тех данных, которыми располагает – чем больше дан-
ных ей скормлено для обучения, тем точнее она заработает.
Еще поделюсь историей родом с  конца 90-х: правда
не знаю, правдива она или нет. Но даже если «басня», то ло-
гику некоторых нейросетей отражает.
Говорят, американцы когда-то начали делать автоматиче-
скую роботизированную систему сдерживания наших рус-
ских танков на базе нейросети. На полигоне фотографиро-
вали разные танки в разных ракурсах. Начали учить нейро-
сетку распознавать танки – показывать картинки с танками
и без танков. Дошли до 100% точности (рис. 229).

 
 
 
Рис. 229. Схематическое представление распознавания
танков нейронной сетью

Но когда запустили в нее данные с разных полигонов, мо-


делируя боевые условия онлайн, – полное фиаско (рис. 230).

Рис. 230. Схематическое представление попытки распо-


знавания нейронной сетью танков в реальных условиях

Оказалось, фото танков в обучающей выборке (помните,


что такое «обучение с  учителем»? )  были сделаны в  один
день еще и в дождевых условиях. Нейросеть отнесла осве-
 
 
 
щенность к  важным критериям танка. А  полевые учения
на полигонах (откуда в нейросеть сгружались реальные дан-
ные) запустили в солнечный день…
Сейчас, конечно, уже развиты очень прогрессивные ней-
росетевые модели: сверточные (распознают объекты на фото
и видео), реккурентные (музыка, тексты, речь и другие по-
следовательности), LSTM (у которых есть своя долго и крат-
косрочная память, чтобы умели «забывать» прошлые дан-
ные), сеть Хопфилда (видя наполовину зашумленную кар-
тинку дорисовывает ее до целой, или Вы делаете грубый на-
бросок – а получаете целый пейзаж) и т. д.
Нейронных сетей уже огромное множество, их можно
найти в интернете в открытом доступе (нужно только уметь
программировать) и они постоянно развиваются.

 
 
 
 
Подводя черту новояза: что
стоит усвоить гуманитарию
 
Этот раздел был исключительно познавательного характе-
ра. Если изобразить со-подчиненность понятий новояза, то
можно представить так (рис. 231):

Рис. 231. Со-подчиненность понятий

Таким образом, из  него для начала читателю-гуманита-


рию достаточно вынести, что ИИ (AI) – это очень широкая
область знаний.
Машинное обучение – это только одно из его направле-
ний. А нейронные сети – всего лишь метод машинного обу-
чения из, пожалуй, десятков других методов и сотни их под-
 
 
 
видов.
И все это строится на базовых методах поиска взаимосвя-
зей (включая уменьшение размерности), различий и  пред-
сказания либо значения переменной, либо отнесения ее к ка-
кому-то классу (группе). И нацелено на три главные задачи
прогностической аналитики (рис. 232).

Рис. 232. Три главные задачи аналитики

А вывелось все в отдельное направление под брендом Data


Science благодаря накоплению большого объема данных (Big
Data) и увеличению вычислительных мощностей компьюте-
 
 
 
ров параллельно с  развитием соответствующих технологи-
ческих стэков и фреймворков.
На этом, пожалуй, и все…

 
 
 
 
ПОСЛЕСЛОВИЕ
 
Уважаемый читатель,
Наше с Вами путешествие по увлекательному миру ана-
лиза данных закончилось. Книга на  самом деле задумыва-
лась как попытка собрать опыт в простом и понятном виде
для слушателей курсов, тренингов и программ, а заодно по-
делиться им со всеми желающими.
Вы прошли эту книгу со мною до конца и хочется наде-
яться, что изложенные методы и основные концепции помо-
гут Вам в работе и личных исследованиях. В ней были осве-
щены основные аналитические методы, используемые в ме-
неджменте, социально-экономических и гуманитарных дис-
циплинах.
Книга рассказала о сути каждого метода, а также его реа-
лизации с помощью общедоступных программ Excel и PSPP.
Некоторые методы были затронуты только обзорно и их рас-
смотрение было нацелено на то, чтобы Вы уловили основную
их идею.
Если после прочтения книги у  Вас осталось ощущение
необходимости дополнительно послушать о  рассматривае-
мой тематике и поработать с кейсами на прикладном уров-
не – то напомню, что для читателей книги на международ-
ной платформе он-лайн образования UDEMY доступен курс
«Аналитика и Data Science для менеджеров и гуманитариев»
 
 
 
по нижеуказанной ссылке:

https://www.udemy.com/course/analytics-and-data-
science/?referralCode=F813CF7396DE1BD11483

Теперь дело за Вами – берите и пользуйтесь этими знани-


ями в проектах, задачах и профессиональных вызовах! Ведь
если Вы прочли эту книгу и отработали описанные методы
на Ваших массивах данных – Вы на это полностью способны!
Возможно, именно Вы напишите следующую книгу об ана-
литике – но уже на базе Вашего собственного опыта и про-
ектов.
Главной задачей книги я видел показать, что цифры и ана-
лиз данных – не удел избранных, а крайне захватывающая,
занимательная и  увлекательная штука. Да и  не  такая уж
и страшная, и доступна даже гуманитариям: хочется, чтобы
его полюбили не только люди инженерно-технических спе-
циальностей. Тем более, что в современном мире без анали-
за данных немыслима ни одна область знаний.
Я буду более чем удовлетворен, если найдется хотя  бы
один любознательный читатель, который не  ограничится
приведенными мною методами – а изучит новые. А возмож-
но даже изобретет свой собственный метод.
Если среди Вашего круга знакомых есть человек (как
опытный профессионал, так и студент), кому эта книга будет
крайне полезна  – смело пересылайте книгу: возможно она
 
 
 
вдохновит именно этого человека на использование анали-
тики…
А мне сейчас, оторвавшемуся от экрана ноутбука и смот-
рящему в иллюминатор на кучевые облака под крылом, вспо-
минается почему-то несколько строк великого русского пи-
сателя А.С.Пушкина:
О  сколько нам открытий чудных Готовят
просвещенья дух
И опыт, сын ошибок трудных,
И гений, парадоксов друг,
И случай, бог изобретатель…
Знания, опыт, разрешение парадоксальных противоречий
и случайности… Все необходимые ингредиенты великих от-
крытий, увязать (и в некотором роде даже учесть) которые
позволяет аналитика…

Искренне Ваш,
Никита Сергеев
И весенние рейсы
Москва-Минск-Киев-Астана,
благодаря которым появилась эта книга