Вы находитесь на странице: 1из 225

Занимательная статистика

Манга
Манга

Занимательная

СТАТИСТИКА
Син Такахаси

Перевод с японского

Захаровой Е. А., Коги Муцуми

Москва
Издательский дом «Додэка-XXI»
2010
УДК 311
ББК 60.6
Т15

Такахаcи, Син.
Т15 Занимательная статистика. Манга / Син Такахаси ; пер. с яп. Захаровой Е. А., Коги
Муцуми. — М. : Додэка-ХХI, 2010. — 224 с. : ил. — (Серия «Образовательная Ман-
га»). — Доп. тит. л. яп. — ISBN 978-5-94120-244-7.
I. Захарова, Е. А., пер.

Если тебя интересует статистика, или тебе просто нужно как-то обработать данные, то
«Занимательная статистика» поможет тебе преодолеть чувство, что «ты плохо знаешь мате-
матику». Этот иллюстрированный путеводитель легко и непринуждённо проведёт тебя по пути
познания статистики. А полученные знания ты сможешь закрепить с помощью упражнений, без
которых, как известно, не обходится ни одна книга по математике.
Последуй за всегда невозмутимым Ямамото и ты увидишь, как он научит Руи:
• рассчитать среднее значение, медиану и стандартное отклонение результатов в боулинге;
• построить гистограмму цен на китайскую лапшу рамэн;
• определить вероятность получения проходного балла на экзаменах по математике;
• вычислить коэффициент Крамера, чтобы узнать, как предпочитают признаваться в любви
юноши и девушки;
• узнать, как нормируются результаты тестов, когда учителя оценивают успеваемость.
Эти и другие примеры из реальной жизни позволят тебе с лёгкостью усвоить то, что многие
находят трудным для понимания.
Если ты хочешь разобраться в статистике, но от обычных учебников статистики у тебя
пухнет голова и клонит в сон, или если тебе просто нужно освежить забытые знания, пусть
Ямамото-сан и Руи будут твоими гидами.
Книга будет полезна учащимся старших классов средних школ и колледжей, студентам ву-
зов, а также всем, кто интересуется статистикой и хочет, чтобы обучение было лёгким и увле-
кательным.
УДК 311
ББК 60.6

Все права защищены. Никакая часть этого издания не может быть воспроизведена в любой
форме или любыми средствами, электронными или механическими, включая фотографирование,
ксерокопирование или иные средства копирования или сохранения информации, без письменного
разрешения издательства.

ISBN 978-5-94120-244-7 (рус.) © Син Такахаси, Trend-Pro Co., LTD.


ISBN 978-4-27406-570-5 (яп.) © Издательский дом «Додэка-ХХI», 2010
© Серия «Образовательная Манга»
Содержание
Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiii
Пролог. Любовь и статистика. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Глава 1. Разберёмся с типами данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1. Количественные и качественные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Примеры качественных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3. Использование многовариантных ответов на практике . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Упражнение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Ответ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Глава 2. Знакомимся с количественными данными. . . . . . . . . . . . . . . . . . . . . . . . . 31
1. Ряды распределения и гистограммы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2. Средняя величина . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3. Медиана . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4. Стандартное отклонение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5. Ряды распределения и величина интервала . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6. Теория оценивания и описательная статистика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Упражнение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Ответ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Глава 3. Знакомимся с качественными данными . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1. Простые статистические таблицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Упражнение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Ответ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Глава 4. Нормированное отклонение и рейтинг успеваемости. . . . . . . . . . . . . . 65
1. Нормирование и нормированное отклонение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2. Свойства нормированного отклонения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3. Рейтинг успеваемости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4. Что такое рейтинг успеваемости? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Упражнение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Ответ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Глава 5. Вычислим вероятность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1. Функция распределения плотности вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2. Нормальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3. Стандартное нормальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Пример 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Пример 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4. Распределение хи-квадрат . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5. Распределение Стьюдента . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6. Распределение Фишера, или F-распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7. Распределения и Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Упражнение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Ответ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Глава 6. Что может связывать две переменные . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
1. Коэффициент линейной корреляции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2. Коэффициент корреляции между данными разных типов . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3. Коэффициент корреляции Крамера. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Упражнение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Решение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Глава 7. А что это за проверка гипотезы о независимости? . . . . . . . . . . . . . . . . . 143
1. Проверка гипотезы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
2. Проверка гипотезы о независимости. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Объяснение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Упражнение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Размышление . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Вывод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3. Нулевая и альтернативная гипотезы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
4. P-значение и порядок проверки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5. Проверка гипотезы о независимости и гипотезы об однородности . . . . . . . . . . . . . . . . . . 184
Упражнение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Решение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6. Как выразить словами вывод на основании проверки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Упражнение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Ответ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Приложение. Попробуем вычислить с помощью Excel . . . . . . . . . . . . . . . . . . . . . 191
1. Построение таблиц распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
2. Вычисление среднего значения, медианы и стандартного отклонения . . . . . . . . . . . . . . . 195
3. Построение простой статистической таблицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
4. Вычисление нормированного отклонения и рейтинга успеваемости . . . . . . . . . . . . . . . . . 199
4.1. Вычисление нормированного отклонения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
4.2. Вычисление рейтинга успеваемости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5. Вычисление вероятности стандартного нормального распределения . . . . . . . . . . . . . . . . 204
6. Вычисление значения x при распределении хи-квадрат . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7. Вычисление коэффициента линейной корреляции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
8. Проверка гипотезы о независимости. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212

vi  Содержание
Предисловие
Данная книга — наглядное учебное пособие по статистике, которое, в первую очередь,
предназначается тем, кому приходится заниматься анализом различных данных, а также
тем, кто пока такой анализ не проводит, но хотел бы знать, что же такое статистика.
Автору также будет весьма приятно, если книга окажется интересной и для тех, кто
уже изучал эту дисциплину.
Статистика — одна из областей математики, тесно связанная с жизнью и работой.
Если овладеть всеми премудростями этой науки, то можно, например:
• предусмотреть, сколько коробок жареной лапши будет продано в студенческом ки-
оске, который планируется открыть на университетском празднике;
• оценить вероятность успешной сдачи квалификационного экзамена;
• сравнить вероятность выздоровления, если принимать лекарство Х и не принимать
это лекарство.
Книга содержит 7 глав. За некоторым исключением, главы книги построены следую-
щим образом:
• манга (комикс);
• объяснение, дополняющее мангу;
• упражнения и ответы;
• выводы.
Книга написана так, что читатель может усвоить материал, прочитав только мангу. А
вот чтобы получить более глубокие знания, придётся прочитать и всё остальное.
Предел мечтаний автора — читатель, который, перевернув последнюю страницу кни-
ги, скажет: «Статистика — это так интересно! Но это ещё и полезно! Да это просто здо-
рово!».
Я бесконечно благодарен всем сотрудникам редакции издательства Ohmsha за пре-
доставленную мне возможность написать эту книгу, а также всем сотрудникам компании
Trend-Pro. Я глубоко признателен г-ну Ре Акино, автору сценария, и г-ну Ироха Иноуэ,
воплотившему этот сценарий в виде рисунков, за те титанические усилия, которые им при-
шлось приложить, чтобы на основе моей рукописи создать потрясающий комикс. Я также
благодарен г-ну Фумитакэ Сакаи (социологический факультет университета Риккё), со-
ветами которого я руководствовался во время работы над этой книгой.

Син Такахаси
Июль, 2004 год
Пролог
Любовь
и статистика
А вот и мы.

Извините
за беспокойство.

Это наш сотрудник


Игарасисан. Мы были Милости
в баре неподалёку. просим.
А потом я предложил
зайти к нам.
Рад
познако
миться.

Проходите, пожалуйста.
Извините,
у нас тесновато…

Какой
хорошенький!

2  Пролог. Любовь и статистика


Садитесь,
пожалуйста
Спа…
Руи, я пришёл! спасибо.
Прошу Не хотите
Это наш сотрудник, ли чая?
Игарасисан.

Добрый
вечер.

Какая у Вас Ну что Вы…


потрясающая
дочь…

Ну, как можно…


Впрочем,
не буду отрицать.

Игарасисан, Проще говоря,


а чем Вы занимаетесь? занимаюсь
маркетингом.

ркетингом?
Ма

Работаю
в одной компании
с твоим отцом.

Пролог. Любовь и статистика  3


Другими словами, Не помню…
провожу Кажется, нет.
маркетинговые исследования
и использую для этого
статистические методы.

Возможно,
вы еще не проходили в школе,
что такое маркетинг ?

Честная девочка.
Ну, а что такое статистика, Вижу, что нет.
знаешь? В общем, статистика — наука,
изучающая
большие совокупности
однородных объектов
на основании
их выборочного
исследования.
Эээ…

Чтото
я слишком
загнул.

…о

ВЕДОМ
им

ОСТИ
ст
иф
ж
Упоф
Не

Эй, Руи! ... как раз


Что с тобой? в сегодняшней газете
есть информация о рейтинге
А, кстати, ... кабинета министров.

4  Пролог. Любовь и статистика


Но сотрудники газеты
моего мнения не спрашивали.

А как насчет Вас,


Такацусан?

По исследованиям, проведённым
газетой "Ведомости", И что это
рейтинг кабинета министров значит?
среди избирателей 39%.

Меня...
Нет, меня тоже
не спрашивали.

Так в этом всё и дело! Руи, сколько


Хмм… примерно в Японии
Мнением двоих Это и есть
применение статистики людей, имеющих
не поинтересовались, избирательное право?
а рейтинг опубликовали. на практике.
Как такое может быть?

Между тем, Ммм…


избирательного права Полно!
вас никто не лишал. Как это? Много!
Более чем странно…

Пролог. Любовь и статистика  5


Верно, Однако нереально
действительно много. опросить всех.
Если определять рейтинг на основе
опроса всего населения,
цифры будут более точными. Согласна.
Да. Не
во
зм
ож нно!
но
! ссмысле
е бе
ж
ЗА И да
Согласен,
невозможно ЗА
Один,
ПР
ОТ
дв а , т р и

ЗА н,
О ди д
ИВ
ва, три …

прот
ив ПРОТИВ

Поэтому опрос
проводят
среди ограниченного
числа респондентов.

Поня...тно

Папа, ты что,
В статистике исследуемые объекты надо мной издеваешься,
или явления называются генеральной говоря такие
совокупностью, а часть объектов такой сложные вещи?!
совокупности, отобранных для её изучения,
называют выборочной совокупностью
(или выборкой).
Плачет
Я не хотел
тебя рас*
страивать
Вывоку

я
со

на ь…
аль ост
бо пн

р
ро ос

е н
Ген окуп
чн ть

сов
ая …

6  Пролог. Любовь и статистика


Подожди, всё не так сложно.
Смотри, если вернуться к разговору Было опрошено 2000 человек,
о рейтинге кабинета министров, и, следовательно, они представляют
генеральная совокупность — это все люди, выборочную совокупность.
обладающие избирательным правом.

Все, имеющие Выборка Вот теперь


избирательное право.
понятно!
2000
человек
Генеральная Выборочная
совокупность совокупность

В идеале хорошо бы Как получить представление


исследовать Но это почти невозможно. о всей совокупности?
всю совокупность. Что же делать? И хорошо бы сделать это
как можно точнее,
Еще
Ещё бы! но не проверяя
Это займет
займёт все травинки!
уйму
Какой травы времени…
больше Довольно
100 м2 на этом
участке?…
100 м2 утоми
утоми*
тельно
100 м2

Это очень Что же делать?


сложно!

Нетнет. Это
1м2
в следующий раз.
Ограничимся 1 м2
и воспользуемся
помощью статистики!
Ул
ы
ба
Кажется, я начинаю ет
ся
понимать.
И что дальше?

Какой же
он симпатяга…

Пролог. Любовь и статистика  7


На следую
щий день

Мечтает Сжимает
хватает
мишку

Как бы поближе
Мысли о нём познакомиться
делают
Смеется
меня
счастливой … с Игараси*сан?

Вам всё О, да,


Папа! Я решила Тебя будет учить Вот Игараси*сан,
мы и понятно?
серьёзно заняться Весьма Игараси*сан мне абсолютно
статистикой! похвально. встре* всё понятно!
тились

вид
нд

я
ят
и

у
в л альные зан сии
юбви согла
и
Хи*Хи*Хи

Клёвая
идея.

8  Пролог. Любовь и статистика


Па … Мне вдруг стало
Ах, да спасибо.
так интересно то, чем
ты занимаешься.

р о
ы т
д р
а а
е
т д
о
с
т
и

Это… знаешь, мне


просто необходим
репетитор
по статистике.
Ру… Руи…

Хорошо!
Отлично! Можно даже,
Каждую субботу чтобы это был
к тебе будет ваш сотрудник,
приходить
репетитор! (скажем,
Игарасисан!!)

Наступила суббота
з
Доверь это мне! в
о
н
о
к
в
д
в
е Спасибо, что пришёл!
Йес! р Заходи.
ь
Пролог. Любовь и статистика  9
Пришёл!

Эй, Руи!
Учитель
пришёл.
Да, идуиду.
топ
'
топ
'
топ

Привет…

10  Пролог. Любовь и статистика


Руи, Какой*то
это наш сотрудник, растрёпанный!
Мамору Ямамото.

Очень
Кто этот приятно!
парень?!!

Папа,
а Игарасисан? Причём тут
Игараси?
Мамору
и живёт ближе,
и учить будет
не хуже.

Ну,
я пошёл,
счастливо
позаниматься.

вздох Вот потеха!


Хе*Хе*Хе!
разочаро*
О, нет!
вания

Пролог. Любовь и статистика  11


Это
дурной
сон

У*У*У…
Ну что, Руи,
начнём?

Игараси*сан, Отлично!
я постигла Будем работать
все премудрости вместе!
статистики!

Руи…?

(Не об этом
я мечтала)

Начнём
Идея!
прямо
сейчас!

O … Ok.

Он помотжет мнеику,
с атист
выучить ану ближе
и я ст си*сан !!! Так начались их занятия…
к Игара
Никогда не сдавайся!

12  Пролог. Любовь и статистика


Глава 1
Разберёмся
с типами данных
1. Количественные и качественные данные

Итак,
Ямамотосан,
с чего начнём?

Ну…

Для начала
хорошо бы Дай
чтонибудь подумать…
совсем
простенькое…

Ааа… (удивленно)
(удивлённо)

Майский дождь 4
Майский дождь 3
О, да я вижу, у тебя
Майский дождь
Майский дождь
Повесть о школе
Повесть о школе
Повесть о школе

есть все выпуски


Повесть о школе
Повест

«Повести о школе».
т)
ро ,
и д ся
жа
ук ует

Это мой
е р лн
аж во

любимый
о д так

сериал!
чт (

14  Глава 1. Разберёмся с типами данных


Видишь ли,
мне она тоже
немного нравится…

Немного…
Нуну…

Но какое отношение
она имеет к статистике? Повесть о школе, т. 5
Анкета постоянных читателей
Вопрос 1. Ваше мнение о 5м томе
«Повести о школе»?
(Хсим
книтает

1. Очень интересно
*еХеи
гу)

т*сХя

2. Довольно интересно
с
(ли

и)

3. Так себе
4. Скучновато
5. Совершенно неинтересно

Вопрос 2. Ваш пол?


1. ж 2. м
»
оле
шко Вопрос 3. Ваш возраст? __ лет
сть
о ве т. 5 ание лей Вопрос 4. Сколько выпусков журнала
«П в
ро ате
ти ит вы приобретаете в месяц? __ шт
н ке ых ч
А нн
я
о сто
п
Среди участников
анкетирования
будут разыграны
30 брелоков
«Рина»!

Спасибо за Ваши ответы. Ваше ценное для нас мнение


Ага! Нашёл! мы учтём в последующих изданиях,
а также при разработке будущих проектов.

1. Количественные и качественные данные  15


кой й!

сь…
Ка глупы бе
т я те ла.
ы

пост Я…
араю
А ери
пов

Кому нужна Если её


эта анкета? отправить …
Яэ
я сдел то
ала.

Вспышка
Но
ты не
… можно получить, нравим
шьс
… я
брелок «Рина»
если, конечно, повезёт.

Мммм…
Да мне
както…

Как же хочется получить


брелок… Да, Руи?

Для начала Готово!


Вернёмся к статистике … ответь
на вопросы
анкеты.

Поста
то
раюсь. (что*
)
Так пишет
сразу?..

Вот и хорошо.

16  Глава 1. Разберёмся с типами данных


Анкета постоянных читателей
Ваше мнение Колво при
Респондент Пол Возраст, обретаемых
о «Повести о школе» лет в месяц
выпусков,
шт.
Руи очень интересно ж 17 2

А довольно интересно ж 17 1
Б так себе м 18 5

В скучновато м 22 7

Г довольно интересно ж 25 4

Д совершенно неинтересно м 20 3

Е очень интересно ж 16 1

Ж довольно интересно ж 17 2
З так себе м 18 0
И так себе ж 21 3

Давай
представим
результаты
анкетирования,
например,
в таком виде. Давайте.

1. Количественные и качественные данные  17


Меня
всётаки Ну, хорошо,
беспокоит, оставим это.
что думают Тема сегодняшнего
читатели занятия —
об этой книге! типы данных.
Что это
значит?
(садится)

Прямо
одержимый
какойто…

Данные можно поделить


на две группы:

которые … и которые
нельзя измерить … можно измерить

ко
ли
че
ст
ве
нн
ые
ые
твенн
ес
кач

18  Глава 1. Разберёмся с типами данных


В форме анкеты «Повесть о школе», т. 5
это выглядит так. Анкета постоянных читателей
Вопрос 1. Ваше мнение о 5м томе
«Повести о школе»?
1. Очень интересно
е
венны
2. Довольно интересно
?... е с т
Кач нные
3. Так себе
4. Скучновато
да
5. Совершенно неинтересно

Вопрос 2. Ваш пол?


1. ж 2. м

17 лет е
е данны
Вопрос 3. Ваш возраст? ____

е с нны журнала
твевыпусков
о л ч
Вопрос 4. Сколько
и
К вы приобретаете в месяц? __ шт 2

Среди участников
анкетирования
будут разыграны
30 брелоков
«Рина»!

Спасибо за Ваши ответы. Ваше ценное для нас мнение


мы учтём в последующих изданиях,
а также при разработке будущих проектов.

Качественные данные —
это данные, которые
нельзя измерить.
Аа, понятно.
Количественные данные —
данные, которые
можно измерить.

1. Количественные и качественные данные  19


2. Примеры качественных данных Почемуто
мне кажется, Я с тобой
что ответы согласен.
на вопрос 1
не являются
количественными
данными.

Вопрос
1
«Повест . Ваше мнени
и о шко е
1. Очень ле».
инте ресно
2. Довол
ьно инте
3. Так се ресно
Однако… 4. Скучн
бе
овато
Ах, согласен?!
5. Совер
шенно
неинте
ресно
Тогда, может быть,
объясните,
в чём тут дело.

Сначала вывод:
варианты ответов
на вопрос 1
относятся
к качественным Почему?!
данным.

Видишьли, Возьмём
шкала оценок,
конкретный
или отзывов,
не имеет равных пример...
интервалов.

Ну, и что…

20  Глава 1. Разберёмся с типами данных


Руи …

Что??

Сколько ты
весишь? Что?!

Да как Вы смеете А какой у тебя рост, 151 см!


задавать девушке можно спросить?
такие вопросы?
Это просто Вот
возмутительно! с этого и надо
было начинать!

Слава богу,
ты уже не
сердишься.

Для измерения
роста используют Да!
так называемый
ростомер, так?

Извини.

2. Примеры качественных данных  21


Бум!
Так, 151 см.

У этой шкалы каждое


деление равно 1 см.

Верно. Поэтому деление,


следующее за 151 см,
будет 152 см,
а следующее — 153 см
и так далее.

Посмотри
на эту шкалу. Да…

Это значит,
что шкала имеет равные,
или одинаковые, интервалы
между соседними делениями.
Следовательно,
рост можно измерить Теперь перейдём
и он, таким образом, к следующему
Ура,
относится к примеру.
поняла!
количественным данным.

Что
теперь?

звук открывания
Открываем...
крышки ноутбука

Так…

из « ебя обои
оле» ти
с
Пове
т
Ой, у

о шк

Короче,
Руи, ты же сдавала ты сдавала
квалификационный экзамен экзамен
по английскому языку, который Eiken ?
проводит общество для тестирования
знания английского языка ?

Об этом
этом
мне сказал
мне сказал
твой папа.
твой папа.

Постойте, Да, у меня


Вы это о чём? второй уровень.

2. Примеры качественных данных  23


Гм … Вот ты
Ну, и к каким к количествен и попалась.
данным относятся ным?
уровни экзамена?

Критерии сложности экзамена Eiken http://www.eiken.or.jp/

1й уровень 2й уровень 3й уровень 4й уровень 5й уровень

Продвинутый, Соответствует Соответствует Средний, Начальный,


соответствует программе программе 3Zго соответствует соответствует
программе вуза; средней школы; года обучения программе программе
словарный запас словарный запас средней школы; 2Zго года обучения 1Zго года обучения
примерно примерно словарный запас средней школы; средней школы;
10 –15 тыс. слов 5,1 тыс. слов примерно словарный запас словарный запас
2,1 тыс. слов примерно примерно
1,3 тыс. слов 600 слов

Критерии сложности
экзамена я представил Ухты…
в виде таблицы.

Количество слов,
которые необходимо знать,
зависит от уровня
сложности экзамена.
Так?

Да.
Но кроме количества слов,
существует и разная
степень сложности…

24  Глава 1. Разберёмся с типами данных


… уровни экзамена
Вот поэтому интер нельзя измерить
валы между уровнями и они являются
не могут быть качественными данными! Ясно!
одинаковыми. Значит, ...

«Повесть о
Анкета посто школе», т. 5
Молодец, Руи, янных чита
телей
я вижу, ты поняла, Вопрос 1. Ва
ше мнение
о 5м томе
«Повести о
да ? школе»?
1. Очень ин
тересно
2. Довольно
интересно
3. Так себе Можно сказать,
4. Скучнова
5. Совершен
то что интервалы
но неинтере
Вопрос 2. Ва
сно между вариантами
ш пол?
1. ж 2. м ответов на вопрос 1
Вопрос 3. Ва
ш возраст?
17
__ лет
равны ?
Вопрос 4. Ск
олько выпу
вы приобрет сков журнал
аете в меся а
ц? __ шт 2
Среди участн
иков
анкетировани

Нет, нельзя — Это


они не равны! качественные
данные!

Потому что
у каждого опрошенного
свой вкус.
Правильно!

2. Примеры качественных данных  25


А теперь тест. Температура Префектура,
в которой
воздуха? родился?
Количественные!
Качественные!

Дан в дзюдо? Вес тела?

Качественные ! Количественные!

Тираж книги Погода?


«Повесть о школе»?

Количественные! Качественные!

Молодец! На сегодня всё.

Встретимся на
Спасибо! следующей неделе.

Кстати,
Ура! Руи …
Наконец&то
с данными
покончено!

26  Глава 1. Разберёмся с типами данных


Ты не против,
если …

… я отправлю это…

Дв
ер
ьо
тк
ры
ва ... от своего имени ?
...... ет
ся

ДВ
ЕР
за Ь
кр Странный
ыв тип…
ае
тс
я

топ

топ
Потерпи
топ еще немножко,
А статистикато Игарасисан.
тесно связана с нашей
повседневной жизнью
и намного интереснее,
чем я думала!

2. Примеры качественных данных  27


3. Использование многовариантных ответов
на практике

Как было показано, вопрос 1 анкеты постоянных читателей относится


к качественным данным. Однако на практике, например при опросе
потребителей, эти данные часто рассматриваются как количественные.
Другими словам, возможны случаи, когда это может выглядеть так:

балл
очень интересно 5
довольно интересно 4
так себе 3
скучновато 2
совершенно неинтересно 1
или так:
балл
очень интересно 2
довольно интересно 1
так себе 0
скучновато –1
совершенно неинтересно –2

Существуют мир теории и мир практики, точнее, теоретический мир и


реальный. Поэтому одни и те же данные могут рассматриваться и как
количественные, и как качественные: всё зависит от того, где они
используются — в теории или на практике.

28  Глава 1. Разберёмся с типами данных


Упражнение

Посмотрите на таблицу:

Респон Группа Оценка Комфортная Лучший


дент крови вкусовых качеств комнатная температура результат
спортивного при работающем бега
коктейля Х кондиционере, °С на 100 м, c

А B (III) невкусно 25 14,1


Б A (II) вкусно 24 12,2
В AB (IV) вкусно 25 17,0
Г O (I) так себе 27 15,6
Д A (II) невкусно 24 18,4
… … … … …

Определите, к каким категорям данных относятся графы:


«Группа крови», «Оценка вкусовых качеств спортивного коктейля Х»,
«Комфортная комнатная температура при работающем кондиционере»
и «Лучший результат бега на 100 м».

Ответ
«Группа крови» и «Оценка вкусовых качеств спортивного коктейля Х»
относятся к качественным данным.
«Комфортная комнатная температура при работающем кондиционере»
и «Лучший результат бега на 100 м» относятся к количественным данным.

Выводы

Данные делятся на количественные и качественные.


Такие категории данных, как, например «Очень интересно», …,
«Совершенно неинтересно» с точки зрения теории относятся
к качественным данным. Однако на практике эти же данные могут
рассматриваться и как количественные.

Выводы  29
Глава 2
Знакомимся
с количественными
данными
1. Ряды распределения и гистограммы

Дв
ер
ьо
тк
ры
* Вкусный ва
ет
рамэн**. ся
50 лучших
Важно ресторанов Привет,
Руи.

** Рамэн — китайская лапша, блюдо ресторанов быстрого питания.


* Очень!
Посмотрела этот
журнал и думаю,
в какой ресторан
лучше пойти.

Ааа…
(удивляется)

Всё так
аппетитно,
правда?

Здравствуйте,
Ямамото
сан.

Да, никак
ты любишь
рамэн ?

32  Глава 2. Знакомимся с количественными данными


Понятно. ......???

(листает
страницы
журнала)

(что
*то
пише
т)

Цены на рамэн в 50 лучших ресторанах


(см. журнал «Вкусный рамэн. 50 лучшиех ресторанов»)
Для начала Ресторан Цена, йены Ресторан Цена, йены
я свёл в таблицу
цены на рамэн.

От обсуждения
ресторанов
плавно перешли
к занятию…
Всё*таки
странный тип…
О чем ты думаешь, Хочется И это всё ?
когда смотришь поесть Подумай ещё.
на эту таблицу? рамэн
Мммм…

Что?! Ещё ?…

А что тут ещё


можно подумать ? Такой разброс цен …

Это только таблица


с кучей чисел.
Как тут можно
чтонибудь понять?.

Что нужно сделать, Правильно!


Для начала
чтобы стало
давай разобьём
понятнее?
цены на группы.

Э*э …

Надо их
както Мм?
упорядочить.

34  Глава 2. Знакомимся с количественными данными


Попробуй представить
Так… одно большое здание, Д
а
в котором собраны з
д
все 50 ресторанов, р
а
предлагающих рамэн. в А Руи играет роль
с
т сотрудницы,
в сопровождающей
у
е посетителей в лифте
т
р
а
м
э
н
!

По… ,
н потрясающе
мэ !
Ра

Этаж и В каждом ресторане


интервал цен только один
От До вид рамэна …

5 этаж
5 18 47
900—1000 На каждом этаже
свой интервал цен
37 38 46 на рамэн (от … до … )
4 этаж
800—900 2 8 9 11 19 21 24 31 36

Такое разделение
26 30 33 34 39 40 41 49 50
3 этаж в статистике
700—800 1 6 10 12 15 20 22 23 25 называется
распределением.
2 этаж 43 44 45 48
600—700 3 4 13 14 16 17 28 35 42

1 этаж Понятно
7 27 29 32
500—600 …

1. Ряды распределения и гистограммы  35


Путеводитель по этажам
Номер Цифра
Рестораны, на вывеске
этажа и
аж расположенные
2 эт
интервал (середина
На каждом
на каждом этаже интервала)
цен
6 0
5
этаже есть вывеска, 5 этаж
950
на которой указана 900…1000

средняя цена на рамэн 4 этаж


на этом этаже. Лапш 800…900
850
а
3 этаж
700…800
750

ь!
ват
пож обро
Рамэн
670

ало
Д
2 этаж
600…700
650

1 этаж
550
500…600

Это
На втором этаже называется
цены варьируются серединой
от 600 до 700 йен. интервала
Значит, средняя цена
равна 650 йен!

(смеется)
Рестораны распределены
по этажам в соответствии (Ямамото*сан
с ценами на рамэн. в статусе сотрудницы,
На каждом этаже может быть сопровождающей
разное количество посетителей по этажам)
ресторанов.
Действительно.

На 3м этаже
На 1м этаже — 4,
больше всего
на 2ом этаже — 13, ресторанов — 18!
и т.д.

Число ресторанов,
Теперь вычислим
расположенных
относительную частоту
на каждом этаже,
ресторанов
называют
на 3м этаже!
частотой.

36  Глава 2. Знакомимся с количественными данными


Относительная частота
похожа на
процентное отношение,
которое должно быть
тебе знакомо.

Относительную Это доля


частоту ??? от всей совокупности,
если всю совокупность
принять за 1.

Есть
вот такая
формула:
Относительная Часть совокупности
частота = Вся совокупность

Так… Число ресторанов,


Да!
расположенных
на 3м этаже, равно 18. Относительная частота ресторанов,
Общее число (считает предлагающих рамэн по цене
в уме) от 700 до 800 йен,
ресторанов = 50.
Следовательно… т.е. по средней цене 750 йен,
равна 0,36.
Если данное значение умножить на 100,
поскольку это доля,
то получим 36%.

18 = 36 = 0,36
О, нет!
50 100
Правильно? Это же математика …

1. Ряды распределения и гистограммы  37


Распределение по цене
50 лучших ресторанов,
Смотри! предлагающих вкусный рамэн
Всё, о чем мы Количество
Интервал Середина Колво ресторанов,
сейчас говорили, ресторанов, относительная
ресторанов
цен интервала частота
частота
я представил
в виде таблицы,
называемой табли
цей (или рядом)
распределения.

Итого:

Да. На самом деле,


когда имеешь дело
Уффф... только с цифрами,
И всётаки чтолибо понять
математика. довольно трудно. (оживилась)
Поэтому,
давай представим
это графически.

Графическое представление
распределения данных Чтобы получить
называется гистограммой,
гистограммой столбиковую
или столбиковой диаграммой.
диаграммой диаграмму …

38  Глава 2. Знакомимся с количественными данными


Гистограммы построены на основе
… по горизонтали, таблицы распределения 50 лучших
(на оси х), ресторанов, предлагающих рамэн По
откладывают Гистограмма 1. вертикали
переменные. Частота (количество ресторанов) (оси y)
отложены:
В нашем случае
это будут на верхнем
цены на рамэн. рисунке —
частота,
Ширина столбца
равна величине на нижнем рисунке —
интервала. относительная
частота
В середине столбца
ставят значение, Гистограмма 2.
равное середине Относительная частота
интервала.

Ну, как?
Вот это
«худобедно»
Будем очень важно!
считать, Таблицы (или ряды)
Ммм что с ценами распределения
на рамэн … и гистограммы
помогают лучше
понять данные!
…я
худобедно
разобралась.

Вот как?..
Понятно!
2. Средняя величина

Мы недавно с девочками
из моего класса
ходили в боулинг…

во время
перерыва Удалось сбить
на чай хоть одну кеглю?

Что?! Если все девочки


Да я … класса, это
довольно много, Б В
Я очень не так ли?
хорошо Да, 18 девчонок.
играю Поэтому мы
в боулинг! разделились
на три команды
по 6 человек.

Смотри,
вот таблица
результатов
игры.

Я (быстро достает
достаёт таблицу)
пошутил.
Результаты игры в боулинг
Команда А Команда Б Команда В
Игрок Очки Игрок Очки Игрок Очки
РуиРуи 86 Томи 84 Синобу 229
Дзюн 73 Хаси 71 Юкки 77
Юми 124 Хана 103 Хитоми 59
О! Это Сизука 111 Мэй 85 Рисако 95
отличный материал Токо 90 Канна 90 Май 70
Каэдэ 38 Асами 89 Козуэ 88
для исследования.

Беглый просмотр
А РуиРуи — результатов позволяет
это ты? сделать вывод,
РуиРуи что у тебя, Руи, был И что
средний результат сстого?!
того!
в команде, да?
Дзюн
Да!
Я набрала
Юми 86 очков!

Понятно. Если мой результат


Средний Это результат, Может быть …
окажется выше
означает результат, который находится
посередине других среднего, Вы
который в среднем угостите меня Давай попробуем
набрал один человек результатов,
набранных пирожным! вычислить
в каждой команде. игроками команды, среднюю величину.
Понятно? так?
Вы сражались
командами. Это значит,
что вы сражались
за итоговый результат,
набранный каждой
командой. Верно?

Да, и что?

Команда А
Средний результат равен
общему количеству очков,
набранному командой,
делённому на число
игроков в команде. Команда Б

Команда В

Команда В
молодец!!

Значит, Так Вы
среднее количество угостите меня
очков в твоей команде, пирожным?
РуиРуи, равно 87.

ебя (злится)
А у т , так?
86
было

42  Глава 2. Знакомимся с количественными данными


И,
Слушай, а что если вместо
пожалуйста, пирожного я тебя «угощу»
не называйте коечем другим.
меня,
РуиРуи!

Извини…

Ус…успокойся. Например?

Например,
средней величиной, Кроме неё есть ещё
о которой я тебе средняя геометрическая
только что рассказывал. и средняя гармоническая.
Кстати, она называется Формулы оставим на десерт,
средней арифметической. а сами термины тебе придется
запомнить. Хорошо?

дняя ая
Сретрическ гармСредняя
е онич
геом еская

Лучше бы Вы
угостили меня
пирожным.

2. Средняя величина  43
Посмотри
3. Медиана
ещё раз
на таблицу
результатов

Ну что
на этот раз?

Результаты игры в боулинг


Давай Команда А Команда Б Команда В правильно ли
посмотрим считать
Игрок Очки Игрок Очки Игрок Очки
на команду В. Синобу 229 средним
РуиРуи 86 Томи 84
Дзюн 73 Хаси 71 Юкки 77 результатом
Как ты Юми 124 Хана 103 Хитоми 59 команды В
Сизука 111 Мэй 85 Рисако 95 103 очка?
думаешь, Токо 90 Канна 90 Май 70
Каэдэ 38 Асами 89 Козуэ 88

Вообщето не очень. В подобных случаях,


5 игроков команды … вычисляют
когда имеются
набрали < 100 очков, не среднюю величину,
слишком большие
а средний результат а медиану .
или малые значения …
> 100 !?

Синобу
просто
моло
дееец…

Медиану?

44  Глава 2. Знакомимся с количественными данными


Медиана — Для начала попробуем
значение, которое расположить в ряд очки,
приходится набранные игроками
на середину ряда, каждой команды.
если расположить
данные в порядке
возрастания
(или убывания). Команда А

Команда Б

Команда В

Ряд с нечётным числом элементов


А теперь попробуем
, , , , , вычислить медиану
для команды В.
медиана
Ряд с чётным числом элементов
, , , , , ,
Среднее значение этих двух Хорошо!
элементов будет медианой

Если ряд состоит … а если ряд с чётным


из нечётного числом элементов,
числа элементов, как в случае с боулингом, 77 + 88
медианой медианой будет = 82,5
будет значение, 2
среднее значение Вот что получается.
находящееся точно между 3м и 4м элементами.
посередине, …
Правильно!

3. Медиана  45
Покажука я тебе
ещё коечто интересное,
имеющее отношение Руи, копишь ли ты
к средним величинам… на чтонибудь
деньги ?

(смеется,
(смеётся,
радуясь
мечтам)

Да… Но
Опять… все мои сбережения
< 10000 йен*.

* Меньше 3500 рублей.

Тогда скажи,
когда в газетах или
в телевизионных новостях
обсуждают средний размер
накоплений японцев,
тебя не удивляют
размеры этой суммы.

Ещё как удивляют!


Ято что,
но даже мой папа
не кажется
настолько богатым.

46  Глава 2. Знакомимся с количественными данными


Средние накопления
такие большие
изза миллионеров. Не нужно расстраиваться,
если сумма ваших сбережений
намного меньше
средней величины.

В подобных случаях, Решено!


медиана Выйду замуж
гораздо ближе за богача,
к размеру сбережений чьи сбережения
обычных людей. намного больше
(РуиМиллионеры
размечталась)

медианы!
Да ты меня,
похоже,
не Ты меня
слушаешь расстраиваешь

3. Медиана  47
4. Стандартное отклонение
… команд
Итак, давай А и Б.
рассмотрим
результаты …
Давай.

Нарисуем Теперь для каждого игрока


шкалу… отметим значение набранных
им очков и напишем его имя.

(рисует)
(пишет)
Руи
Каэдэ Д Р
зюн уи
Токо

Команда А Средняя
Канна
величина
Средняя величина
РуиРуи и для команды А,
Каэдэ Дзюн Токо Сизука Юми и для команды Б
была равна 87,

Средняя
Канна
величина
но ситуация
Команда Б Канна на рисунке
Асами (линии на шкале)
Мэй сильно различается,
Томи верно?
Хаси Хана

48  Глава 2. Знакомимся с количественными данными


Да уж. Чтобы описать разброс
значений, используется
У команды А есть
стандартное отклонение
и низкие, и высокие (называемое также
результаты, средним квадратическим
а в команде Б отклонением).
все примерно
одинаковы.

Что это такое?

Если коротко, это


показатель отклонения
отдельных значений
от их средней величины.

Ммммм…
(непонятно)

Стандартное отклонение Как ты думаешь,


не можеть быть меньше 0. в какой команде
Чем больше стандартное отклонение, стандартное отклонение
тем больше отдельные значения больше?
могут отличаться от средней величины.

(минимум)
Нет разброса Разброс Ммм…
значений — значений
все значения равны Может, в А?

4. Стандартное отклонение  49
Правильно! И опять математика…
А точная формула
имеет вид

Стандартное (iе значение – среднее значение) 2


отклонение = колво значений

Да не переживай Сначала команда А


Команда А
ты так!
Всегото и надо —
подставить =
в эту формулу
конкретные числа.
Хочешь, попробуем =
вместе?

Хочу. =
=

Тогда попробуй сама


Такто
посчитать стандартное
наверно отклонение
и я смогу. для команды Б.

50  Глава 2. Знакомимся с количественными данными


Так…
Если сюда поставить
набранные игроками
очки…

Готово! Команда Б
Корень из 89,6 —
это сколько же? =
Пр

=
иб
ли
зи
те

=
ль
но
9,5
.

= Правильно!
= Видишь,
справилась
же!
(пишет)

О!
(смеётся) (удивлён) Стандартное отклонение:
Это просто! Команда А — 27,5
Команда Б — 9,5

На самом деле у всех игроков


команды Б похожие результаты.
(аплодисменты) Стандартное отклонение
здесь меньше, чем в команде А.

4. Стандартное отклонение  51
Я сказал, что формула для стандартного От общего количества
отклонения имеет вид значений отнимают 1 ?
(i*е значение – среднее значение)2
кол*во значений
но есть и другая формула

(i*е значение – среднее значение)2


кол*во значений – 1

Да.
(удивляется)

Генеральная
совокупность Выборочная
совокупность

Первая формула используется … а вторая формула —


при вычислении при вычислении
стандартного отклонения стандартного отклонения
генеральной совокупности, … в выборочной совокупности.

Генеральная
совокупность —
вся изучаемая … а выборочная
группа людей совокупность —
или объектов, … это группа людей
или объектов,
отобранная
из генеральной
совокупности,
так?

52  Глава 2. Знакомимся с количественными данными


Да, верно. Хорошо,
когда есть возможность
получить данные обо всех
объектах совокупности,
как в случае с твоей
командой. Но …

… обычно сделать
это сложно.

Поэтому почти
всегда используют Вот как…
вторую формулу.

Ну, на сегодня всё.

Спасибо!

4. Стандартное отклонение  53
5. Ряды распределения и величина интервала

Возможно, не все читатели до конца разобрались с понятиями


«ряды распределения» и «гистограммы».
Поэтому автор предлагает еще раз рассмотреть таблицу на стр. 38.

Таблица 2.1. Распределение 50 лучших ресторанов,


предлагающих вкусный рамэн (по цене на рамэн)

Интервалы цен, Середина Количество Колво ресторанов,


йены интервала ресторанов, относительная
частота частота

500—600 550 4 0,08


600—700 650 13 0,26
700—800 750 18 0,36
800—900 850 12 0,24
900—1000 950 3 0,06

Всего: 50 1,00

Как следует из таблицы, величина интервала равна 100. Это значение не являZ
ется стандартом в математике. Просто так захотел ЯмамотоZсан. Решение о выZ
боре интервала принимает тот, кто анализирует данные.
Не исключено, что среди читателей найдутся и такие, которым не дает покоя
вопрос: «Ряды распределения, построенные на основе субъективных решений,
неубедительны. Я не смогу показать их другим. Нет ли математического способа
определения величины интервала?». Конечно, есть. Покажем, как можно вычисZ
лить величину интервала для Табл. 2.1.

54  Глава 2. Знакомимся с количественными данными


Шаг 1

Количество интервалов определяется по формуле Стерджесса:

log10 N
КолZво интервалов = 1 + ,
log10 2
где N — количество значений в совокупности.

log10 50
1+ = 1 + 5,6438... = 6,6438… ≈ 7
log10 2

Шаг 2

Величина интервала определяется по формуле:

MAX – MIN
,
КолZво интервалов
где MAX — максимальное значение в совокупности,
MIN — минимальное значение в совокупности.

980 – 500 480


= = 68,5714… ≈ 69
7 7

5. Ряды распределения и величина интервала  55


Ниже приведена таблица распределения 50 лучших ресторанов по цене на рамэн
с величиной интервала, рассчитанной по формуле, данной на Шаге 2.

Таблица 2.2. Распределение 50 лучших ресторанов,


предлагающих вкусный рамэн (по цене на рамэн)

Интервал цен, Середина Количество Количество


йены интервала ресторанов, ресторанов,
частота относительная
частота
500—569 534,5 2 0,04
569—638 603,5 5 0,10
638—707 672,5 15 0,30
707—776 741,5 6 0,12
776—845 810,5 10 0,20
845—914 879,5 10 0,20
914—983 948,5 2 0,04

Итого 50 1,00

Ну и как? Не исключено, что некоторым данная таблица может показаться менее


убедительной, чем Табл. 2.1.
При этом могут возникнуть такие вопросы, как: «Почему величина интервала
равна именно 69 йенам?», «И что это за формула, ну, этого, как его, Стер… ? Да я
вообще такого не знаю!» и «Почему интервалы распределены таким непонятным
образом?!». Кроме того, среди читателей найдутся и такие, которые не рискнут
самостоятельно определить величину интервала.
Случаи, когда распределение непонятно, даже если величина интервала
определена математическим способом, встречаются довольно часто. И здесь
уместно вспомнить то, о чем шла речь в начале этой главы: таблицы (ряды)
распределения позволяют систематизировать данные наблюдения и интуитивно
понять общую ситуацию. Следовательно, вполне достаточно выбрать такую
величину интервалов, которая будет понятна тем, кто проводит статистический
анализ.

56  Глава 2. Знакомимся с количественными данными


6. Теория оценивания и описательная статистика

Объясняя Руи, что такое статистика, ИгарасиZсан определил её как науку,


изучающую «большие совокупности однородных объектов на основании их
выборочного исследования». Это не совсем так.
В статистике можно выделить два раздела: теорию оценивания и описательную
статистику. В прологе речь шла о теории оценивания. Тогда что же такое
описательная статистика? Это набор методов по упорядочиванию данных с целью
наиболее простого и ясного восприятия этих данных. Можно считать, что
описательная статистика рассматривает выборку как генеральную совокупность.
Возможно, такое определение комуZто покажется абстрактным и сложным для
понимания. Поэтому приведём пример. ЯмамотоZсан вычислял среднее значение
очков, набранное игроками команды Руи, и стандартное отклонение, чтобы
представить положение в команде Руи в наглядном виде. Именно такая статистика и
есть описательная.

Упражнение

Результаты забега на 100 метров приведены в следующей таблице:

Участник забега Результат бега


на 100 м, с
А 16,3
Б 22,4
В 18,5
Г 18,7
Д 20,1

Рассчитайте на основании этих результатов


– средний результат,
– медиану,
– отклонение.

Упражнение  57
Ответ

16,3 + 22,4 + 18,5 + 18,7 + 20,1 96


Средний результат = = = 19,2
5 5

Медиана: 16,3 18,5 18,7 20,1 22,4

Стандартное отклонение =

(16,3 – 19,2)2 + (22,4 – 19,2)2 + (18,5 – 19,2)2 + (18,7 – 19,2)2 + (20,1 – 19,2)2
= =
5

(–2,9)2 + 3,22 + (–0,7)2 + (–0,5)2 + 0,92


= =
5

20,2
= =
5

= 4,04 =

≈ 2,01

Выводы

• Чтобы «интуитивно» понять общую ситуацию с данными, строят


ряды распределения.
• Величина интервала в рядах распределения определяется по формуле
Стерджесса.
• Чтобы «математически» понять ситуацию с данными, вычисляют
среднюю величину, медиану и стандартное отклонение.
• Если ряд распределения содержит слишком большие или слишком
малые значения, рассчитывают медиану, а не среднюю величину.
• Стандартное отклонение — показатель, отражающий степень
разброса (рассеяния) значений.

58  Глава 2. Знакомимся с количественными данными


Глава 3
Знакомимся
с качественными
данными
1. Простые статистические таблицы
Помню,
в общих чертах!
Надеюсь, ты помнишь,
что качественные
данные — это данные,
которые нельзя измерить?

(ставит чашку)

Ты сегодня
в школьной форме…
А, это?

Уже скоро …

… я скажу
ей прощай.

Ты что, заканчи Скоро в нашей школе


ваешь школу?
Что? А как же введут новую форму.
ещё год?
Матроска
в клетку?...
Необычно.

Поэтомуто,
в нашем классе
(звук фанфар) было проведено
Вот такую! анкетирование.

Анкета. Нравится ли вам новая форма? Вот


Новая форма… Новая форма… Новая форма… результаты.
1 нравится 16 так себе 31 так себе
2 так себе 17 нравится 32 так себе
3 нравится 18 нравится 33 нравится
4 так себе 19 нравится 34 не нравится
5 не нравится 20 нравится 35 нравится
6 нравится 21 нравится 36 нравится
7 нравится 22 нравится 37 нравится
8 нравится 23 не нравится 38 нравится
9 нравится 24 так себе 39 так себе
10 нравится 25 нравится 40 нравится
11 нравится 26 нравится
12 нравится 27 не нравится
13 так себе 28 нравится
14 нравится 29 нравится
15 нравится 30 нравится

Ответы «нравится»,
О! Эта анкета — «не нравится» —
отличный пример это же
качественныx неизмеряемые данные,
данных! не так ли?

1. Простые статистические таблицы  61


Давай попробуем Давайте.
составить таблицу,
чтобы разобраться
с данными.

Оценка новой школьной формы Теперь ещё раз.


Ответ % Между прочим, Какова частота
Колво
Руи,
нравится ответов «нравится»?
а ты как
У нас
ответила?
так себе 28 ответов
«нравится»
не нравится следовательно,
Итого: 28!

Это
простая
статистическая Нравится!
таблица.

Значит,
процентное соотношение
будет таким:

62  Глава 3. Знакомимся с качественными данными


Новая форма…
нравится так себе не нравится

Хорошо. Так
Чтобы было действительно
более понятно, намного
нарисуем диаграмму. понятнее.

Из диаграммы следует,
что большую часть
занимают ответы «нравится»,
что, в свою очередь, Я так и знала!
свидетельствует о популярности Потому что
новой школьной формы. форма классная!

Кстати, мне она


тоже нравится.

Хихихи…
Вас забыли
спросить.

1. Простые статистические таблицы  63


Упражнение
Одна газета провела анкетирование по вопросу, какая из двух политических
партиий победит на следующих выборах.
Результаты анкетирования приведены в виде следующей таблицы:.

Респондент Победит партия А или Б

1 победит Б
2 победит Б
3 победит Б
4 не знаю
5 победит А
6 победит Б
7 победит А
8 не знаю
9 победит Б
10 победит Б

Используя результаты анкетирования,


постройте простую статистическую таблицу.

Ответ
Простая статистическая таблица выглядит так:
Оценка партии Частота %
Победит А 2 20
Не знаю 2 20
Победит Б 6 60

Итого 10 100

Выводы

• Чтобы понять общую ситуацию с данными,


строят простые статистические таблицы.

64  Глава 3. Знакомимся с качественными данными


Глава 4
Нормированное
отклонение
и рейтинг
успеваемости
1. Нормирование и нормированное отклонение Сегодня занятие вне дома,
Это — Здравствуйте.
Здравствуйте. да ещё и вместе с подругой —
Юми. Юми.

Приятно
познакомиться
познакомиться.

Извините,
я вам Это не то,
не помешаю? что ты
Хихи… подумала!!

О!… Вас Дело в том, что


Так, чем же мы набрали одинаковое
интересует
нам сегодня рейтинг количество баллов, но
заняться…? успеваемости за разные тесты —
? 90. по
по литера
англий туре
скому

Расскажите,
пожалуйста,
о рейтинге
успеваемости!

66  Глава 4. Нормированное отклонение и рейтинг успеваемости


Что это
с ней?
Но почемуто
рейтинг успеваемости
по литературе у Юми выше,
чем у меня поанглийскому. выше

ниже
Почему?!

Было бы хорошо, если бы мы


Это потому, что Вот они ….
знали результаты тестов
значимости баллов и других учеников, но… Юми
(Ю тян
по английскому языку Где же удимвли?
яе… ….?
т
ся)
и по литературе их взять…
отличаются.

(чтото
(что*то Оо?!
Почему?! ищет всумомке)
в сумочке)

Результаты тестов (максимальное количество баллов — 100)


Ученик Английский Литература Ученик Английский Литература
язык язык
Руи З
Юми И
А К
Б Л
В М
Г Н
Все ясно
Д О
Е П
Ж Р

1. Нормирование и нормированное отклонение  67


Хорошо.

Попробуй
вычислить
средний балл
по каждому
предмету.

средний
Готово!
балл
английский
язык
средний
Средний балл литература
балл
по англий = 81.3
скому ———
по литера
туре = 74.3——— Сравните степень отклонения своих
результатов от среднего балла и, таким
образом, ощутите разницу в значимости
набранных 90 баллов.

Вот почему… Вы обе заслужили


(плачет) награду в виде
пирожных.

Ура!!!
Пирожные!
Пирожные!

Но 90 баллов —
отличный
результат!

68  Глава 4. Нормированное отклонение и рейтинг успеваемости


Кстати Дада!
говоря… И здесь у нас тоже
одинаковые оценки!
(дружно)

73
балла
… по истории 73
и по биологии балла 7—3—
средний балл 73
ист—— огия
ория биол
был одинаков
и равнялся 53.

И несмотря на это, н
здесь тоже и
ж
разный рейтинг
успеваемости? е р в
е ы
т ш
е е
в
Хотя отклонение Угу,
от среднего А как насчёт
результата понятно. стандартного Аа!
одинаковое. отклонения Степень
по этим разброса
Ученик История Биология Ученик История Биология
предметам? значений!
Руи З
Юми И
А К
Б Л
В М
Г Н
Д О
Е ии,,
, РРуу ь!
П
Ж Р ННуу, даёш
Средний ты
балл:

1. Нормирование и нормированное отклонение  69


Формула, (i*е значение – среднее значение)2
помоему, кол*во значений
Верно?
такая:

р т ное о:
Так…
т а нд ие равн
а
С онен
т к л 2 2 ,7
о =
т о рия 3
ис 18,
=
огия
биол
Готово!

Чем меньше стандартное средний


отклонение, тем меньше балл
история
разброс данных,
поэтому получается,
что результаты средний
балл
теста по биологии биология
у всех болееменее похожи
в отличие
от результатов теста Что это
по истории. значит…?

Если бы я готовился Какието 1—2 балла


к поступлению в институт, могут существенно
я бы поднажал на биологию, повлиять на конечный
так как в тесте по биологии результат.
значимость балла выше,
чем в тесте
по истории.

КакКак
ему ему
идётидет
форма
форма абитуриента…
старшеклассника…

Хи*Хи*Хи

70  Глава 4. Нормированное отклонение и рейтинг успеваемости


Хотя количество Я не думала, что
баллов у нас сравнивать
и одинаковое – 73, баллы так сложно.
в биологии Руи, Да,
значимость баллов не унывай это
выше. так…
(Ямамотосан
посетила
хорошая идея)

(расстроилась)
(расстроилась) (недовольна)
(не довольна)

Вот почему придумали


нормирование
(называемое также нормировка,
стандартизация, нормализация)!

Нормирование ?

Это преобразование Такое


значений, проводимое преобразование
на основе стандартного делает более
отклонения и отклонения простым изучение
от среднего значения. значимости баллов!
Его ещё называют
Zпреобразованием.

1. Нормирование и нормированное отклонение  71


Нормирование
проводят так: Нормированное Значение – Среднее значение
отклонение =
(ZZпоказатель) Стандартное отклонение

Нормированные отклонения (удивляется)


образуют совокупность
нормированных значений.

Применительно к тестам
нормированное отклонение Согласны!
(оно же Zпоказатель) имеет другое
название — стандартизованный
балл.
Результаты тестов
по истории и биологии Нормированные отклонения
Ученик История Биология История Биология

Руи
Юми
А
Б
В
Г
Д
Е
Ж
З
И
К
Л
М
Н
О
П
Р
Средний балл
Станд. отклонение

онение 73  53 = 20 = 0.88
Нормированное откл = 22.7
Да, Руи по истории 22.7
так. клонение 73  53 = 20 = 1.09
Нормированное отбиологии = 18.3 18.3
Ю м и по

72  Глава 4. Нормированное отклонение и рейтинг успеваемости


2. Свойства нормированного отклонения У нормированного отклонения,
вычисленного путём нормирования,
есть свои особенности.
Ну, и что это
0,88
за цифры? и
1,09

Можно
1. Независимо от максимального количества сравнивать
результаты
баллов, среднее значение нормированного тестов
отклонения (ZZпоказателя) всегда равно 0, с максимальным
а стандартное отклонение нормированных количеством баллов,
отклонений всегда равно 1. равным 100 и 200.

Можно также
сравнивать
2. В чём бы ни измерялась переменная, количество ударов
среднее значение её нормированных по воротам
отклонений всегда равно 0, а стандартное или угловых
в футболе .
отклонение нормированных отклонений
всегда равно 1.

Вы опять
Нормированное отклонение об этом …
позволяет понять (плачет)
значимость 73 баллов
в тестах
по истории и биологии

2. Свойства нормированного отклонения  73


3. Рейтинг успеваемости Формула такая:

Рейтинг успеваемости Рейтинг успеваемости =Tпоказатель =


(он же Tпоказатель) = Нормированное отклонение  10 + 50
рассчитывается на основе
нормированного отклонения. И правда,
используется
значение
нормированного
Оооо… отклонения.
(удивляется)

Попытаемся
Руи
вычислить
(история)
рейтинг
успеваемости
в ваших тестах. Юми
(биология)
Дада,
такие цифры и были.

Нормированное Нормированное отклонение (Zпоказатель):


отклонение 1. Независимо от максимального количества баллов, среднее
имеет такие значение нормированного отклонения (ZZпоказателя )
свойства: всегда = 0, а стандартное отклонение нормированных
отклонений всегда = 1.
2. В чём бы ни измерялась переменная, среднее значение её
нормированных отклонений всегда = 0, а стандартное
отклонение нормированных отклонений всегда = 1.

Рейтинг успеваемости (Tпоказатель):


1. Независимо от максимального количества баллов,
среднее значение рейтинга успеваемости (TZпоказателей )
всегда = 50, а квадратичное отклонение рейтингов
успеваемости всегда = 10.
2. В чём бы не измерялась переменная, среднее значение
рейтинга успеваемости всегда = 50, а стандартное
отклонение рейтингов успеваемости всегда = 10.

74  Глава 4. Нормированное отклонение и рейтинг успеваемости


Вот как… Может быть, на этом
сегодня закончим?

Ура!

В тестах, а также
в других аналогичных
исследованиях, значимость
каждого балла имеет Пирожные!
важное значение,
поэтому и используют
рейтинг успеваемости.

Я хочу это и это… А я хочу попробовать


вот это…
Фруктовая Слоёный торт
тарталетка с клубникой «Сказочный грибок»
(не ожидал)

Ямамотосэнсей,
спасибо!

(нервничает)

А хватит ли
у меня денег…

3. Рейтинг успеваемости  75
4. Что такое рейтинг успеваемости?
В общем случае это TZпоказатель, который вычисляется по формуле:

TZпоказатель = Нормальное отклонение  10 + 50 =


Значение – Среднее значение
= —————————————————  10 + 50.
Стандартное отклонение
В классе Руи 40 учеников, и из них 18 девочек. Рейтинги успеваемости были
приведены только для двух девочек. Если объектом исследования были бы все
ученики класса, среднее значение и стандартное отклонение были бы совсем
другими, и, естественно, рейтинги успеваемости Руи и Юми тоже были бы другими.
Если бы рассчитывались рейтинги успеваемости всех учеников класса, показатель
Руи был бы выше.
Результаты теста всех учеников представлены в Табл. 4.1. Обязательно
попробуйте вычислить рейтинги успеваемости. Забегая вперёд, скажу что у Руи по
истории он равен 59,1, а у Юми по биологии он равен 56,7.

Теперь представим, что одинаковые тесты проводились в двух классах. Сначала


вычислили отдельно средний балл и стандартное отклонение для учеников 1Zго
класса, и затем на их основе рассчитали рейтинг успеваемости. То же проделали и
для 2Zго класса. Показатель успеваемости ученика А из 1Zго класса был равен 57, и
рейтинг успеваемости ученика Б из 2Zго класса тоже был равен 57. На первый взгляд
кажется, что у них одинаковые знания. Однако, такие необходимые для расчёта
рейтинга успеваемости данные, как средний балл и стандартное отклонение, в 1Zм и
2Zм классах были разными. Следовательно, нельзя сравнивать рейтинги
успеваемости этих двух учеников.

И еще один пример. Ученик А в апреле сдавал пробный экзамен на


подготовительных курсах. Его рейтинг успеваемости был равен 54. Все лето А
продолжал заниматься на других курсах. А в сентябре, чтобы убедиться, что его
труды не пропали даром, он решил сдать еще один пробный экзамен, но уже на
других курсах. На этот раз рейтинг успеваемости был 62. На первый взгляд кажется,
что знания А улучшились. Но он сдавал пробные экзамены на разных курсах, и,
следовательно, организаторы проведения экзамена в апреле и в сентябре были
разные. Это, в свою очередь, означает, что средний результат и стандартное
отклонение, т.е. показатели, необходимыедля вычисления рейтинга успеваемости, в
апреле и сентябре были разные, и, следовательно, нельзя сравнивать два значения
рейтинга успеваемости А.

Ну как? Понятие показатель успеваемости довольноZтаки сложное.

76  Глава 4. Нормированное отклонение и рейтинг успеваемости


Таблица 4.1. Результаты теста по истории и биологии
(всех учеников класса Руи)

Девочка История Биология Мальчик История Биология


Руи 73 59 а 54 2
Юми 61 73 б 93 7
А 14 47 в 91 98
Б 41 38 г 37 85
В 49 63 д 44 100
Г 87 56 е 16 29
Д 69 15 ж 12 57
Е 65 53 з 44 37
Ж 36 80 и 4 95
З 7 50 к 17 39
И 53 41 л 66 70
К 100 62 м 53 14
Л 57 44 н 14 97
М 45 26 о 73 39
Н 56 91 п 6 75
О 34 35 р 22 80
П 37 53 с 69 77
Р 70 68 т 95 14
у 16 24
ф 37 91
х 14 36
ц 88 76

Средний балл 48,0 54,9


по всему классу

Стандартное
отклонение 27,5 26,9
по всему классу

4. Что такое рейтинг успеваемости  77


Упражнение

В упражнении на стр. 57 приведены результаты бега на 100 метров.

Участник Результат
бега на 100 м,
c

А 16,3
Б 22,4
В 18,5
Г 18,7
Д 20,1
Среднее 19,2
значение
Стандартное 2,01
отклонение

Проверьте с помощью этой таблицы:


1. Равно ли 0 среднее значение нормированных отклонений.
2. Равно ли 1 стандартное отклонение нормированных отклонений.

78  Глава 4. Нормированное отклонение и рейтинг успеваемости


Ответ

1. Среднее значение нормированных отклонений =

16,3 – 19,2 22,4 – 19,2 18,5 – 19,2 18,7 – 19,2 20,1 – 19,2
+ + + +
2,01 2,01 2,01 2,01 2,01
= =
5
(16,3 – 19,2) + (22,4 – 19,2) + (18,5 – 19,2) + (18,7 – 19,2) + (20,1 – 19,2)
2,01
= = упорядочили
5
числитель
16,3 + 22,4 + 18,5 + 18,7 + 20,1 – 19,2 – 19,2 – 19,2 – 19,2 – 19,2
2,01
= =
5
96 – 19,2  5
отдельно индивидуальные значения,
2,01 отдельно средние значения (–19,2).
= =
5
96 – 96
2,01
= =
5
0
= =
5
=0

2. Стандартное отклонение нормированных отклонений =


2 2 2 2 2
16,3 – 19,2 22,4 – 19,2 18,5 – 19,2 18,7 – 19,2 20,1 – 19,2
–0 + –0 + –0 + –0 + –0
2,01 2,01 2,01 2,01 2,01
= =
5
2 2 2 2 2
16,3 – 19,2 22,4 – 19,2 18,5 – 19,2 18,7 – 19,2 20,1 – 19,2
+ + + +
2,01 2,01 2,01 2,01 2,01
= =
5

(16,3 – 19,2)2 + (22,4 – 19,2)2 + (18,5 – 19,2)2 + (18,7 – 19,2)2 + (20,1 – 19,2)2 упорядочили
2,012
= = числитель
5

1 (16,3 – 19,2)2 + (22,4 – 19,2)2 + (18,5 – 19,2)2 + (18,7 – 19,2)2 + (20,1 – 19,2)2
=  =
2,012 5

1 (16,3 – 19,2)2 + (22,4 – 19,2)2 + (18,5 – 19,2)2 + (18,7 – 19,2)2 + (20,1 – 19,2)2
=  =
2,01 5
1
=  Стандартно отклонение =
Стандартное отклонение
=1 Внимательно посмотрите на таблицу на стр. 78.

Упражнение  79
Выводы

• Нормирование (нормировка, стандартизация, нормализация),


или Zпреобразование, — преобразование значений, проводимое
на основе данных о степени разброса (рассеяния) и отклонения от
среднего значения. Нормирование позволяет оценить значимость
значений.

• Нормирование позволяет сравнивать различные переменные


величины, например:
– величины, имеющие разный размах (разность между
максимальным и минимальным значениями);
– величины, имеющие разные единицы измерения.

• Нормированные данные — нормированные отклонения


отдельных значений.

• Рейтинг успеваемости рассчитывается по формуле Tпоказателя


на основе нормированного отклонения.

80  Глава 4. Нормированное отклонение и рейтинг успеваемости


Глава 5
Вычислим
вероятность
1. Функция распределения плотности вероятности Сегодня я расскажу,
что нужно знать,
чтобы вычислить
вероятность чеголибо.

(п отр
ри
см
В статистике иногда говорят:

ст ит)
аль
«вероятность чегото меньше 0,05»

но
Чем же?
Ямамотосан Мне нравится
довольно Игарасисан.
симпатичный.

Руи ?

Извините!
Вероятность — Содержание То, о чём сегодня пойдет речь,
это та самая вероятность, сегодняшнего очень частое явление
про которую говорят занятия в статистике, поэтому
в прогнозе погоды ? несколько слушайте внимательно.
абстрактное.

Абстрактное?

Да.
Руи Хорошо…

82  Глава 5. Вычислим вероятность


Результаты теста по английскому языку всех
одиннадцатиклассников школ Центрального округа
Ученик Балл
Представим, … сдавали экзамен
что все ученики 1 на подготовительных
11х классов 2 курсах.
Центрального

округа …
10421
Средний балл
Стандартное
отклонение

Вы сегодня (перевернул
очень хорошо страницу)
подготовлены.
Если эту таблицу
(смеется)
Ха*Ха*Ха. представить
Мы только в виде гистограммы,
начали. то получим …

Гистограмма Что произойдет,


«Результаты теста по английскому языку».
Величина интервала равна 10. если на этой гистограмме
Ооо… уменьшить величину
Действительно, интервала?
если нарисовать
гистограмму, можно
чтото
понять.
Что ?
умень ото*сан
я)
шилс

Потому что
наглядно.
м
(Яма

1. Функция распределения плотности вероятности  83


Величина интервала и гистограмма
«Результаты теста по английскому языку»

Величина интервала
равна 10

О…
Превращается
в непрерывную
линию!
Величина интервала
равна 5

Величина инте рвала


равна 3

Кривая
распределения

84  Глава 5. Вычислим вероятность


… а функция, описываемая этой
Если величина интервала кривой, в статистике
на гистограмме стремится называется
к нулю, то получается функцией распределения
кривая распределения … вероятностей.

Известно Сегодня
достаточно я расскажу о тех,
много которые используются
форм кривых наиболее часто.
распределения.

Хорошо!

1. Функция распределения плотности вероятности  85


2. Нормальное распределение
( )
1 x–x 2
–— –––––––––––––––
1 Стандартное
f(x) = e 2 отклонение
2π  Стандартное отклонение

где x — средняя величина х (средняя арифметическая ряда)

Вот.

Это — часто
встречающаяся А что это
Что это ?!! в статистике за знак «е»?
функция
распределения
вероятности.

Символ «е» — математи


ческая константа, основание основание
натурального логарифма;
его иногда называют числом
Эйлера или числом Непера.
e = 2,7182.

Ха*Ха*Ха

Можешь Ну, тогда ладно…


думать,
что это
как число π Фу…

86  Глава 5. Вычислим вероятность


График функции
распределения Среднее значение = 53, станд. отклонение = 15
вероятности имеет
следующие свойства:
1. Кривая симметрична
относительно центра
распределения, который
находится в точке,
соответствующей
среднему значению.
2. Функция зависит
от среднего значения
и от стандартного
отклонения. Среднее значение = 53, станд. отклонение = 5

Среднее значение = 30, станд. отклонение = 5

Ммм…
(не очень*то
понятно)

2. Нормальное распределение  87
Послушай, … распределение величины х при определённых значениях
существует средней арифметической ряда (или среднего значения, x)
правило, и стандартного отклонения называют нормальным
согласно распределением, если плотность распределения вероятностей
которому … выражается формулой
2

f(x) =
1
——————
1
(
– — –––––––
e 2 Ст.откл.
x–x
)
2␲ ⫻ Стандартное отклонение

Чего ???!!! Ничего


не понимаю… Правило
довольно
специфическое,
поэтому просто
запомни его.

… называют нормальным
распределением… !?

Возьмём для примера … то имеет место нормальное распределение при


среднем балле 53 и стандартном отклонении 10.
предыдущий тест.
Если кривая функции
распределения
вероятностей
результатов теста
по английскому имеет
следующий вид…

88  Глава 5. Вычислим вероятность


Значит, результаты теста по
английскому со средним баллом = 53 Вот как…
и стандартным отклонением = 10
распределяются по закону Ааа…
нормального распределения (поняла)
(или по нормальному закону).

3. Стандартное нормальное распределение


А что
же ещё ?
Но это ещё не всё …

А если плотность распределения вероятностей выражается формулой


x–x 2 x–0 2
__
f(x) = —
1
————— e 2
1
–— ( ––––––)
Ст.откл. =— _1—— e– —
_— 2
1
( –––––)
Ст.откл. = —_
—e 2
1 2
1_ – — x
2␲ ⫻ Ст.откл. 2␲ ⫻ 1 2␲

то в статистике не говорят, что величина x имеет нормальное распределение


при значении средней арифметической ряда = 0 и стандартном отклонении = 1.
Принято говорить, что величина х имеет
стандартное нормальное распределение.

3. Стандартное нормальное распределение  89


Предположим, что результаты теста
...!? Рассмотрим ещё раз
имеют нормальное распределение
результаты теста
при среднем значении = 53 балла
по английскому.
и стандартном отклонении = 10.

Ну, хорошо.

Ученик Балл Нормированное


отклонение
1
2

10421
среднее
значение
стандартное
отклонение

Балл – Средний балл 50 – 53 –3


= = = –0.3
Стандартное отклонение 10 10

Если это так, то после нормирования


результаты теста по английскому …
Стандартное нормальное распределение

… будут иметь
стандартное
нормальное
распределение.

Понятно!

Не сдавайся!
Цель близко!
Следуй за мной!

А какая
у нас цель?

3. Стандартное нормальное распределение  91


Таблица стандартного нормального распределения
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
: : : : : : : : : : :
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
: : : : : : : : : : :

Из этой таблицы
становится понятен
смысл площади Площадь?
под кривой. Что это значит?

Ооооо!
Ты жива!
Проснись, Руи!
е
ны
ш …
ло ры
Сп иф
ц

Ожила!

92  Глава 5. Вычислим вероятность


Итак, Z = 1,96…

Пусть Z
равно 1,96,
Представим Разделим
это значение десятые и сотые
Пусть. в виде двух чисел: доли, так?

Теперь
посмотрим
на таблицу,

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
: : : : : : : : : : :
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
: : : : : : : : : : :

Пересечение строки 1,9


и столбца 0,06 …

даёт 0,4750. Забыл сказать:


и при нормальном распределении,
и при любом другом, площадь области,
ограниченной осью х и всей кривой распредения,
равна 1.

Площадь = 1
Правильно! Это площадь
заштрихованной на графике
области при Z = 1,96. Надо же!

3. Стандартное нормальное распределение  93


А теперь
главное блюдо
сегодняшнего дня.
Слушай внимательно.
Ооо.
Жду, не дождусь!

Площадь области,
ограниченной кривой стандартного
нормального распределения и осью х,
равна доле и вероятности.

Сейчас приведу два примера,


постарайся понять.

94  Глава 5. Вычислим вероятность


Пример 1

Все десятиклассники школ Восточного округа сдавали


тест по математике. Когда им поставили оценки,
стало ясно, что распределение результатов теста
можно считать нормальным при среднем балле 45,
и стандартном отклонении 10.
Теперь хорошенечко подумай.
Следующие пять выводов имеют один и тот же смысл:

1. При нормальном распределении, когда среднее значение = 45


и стандартное отклонение = 10, площадь заштрихованной области = 0,5.

0,05
0,04
0,03
0,02
0,01
0
0 10 20 30 40 50 60 70 80 90 100

2. Доля учеников, чей результат был > 45 баллов, составляет 50% от


общего числа участников теста.
3. Предположим, что из общего числа учеников произвольно выбрали одного.
Вероятность того, что он набрал > 45 баллов, равна 50%.
4. Для стандартного нормального распределения, полученого после
нормирования результатов теста, доля учеников с результатом > 0
составляет 50% от общего числа участников теста.

0,5
0,4
0,3
0,2
0,1
0
–4 –3 –2 –1 0 1 2 3 4

5. Предположим, что из общего числа учеников произвольно выбрали одного.


При стандартном нормальном распределении, полученном после
нормирования результатов теста по математике, вероятность того,
что он набрал положительный балл, составляет 50%.

3. Стандартное нормальное распределение  95


Среднее значение = 45 баллам, Да, правильно.
поэтому кривая имеет максимум
в точке, соответствующей
среднему значению,
и симметрична относительно
максимума, так?

Если количество Точно!


набранных баллов > 45,
получается как раз целиком
правая сторона кривой.
Поэтому 50%, да?

Ну, это
даже мне
Ты меня успокоила.
понятно.
Теперь пример
чуть посложнее.

96  Глава 5. Вычислим вероятность


Пример 2

Все десятиклассники школ Восточного округа сдавали тест


по математике. Когда им поставили оценки, стало ясно,
что распределение результатов теста можно считать
нормальным при среднем балле = 45 и стандартном отклонении = 10.
Теперь напряги мозги. Как и в предыдущем примере, все следующие пять
выводов имеют один и тот же смысл. Но на этот раз ты для начала
прочти вывод 4.

1. При нормальном распределении, когда среднее значение = 45 и стандартное отклоZ


нение = 10, площадь заштрихованной на графике области = 0,5 – 0,4641 = 0,0359.
0,05
0,04
0,03
0,02
0,01
0
0 10 20 30 40 50 60 70 80 90 100
63

2. Доля учеников, чей результат > 63 баллов, = 0,5 – 0,4641= 0,0359 или 3,59%
от общего числа сдававших экзамен.
3. Предположим, что из общего числа учеников был произвольно выбран один.
Вероятность того, что он набрал > 63 баллов, = 0,5 – 0,4641 = 0,0359 или 3,59%.
4. При нормальном распределении доля учеников с нормированным отклонением
18 63 – 45 Значение – Среднее значение
балла > 1.8 = — = ———— = —————————————————
10 10 Стандартное отклонение
составляет 3,59% (0,5 – 0,4641 = 0,0359)
(см. Таблицу стандартного нормального распределения).

0,5
0,4
0,3
0,2
0,1
0
–4 –3 –2 –1 0 1 2 4
1.8
5. Предположим, что оценки учеников после нормирования распределены по
стандартному нормальному закону. Вероятность того, что нормированное
отклонение произвольно выбранного ученика > 1,8 равна 3,59%.

3. Стандартное нормальное распределение  97


Ооо… Как я рад,
На самом деле площадь — что ты поняла!
это и доля , и вероятность. Правда,
я молодец?!

(плачет
от радости)

Не только при стандартном


Хорошо!
нормальном распределении,
но и при любой другой функции
распределения вероятностей
существует взаимосвязь:
площадь под кривой
равна как доле, так и
вероятности. Запомни это.

Ну, а теперь
еще один важный вид
кривой распределения
плотности вероятности.
Я готова.

98  Глава 5. Вычислим вероятность


4. Распределение хи-квадрат
Существует
так называемое А также
распределение Ой, кажется,
хихиквадрат… не смешно.
хиквадрат. Да нет,
хорошая шутка.

Если функция распределения вероятностей выражается формулой


n –1 x
1 — –—
——
n


——n— —
–1

–x
— × x 2
× e 2
при x > 0,
2 ×x
2 2
e dx
f(x) = 0

0 при x  0,

то в статистике говорят, что величина х имеет распределение хиквадрат


с числом степеней свободы n.

Спасите!

Мне нравится, Давай посмотрим


Ты не математик, как ты на графики, которые
поэтому тебе не придётся реагируешь, получаются в случаях,
доказывать эту формулу. поэтому я тебе когда число
Успокойся. её показал. степеней свободы
равно 2, 10 и 20.
Что
это
за
ужас?
Что?!

4. Распределение хи-квадрат  99
Число степеней свободы равно 2

В зависимости
от числа
степеней свободы
форма графика
совершенно меняется.
Число степеней свободы равно 10

Число степеней свободы равно 20

100  Глава 5. Вычислим вероятность


Так,
а что же такое Ах, да.
«степень свободы»
?!

Правильно!
Что такое «а» в линейной Если меняется
функции f(x) = ax + b ? значение а,
меняется и наклон
прямой на графике.
А почему это ты
Может, наклон?
меня об этом Угу.
спрашиваешь?

«Степень свободы», Так вот


точно так же, как и наклон, что такое
влияет на форму графика. «степень Она также
свободы»! зависит от
размера выборки.
Чем больше
выборка, тем
больше степеней
свободы.

Поэтому, если меняется


число степеней свободы,
форма графика
тоже меняется.

4. Распределение хи-квадрат  101


Так же, как существует
таблица стандартного
нормального распределения,
есть и таблица
для распределения
хиквадрат.

Таблица распределения
хиквадрат — это …

… таблица, в которой указывается


значение χ2 (см. ось х на графике),
соответствующее значению
вероятности (которая, как мы знаем,
равна площади и доле)
заштрихованной области P.

102  Глава 5. Вычислим вероятность


Ммммм…
Что это за символ?

Ну, давай
посмотрим
таблицу.

Это критерий
согласия Пирсона,
хиквадрат.
χ  греческая буква хи.

Таблица распределения хиквадрат

Степень
свободы

Похожа на таблицу
стандартного
нормального
распределения
Похожа, но есть
небольшое отличие.

4. Распределение хи-квадрат  103


Таблица стандартного
нормального распределения А таблица распределения
позволяет по значению хиквадрат позволяет
координаты x (в пределах по вероятности
найти соответствующую Вот
заштрихованной области)
координату на оси х. это
найти соответствующую
значение!
вероятность.

Вероятность
равна площади,
или доле. Так?

Ну подожди,
не нервничай.
В голове у меня
полная каша!!!

Давай посмотрим,
какое будет значение,
если число
степеней свободы = 1
и Р = 0,05.

Значение, находящееся
на пересечении строки «1», … будет 3,8415
и столбца «0.05», …

104  Глава 5. Вычислим вероятность


Руи, эту таблицу,
я оставлю тебе.
Используй её
для повторения
материала.

Хорошо, спасибо.

Ну, тогда
на сегодня всё.
Ээх…
(встает)
(встаёт)

Дзынь
Ты хорошо сегодня
потрудилась.

Значит, он
всётаки
получил брелок…

Хи

и
хи

4. Распределение хи-квадрат  105


5. Распределение Стьюдента

В статистике часто используется и такая формула распределения вероятностей:


n1 n1
 1
0 x 2 e xdx x2 2
f(x)  × 1
 n
1 n
nπ  x 2 e xdx
0

где n — число степеней свободы. Если плотность распределения вероятностей


можно выразить с помощью этой формулы, в статистике это означает, что величина
х имеет распределение Стьюдента с числом степеней свободы n.
Распределение Стьюдента с числом степеней свободы 5
0,6

0,5

0,4

0,3

0,2

0,1

0
–6 –4 –2 0 2 4 6

6. Распределение Фишера, или F-распределение


Не менее часто используется и такая функция распределения плотности вероятности:
nm
( 
0
x 2
1
)
e xdx × n 2 × m 2
n m

×
n
x2
1
при x > 0,
nm
f(x) = ( 
0
n
x2
1
) (
e xdx ×  0 x

m
2
1
e xdx ) (nx + m) 2

0 при x  0,
где n и m — число степеней свободы величины x.

Если формула плотности распределения вероятности имеет такой вид, в статистике


это означает, что х имеет FZраспределение с числом степеней свободы n и m.

106  Глава 5. Вычислим вероятность


Случай, когда степень свободы n = 10, а m = 5

0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 2 4 6 8 10

7. Распределения и Excel
До начала 90Zх вычисление вероятности и значения х было настолько сложным и
трудоёмким, что его можно было выполнить только с помощью таблиц стандартного
нормального распределения и распределения хиZквадрат. Однако, по мере развития
компьютерных технологий, необходимость в этих таблицах отпала, поскольку
величины, которые указаны в таблицах, можно получить с помощью программы
Excel.
Таблица 5.1.
Функция
Распределение Значение функции
русский английский
Нормальное НОРМРАСП NORMDIST Вероятность для заданного х
распределение* НОРМОБР NORMINV Значение х для заданной вероятности
Стандартное нормальное НОРМСТРАСП NORMSDIST Вероятность для заданного х
распределение НОРМСТОБР NORMSINV Значение х для заданной вероятности
Распределение ХИ2РАСП CHIDIST Вероятность для заданного х
хиZквадрат ХИ2ОБР CHIINV Значение х для заданной вероятности
Распределение СТЬЮДРАСП TDIST Вероятность для заданного х
Стьюдента СТЬЮДРАСПОБР TINV Значение х для заданной вероятности
Распределение Фишера FРАСП FDIST Вероятность для заданного х
FРАСПОБР FINV Значение х для заданной вероятности

* Функция распределения вероятностей (речь идёт о нормальном распределении) зависит


от таких параметров, как среднее значение и стандартное отклонение. Поэтому таблицу
нормального распределения, даже при большом желании, невозможно составить. Но с
помощью Excel можно сформировать таблицу, соответствующую таблице нормального
распределения, что очень удобно.

7. Распределения и Excel  107


Упражнение
1. Используя таблицу стандартного нормального распределения на стр. 93,
вычислите вероятность для заштрихованной на графике области.

0,5

0,4

0,3

0,2

0,1

0
–4 –3 –2 –1 0 1 2 3 4

–0,29
2. Используя таблицу распределения хиZквадрат на стр. 103, вычислите значение
χ2, если число степеней свободы равно 2, а Р = 0,05.

Ответ
1. Искомая вероятность равна вероятности заштрихованной области.

0,5

0,4

0,3

0,2

0,1

0
–4 –3 –2 –1 0 1 2 3 4

0,29

Вероятность при z = 0,29 = 0,2 + 0,09, как следует из таблицы


стандартного нормального распределения, равна 0,1141. Следовательно,
искомая вероятность будет равна: 0,5 – 0,1141 = 0,3859.
2. Как следует из таблицы распределения хиZквадрат, значение величины χ2,
которое нужно найти, равно 5,9915.

108  Глава 5. Вычислим вероятность


Выводы

• Кятностей
широко используемым видам функции распределения веро
можно отнести:
– нормальное распределение;
– стандартное нормальное распределение;
– распределение хиквадрат;
– распределение Стьюдента;
– распределение Фишера.

• Площадь области, ограниченной осью х и кривой распределе


ния вероятностей, равна 1.

• Площадь области, ограниченной осью х и кривой распределе


ния вероятностей, тождественна и доле, и вероятности.

• Сможно
помощью таблиц распределений или программы Excel
вычислить:
– вероятность при определенном значении х;
– значение х при определенном значении вероятности.

Выводы  109
Глава 6
Что может связывать
две переменные
(ктото
(кто*то идет,
идёт,
шаркая ногами)

На самом деле …

Что это у Вас Ааа,


за вид? действи
Ботинки тельно.
разные!!

… хорошо
иногда Ах, если бы Игарасисан…
провести урок это был
на улице Игарасисан,
было бы так
здорово…
Игарасисан…
Эээ ?

Черт…
Чёрт… Сегодня
Я уже стала я тебе расскажу
забывать, как про связь между
он выглядит… двумя переменными
И всё потому,
что этот тип
вечно у меня
перед Да слышуслышу.
глазами!

Ты меня слышишь?

Например, Или
«если человек высокий, «в зависимости от места
то и весит много» проживания человек
или отдает предпочтение
«любимая марка пива той или иной партии»
может меняться и так далее…
в зависимости
от возраста человека».
Спа… спасибо

Была такая песня,


Ещё «после ссоры Ну что ж
помнишь?
хочется есть»…
Нашёл

(открывает
книгу)

Глава 6. Что может связывать две переменные  113


Точечная диаграмма «Рост» и «Вес»

Вес
Количественные данные
и количественные данные

Рост
Точечная диаграмма
«Любимая марка пива» и «Возраст»
Возраст
Количественные данные
и качественные данные

Когда
построишь диаграмму,
сразу ясно, есть или нет
А Б В Г Марка взаимосвязь между
пива
двумя переменными.
Столбиковая диаграмма
«Место проживания» и «Поддерживаемая партия»

Качественные
данные Ага
и качественные
данные

я
Провинци
Города Партия В
Партия Б
Партия А

114  Глава 6. Что может связывать две переменные


Да, но…!
К сожалению,
диаграмма ничего … степень этой связи.
не «говорит»
о том, насколько
тесна эта связь,
т.е. какова …
И как быть?

Обычно,
Гм…
строя диаграмму,
одновременно
вычисляют
величину показателя,
отражающего
тесноту связи между
двумя переменными.

Ну тогда… О… Такие данные


как раз подходят.
Ско
тра лько
оде тят н
жд а
у? Спе
Как циа
брэ ие ном льный
поп нды ер!
уля
рны Про
оп ве
сов рос ср де ё
рем един
е
дев ныхн
уше
к.

Такие данные
тоже можно
проанализировать
статистическим
методом?
(листает журнал)

Глава 6. Что может связывать две переменные  115


1. Коэффициент линейной корреляции Расходы на косметику и
Расходы на одежду (в месяц)
Ответы 10 женщин в возрасте от 20 до 29 лет
Ой, есть анкета:
«расходы на косметику» Респондент Расходы на Расходы на
косметику, йены одежду, йены
и «расходы на одежду».
А 3000 7000
Б 5000 8000
В 12000 25000
Г 2000 5000
и количественные
Количественные

Д 7000 12000
Е 15000 30000
данные

Ж 5000 10000
З 6000 15000
И 8000 20000
К 10000 18000

Для начала
построим Точечная диаграмма
диаграмму. Ага.
Расходы на одежду, йены

Расходы на косметику, йены

А теперь
Понятно. определим
Похоже, что тот, кто много тесноту связи.
тратит на косметику,
много тратит и на одежду.

116  Глава 6. Что может связывать две переменные


Тип данных Показатель Значение Формула
Количеств. Коэффициент –1 … 1 Σ (х − х)(у − у) Sxy
и линейной =
количеств. корреляции Σ (х − х ) Σ (у − у)
2 2 Sxx Syy

Количеств. КорреляциZ 0…1 Межгрупповая дисперсия


и онное
качеств. отношение Внутригрупповая дисперсия + Межгрупповая дисперсия

Качеств. Коэффициент 0…1 χ 20


и корреляции
качеств. Крамера n(min{кол
во строк, кол
во столбцов}− 1)
*«Корреляционное оношение» см. на стр. 121, «Коэффициент корреляции Крамера» см. стр. 127.

В зависимости
от того, какие у нас
данные, различается Вот как…
и показатель.

Расходы на (х  х)(у  у) Sxy … давай,


косметику и = не будем
Расходы на (х  х ) 2 ( у  у) 2 Sxx Syy торопиться
и вычислим
одежду линейно количественные данные и всё не спеша.
зависимы. количественные данные, поэтому … не хочется

Поехали! Спасите!

Порядок вычисления коэффициента линейной корреляции (для определения тесноты


связи между «расходами в месяц на косметику» и «расходами в месяц на одежду»)
РеспонZ Расходы Расходы
дент на косметику, на одежду,
йены йены
x y x––
x y––
y (x––
x)2 (y––
y)2 (x––
x)(y––
y)
А 3000 7000 –4300 –8000 18490000 64000000 34400000
Б 5000 8000 –2300 –7000 5290000 49000000 16100000
В 12000 25000 4700 10000 22090000 100000000 47000000
Г 2000 5000 –5300 –10000 28090000 100000000 53000000
Д 7000 12000 –300 –3000 90000 9000000 900000
Е 15000 30000 7700 15000 59290000 225000000 115500000
Ж 5000 10000 –2300 –5000 5290000 25000000 11500000
З 6000 15000 –1300 0 1690000 0 0
И 8000 20000 700 5000 490000 25000000 3500000
К 10000 18000 2700 3000 7290000 9000000 8100000
Сумма 73000 150000 0 0 148100000 606000000 290000000
Ср. знач. 7300 15000

x –
y Sxx Syy Sxy

1. Коэффициент линейной корреляции  117


Итак,
подставим числа.

Если воспользоваться
компьютером, всё Коэффициент линейной
будет намного быстрее. корреляции = 0,9680.

Когда между двумя переменными Этот результат


существует тесная связь, довольно близок к 1, т.е. между
коэффициент корреляции приближается к ±1, расходами на косметику
а когда связь слабая, он приближается к 0.
и расходами на одежду
существует тесная связь, так?

Гм…

Примерно так.

А когда коэффициент В том случае, когда увеличение


корреляции расходов на косметику
приближается к –1 ? ведёт к уменьшению
расходов на одежду.

118  Глава 6. Что может связывать две переменные


Коэффициент
корреляции Корреляция Коэффициент корреляции
отрицательный отсутствует положительный — связь есть

Коэффициент
–1 =0
0,5
1
линейной
корреляции

Если же
Когда коэффициент коэффициент = 0,
корреляции положителен, то говорят
как в нашем случае, говорят, что «зависимость
«есть прямая зависимость», отсутствует».
а если отрицателен —
«обратная зависимость».
Поняла!

Кстати, К сожалению, в статистике


коечто ещё о нет какогото определённого
коэффициенте значения коэффициента корреляции,
линейной свыше которого две переменные Както
корреляции. считаются тесно связанными. уклончиво …

1. Коэффициент линейной корреляции  119


Критерии величины коэффициента линейной корреляции
Абсолютная величина Вывод о степени Вывод о наличии
коэффта лин. корреляции взаимосвязи взаимосвязи
1,0—0,9 Очень тесная
0,9—0,7 Достаточно тесная Есть
0,7—0,5 Слабая
< 0,5 Очень слабая Нет

Это для справки.


Вот как!

Примечание

До этого я говорил, что коэффициент линейной


корреляции — это показатель тесноты связи
между количественными данными. Строго говоря,
это не совсем так. Коэффициент корреляции еще
показывает, является эта зависимость линейной
или нет.

Пример нелинейной зависимости

Например, эта диаграмма


демонстрирует очевидную
связь между двумя
переменными.
Но поскольку зависимость
нелинейная, коэффициент
Коэффициент линейной корреляции
линейной практически равен нулю.
корреляции = –0,0825

120  Глава 6. Что может связывать две переменные


2. Коэффициент корреляции между данными разных типов

Возраст и Любимый бренд


брэнд одежды
одежды
Теперь, перейдём
к следующей теме!
Респондент Возраст Бренд
Здесь есть данные
о «возрасте» А 27 Benetton
и «любимом бренде Б 33 Zara
одежды». В 16 O’STIN
Г 29 Бапари
Д 32 Zara
Е 23 Benetton
Это количественные Ж 25 Zara
и качественные данные. З 28 Benetton
И 22 O’STIN
К 18 O’STIN
Л 26 Zara
М 26 Benetton
Н 15 O’STIN
О 29 Zara
П 26 O’STIN

Для случая, когда одни данные А в этом случае приближение


количественные, а другие качественные, значения к 1 тоже
свидетельствует о наличии
вычисляется коорреляционное
тесной связи между данными?
отношение, которое может принимать
значения от 0 до 1.

Да, это так.

2. Коэффициент корреляции между данными разных типов  121


«Любимый бренд одежды» и «Возраст»
Попробуемка Benetton Zara O’STIN
упорядочить
эту таблицу.

Дада,
попробуем…

Сумма
Среднее
значение

Диаграмма
«Любимый бренд одежды» и «Возраст» Ну тогда
вычислим
корреляционное
отношение.

Benetton Zara O’STIN

Следующим Ух ты!
этапом будет Похоже,
построение что есть
диаграммы. взаимосвязь!

Согласна!

122  Глава 6. Что может связывать две переменные


Вычисление корреляционного отношения
предусматривает выполнение нижеследующих шагов.

Шаг 1
Вычислить суммы стандартных отклонений для каждого столбца таблицы:
(значение — среднее (значение – среднее (значение — среднее
значение в столбце значение в столбце значение в столбце
Benetton)2 Zara)2 O’STIN)2

Сумма 14 50 160

SBB SZZ SOO

Шаг 2
Вычислить внутригрупповую дисперсию, показывающую как сильно
отличаются данные в каждой категории, как сумму STT + SCC + SBB:

SBB + SZZ + SOO = 14 + 50 + 160 = 224

2. Коэффициент корреляции между данными разных типов  123


Шаг 3
Рассчитать межгрупповую дисперсию — меру разброса данных между категоZ
риями. Для этого надо найти стандартные отклонения средних значений от обZ
щего среднего значения, умножить их на количество данных в соответствуюZ
щей графе и вычислить сумму полученных произведений, т. е.:
КолZво значений Benetton  (Ср. знач. Benetton – общее ср. знач.) 2 +
+ КолZво значений Zara  (Ср. знач. Zara – общее ср. знач.) 2 +
+ КолZво значений O’STIN  (Ср. знач. O’STIN – общее ср. знач.) 2

= 4  (26 –25)2 + 5  (29 –25)2 + 6  (21 –25)2 =


= 4  1 + 5  16 + 6  16 =
= 4 + 80 +96 =
= 180

Шаг 4
Вычислить корреляционное отношение по формуле:

180 180
––––––––– = ––– = 0,4455
224 + 180 404

Значение корреляционного отношения


между «возрастом»
и «любимом брендом одежды» равно …

124  Глава 6. Что может связывать две переменные


0,4455 !
Было
немножко
сложно…
Ты просто
молодец!

Ура!!!

Ура!!!

Но,
если долго И так приятно
мучиться, получить ответ!
чтонибудь
получится…

(от радости плачет)

Ру…Руи … До чего же ты
стала умной!

В качестве
награды
подарите мне Я пошутила!
сумочку
от Benetton
е)
шок Накануне
(в выдачи
зарплаты.

(устал)

2. Коэффициент корреляции между данными разных типов  125


Как я уже говорил, корреляционное отношение
может принимать значения от 0 до 1. Чем теснее
взаимосвязь между двумя переменными,
тем значение ближе к 1, чем слабее взаимосвязь,
тем ближе к 0.

Диаграмма
«Любимый бренд одежды» и «Возраст»

Корреляционное отношение = 1 Корреляционное отношение = 0


50 50

40 40

30 30 средн.
знач.
20 20

10 10
Benetton Zara O’STIN Benetton Zara O’STIN

Корреляционное отношение = 1 Корреляционное отношение = 0

Данные внутри каждой Средние значения всех


группы одинаковы групп одинаковы

Внутригрупповая дисперсия = 0 Межгрупповая дисперсия = 0

126  Глава 6. Что может связывать две переменные


К сожалению, в статистике нет когото определён
ного значения корреляционного отношения, свыше
которого переменные считаются тесно связанными.
Для справки приведём таблицу соответствия
корреляционного отношения и степени взаимосвязи.

Критерии величины корреляционного отношения


Корреляционное Вывод о степени Вывод о наличии
отношение взаимосвязи взаимосвязи
1,0—0,8 Очень тесная
0,8—0,5 Достаточно тесная Есть
0,5—0,25 Слабая
< 0,25 Очень слабая Нет

В нашем примере корреляционное отношение


было равно 0,4455: значит связь слабая!

3. Коэффициент корреляции Крамера


Ой! Как насчёт
Дальше… вот этих данных?
Было бы здорово привести пример,
Как 300 Опроси
который мог бы пояснить связь ой с шко ли
льн
пос ико
между качественными данными. об пр !в
в лю изн
бви ани
вы я
пре
дпо
читае
те?
Мм…

Опросили 300 школьников на тему


«какой способ признания в любви
вы предпочитаете?»

3. Коэффициент корреляции Крамера  127


Нука, нука... Однако женский
Да!
Вот как… Три способа журнал проводит
признания в любви: странное анкетирование …
«по телефону»,
«по SMS»
Не
и «при встрече». твоего
Эти данные можно ума
дело!
использовать.

Таблица взаимной сопряжённости «пола» и «способа признания в любви»


Способ признания в любви, люди
Пол респондента Итого
по телефону по SMS при встрече
женский
мужской
Итого:
Это значит, что из 152 опрошенных молодых людей 74 хотели бы, чтобы им Такая
таблица,
признавались в любви при встрече. где две
Таблица взаимной сопряжённости в % переменные
перекре
Способ признания в любви, % щиваются,
Пол респондента Итого
по телефону по SMS при встрече называется
таблицей
женский взаимной
мужской сопряжён
ности.
Итого:
Это значит, что 49% опрошенных молодых людей хотели бы,
чтобы им признавались в любви при встрече.

Вот как… … а юноши


Девушки предпочитают, предпочитают, чтобы им
чтобы им признавались признавались в любви
в любви «по SMS», … «при встрече».

128  Глава 6. Что может связывать две переменные


Похоже, что Руи, ты
Другими словами,
юноши и девушки меня слушаешь?
есть взаимосвязь
предпочитают
между «полом» и
разные способы
«способом признания».
признания в любви.
Да.
Конечно!!
Значит,
лучше
признаться
в любви
Игарасисан
при встрече.

(бормочет)

Какой показатель Я знаю!


характеризует Это коэффициент
степень связи корреляции
между Крамера!
качественными
данными?

Этот коэффициент называют


Да нет,
либо очень здорово
коэффициент корреляции Крамера, у тебя получи
либо У меня голова лось кр…угом.
коэффициент V Крамера, кр…угом идёт. (смутилась)
либо
коэффициент независимости.

Не говори
ничего…

3. Коэффициент корреляции Крамера  129


Вычисление коэффициента корреляции Крамера
предусматривает выполнение следующих шагов:

Шаг 1
Построить таблицу взаимной сопряжённости. Величины в клетках,
обведённых жирной чертой, называются эмпирическими частотами.

Способ признания в любви


Пол респондента Итого
по телефону по SMS при встрече
женский 34 61 53 148
мужской 38 40 74 152
Итого: 72 101 127 300

Шаг 2
Выполнить вычисления, как показано в следующей таблице. Величины
в обведённых клетках называются теоретическими частотами.

Способ признания в любви


Пол респондента Итого
по телефону по SMS при встрече

148  72 148  101 148  127


женский 148
300 300 300

152  72 152  101 152  127


мужской 152
300 300 300
Итого: 72 101 127 300

Число опрошенных юношей  Число ответов «при встрече»

Общее число опрошенных

130  Глава 6. Что может связывать две переменные


Если между «полом» и «способом признания в любви»
полностью отсутствует какаялибо связь,
то отношение эмпирических частот
в строках «женский» и «мужской» будет такимже,
как отношение значений в строке «Итого» (см. Шаг 1).

Теоретические частоты, вычисленные на Шаге 2, отражают,


каково было бы число соответствующих респондентов
в случае полного отсутствия какойлибо связи
между «полом» и «способом признания в любви».

Шаг 3 Вычислить:
(Эмпирическая частота – Теоретическая частота)2
————————————————————————————
Теоретическая частота
Пол Способ признания в любви
респон Итого
дента по телефону по SMS при встрече
2 2
148  101 148  127
2
148  72
34 – 61 – 53 –
300 300 300
женский
148  72 148  01 148  127 148
300 300 300
2 2 2
152  72 152  101 152  127
38 – 40 – 74 –
мужской 300 300 300
152
152  72 152  101 152  127
300 300 300
Итого: 72 101 127 300

Чем больше разница между эмпирическими


и теоретическими частотами, т.е. чем теснее связь
между «полом» и «способом признания в любви»,
тем больше значения величин в клетках таблицы.

3. Коэффициент корреляции Крамера  131


Шаг 4

Вычислить сумму величин в клетках таблицы на Шаге 3.


Иначе говоря, вычислить значение критерия согласия Пирсона (χ02).
2 2 2
148  72 148  101 148  127
34 – 61 – 53 –
300 300 300
χ 02 = + + +
148  72 148  101 148  127
300 300 300
2 2 2
152  72 152  101 152  127
38 – 40 – 74 –
300 300 300
+ + + =
152  72 152  101 152  127
300 300 300
= 8,0091

Согласно Шагу 3, чем больше разница между


эмпирическими и теоретическими частотами, т.е. чем
теснее связь между «полом» и «способом признания»,
тем больше значение критерия согласия Пирсона (χ02).

132  Глава 6. Что может связывать две переменные


Шаг 5
Величина коэффициента корреляции Крамера вычисляется по формуле:

χ02
n  ( min {кол
во строк в таблице; кол
во столбцов в таблице} – 1) ,

где
n — общее число единиц совокупности,
min {a;b} — из величин a и b надо взять меньшую.

8,0091 8,0091 8,0091


= = = 0,1634
300  (min{2, 3} – 1) 300  (2 – 1) 300

Значит, коэффициент
корреляции Крамера
будет равен 0,1634, так?

Хватит…

3. Коэффициент корреляции Крамера  133


Да, боюсь,
одной мне Не бойся!
с расчётами Процесс вычисления
не справиться… действительно сложный,
но, если выполнять его
шаг за шагом,
обязательно получится.

Будет чтото
непонятно,
(ожила)
спроси.

!
рон ь
сто лас

А..
у)
ую верну

Ох!
в д ко по
руг
з
(ре

Что с тобой? Ничего.


(протирает
глаза)

Странно,
на мгновение
Ямамото*сан
показался мне
симпатичным.

134  Глава 6. Что может связывать две переменные


Как я уже говорил, коэффициент корреляции
Крамера может принимать значение от 0 до 1.
Чем теснее связаны две переменные,
тем ближе коэффициент Крамера к 1,
а чем слабее связь, тем ближе к 0.

Таблицы взаимной сопряжённости


«Пола» и «Способа признания в любви»

Величина коэффициента Крамера равна 1

Способ признания в любви, %


Пол респондента Итого
по телефону по SMS при встрече
женский 17 83 0 100
мужской 0 0 100 100

Величина коэффициента Предпочтения девушек и юношей


Крамера равна 1 совершенно различаются.

Величина коэффициента Крамера равна 0

Способ признания в любви, %


Пол респондента Итого
по телефону по SMS при встрече
женский 17 48 35 100
мужской 17 48 35 100

Величина коэффициента Предпочтения девушек и юношей


Крамера равна 0 одинаковы

3. Коэффициент корреляции Крамера  135


К сожалению, в статистике нет когото определён
ного значения коэффициента корреляции Крамера,
свыше которого переменные считаются тесно
связанными.
Для справки приведём таблицу соответствия
коэффициента Крамера и степени взаимосвязи.

Критерии величины коэффициента корреляции Крамера


Коэффициент Вывод о степени Вывод о наличии
Крамера взаимосвязи взаимосвязи
1,0—0,8 Очень тесная
0,8—0,5 Достаточно тесная Есть
0,5—0,25 Слабая
< 0,25 Очень слабая Нет

Таким образом,
можно сделать вывод, На сегодня всё.
что данные в этом примере
«очень слабо связаны».

(закрывает
книгу)

Понятно. Спасибо.

136  Глава 6. Что может связывать две переменные


В конце сегодняшнего
занятия я тебе говорил Проверку
о коэффициенте независимости?
корреляции Крамера.
Нам это очень пригодится,
когда на следующем занятии
мы будем проводить
проверку гипотезы
о независимости.

Проверка гипотезы Если ты


о независимости — усвоишь этот способ,
это способ, который можно считать, что
часто используется основами статистики
при анализе результатов ты уже овладела.
анкетирования.

Тогда следующий урок


будет последним?

П
о
н
я
т
н
о
!

Ну,
в общемто,
да.

3. Коэффициент корреляции Крамера  137


Упражнение

В последнее время положение дел в компании Х, владеющей сетью семейных


ресторанов, трудно назвать благополучным. Чтобы узнать пожелания клиентов,
компания провела анкетирование, объектами которого стали произвольно
выбранные жители Японии в возрасте старше 20 лет.
Результаты анкетирования представлены в виде следующей таблицы:

Если после обеда


Какую кухню Вы обычно будет предлагаться
Респондент заказываете в семейном бесплатный напиток,
ресторане? Вы предпочтёте
чай или кофе?
1 китайская кофе
2 европейская кофе
… … …
250 японская чай

На основании этой таблицы был составлен один из вариантов


таблицы взаимной сопряжённости:

Обычно заказываемая Предпочитаемый напиток


кухня Итого
Кофе Чай
Японская 43 33 76
Европейская 51 53 104
Китайская 29 41 70
Итого: 123 127 250

Вычислите коэффициент корреляции Крамера, чтобы установить взаимосвязь


между «обычно заказываемой кухней» и «предпочитаемым напитком».

138  Глава 6. Что может связывать две переменные


Решение

Шаг 1
Составим таблицу взаимной сопряжённости.

Предпочитаемый напиток
Обычно заказываемая
Итого
кухня Кофе Чай
Японская 43 33 76
Европейская 51 53 104
Китайская 29 41 70
Итого: 123 127 250

Шаг 2
Вычислим теоретические частоты.

Обычно заказываемая Предпочитаемый напиток


кухня Итого
Кофе Чай

76 123 76 127
Японская 76
250 250

104 123 104 127


Европейская 250 250 104

70 123 70 127
Китайская 250 250 70

Итого: 123 127 250

Упражнение  139
Шаг 3
Вычислим:
Эмпирическая частота – Теоретическая частота
————————————————————————————
Теоретическая частота

Обычно Предпочитаемый напиток


Итого
заказываемая кухня Кофе Чай
2 2
76  123 76  127
43 – 33 –
Японская 250 250
76
76  123 76  127
250 250
2 2
104  123 104  127
51 – 53 –
250 250
Европейская 104
104  123 104  127
250 250
2 2
70  123 70  127
29 – 41 –
Китайская 250 250
70
70  123 70  127
250 250
Итого: 123 127 250

140  Глава 6. Что может связывать две переменные


Шаг 4
Вычислим сумму величин в обведённых жирной чертой клетках
таблицы на Шаге 3.
Иначе говоря,
вычислим значение критерия согласия Пирсона.
2 2
76  123 76  127
43 – 33 –
2
250 250
0 = +
76  123 76  127
250 250
2 2
104  123 104  127
51 – 53 –
250 250
+ +
104  123 104  127
250 250
2 2
70  123 70  127
29 – 41 –
250 250
+ +
70  123 70  127
250 250
= 3,3483

Шаг 5
Вычисляем коэффициент корреляции Крамера по формуле:

χ02
=
n  ( min {кол
во строк в таблице; кол
во столбцов в таблице} – 1)

3,3483 3,3483 3,3483


= = = = 0,1157
250  (min{3, 2} – 1) 250  (2 – 1) 250

Упражнение  141
Выводы

• Коэффициент линейной корреляции является показателем тесноты


связи между двумя количественными данными.

• Корреляционное отношение является показателем тесноты связи


между количественными и качественными данными.

• Коэффициент корреляции Крамера является показателем тесноты


связи между качественными данными.

• Перечисленные
свойства:
коэффициенты корреляции имеют следующие

Отсутствие
Значение какойлибо Переменные
Вид функции
коэффициента связи величины
распределения
корреляции между двумя максимально
вероятностей
переменными тесно связаны
max min величинами
Коэффициент
линейной –1 1 0 –1 или 1
корреляции

Корреляционное
0 1 0 1
отношение

Коэффициент
корреляции 0 1 0 1
Крамера

• Вуказанных
статистике не существует какогото определённого значения
коэффициентов корреляции, свыше которого
переменные считаются тесно связанными.

142  Глава 6. Что может связывать две переменные


Глава 7
А что это
за проверка
гипотезы
о независимости?

1
Эй!
1. Проверка гипотезы
Почему бы не посмотреть
Итак, на меня!!
сегодня
шнее
занятие…
(обижается)

Ох, извини.
Это новая форма? Да! Это образец ,
но Вам я покажу.

Ну как!
(крутится)
(юбка
шелестит)

Оо…
Тебе идёт. Спасибо.

Ну, что
мы будем
сегодня
проходить?
На прошлом уроке
мы изучали 300
Опр
о
коэффициент шко сили
льн
корреляции Крамера, Ка иков
при кой сп !
помнишь? вы знани особ А…,
пре я про признание
дпо в люб
чит
аетви в любви, да?
е?

Коэффициент
корреляции Крамера Руи, теперь Результат этого анкетирования
в том примере хорошенько основан всего лишь на данных, …
был равен 0,1634. подумай.
Мы сделали вывод, что
«связь очень слабая», так?

… полученных
от 300 школьников,
произвольно выбранных
Да, из всех школьников
так и было. Японии.

Если бы были выбраны


другие школьники,
величина коэффициента
Крамера была бы,
скорее всего, другая.

Если хорошо подумать,


наверное Вы правы.

1. Проверка гипотезы  145


Как ты думаешь,
какое будет значение
коэффициента
корреляции Крамера
для генеральной совокупности,
в которую входят
«все школьники Японии»?
Ммм…
Откуда мне знать?...

К сожалению, … что опросят


никто этого не знает. всех школьников
Ответ можно дать Японии.
только при условии, …

Понятно…

Поэтому, …

Это касается
не только данного примера.
Практически никогда
не удаётся определить
коэффициент корреляции
Крамера для всей
генеральной совокупности.

146  Глава 7. А что это за проверка гипотезы о независимости?


… зная, что коэффициент корреляции Крамера, вычисленный на основе ответов,
полученных от 300 школьников, произвольно выбранных из генеральной совокупности,
равен 0,1634, считаем, что это значение соответствует коэффициенту корреляции
Крамера для всей генеральной совокупности.

Нам придётся сделать подобное


субъективное заключение.

Но ведь наверняка
Довольно есть какието
туманное… статистические
методы?

Нет. К сожалению,
даже если очень хорошо Что?
владеть статистикой, Правда?
невозможно узнать
точный коэффициент
корреляции Крамера для
генеральной совокупности.

1. Проверка гипотезы  147


Но при этом можно узнать, … … не равен ли он 0!

Это типа
И как это делается? экзамена
Это что, выход?
по английскому
языку?

Равен
0?

Используют
Конечно! метод анализа,
Поскольку можно получить который называется Хахаха…
объективную информацию «проверка
проверка гипотезы Нет, это совсем
о генеральной совокупности. о независимости». Я тебе другое.
уже говорил об этом.

проверка гипотезы В первую очередь


Проверка гипотезы о независимости я тебе объясню,
о независимости —
что такое проверка.
это один из способов анализа,
называемых в статистике
проверкой.
Проверка
зы
поте ции
о р про
аве ве в е р ка гиорреля
н р
(дв стве ка гип про тствии к
ух) с тсу
сов редниотезы об о
оку х в
пно ели
ерка сте чин
пров ионного проверка гипотезы й
я ц
ел
корр тношения
о равенстве долей
в (двух) совокупностях
Ладно.
о

148  Глава 7. А что это за проверка гипотезы о независимости?


Проверка гипотезы — один из способов анализа, Правильнее было бы
позволяющий на основе данных выборочной сказать – этo
совокупности сделать вывод о справедливости статистическая
гипотезы, которую выдвинул исследователь проверка гипотез.
о генеральной совокупности.

А, вот это мне


более понятно.

Есть разные виды проверяемых гипотез.

Примеры проверяемых гипотез


Гипотезы Примеры применения
О независимости Проверяют, равняется ли нулю коэффициент корреляции Крамера между
полом и способом признания в любви для генеральной совокупности.
О корреляционном Проверяют, равняется ли нулю корреляционное отношение между
отношении любимым брэндом одежды и возрастом для генеральной совокупности.
Об отсутствии Проверяют, равняется ли нулю коэффициент линейной корреляции
корреляции между расходами в месяц на косметику и расходами в месяц на одежду
для генеральной совокупности.
О равенстве Проверяют, получают ли школьницы Токио и школьницы Осаки одну
средних величин и ту же или разную сумму на карманные расходы.
(двух) совокупностей (Будьте внимательны: предполагаются две генеральные совокупности).
О равенстве Проверяют, различается ли рейтинг кабинета министров среди
долей в (двух) избирателей, проживающих в городах, и избирателей из сельской
совокупностях местности.
(Будьте внимательны: предполагаются две генеральные совокупности).

1. Проверка гипотезы  149


Существуют разные виды
проверяемых гипотез, но
порядок проведения анализа
один и тот же, при этом он
предусматривает выпол Рада это слышать…
нение следующих шагов.

Порядок статистической проверки гипотез


Шаг 1. Определить генеральную совокупность.
Шаг 2. Сформулировать нулевую и альтернативную гипотезы.
Шаг 3. Выбрать вид статистической проверки гипотезы.
Шаг 4. Определить уровень значимости.
Шаг 5. Вычислить фактическое значение выбранного статистического
критерия на основе данных выборочной совокупности.
Шаг 6. Проверить, входит ли вычисленное на Шаге 5 значение
статистического критерия в критическую область.
Шаг 7. Если фактическое значение выбранного статистического критерия
(Шаг 6) входит в критическую область, делают вывод о том, что
верна альтернативная гипотеза. В противном случае полагают,
что нет оснований считать нулевую гипотезу ошибочной.

Сплошная Ну, не паникуй!


абракадабра… Позже объясню
более доходчиво.

150  Глава 7. А что это за проверка гипотезы о независимости?


2. Проверка гипотезы о независимости Проверка гипотезы о независимости —
один из способов анализа, проводимый с целью
Объясню суть проверки выяснить, не равен ли нулю коэффициент
гипотезы о независимости. корреляции Крамера для генеральной
Сегодня — это совокупности.
главная тема.

Понятно.

Другими словами,
это способ анализа, Поняятно…
предполагающий
наличие взаимосвязи
между двумя переменными
в таблице взаимной
сопряжённости.

Проверка гипотезы
о независимости Опять этот χ
X22 !
называется также Ужасно…
проверкой критерия
согласия Пирсона χ2.

2. Проверка гипотезы о независимости  151


Объяснение Критерий согласия Пирсона и распределение хиквадрат

Перед тем, как объяснить проверку гипотезы о независимости


на конкретном примере, расскажу о том, что лежит в основе
такой проверки. Предположим, что провели следующее
исследование (хотя в действительности это невозможно):

Шаг 1
Из генеральной совокупности, которой являются «школьники Японии»,
произвольно выбрали 300 человек.

Генеральная
совокупность
Выборочная
Выборка совокупность

Все школьники Японии 300 человек

Шаг 2
Среди выбранных 300 школьников провели анкетирование (см. стр. 127),
а затем рассчитали величину критерия согласия Пирсона.
Шаг 3
Выбранных 300 школьников «вернули» в генеральную совокупность.
Шаг 3
Шаг 1— Шаг 3 повторяли множество раз.
Функцией распределения критерия согласия Пирсона, полученной в этом исZ
следовании, является распределение хиZквадрат с числом степеней свободы,
равным 2, при условии, что коэффициент корреляции Крамера для генеральной
совокупности «все школьники Японии» = 0. Другими словами, если коэффициZ
ент корреляции Крамера для генеральной совокупности «все школьники ЯпоZ
нии» = 0, то критерий согласия Пирсона (χ02) имеет хиZквадратZраспределение
с числом степеней свободы, равным 2.
1. Способ вычисления критерия согласия Пирсона (χ02) см. на стр. 130—133.
2. О распределении хиZквадрат с числом степеней свободы 2 см. на стр. 100.

152  Глава 7. А что это за проверка гипотезы о независимости?


Описанное выше исследование было проведено
на самом деле, но с учётом следующих ограничений:

• Поскольку невозможно провести исследование среди всех школьников,


живущих в Японии, считается, что генеральная совокупность «все
школьники Японии» — это совокупность, состоящая из 10 000 челоZ
век, как указано в Табл. 7.1.
• Было сделано предположение, что коэффициент корреляции Крамера
для совокупности «все школьники Японии» = 0. Другими словами,
предположили, что ответы юношей и девушек на вопрос «Какой способ
признания в любви вы предпочитаете?» (по телефону : по SMS : при
встрече) одинаковы (см. стр. 135). Предположили также, что на основе
Табл. 7.1 была создана таблица взаимной сопряжённости.
• Исследования (Шаг 1 — Шаг 3) провели 20 тысяч раз.

Таблица 7.1. Какой способ признания в любви вы предпочитаете?


(все школьники Японии)
Респондент Пол Способ признания
респондента в любви
1 ж при встрече
2 ж по телефону
… … …
10000 м по SMS

Таблица 7.2. Взаимная сопряжённость пола и способа признания в любви


Способ признания в любви
Пол респондента Итого
по телефону по SMS при встрече
женский 400 1600 2000 4000
мужской 600 2400 3000 6000
Итого: 1000 4000 5000 10000

2. Проверка гипотезы о независимости  153


Таблица 7.3. Результаты исследования
Номер исследования Критерий согласия Пирсона (χ02)
1 0,8598
2 0,7557
… …
20000 2,7953

Рис. 7.1. Гистограмма на основе данных Табл. 7.3


0,5
Величина интервала равна 1
0,4

0,3

0,2

0,1

0
0,5 5,5 10,5 15,5

Действительно, Рис. 7.1 очень похож на график функции


распределения вероятностей, когда число степеней
свободы равно 2 (см. стр. 100). Нет сомнений,
что величина критерия согласия Пирсона (χ02) имеет
хиквадратраспределение с числом степеней свободы 2 .
Это не имеет непосредственного отношения к исследованию,
но я скажу вам одну очень важную вещь: число степеней
свободы, равное 2, получается из выражения:
(2 – 1)  (3 – 1) = 1  2 = 2

два варианта: три варианта:


девушки, юноши по телефону, по SMS, при встрече

Почему такой странный расчет? Ответ на этот вопрос


выходит за рамки данной книги. Поэтому не беспокойтесь,
если вы не до конца поняли этот способ расчёта.

154  Глава 7. А что это за проверка гипотезы о независимости?


пропор
Допустим, что коэффициент ож им, чтоюношей иции предпоч
пол девуш т
ек р ений
корреляции Крамера для совокуп р ед а вн
ности «все школьники Японии» = 0. ы.

П
Другими словами, связи между
полом и способом признания
в любви не существует.

Возьмём анкеты
300 человек, выбранных
из генеральной совокупности
«все школьники Японии»…

… затем Анкета
следующие 300 человек,
затем следующие, …
и так много раз. Анкета

Найдём сумму клеток таблицы, вычисленных по формуле:


(эмпирическая частота – теоретическая частота)2
—————————————————————————————
теоретическая частота
Если вычислить
величину критерия
согласия Пирсона (χ02),
то окажется, …

... что величина (χ02) имеет Нак


распределение хиквадрат онец
то
с числом степеней свободы, ,
равным 2 !
гото
во.

2. Проверка гипотезы о независимости  155


Руи, Давай попробуем … на примере анкеты
ты умнеешь выполнить проверку о способах
прямо гипотезы
на глазах! признании в любви.
о независимости …

О, согласна!

Мне бы хотелось пойти по такому пути:


упражнение > размышление > вывод.

(что*то ищет)

… позволяет сделать
Вывод ! более доступным
для восприятия
(звук фанфар) и понимания
конечный
результат,
или вывод,
ль комм или ответ.
о в ате ентат
ед ор
и ссл Но эти куклы не идут
ни в какое сравнение со мной!

Видишь ли,
объяснение материала в виде диалога, который
ведут, например, исследователь и комментатор, …

156  Глава 7. А что это за проверка гипотезы о независимости?


Упражнение

Женский журнал «PZgirls» решил провести опрос среди школьников по


вопросу: «Какой способ признания в любви Вы предпочитаете?». Для этоZ
го кореспондент из всех школьников Японии произвольно выбрал 300 чеZ
ловек и провёл анкетирование. Результаты анкетирования представлены в
виде следующей таблицы:

Респондент Способ признания Возраст Пол


в любви респондента респондента
1 при встрече 17 ж
2 по телефону 15 ж
… … … ..
300 по SMS 18 м

Таблица взаимной сопряжённости «пола» и «способа признания в любви»


Способ признания в любви
Пол респондента Итого
по телефону по SMS при встрече
женский 34 61 53 148
мужской 38 40 74 152
Итого: 72 101 127 300

Выясните путём проверки гипотезы о независимости, больше ли 0 коэфZ


фициент корреляции Крамера между полом и способом признания в любZ
ви для генеральной совокупности «все школьники Японии». Другими слоZ
вами, надо выяснить, есть ли взаимосвязь между полом и способом призZ
нания в любви. Предположим, что уровень значимости (объясню позже)
равен 0,05.

2. Проверка гипотезы о независимости  157


Размышление
Как уже было сказано (стр. 152—154), если коэффициент
корреляции Крамера для генеральной совокупности «все
школьники Японии» = 0, критерий согласия Пирсона (χ02)
имеет распределение хиZквадрат с числом степеней свободы,
равным 2. Следовательно, если коэффициент корреляции
Крамера = 0 для генеральной совокупности «все школьники
Японии», вероятность того, что величина, полученная на
основе данных, поступивших от случайно отобранных 300
школьников, будет, например, > 5,9915, равна 0,05. (см.
Таблицу распределения хиZквадрат на стр. 103).
Рис. 7.2. Вероятность того, что χ02 > 5,9915.

0
5,9915
Величина уже была вычислена и равняется 8,0091 (см. стр. 132).
Ну, как, не кажется ли вам, что величина слишком большая, хотя и вычисZ
лена на основе ответов, полученных от 300 человек, случайно выбранных
из генеральной совокупности. Если поразмыслить, учитывая комментарий,
данный на стр. 132, не естественно ли, что величина коэффициента корреляZ
ции Крамера для генеральной совокупности «все школьники Японии» >0?
Не только в этом примере, но всегда при проверке гипотеZ
зы о независимости следует придерживаться следующей
последовательности действий:
1) Сначала делают предположение, что коэффициент корZ
реляции Крамера для генеральной совокупности = 0.
2) Затем рассчитывают величину χ02 для выборочной совоZ
купности.
3) Если χ02 очень большой, делают вывод, что коэффициент
корреляции Крамера для генеральной совокупности > 0.
Это надо запомнить.

158  Глава 7. А что это за проверка гипотезы о независимости?


Добавлю коеZчто к пункту 3. Чем больше величина χ02, тем меньше вероятность,
т.е. площадь заштрихованной области на Рис. 7.3.

Рис. 7.3. Вероятность при определённом значении

0
χ 02

Если при проверке гипотезы о независимости оказывается, что значение вероZ


ятности заштрихованной области меньше так называемого уровня значимости,
делают вывод, что величина коэффициента корреляции Крамера для генеральZ
ной совокупности > 0. Обычно в статистических исследованиях используют
такой уровень значимости, как 0,05 или 0,01; выбор конкретного значения —
прерогатива исследователя. Предположим, что выбрали значение уровня знаZ
чимости, равное 0,05. В действительности, уровень значимости — это заштриZ
хованная область на графике, показаном на Рис. 7.3.
При этом область, указанная на Рис. 7.4, называется критической областью.

Рис. 7.4. Критическая область при значении уровня значимости, равном 0,05

Критическая область

0
5,9915

2. Проверка гипотезы о независимости  159


Вывод Порядок выполнения проверки

Шаг 1
Определяем генеральную совокупность.

Генеральная совокупность — это:

Все школьники Японии ь


ател
д ов
ле
Исс

В этом упражнении изначально определено, что


генеральной совокупностью являются «все школьники
Японии». Поэтому нет необходимости выполнять Шаг 1.

Пример.
При проведении проверки гипотезы о равенстве долей
в (двух) совокупностях (см. стр. 149) предполагалось,
что генеральными совокупностями являются «избира
тели, проживающие в городах и в сельской местности».
Ком При этом необходимо уточнить, что подразумевается
мен
тат под городом  Токио и Осака? Или это столицы
ор
префектур? Решение этой проблемы остаётся
за исследователем, поскольку это его прерогатива —
определить, что будет представлять собой генеральная
совокупность при проверке. Если чётко не выделить
генеральную совокупность, при проведении любой
проверки можно оказаться в ситуации:
«Ой! Что же я хотел исследовать?!». Подобная ситуация
наблюдается довольно часто, поэтому следует быть
предельно внимательными.

160  Глава 7. А что это за проверка гипотезы о независимости?


Шаг 2
Выстраиваем нулевую и альтернативную гипотезы.

Нулевая гипотеза:
Коэффициент корреляции Крамера
для генеральной совокупности = 0.
«Пол» и «способ признания в любви»
не связаны. ь
ател
дов
Альтернативная гипотеза: ле
Исс
Коэффициент корреляции Крамера
для генеральной совокупности > 0.
«Пол» и «способ признания в любви»
связаны.

О нулевой и альтернативной гипотезах


Ком расскажу позже.
мен
тат
ор

2. Проверка гипотезы о независимости  161


Шаг 3
Выбирают вид гипотизы для статистической проверки.

ь
Проведём проверку гипотезы о независимости. ател
д ов
ле
Исс

В этом примере изначально решено было


проводить проверку гипотезы о независимости.
Поэтому нет необходимости выполнять Шаг 3.
Ком В действительности, когда проводят проверку,
мен исследователь сам должен выбрать вид гипотезы
тат
ор с учётом целей анализа.

162  Глава 7. А что это за проверка гипотезы о независимости?


Шаг 4
Определяют уровень значимости.

Пусть уровень значимости будет равен 0,05. ль


вате
до
ле
Исс

Поскольку будет использоваться уровень значимости,


равный 0,05, нет необходимости выполнять Шаг 4.
В действительности при проведении проверки
Ком исследователь должен сам выбрать уровень
мен значимости. Обычно это 0,05 или 0,01.
тат
ор Уровень значимости обозначается α (альфа).

2. Проверка гипотезы о независимости  163


Шаг 5
Вычисляют фактическое значение выбранного статистического критерия
на основе данных выборочной совокупности.

Я собираюсь провести проверку гипотезы


о независимости. Поэтому в качестве
статистического критерия будет выступать
критерий согласия Пирсона χ02.
ь
Для данного примера значение критерия
ател
Пирсона χ02 уже вычислено и равно 8,0091 д ов
ле
(см. стр. 132). Исс

Выбранный статистический критерий —


это формула, которая преобразует данные
выборочной совокупности в одну величину.
В зависимости от вида проверяемых гипотез
выбираются разные критерии.
Ком В случае, когда проводят проверку гипотезы
мен о независимости, критерием является величина,
тат
ор указанная выше, а в случае проведения проверки
об отсутствии корреляции (см. стр. 149)
критерием будет величина, рассчитываемая
по формуле:

линейный коэффициен т корреляции 2  общее число единиц совокупнос ти − 2


1 − линейный коэффициен т корреляции 2

164  Глава 7. А что это за проверка гипотезы о независимости?


Шаг 6
Выясняют, входит ли фактическое значение выбранного статистического
критерия, вычисленное на Шаге 5, в критическую область.
Значение критерия согласия Пирсона χ02 , который
в данном примере является статистическим
критерием, равняется 8,0091.
Так как уровень значимости равен 0,05,
из Таблицы хиквадратраспределения ль
вате
(стр. 103) получаем, что критическая до
ле
область больше, чем 5,9915. Исс
Как следует из рисунка, значение выбранного
статистического критерия входит
в критическую область.

Критическая область

0
5,9915 8,0091

Критическая область меняется в зависимости


от уровня значимости α. Если бы уровень значимости
был бы равен 0,01, а не 0,05, то критическая
Ком область, как следует из Таблицы распределения
мен
тат хиквадрат на стр. 103, была бы больше,
ор
чем 9,2104.

2. Проверка гипотезы о независимости  165


Шаг 7
Если значение статистического критерия входит в критическую область
(Шаг 6), делают вывод, что «верна альтернативная гипотеза». В противном
случае вывод таков: «нельзя утверждать, что нулевая гипотеза ошибочна».

Значение выбранного статистического критерия


входит в критическую область. Следовательно,
верна альтернативная гипотеза —
Величина коэффициента корреляции Крамера ль
для генеральной совокупности > 0. вате
до
«Пол» и «способ признания в любви» связаны! ле
Исс

Даже если величина статистического критерия


входит в критическую область, нельзя на основе
проверки делать вывод, что
«альтернативная гипотеза абсолютно верна».
Ком Можно сделать лишь такой вывод: «хотелось бы
мен утверждать, что альтернативная гипотеза
тат
ор абсолютно верна, но существует вероятность
(α х 100%) того, что верна нулевая гипотеза».

166  Глава 7. А что это за проверка гипотезы о независимости?


Вот так вот!

Понятно….
Комментатор

Мне кажется,
Однако
можно сказать,
меня беспокоит
что нулевая гипотеза верна,
Шаг 7.
если величина статистического
критерия не входит
в критическую
область…

критическая область

К сожалению, так сказать нельзя. Например, представь, что величина


Можно только сделать вывод: хиквадрат в предыдущем примере
«нельзя утверждать, была равна 2,5013.
что нулевая гипотеза
ошибочна».

критическая область

Она не входит
в критическую
Вот как?
область, да?..

2. Проверка гипотезы о независимости  167


Поэтому совершенно Но при этом
невозможно сделать вывод, нельзя утверждать,
что коэффициент Не
Непонятно…
понятно… что коэффициент
корреляции Крамера корреляции Крамера
для генеральной для генеральной
совокупности > 0. совокупности = 0.

Тогда Допустим, ктото


Кто посмел?!
приведу съел пудинг, который
пример. собиралась съесть ты.

Пока опустим такие подробности,


Подозревается Юми. как виды проверяемых гипотез
и значение уровня значимости…

нулевая
гипотеза Юми виновна
альтерна
тивная Юми невиновна

(постучал по столу
стопкой бумаги)

Юми,
это ужасно! Будем проводить
проверку этих двух гипотез.
Я же говорю, допустим…

168  Глава 7. А что это за проверка гипотезы о независимости?


Допустим, у Юми Если так, то нам нечего
есть надёжное алиби. возразить против
вывода, что
«Юми невиновна».

В это Что за Милиция


… я была грубость!
время … Извини
на курсах.

Понятно...

В это время я гуляла


в окрестности.
Если так,
Теперь предположим, то нельзя делать
что у Юми нет вывод, что
такого алиби. Сомни «Юми невиновна».
тельно…

Однако, с другой стороны, Подождите минуточку!


нельзя решительно В общем, так.
утверждать, что Идём дальше.
«Юми виновна».

У вас
Эйй…! есть
улики?

(бежит)

А!
Вот как… (что*то ?
вспомнила)

2. Проверка гипотезы о независимости  169


3. Нулевая и альтернативная Знаешь,
если бы не твой пример,
гипотезы я бы так и не вспомнила,
что у нас в холодильнике
был пудинг.

Хорошо, что его


никто не украл.

Так, но при
проведении
проверки …

… необходимо выстроить
нулевую и альтернативную
гипотезы.

На самом деле,
Что это за нулевая
довольно сложно объяснить
и альтернативная
в двух словах,
гипотезы?
что такое нулевая и
альтернативная гипотезы.

Ты же сказал,
что попозже объяснишь,
а я до сих пор так ничего
про них и не услышала..? Вот как?

170  Глава 7. А что это за проверка гипотезы о независимости?


Поэтому … … лучше я тебе объясню,
какие гипотезы являются
нулевыми, а какие
альтернативными
или, как часто их называют,
конкурирующими.

О, это может …
… пригодиться на практике.

Примеры проверяемых гипотез


Гипотезы Примеры применения
О независимости Проверяют, равняется ли нулю коэффициент корреляции Крамера между
полом и способом признания в любви для генеральной совокупности.
О корреляционном Проверяют, равняется ли нулю корреляционное отношение между
отношении любимым брэндом одежды и возрастом для генеральной совокупности.
Об отсутствии Проверяют, равняется ли нулю коэффициент линейной корреляции
корреляции между расходами в месяц на косметику и расходами в месяц на одежду
для генеральной совокупности.
О равенстве Проверяют, получают ли школьницы Токио и школьницы Осаки одну
средних величин и ту же или разную сумму на карманные расходы.
(двух) совокупностей (Будьте внимательны: предполагаются две генеральные совокупности).

О равенстве Проверяют, различается ли рейтинг кабинета министров среди


долей в (двух) избирателей, проживающих в городах, и избирателей из сельской
совокупностях местности.
(Будьте внимательны: предполагаются две генеральные совокупности).

Вот таблица, которая нам уже знакома.


На основе этой таблицы я тебе всё и объясню.
Хорошо.

3. Нулевая и альтернативная гипотезы  171


Проверка гипотезы о независимости
Коэффициент корреляции Крамера между
Нулевая
«полом» и «способом признания в любви»
гипотеза
для генеральной совокупности = 0.
Коэффициент корреляции Крамера между
Альтернативная
«полом» и «способом признания в любви»
гипотеза
для генеральной совокупности > 0.

Проверка гипотезы о корреляционном отношении


Корреляционное отношение между
Нулевая
«любимым брендом одежды» и «возрастом»
гипотеза
для генеральной совокупности = 0.
Корреляционное отношение между
Альтернативная
«любимым брендом одежды» и «возрастом»
гипотеза
для генеральной совокупности > 0.

Проверка гипотезы об отсутствии корреляции


Коэффициент линейной корреляции между
Нулевая
«расходами в месяц на косметику»
гипотеза
и «расходами в месяц на одежду»
для генеральной совокупности = 0.
Коэффициент линейной корреляции между
«расходами в месяц на косметику»
и «расходами в месяц на одежду»
для генеральной совокупности 0.
или
Альтернативная Коэффициент линейной корреляции между
гипотеза «расходами в месяц на косметику»
и «расходами в месяц на одежду»
для генеральной совокупности > 0.
или
Коэффициент линейной корреляции между
«расходами в месяц на косметику»
и «расходами в месяц на одежду»
для генеральной совокупности < 0.

172  Глава 7. А что это за проверка гипотезы о независимости?


Проверка гипотезы о равенстве средних величин (двух) совокупностей
Нулевая «Суммы, получаемые на карманные расходы» школьницами
гипотеза Токио и школьницами Осаки, одинаковы.
АльтерZ «Суммы, получаемые на карманные расходы» школьницами
нативные Токио и школьницами Осаки, различны.
гипотезы «Сумма, получаемая на карманные расходы» школьницами
Осаки, больше, чем сумма, получаемая школьницами Токио.
«Сумма, получаемая на карманные расходы» школьницами
Осаки меньше, чем сумма, получаемая школьницами Токио.

Проверка гипотезы о равенстве долей в (двух) совокупностях


Нулевая Рейтинг кабинета министров среди избирателей, проживающих
гипотеза в городах и в сельской местности, одинаков.

АльтерZ Рейтинг кабинета министров среди избирателей, проживающих


нативные в городах и в сельской местности, различен.
гипотезы Рейтинг кабинет министров среди избирателей, проживающих
в городах, выше, чем среди избирателей, проживающих
в сельской местности.
Рейтинг кабинет министров среди избирателей, проживающих
в городах, ниже, чем среди избирателей, проживающих
в сельской местности.

Понятно…

3. Нулевая и альтернативная гипотезы  173


Ты поняла, что в качестве
Ну, как ? нулевых гипотез используются
гипотезы, которые сложно доказать,
как, например,
«коэффициент корреляции Крамера Сплошные
для генеральной совокупности = 0», крайности…
а не такие, как
«коэффициент корреляции Крамера
для генеральной совокупности
приблизительно равен 0»?

В качестве нулевых
А ещё, Руи, поняла ли ты, используют
что в качестве нулевой гипотезы утвердительные гипотезы,
используются утвердительные которые сложно доказать,
гипотезы, содержащие слова
«равно», «одинаково», а в качестве
альтернативных —
а в качестве альтернативных отрицательные гипотезы..
используются отрицательные … Да …
гипотезы со словами
«не …», «различно …»?
Мм…
вот как

Достаточно,
если ты поймёшь
только это.

174  Глава 7. А что это за проверка гипотезы о независимости?


4. P-значение и порядок проверки
Гипотеза 1. Входит ли значение выбранного
статистического критерия
в критическую область
или
Гипотеза 2. Меньше ли Рзначение
уровня значимости

… только
Вывод
на основании
о проверке можно
Гипотезы 1
сделать …
или Гипотезы 2 .

Про первую
я уже слышала, Что такое
а вот вторая — это Рзначение?
чтото новенькое.

Ответ на Если обратиться


… это вероятность того,
твой вопрос к предыдущему примеру,
что величина χ02 больше
зависит …
или равна вычисленного
от вида значения при условии,
проверки. что нулевая гипотеза
верна.

В случае
проверки
гипотезы … то это вероятность
о независимости вот этой области.
Рзначение —…

4. P-значение и порядок проверки  175


Вот этой Расчет Рзначения
заштрихованной до появления
области? компьютеров был
Понятно. чрезвычайно трудоёмким.
И так продолжалось
примерно до начала 90х.

Вот как… А сейчас?


Поэтому
в большинстве случаев …

Когда
стало возможным
вычисление Рзначения
с помощью Excel,
… вывод выводы, как правило,
о проверке делался делаются
на основании на основании
Гипотезы 1. Гипотезы 2.

Я хотела бы ещё раз


Понятно… провести анализ
(Ямамото*сан говорит
женским голосом)

Как я уже отмечал, по


рядок проведения проверки, ель им !
доват
если вывод о ней делается Иссле
т ак сом
на основании Гипотезы 2, е ло
р ит м го
отличается от порядка, во ы
если вывод делается е го анн
на основании Гипотезы 1. Н тр
с

176  Глава 7. А что это за проверка гипотезы о независимости?


Шаг 6p
Выясняют, меньше ли РZзначение, соответствующее величине выбранного
статистического критерия, вычисленного на Шаге 5, чем уровень значимости.

Уровень значимости равен 0,05.


Поскольку величина критерия согласия Пирсона
равна 8,0091, Рзначение равно 0,0182
ь
и, следовательно, 0,0182 < 0,05.
ател
Другими словами, Рзначение меньше, д ов
ле
чем выбранный статистический критерий. Исс

Как я уже говорил, Рзначение можно вычислить,


используя функции Excel (но способ вычисления
зависит от вида гипотезы).
Например, в Excel можно вычислить
Ком величину Рзначения для проверки
мен
тат гипотезы о независимости.
ор
Подробное объяснение смотрите на стр. 208.

4. P-значение и порядок проверки  177


Шаг 7p
Если РZзначение меньше, чем уровень значимости (см. Шаг 6р), делают
вывод, что «верна альтернативная гипотеза». В противном случае вывод
такой: «нельзя утверждать, что нулевая гипотеза ошибочна».

Рзначение оказалось меньше уровня значимости.


Следовательно, верна альтернативная гипотеза:
«величина коэффициента корреляции Крамера
ь
для генеральной совокупности > 0», т.е. «пол»
ател
и «способ признания в любви» связаны ! д ов
ле
Исс

Даже когда Рзначение


оказывается меньше уровня значимости,
нельзя на основе проверки делать вывод, что
«альтернативная гипотеза абсолютно верна».
Ком Можно сделать лишь такой вывод:
мен «хотелось бы утверждать, что альтернативная
тат
ор гипотеза абсолютно верна, но существует
вероятность (α х 100%) того,
что верна нулевая гипотеза».

178  Глава 7. А что это за проверка гипотезы о независимости?


Мммм…
Вроде
Почти точно так же,
поняла.
как в 1м случае.

О!
Нука, вспоминай
Говоришь с такой
уверенностью… пример с пудингом.

Если Рзначение окажется Можно


больше уровня значимости, только …
кажется, можно сделать вывод,
что «верна нулевая гипотеза»,
(смеётся) но это не так.

… сделать такой вывод:


«нельзя утверждать,
что нулевая гипотеза
ошибочна».

(улыбается) (от радости плачет)

4. P-значение и порядок проверки  179


Ты хорошо
держалась
Ямамотосан,
до конца,
спасибо.
Руи.

(кланяется)

И, знаешь,
Сначала например, таблица
мне было трудно, с результатами
но теперь анкетирования,
мне кажется, мне представляется
я довольно хорошо интересной.
понимаю статистику.

(от радости плачет)

Хахаха…
То, что ты говоришь, почему бы и тебе, В общемто, да…
так радует меня. Руи, не заняться хотя моей
тем же, чем главной целью
занимаюсь я? было …
Я хочу
попробовать
другие способы Ну, я пошел.
анализа! Пока.

180  Глава 7. А что это за проверка гипотезы о независимости?


Решено. … в отпуске,
у него Что????!!!!!
Я пойду
свадебное Он женился ?
на встречу путешествие.
с Игарасисаном.

Ой, а
Игараси
сейчас …

Зачем же я столько
времени и сил угрохала
на эту статистику…?! Что?
Разве твой
интерес был
неискренним?

Он женат….
(в шоке)

Оставь меня в покое!!


Извините…
(столкнулись)

Б
У
(бежит
в сторону
М
Ямамото*сан)
Ямамото)

Ой,
осторожно!
Все в порядке?

Я и не знала, что Ямамото*сан такой симпатичный!

182  Глава 7. А что это за проверка гипотезы о независимости?


Ямамотосан,
научите меня
ещё чемунибудь!

И их занятия продолжились …
… а может и нет.
5. Проверка гипотезы о независимости и гипотезы об однородности
Проверка гипотезы об однородности очень похожа на проверку гипотезы
о независимости. Ниже приводится пример такой проверки. Попробуйте
разобраться, в чём заключается разница между этими двумя проверками.
Упражнение
Женский журнал «PZgirls» решил провести опрос школьников на тему
«Какой способ признания в любви Вы предпочитаете:
– по телефону;
– по SMS;
– при встрече»?
Журнал выдвинул такую гипотезу:
Гипотеза:
пропорции ответов «по телефону» : «по SMS» : «при встрече» зависят
от пола респондентов.

Чтобы выяснить, правильна ли эта гипотеза, журналист произвольно


выбрал определённое число юношей и девушек из «всех школьников
Японии» и провёл анкетирование. Результаты этого анкетирования
приведены в следующей таблице:
Респондент Способ признания Возраст Пол
в любви респондента респондента
1 при встрече 17 ж
… … … …
148 по SMS 16 ж
149 по телефону 15 м
… … … …
300 по SMS 18 м
Таблица взаимной сопряжённости «пола» и «способа признания в любви»
Способ признания в любви Итого
Пол респондента
по телефону по SMS при встрече
женский 34 61 53 148
мужской 38 40 74 152
Итого: 72 101 127 300
Проверьте правильность сформулированной гипотезы путём проверки гипотезы
об однородности. Предположим, что уровень значимости равен 0,05.

184  Глава 7. А что это за проверка гипотезы о независимости?


Решение
1 Определим Генеральных совокупностей будет две:
генеральную «все школьницы Японии»
совокупность и «все школьники Японии».

2 Сформулируем Нулевая гипотеза:


основную и «пропорции предпочтительных способов признания в
противоположную любви — по телефону : по SMS : при встрече —
гипотезы у школьниц и школьников одинаковы».
Альтернативная гипотеза:
«пропорции предпочтительных способов признания в
любви — по телефону : по SMS : при встрече —
у школьниц и школьников различны».
3 Выбираем вид гипотезы Проведём проверку гипотезы об однородности.
для статистической
проверки
4 Определим уровень Пусть уровень значимости равен 0,05.
значимости
5 Вычислим фактическое В этом упражнении будет проведена проверка гипотезы
значение выбранного об однородности. Следовательно, статистическим
статистического критерием будет критерий согласия Пирсона. Величина
критерия на основе была уже вычислена и равна 8,0091 (см. стр. 132).
данных выборочной Если нулевая гипотеза верна, критерий согласия
совокупности Пирсона имеет распределение хиZквадрат с числом
степеней свободы, равным (2 –1) × (3 –1) = 1 × 2 = 2.
6 Проверим, входит ли Величина критерия согласия Пирсона, который является
значение вычисленного статистическим критерием, равна 8,0091. Так как
на Шаге 5 статистиZ уровень значимости = 0,05, критическая область, как
ческого критерия следует из таблицы распределения хиZквадрат
в критическую область на стр. 103, больше 5,9915. Это значит, что значение
статистического критерия входит в критическую область.
7 Если значение статистиZ Значение статистического критерия входит в критичесZ
ческого критерия входит кую область. Следовательно, верна альтернативная гиZ
в критическую область потеза: «пропорции предпочтительных способов признаZ
(Шаг 6), делают вывод: ния в любви — по телефону : по SMS : при встрече —
«верна альтернативная у школьниц и школьников различны».
гипотеза». Если нет, —
«нельзя утверждать,
что нулевая гипотеза
ошибочна»

5. Проверка гипотезы о независимости и гипотезы об однородности  185


Как вам? И упражнение, и ответ как две капли воды похожи на проверку гипотезы
о независимости. Давайте уточним, чем же отличается проверка гипотезы о незаZ
висимости от проверки гипотезы об однородности.
ВоZпервых, определённые нами генеральные совокупности разные. В проверке
гипотезы о независимости генеральная совокупность только одна — «все школьZ
ники Японии», а в проверке гипотезы об однородности генеральных совокупносZ
тей две: «все школьницы Японии» и «все школьники Японии».
ВоZвторых, нулевые и альтернативные гипотезы разные. При проверке гипотезы
о независимости были сформулированы следующие гипотезы:

Нулевая Коэффициент корреляции Крамера для генеральной


гипотеза совокупности = 0 и, значит, «пол» и «способ признания
в любви» не связаны.

АльтернаZ Коэффициент корреляции Крамера для генеральной


тивная совокупности > 0 и, значит «пол» и «способ признания
гипотеза в любви» связаны.

а при проверке гипотезы об однородности были сформулированы гипотезы:

Нулевая Пропорции предпочтительных способов признания в любви —


гипотеза по телефону : по SMS : при встрече —
у школьниц и школьников одинаковы.

АльтернаZ Пропорции предпочтительных способов признания в любви —


тивная по телефону : по SMS : при встрече —
гипотеза у школьниц и школьников различны.

К тому же, гипотезы формулировались в разные моменты: в случае проверки гиZ


потезы о независимости — после сбора данных, а в случае проверки гипотезы об
однородности — до сбора данных. Однако, несмотря на очевидные различия на
практике часто бывает так: собираются проводить проверку гипотезы о независиZ
мости, а на деле проводят проверку гипотезы об однородности или наоборот.
Будьте внимательны!

186  Глава 7. А что это за проверка гипотезы о независимости?


6. Как выразить словами вывод на основании проверки
Вывод, полученный на основании проверки, формулируется следующим образом:
Если величина статистического критерия входит в критическую область,
делают вывод о том, что верна альтернативная гипотеза. В противном
случае вывод таков: «нельзя утверждать, что нулевая гипотеза ошибочна».

На самом деле такие выражения для формулирования вывода не используются.


Различные выражения, которые действительно используются для формулирования
вывода, сделанного на основе результатов статистической проверки, приведены в
Табл. 7.4.
Таблица 7.4. Выражения, используемые для формулирования выводов
на основе проверки
Случаи, когда величина Случаи, когда величина
статистического критерия статистического критерия
входит в критическую область не входит в критическую область

• верна альтернативная гипотеза • нельзя утверждать, что нулевая


• нулевая гипотеза отвергается
альтернативная гипотеза значима гипотеза ошибочна
• • нулевая гипотеза отклонена
нельзя отвергнуть нулевую гипотезу
• нельзя утверждать, что нулевая
• гипотеза верна
• нулевая гипотеза принимается
Выражения «гипотеза значима» и «гипотеза отвергнута» используются достаточно
часто. Вместе с тем я специально использовал формулировки, которые, как правиZ
ло, не используются. Объясняю почему. Я заметил, что среди начинающих изучать
статистическую проверку гипотез, есть такие, которые часто говорят «гипотеза
значима», причём не очень хорошо понимая, какой смысл имеет данное выражение.
Очевидно, они используют это выражение только потому, что уверены в величине
РZзначения и получили значение статистического критерия. Другими словами, они
проводят статистическую проверку гипотез, не сформулировав чётко нулевую и альZ
тернативную гипотезы. И, как мне кажется, генеральная совокупность также чётко
не определена. Я раньше полагал, что не следует делать замечания начинающим
постигать премудрости статистической проверки гипотез. Однако без чётко выстроZ
енных гипотез невозможно сделать какойZлибо вывод.
В связи с этим я использую такие выражения, как «верна альтернативная гипотеза»
и «нельзя утверждать, что основная гипотеза ошибочна». Это позволит читателю
понять и усвоить, что такое нулевая и альтернативная гипотезы.

6. Как выразить словами вывод на основании проверки  187


Упражнение
Таблица взаимной сопряжённости (см. стр. 138).
Предпочитаемый напиток
Обычно заказываемая кухня Итого
Кофе Чай
Японская 43 33 76
Европейская 51 53 104
Китайская 29 41 70
Итого: 123 127 250
Выясните путём проверки гипотезы о независимости, больше ли 0 коэффициент корреZ
ляции Крамера между видом обычно заказываемой кухни и предпочитаемым напитком
для генеральной совокупности «жители Японии старше 20 лет». Другими словами, есть
ли взаимосвязь между видом обычно заказываемой кухни и предпочитаемым напитком?
Пусть уровень значимости равен 0,01.

Ответ
1 Определим генеральную Генеральной совокупностью будут
совокупность «жители Японии старше 20 лет»
2 Сформулируем Основная гипотеза: «вид обычно заказываемой кухни
нулевую и альтернативную и предпочитаемый напиток не связаны».
гипотезы Альтернативная гипотеза: «вид обычно заказываемой кухни
и предпочитаемый напиток взаимосвязаны».
3 Выбираем вид гипотезы Проведём проверку гипотезы о независимости.
Определим уровень Пусть уровень значимости равен 0,01.
4 значимости
5 Вычислим фактическое В этом упражнении будет проведена проверка гипотезы о
значение выбранного независимости. Следовательно, статистическим критерием
статистического критеZ будет являться критерий согласия Пирсона. Величина была
рия на основе данных вычислена ранее и равна 3,34839 (см. стр. 141)
выборочной совокупности
6 Проверим, входит ли Величина критерия согласия Пирсона, являющегося статистичесZ
значение вычисленного ким критерием, равна 3,3483. Так как уровень значимости α = 0,01,
на Шаге 5 статистиZ критическая область, как следует из таблицы распределения
ческого критерия хиZквадрат на стр. 103, больше 9,2104. Это значит, что значение
в критическую область статистического критерия не входит в критическую область.
7 Если значение статистичесZ Значение статистического критерия не входит в критическую
кого критерия входит в криZ область. Следовательно, нельзя утверждать, что нулевая
тическую область (Шаг 6), гипотеза: «вид обычно заказываемой кухни и предпочитаемый
делают вывод: «верна альZ напиток не связаны» ошибочна.
тернативная гипотеза».
Если нет — «нельзя
утверждать, что нулевая
гипотеза ошибочна».

188  Глава 7. А что это за проверка гипотезы о независимости?


Выводы
• Проверка — один из способов анализа, который позволяет установить,
правильна ли гипотеза, сделанная исследователем о генеральной
совокупности на основе данных выборочной совокупности.
• Такая проверка называется статистической проверкой гипотез.
• Статистический критерий — формула, с помощью которой преобразуются
данные выборочной совокупности.
• Обычно используются такие значения уровня значимости, как 0,05 или 0,01.
• Критическая область — область значений, соответствующая определённому
уровню значимости.
• Проверка гипотезы о независимости — один из способов анализа, который
позволяет выяснить, не равен ли 0 коэффициент корреляции Крамера для
генеральной совокупности. Можно также сказать, что такой анализ
позволяет выяснить, есть ли связь между двумя переменными в таблице
взаимной сопряжённости.
• Если коэффициент корреляции Крамера для генеральной совокупности равен
0, величина критерия согласия Пирсона имеет распределение хиквадрат.
• Рзначение в случае проверки гипотезы о независимости при условии, что
нулевая гипотеза верна, — вероятность того, что критерий согласия
Пирсона χ02 больше или равен наблюдаемой величины.
• Сделать вывод о проверке можно на основании того, что:
1) значение статистического критерия входит в критическую область, либо
2) Рзначение меньше уровня значимости.
• Будь то проверка гипотезы о независимости или любая другая проверка,
порядок проведения анализа один и тот же, при этом он предусматривает
выполнение следующих действий:
Шаг 1 Определить генеральную совокупность.
Шаг 2 Сформулировать нулевую и альтернативную гипотезы.
Шаг 3 Выбрать вид статистической проверки гипотезы.
Шаг 4 Определить уровень значимости.
Шаг 5 Вычислить фактическое значение выбранного статистического
критерия на основе данных выборочной совокупности.
Шаг 6 Проверить, входит ли вычисленное на Шаге 5 значение
статистического критерия в критическую область.
Шаг 7 Если РZзначение меньше, чем уровень значимости (см. Шаг 6р),
то делают вывод о том, что верна альтернативная гипотеза. Если нет,
то вывод «нельзя утверждать, что нулевая гипотеза ошибочна».
Шаг 6р Проверить, меньше ли РZзначение, соответствующее величине
выбранного статистического критерия, вычисленного на Шаге 5,
чем уровень значимости.

Выводы  189
Приложение
Попробуем
вычислить
с помощью
Excel

1
В этой главе объясняется, как с помощью программы Excel:
1. Построить таблицу (ряд) распределения.
2. Вычислить среднее значение, медиану и стандартное отклонение.
3. Составить простую статистическую таблицу.
4. Вычислить нормированное отклонение и рассчитать TZпоказатель.
5. Вычислить вероятность стандартного нормального распределения.
6. Вычислить значение х при распределении хиZквадрат.
7. Вычислить коэффициент линейной корреляции.
8. Проверить гипотезу о независимости.
Файлы Excel можно загрузить по адресу http://www.dodeca.ru/books/33081.php.
Читателю, не имеющему опыта работы в Excel, рекомендуется сначала попробовать
вычислить среднее значение, медиану и стандартное отклонение (см. стр. 195).
1. Построение таблиц распределения
Используются данные со стр. 33.

1
Выберите ячейку J3.

192  Приложение. Попробуем вычислить с помощью Excel


2
Выберите Вставка  Функция.

3
Выберите Статистические в строке Категория, а затем ЧАСТОТА*
в графе Выберите функцию.
* FREQUENCY в английской версии Excel.

1. Построение таблиц распределения  193


4 Выделите нижеуказанную область и нажмите кнопку ОК.

5 Выделите ячейки, начиная с ячейки J3 и до ячейки J7.

6 Щелкните мышью на области в строке формул.

7 Нажмите комбинацию клавиш Shift + Ctrl и, удерживая ее в нажатом


состоянии, нажмите клавишу Enter.

194  Приложение. Попробуем вычислить с помощью Excel


8 Вычисление закончено!

2. Вычисление среднего значения, медианы и стандартного отклонения


Используются данные со стр. 41.

1 Выберите ячейку В10.

2 Выберите Вставка  Функция.

2. Вычисление среднего значения, медианы и стандартного отклонения  195


3
Выберите Статистические
в строке Категория,
и СРЗНАЧ* в графе
Выберите функцию.

* AVERAGE в английской
версии Excel.

4 Выделите нижеуказанную область и нажмите кнопку ОК.

5
Вычисление закончено!

196  Приложение. Попробуем вычислить с помощью Excel


6 Вычислите медиану и стандартное отклонение, выполняя
последовательно Шаг 1 — Шаг 5. При вычислении медианы выберите
МЕДИАНА* в графе Выберите функцию, а при вычислении
стандартного отклонения — СТАНДОТКЛОНП**.
* MEDIAN в английской версии Excel.
** STDEVP в английской версии Excel.

3. Построение простой статистической таблицы


Используются данные со стр. 61.

1 Выберите ячейку F20.

2 Выберите пункт Вставка  Функция.

3 Выберите Статистические в строке Категория,


а затем СЧЕТЕСЛИ* в графе Выберите функцию.
* COUNTIF в английской версии Excel.

3. Построение простой статистической таблицы  197


4 Выделите указанную ниже область, напишите
нравится в графе Критерий и нажмите кнопку ОК.

5
Вычисление
закончено!

6 Выполняя последовательно Шаг 1— Шаг 5, подсчитайте частоту ответов


«так себе» и «не нравится».

198  Приложение. Попробуем вычислить с помощью Excel


4. Вычисление нормированного отклонения и рейтинга успеваемости
Используются данные со стр. 72.

Функция для расчета нормированного отклонения в Excel есть, а функции для


расчета рейтинга успеваемости (TZпоказателя) нет.
Несмотря на это, можно довольно быстро вычислить рейтинг успеваемости,
используя результат вычисления нормированного отклонения.
Поэтому в данной книге считается, что рейтинг успеваемости можно рассчитать
в Excel.

4.1. Вычисление нормированного отклонения

1 Выберите ячейку E2.

2 Выберите Вставка  Функция.

3 Выберите Статистические в строке Категория,


а затем НОРМАЛИЗАЦИЯ* в графе Выберите функцию.
* STANDARDIZE в английской версии Excel.

4. Вычисление нормированного отклонения и рейтинга успеваемости  199


4 Выберите ячейку В2.

5 Выберите ячейку В20 в графе Среднее и нажмите клавишу F4.


Убедитесь, что В20 в графе Среднее превратилось в $B$20.

200  Приложение. Попробуем вычислить с помощью Excel


6 Выберите ячейку В21 в графе Стандартное_откл и нажмите клавишу F4.
Убедитесь, что В21 в графе Стандартное_откл превратилось в $B$21
и нажмите кнопку ОК.

7 Убедитесь, что было вычислено нормированное отклонение Руи.

4. Вычисление нормированного отклонения и рейтинга успеваемости  201


8 Подведите указатель мыши к правому углу ячейки Е2, и как только он
превратится в чёрный крестик, нажмите клавишу мыши и, удерживая её
в нажатом состоянии, растяните область до ячейки Е19;
отпустите клавишу мыщи.

9 Вычисление нормированного отклонения закончено!

202  Приложение. Попробуем вычислить с помощью Excel


4.2. Вычисление рейтинга успеваемости

10 Выберите ячейку F2 и «напишите» точно так же, как пишете текст в Word,
выражение =E2*10+50, а затем нажмите клавишу Enter.

11 Повторите Шаг 8.

12 Вычисление рейтинга успеваемости закончено!

4. Вычисление нормированного отклонения и рейтинга успеваемости  203


5. Вычисление вероятности стандартного нормального распределения
Используются данные со стр. 93.

1 Выберите ячейку В2.

2 Выберите Вставка  Функция.

3 Выберите Статистические в строке Категория,


а затем НОРМСТРАСП* в графе Выберите функцию.
* NORMDIST в английской версии Excel.

4 Выберите ячейку В1 и нажмите кнопку ОК.

204  Приложение. Попробуем вычислить с помощью Excel


5 На самом деле функция НОРМСТРАСП предназначена для вычисления
вероятности, указанной ниже на рисунке.

0
z
Поэтому «напишите» в ячейке В3
точно так же, как пишете в Word, выражение [=B2Z0.5].

6 Вычисление закончено!

6. Вычисление значения x при распределении хи-квадрат


Используются данные со стр. 104.

1 Выберите ячейку В3.

2 Выберите Вставка  Функция.

6. Вычисление значения x при распределении хи-квадрат  205


3 Выберите Статистические в строке Категория,
а затем ХИ2ОБР* в графе Выберите функцию.
* CHIINV в английской версии Excel.

4 Выберите ячейки В1 и В2 и нажмите кнопку ОК.

5 Вычисление закончено!

206  Приложение. Попробуем вычислить с помощью Excel


7. Вычисление коэффициента линейной корреляции
Используются данные со стр. 116

1 Выберите ячейку В14.

2 Выберите Вставка  Функция.

3 Выберите Статистические в строке Категория,


а затем КОРРЕЛ* в графе Выберите функцию.
* CORREL в английской версии Excel.

4 Выделите указанную ниже область и нажмите кнопку ОК.

7. Вычисление коэффициента линейной корреляции  207


5 Вычисление закончено!

8. Проверка гипотезы о независимости


Используются данные со стр. 157.

1 Выберите ячейку В8.

2 Напишите в ячейке В8 точно так же, как пишете в Word,


выражение: =Е2*В4/Е4 и пока не нажимайте клавишу Enter.

208  Приложение. Попробуем вычислить с помощью Excel


3 Подведите курсор к надписи E2 в ячейке В8 и трижды нажмите кнопку F4.
Убедитесь, что Е2 превратилось в $E2, и пока не нажимайте клавишу Enter.

4 Подведите курсор к надписи В4 в ячейке В8, дважды нажмите клавишу F4


и убедитесь, что В4 превратилось в В$4. Затем подведите курсор к надписи Е4
в ячейке В8, нажмите клавишу F4 и проверьте, превратилось ли Е4 в $Е$4.

После этого нажмите клавишу Enter.

5 Выберите ячейку В8, подведите указатель мыши к правому углу ячейки В8


и как только указатель примет вид черного крестика нажмите клавишу мыши.
Удерживая клавишу мыши в нажатом состоянии, растяните область
до ячейки D8, а затем отпустите клавишу мыши.

8. Проверка гипотезы о независимости  209


6 Выделите ячейки В8–D8, подведите указатель мыши к правому углу ячейки
D8 и как только он превратится в черный крестик нажмите клавишу мыши.
Удерживая клавишу мыши в нажатом состоянии, растяните область
до ячейки D9, а затем отпустите клавишу мыши.

7 Выберите ячейку В12. После этого выберите Вставка  Функция,


а затем Статистические в строке Категория и ХИ2ТЕСТ* в графе
Выберите функцию.
* CHITEST в английской версии Excel.

210  Приложение. Попробуем вычислить с помощью Excel


8 Выделите указанную ниже область и нажмите кнопку ОК.

9 Вычисление закончено!
Проверьте, соответствует ли полученная величина РZзначению на стр. 177).

8. Проверка гипотезы о независимости  211


Предметный указатель
 A
, 163, 166 альтернативная гипотеза
A P-значение, 175-179
AVERAGE, функция, 196 коэффициент корреляции Крамера, 186
обзор, 170-174
C определение, 174
CHIDIST, функция, 107 примеры, 161, 171-173
CHIINV, функция, 107, 205-206 проверка гипотезы о равенстве долей в совокуп-
CHITEST, функция, 210-211 ностях, 173
CORREL, функция, 207 анкетирование, 4-6
COUNTIF, функция, 197-198 качественные данные, 60-64
ограничения, 4-7
E проверка независимости, 137, 208-211
Eiken, экзамен, 23-25 таблицы распределения, 62-64
F В
FDIST, функция, 107 вероятность, 81-109
FINV, функция, 107 F-распределение, 106-107
FREQUENCY, функция, 193-194 нормальное распределение, 86-89
FРАСП, функция, 107 определение, 82
FРАСПОБР, функция, 107 распределение и Excel, 107-109
F-распределение, 106-107 распределение Стьюдента, 106
M распределение хи-квадрат, 99-105, 205-206
Microsoft Excel, см. вычисления в Excel, функции результаты теста, 83-84
Excel соответствующая, 104
стандартное нормальное распределение, 89-98,
N 204-205
NORMDIST, функция, 107 степень свободы, 99-108
NORMINV, функция, 107 выборка, см. выборочная совокупность
NORMSDIST, функция, 107, 204 выборочная совокупность, 6, 7, 52, 57
NORMSINV, функция, 107 вычисления в Excel, 191-211
коэффициент корреляции, 206-207
P медиана, 195-196
P-значение нормированное отклонение, 74-80, 199-203
альтернативная гипотеза, 175-179 проверка гипотезы о независимости, 208-211
гипотеза о независимости, 175 простая статистическая таблица, 197-198
нулевая гипотеза, 175-179 распределение, 107-109
проверка гипотезы, 163, 175-179, 189 распределение хи-квадрат, 205-206
S рейтинг успеваемости, 199-202
STANDARDIZE, функция, 199-201 среднее значение, 195-196
стандартное нормальное распределение, 204-205
T стандартное отклонение, 195-196
TDIST, функция, 107 таблицы распределения, 192-195
TINV, функция, 107
T-показатель, см. рейтинг успеваемости Г
генеральная совокупность
V выборка, 52
V Крамера, см. Крамера коэффициент корреляции коэффициент корреляции Крамера, 145-150,
157, 186
Z определение, 6
Z-показатель, см. нормированное отклонение
проверка гипотезы, 149, 186
Z-преобразование, см. нормирование
стандартное отклонение, 52

212  Предметный указатель


гистограммы создание таблиц, 60-64
величина интервала, 84, 85 столбиковая диаграмма, 114
достоинства, 83 точечная диаграмма, 114
обзор, 38-39 количественные данные, 14-29
переменные, 39 гистограммы, 38-39, 54, 58
примеры, 39, 83, 84, 154 корреляционное отношение, 121
функция плотности вероятности, 83-84 медиана, 44-47
обзор, 31-58
Д описательная статистика, 57-58
данные определение, 19
измеряемые, см. количественные данные показатели, 117
качественные, см. качественные данные примеры, 21-23, 26
количественные, см. количественные данные средняя величина, 40-43
неизмеряемые, cм. качественные данные стандартное отклонение, 48-53, 70-79
разброс, 49, 58, 69, 70, 80 таблицы распределения, 32-39, 54-56, 58
диаграмма распределения теория оценивания, 57-58
ежемесячные расходы, 116-120 точечная диаграмма, 114
корреляционное отношение, 122, 126 КОРРЕЛ, функция, 207
примеры, 114, 116 корреляционное отношение, 117, 121-127, 207
диаграмма цены, 33-39 корреляция, 115, 119
диаграммы коэффициент корреляции Крамера, см. Крамера
корреляционное отношение, 126 коэффицент корреляции
построение, 33-39 коэффициент линейной корреляции, 116-120, 206-
расходы, 116-120 207
столбиковая, 114 коэффициент независимости, см. Крамера коэффи-
теснота связи, 115 циент корреляции
точечная, см. точечная диаграмма Крамера коэффициент корреляции, 127-138
доли совокупностей, 149 вычисление в Excel, 207
З альтернативная гипотеза, 186
зависимость вычисление, 130-135, 141
корреляционное отношение, 117, 121-127 критерии величины, 136
линейная, 120 нулевая гипотеза, 168, 186
нелинейная, 120 показатель тесноты связи, 117, 129
относительная частота, 36-37, 39 примеры, 127-136
переменные, 112-115 пропорции предпочтений, 155
степень, 115, 116-120 точность, 147
загрузка файлов Excel, 192 критерий согласия Пирсона, 132, 152-155, 158
значение символ, 103
P-значение, 163, 175-179, 189 критическая область, 159, 165-167, 187
медиана, 44-47 Л
значимость гипотезы, 187 линейная зависимость, 120
И М
интервал, 39, 54-57, 84 медиана
величина, 39, 54-57, 84 вычисление в Excel, 195-196
формула Стерджесса, 55 определение, 45
К применимость, 44
качественные данные, 14-29 примеры, 45-47
корреляционное отношение, 121 межгрупповая дисперсия, 117, 124, 126
обзор, 14-19 многовариантные ответы, 28
определение, 19 Н
показатели, 117 наклон графика, 101
примеры, 20, 23-26 неизмеряемые данные, см. качественные данные
результат исследования, 60-64 нелинейная зависимость, 120

Предметный указатель  213


Непера число, 86 критерий согласия Пирсона, 151-160
нормализация, см. нормирование нулевая гипотеза, см. нулевая гипотеза
НОРМАЛИЗАЦИЯ, функция, 199-201 о корреляционном отношении, 149, 171, 172
нормальное распределение, 86-91 о независимости, 149, 171
нормирование, 71-72 о равенстве долей в совокупностях, 149, 171, 173
нормированное отклонение, 65-80, 73, 199-202 о равенстве средних величин совокупностей, 149,
нормировка, см. нормирование 171, 173
НОРМОБР, функция, 107 об однородности, 184-186
НОРМРАСП, функция, 107 об отсутствии корреляции, 149, 171, 172
НОРМСТОБР, функция, 107 обзор, 144-150
НОРМСТРАСП, функция, 107, 204 определение, 149
нулевая гипотеза порядок проведения, 150, 175-179
P-значение, 175-179 примеры, 149, 168-174
для проверки корреляционного отношения, 172 проверка критерия согласия Пирсона, 151-169
для проверки независимости, 172 проверка гипотезы о независимости, 151-161
для проверки отсутствия корреляции, 172 P-значение, 175
для проверки равенства долей в совокупностях, применимость, 137, 149
173 примеры, 149, 171, 184-186
для проверки равенства средних величин совокуп- сравнение с проверкой однородности, 186
ностей, 173 хи-квадрат, 151-169
коэффициент Крамера, 168, 186 проверка статистических гипотез, см. проверка
нельзя отвергнуть, 150, 167, 178, 179, 187 гипотез
обзор, 170-174 прогноз погоды, 82
описание, 174 процентное отношение, 5, 37, 62, 64
примеры, 167-174 прямая зависимость, 119
трудность доказательства, 174
Р
О разброс данных, 49, 58, 69, 70, 80
обратная зависимость, 119 распределение
описательная статистика, 57-58 F, 106-107
опрос общественного мнения, 4-6 вычисление в Excel, 107-109
ось y, 39 нормальное, 86-91
ось х, 39, 102, 107, 109, 125 стандартное нормальное, 89-98, 204-205
отсутствие корреляции, 119 Стьюдента, 106
хи-квадрат, см. хи-квадрат распределение
П рассеяние данных, см. разброс данных
переменные, 111-142 результаты тестов
гистограмма, 39 нормальное распределение, 86-89
зависимость, 112-115 стандартное нормальное распределение, 89-98
корреляционное отношение, 121-127 функция плотности вероятности, 83-84
коэффициент Крамера, 127-138, 141-142 рейтинг успеваемости, 74-80, 199-203
коэффициент линейной корреляции, 116-120 ряды распределения, см. таблицы распределения
степень связи, 115, 116-120
Пирсона критерий согласия, см. критерий согласия С
Пирсона свободы степень, 99-108
показатели середина интервала, 36-39, 54, 56
количественные данные, 117 совокупность, см. генеральная совокупность
коэффициент корреляции Крамера, 117, 129 среднее значение, см. средняя
коэффициент линейной корреляции, 120 средние накопления, 46-47
проверка гипотез, 143-189 средняя
P-значение, 163, 175-179, 189 арифметическая, 43, 73, 74
альтернативная гипотеза, см. альтернативная вычисление в Excel, 195-196
гипотеза гармоническая, 43
виды, 149, 171 геометрическая, 43
выводы, 187 нормальное распределение, 87-89

214  Предметный указатель


определение, 43 FDIST, 107
примеры, 40-44 FINV, 107
стандартное нормальное распределение, 89-90 FREQUENCY, 193-194
СРЗНАЧ, функция, 196 FРАСП, 107
стандартизация, см. нормирование FРАСПОБР, 107
стандартное нормальное распределение, 89-98, NORMDIST, 107
204-205 NORMINV, 107
стандартное отклонение, 48-53, 70-79 NORMSDIST, 107, 204
вычисление в Excel, 195-196 NORMSINV, 107
количественные данные, 48-53, 70-79 STANDARDIZE, 199-201
нормальное распределение, 87-91 TDIST, 107
совокупность, 52 TINV, 107
стандартное нормальное распределение, 89-90 КОРРЕЛ, 207
статистика НОРМАЛИЗАЦИЯ, 199-201
описательная, 57-58 НОРМОБР, 107
определение, 4 НОРМРАСП, 107
теория оценивания, 4-6 НОРМСТОБР, 107
степень свободы, 99-108 НОРМСТРАСП, 107, 204
степень тесноты связи, 115, 116-120 СРЗНАЧ, 196
Стерджесса формула, 55 СТЬЮДРАСП, 107
Стьюдента распределение, 106 СТЬЮДРАСПРОБР, 107
СТЬЮДРАСП, функция, 107 СЧЕТЕСЛИ, 197-198
СТЬЮДРАСПРОБР, функция, 107 ХИ2РАСП, 107
СЧЕТЕСЛИ, функция, 197-198 ХИ2РАСПОБР, 107, 205-206
ХИ2ТЕСТ, 210-211
Т ЧАСТОТА, 193-194
таблица сопряжённости, 128, 130, 135, 151, 153, функция распределения плотности вероятности, 82-
197-198 85, 99, 107, 109
таблицы распределения, 54-56, 192-195
качественные данные, 60-64 Х
нормальное распределение, 107 ХИ2РАСП, функция, 107
распределение хи-квадрат, 102-105, 205-206 ХИ2РАСПОБР, функция, 107, 205-206
стандартное нормальное распределение, 92-93, ХИ2ТЕСТ, функция, 210-211
104, 108 хи-квадрат, распределение, 99-105
таблицы сопряжённости, 128, 130, 135, 151, 153 вычисление, 130-133
частота, 54-56 вычисление х, 205-206
теоретическая частота, 130, 131 описание, 99
теория оценивания, 57-58 примеры, 99-105, 152
типы данных, 13-29, 117 степень свободы, 99-108
точечная диаграмма, 116, 119, 120
Ч
У частота
уровень значимости (), 159, 163 описание, 36
относительная, 36-37, 39
Ф таблицы распределения, 32-39
функции Excel теоретическая, 130, 131
AVERAGE, 196 эмпирическая, 130, 131
CHIDIST, 107 ЧАСТОТА, функция, 193-194
CHIINV, 107, 205-206
CHITEST, 210-211 Э
CORREL, 207 Эйлера число, 86
COUNTIF, 197-198 эмпирическая частота, 130, 131

Предметный указатель  215


Книги Издательского дома «Додэка-XXI» можно заказать в торгово-
издательском холдинге «АЛЬЯНС-КНИГА» наложенным платежом,
выслав открытку или письмо по почтовому адресу: 123242, Москва, а/я 20
или по электронному адресу: orders@alians-kniga.ru.
При оформлении заказа следует указать адрес (полностью), по которому должны
быть высланы книги; фамилию, имя и отчество получателя. Желательно также указать
свой телефон и электронный адрес.
Эти книги вы можете заказать и в Интернет-магазине: www.alians-kniga.ru.
Оптовые закупки: тел. (495) 258-91-94, 258-91-95; электронный адрес
books@alians-kniga.ru.

Син Такахаси

Занимательная статистика
Манга

Подписано в печать 15.12.2009. Формат 70x90/16. Бумага офсетная.


Гарнитура «LiteraturnayaC», «JacobC». Печать офсетная.
Объём 14,0 п. л. Усл. п. л. 16,3.
Тираж 1500 экз. Код OHM03.

Издательский дом «Додэка-XXI»

105318 Москва, а/я 70


Тел./факс: (495) 366-04-56, 366-11-55
E-mail: red@dodeca.ru
Web-сайт издательства: www.dodeca.ru
Интернет-магазин: www.alians-kniga.ru

Отпечатано с готовых диапозитивов в ОАО «Щербинская типография»


117623, Москва, ул. Типографская, д. 10.

Вам также может понравиться