Вы находитесь на странице: 1из 186

Учебно-методическое обеспечение самостоятельной работы

студентов по курсу «Методы обработки экспериментальных


данных»

Рубан Анатолий Иванович


Кузнецов Алексей Владимирович

Красноярск 2008 г.

1
Учебное пособие содержит дополнительный теоретический
материал, перечень вопросов для самопроверки и набор задач для
самостоятельного решения в течение семестра для закрепления
теоретических знаний. Рекомендуется использовать совместно с основным
учебным пособием по дисциплине «Методы обработки экспериментальных
данных».
Предназначено для самостоятельного изучения магистрантами
укрупненной группы подготовки направления 230100.68 – Информатика и
вычислительная техника и преподавателей дисциплины «Методы обработки
экспериментальных данных».

2
Введение

Дисциплина «Методы обработки экспериментальных данных»


предполагает формирование у магистрантов компетенций, необходимых для
проведения квалифицированной обработки и анализа экспериментальных
данных, с дальнейшим принятием решения на основе полученных в ходе
обработки результатах.
Учебная программа данного курса предполагает самостоятельное
изучение магистрантами основного теоретического материала с
использованием учебного пособия «Методы обработки экспериментальных
данных» (11 семестр, 0,47 зачетных единиц, 17 часов), дополнительного
теоретического материала изложенного в данном пособии (11 семестр, 0,47
зачетных единиц, 17 часов) и решение задач представленных в данном
пособии (11 семестр, 0,8 зачетных единиц, 29 часов).

В рамках дисциплины магистранты должны:


1. Самостоятельно закреплять изученный на лекциях основной
теоретический материал путем самостоятельной работы с основным учебным
пособием «Методы обработки экспериментальных данных».
2. Самостоятельно освоить дополнительный теоретический материал по
следующим темам (в скобках указан объем в зачетных единицах и часах):
2.1. Современные методы анализа данных на компьютере. (0,083 зач.
единиц / 3 часа).
2.2. Элементарные понятия анализа данных (0,083 зач. единиц / 3 часа).
2.3. Вероятностные распределения, их свойства и применение (0,083
зач. единиц / 3 часа).
2.4. Визуальный анализ данных (0,111 зач. единиц / 4 часа).
2.5. Статистический вывод (0,111 зач. единиц / 4 часа).
3. Решать различные задачи, представленные на выбор в этом учебном
пособии. Задачи выдаются лектором в конце каждой лекции по пройденному
материалу. Магистранты решают задачи в отдельных тетрадях и два раза в
семестр во время контрольной недели сдают их на проверку.

Краткое содержание дополнительного теоретического материала:


1. Современные методы анализа данных на компьютере. Общие приемы
работы с данными в пакетах «Statistica 6.0». Основные возможности
математических пакетов: Манипуляция данными. Построение различных
графиков. Командный язык STATISTICA (SCL). Язык программирования
STATISTICA VISUAL BASIC.
2. Элементарные понятия анализа данных. Что такое переменная.
Описательные статистики и их свойства. Шкалы измерений. Распределение
переменной. Зависимости между переменными. Корреляции. Общая

3
конструкция статистических тестов. Почему важно нормальное
распределение. Как проверить нормальность наблюдаемых величин.
3. Визуальный анализ данных. Визуальный анализ категорированных
данных. Двухмерный визуальный анализ данных. Трехмерный визуальный
анализ данных. Пиктографики.
4. Статистический вывод. Генеральные совокупности и выборки.
Методы построения выборки. Доверительные интервалы.
5. Корреляционный анализ. Изучение зависимости между случайными
величинами. Оценка коэффициента корреляции. Частная и множественная
корреляция. Ранговая корреляция.

Во второй части данного пособия представлены вопросы для


самопроверки для каждого модуля и набор задач для самостоятельного
решения.

4
1. Современные методы анализа данных на компьютере
Окружающий нас мир насыщен информацией – разнообразные потоки
данных окружают нас, захватывая в поле своего действия, лишая правильного
восприятия действительности. Не будет преувеличением сказать, что
информация становится частью действительности и нашего сознания. Без
адекватных технологий анализа данных человек оказывается беспомощным в
жестокой информационной среде и скорее напоминает броуновскую частицу,
испытывающую жестокие удары со стороны и не имеющую возможности
рационально принять решение.
Современной науке, производству и бизнесу необходимы мощные
автоматизированные аналитические средства. Потребность производить
сложные расчеты, постоянно уменьшать издержки производства,
оптимизировать складские запасы, исследовать рынок и прогнозировать его
развитие поддерживают интерес к компьютерным технологиям обработки
данных.
За последние 5 лет произошел значительный рост мощности
компьютерных систем, теперь даже обычный офисный компьютер способен
выполнят гигантские объемы вычислений за приемлемое время. Все это
способствует появлению и широкому распространению разнообразных
компьютерных программ для обработки и анализа экспериментальных
данных.
Современный подход к обработке экспериментальных данных – это
обработка на компьютере с помощью специализированных программных
средств.

1.1. Общие приемы работы с данными в пакете «STATISTICA 6.0».


Несколько слов о системе STATISTICA. Разработчиком STATISTICA
является фирма StatSoft Inc., (США). Первая версия системы STATISTICA
для DOS, вышла еще в 1991 году. На сегодняшний день самая последняя
версия это «STATISTICA 6.0». Она представляет собой новое направление
развития статистического программного обеспечения. В ней реализован так
называемый графически-ориентированный подход к анализу данных.
Смысл этого подхода состоит в том, чтобы получать всестороннее
визуальное представление данных на всех этапах статистической обработки и
на основе этого представления выбирать следующий шаг анализа.
В STATISTICA имеются сотни типов графиков, предназначенных для
визуализации данных, разведывательного анализа, графического вывода
результатов и выбора последующих направлений анализа. Такие уникальные
графики, как лица Чернова, диаграммы Вороного, матричные – позволяющие,
например, «визуализировать» корреляционную матрицу, категоризованные,
трассировочные и др. графики, а также большой выбор двухмерных и

5
трехмерных научных и деловых графиков и диаграмм становятся
легкодоступными для пользователя.
Кроме стандартных типов графиков в STATISTICA имеется большое
количество специализированных графиков: «ящиков с усами» с
разнообразными опциями по выбору средней точки, граничных значений,
подгонки, определения выбросов, различных гистограмм, графиков на
нормальной вероятностной бумаге, графиков типа «вероятность –
вероятность», «квантиль – квантиль» и т. д.
Графики можно уменьшать, увеличивать, накладывать друг на друга,
изменять масштабы, вращать, корректировать перспективу. Применять
средство «Рентген» в трехмерной графике, чтобы увидеть «очертания
дальних гор на фоне ближних», определять собственную палитру цветов,
добавлять пользовательский текст, рисунки, стрелки и т. д.
Графики могут автоматически изменяться при изменении связанного с
ними файла данных.
STATISTICA – это интегрированная система анализа и управления
данными. Все аналитические инструменты, имеющиеся в системе, доступны
пользователю и легко могут быть выбраны пользователем с помощью
клавиатуры или мышки. Пользователь может всесторонне автоматизировать
свою работу, начиная с применения простых макросов для автоматизации
рутинных действий вплоть до углубленных проектов, включающих, в том
числе, интеграцию системы с другими приложениями или Интернетом.
Технология автоматизации позволяет даже неопытному пользователю
настроить систему на свой проект.
Процедуры системы STATISTICA имеют высокую скорость и точность
вычислений. Гибкая и мощная технология доступа к данным позволяет
эффективно работать хранилищами данных на локальном диске, так и с
удаленными хранилищами данных.
Система обладает следующими общепризнанными достоинствами:
· Содержит полный набор классических методов анализа данных:
от основных методов статистики до продвинутых методов, что
позволяет гибко организовать анализ.
· Является средством построения приложений в конкретных
областях.
· В комплект поставки входят специально подобранные примеры,
позволяющие систематически осваивать методы анализа.
· Отвечает всем стандартам Windows, что позволяет сделать анализ
высокоинтерактивным.
Вооружившись мышью, вы открываете диалоговые окна, новые файлы
с данными, запускаете вычислительные процедуры, строите графики,
просматриваете результаты обработки, выводите их на печать.

6
Ранее (или в других пакетах обработки данных) каждый шаг
исследований, начиная от представления данных, перевода их в нужный
формат, проверки, группировки, сортировки, сжатия, графической
интерпретации, подготовки программ обработки до просмотра результатов,
был трудной задачей. Теперь достаточно двух-трех щелчков мыши, чтобы
огромные объемы данных чрезвычайно быстро преобразовались,
обработались и появились на экране в виде графиков, диаграмм и таблиц.
Кроме того, вы можете вернуться в любую точку анализа, подвергнуть
данные другому способу обработки. Вы также можете внести в них
искусственные изменения и проверить гипотезу типа: «что будет, если?»
Статистические модули системы покрывают практически весь спектр
современного анализа данных. На рисунке 1.1 представлен внешний вид
программы «STATISTICA», в которой открыто несколько окон для анализа
данных.
Все основные действия в программе производятся через главное меню,
которое занимает вторую строку основного окна модуля (рисунок 1.1) и
содержит в себе систему выпадающих меню. Ряд пунктов меню, таких как:
«Файл», «Правка», «Вид», «Окно», «Справка», стандартен для Windows.
Пункты «Анализ», «Графика», «Сервис» специфичны для STATISTICA.
Выбор команд осуществляется из выпадающих меню с помощью
мышки или клавиатуры.
Панель инструментов (рисунок 1.1) находится под главным меню и
содержит кнопки для быстрого доступа к наиболее часто используемым
командам меню (для ускорения работы). При помощи щелчка мышью на
какой-либо кнопке можно получить быстрый доступ к соответствующей
команде. Каждому типу документа STATISTICA соответствует своя панель
инструментов. Внешний вид панели инструментов и ее расположение в окне
системы можно настроить при помощи команды «Панель инструментов» из
меню «Вид». Эти установки действуют только для текущего сеанса работы.
Панель инструментов может быть выведена в одну и две строчки и может
быть расположена в разных частях основного окна системы. Постоянный вид
панели инструментов может быть установлен в меню «Опции» командой
«Экран».

7
Рисунок 1.1. Внешний вид программы STATISTICA.

При первом запуске STATISTICA автоматически открывает


стандартный файл с данными «adstudy.sta», который входит в набор
примеров, поставляемых с системой. При следующих запусках автоматически
открывается последний файл, с которым вы работали в системе. Отметим, что
в рабочей области может находиться только один файл с исходными данными
(однако может быть неограниченное число файлов с промежуточными
результатами и графиков).
Исходные данные в системе STATISTICA организованы в виде
электронной таблицы. Если вы имеете опыт работы с электронными
таблицами (например, с MS Excel), то вам будет несложно освоиться с
электронными таблицами в STATISTICA. Таблицы с исходными данными в
STATISTICA носят особое название, чтобы не путать их с другими
таблицами системы. Электронная таблица системы SPREADSHEETS состоит
из строк и столбцов. В отличие от обычных электронных таблиц, где строки и
столбцы равноправны, в STATISTICA они имеют разные смысловые
значения. Столбцы электронной таблицы с исходными данными называются
Variables (Переменные), а строки Cases (Случаи). В качестве переменных
обычно выступают исследуемые величины, а случаи – это значения, которые
принимают переменные в отдельных измерениях.

8
Система может работать как с численными, так и с текстовыми
данными, что, конечно, важно в практических статистических исследованиях.
В частности, электронные таблицы могут содержать и численную, и
текстовую информацию. Аналогично MS Excel они поддерживают различные
типы операций с данными, такие как операции с использованием буфера
обмена Windows; операции с выделенными блоками значений, в том числе и с
использованием метода drag-and-drop, автозаполнение блоков и т. д.
С системой STATISTICA поставляется большое число файлов,
содержащих интересные данные. Эти файлы находятся в каталоге «examples».
Файлы STATISTICA с исходными данными имеют, расширение «*.sta».
Программа «STATISTICA» организована по модульному принципу.
Это означает, что все методы статистической обработки, реализованные в
системе, разбиты на несколько групп – модулей – в соответствии с разделами
статистического анализа.
В системе STATISTICA можно очень быстро и удобно переключаться
между различными видами анализа данных, используя переключатель
модулей (рисунок 1.2).

Рисунок 1.2. Выбор желаемого модуля для выполнения анализа.


Например, модуль «Основные статистики и таблицы» содержит
основные описательные статистики, методы статистического анализа
различных данных, разносторонний инструментарий для проведения
разведочного анализа данных.
В модуле «Кластерный анализ» реализованы методы кластерного
анализа.
Модуль «Анализ временных рядов и прогнозирование» содержит
методы анализа временных рядов и прогнозирования.
Возможности этих модулей, а также всех других модулей подробно
рассмотрены в интерактивной справочной системе, поставляемой в составе
программы «STATISTICA».

9
Каждый модуль является отдельным приложением и может работать
независимо от остальных модулей системы.

1.2. Командный язык STATISTICA (SCL)


Система STATISTICA может работать в «истинном» пакетном режиме
как система, управляемая командами, с помощью встроенного языка
управления приложениями SCL (STATISTICA Command Language),
доступного в любом модуле системы из выпадающего меню Анализ. Можно
ввести последовательность команд для выполнения определенных действий
на языке, близком к английскому, а затем сколько угодно раз исполнять ее в
пакетном режиме.
Возможен и другой способ действий – использование диалогового окна
Мастер команд (рисунок 1.3) для быстрого выбора и ввода требуемого списка
команд.
Для написания и отладки «пакетов» команд используется
интегрированная среда языка SCL. Она включает текстовый редактор,
совмещенный с окном Мастер команд (рисунок 1.3, кнопка «Мастер команд»
на панели инструментов Командного языка), систему помощи по синтаксису
языка с примерами и интегрированные средства проверки правильности
программ (доступны из выпадающего меню «Сервис»).

Рисунок 1.3. Разработка программы на SCL.


При написании программ на языке SCL можно проверять не только
формальную правильность команд, но и их соответствие содержанию файлов

10
данных, которые предстоит обрабатывать (команды выпадающего меню
«Сервис»). Например, непосредственно во время написания SCL-программы
можно проверять, действительно ли переменная с таким именем или такое
текстовое значение присутствуют в обрабатываемом наборе данных
(подробнее смотри интерактивную систему документации, которая
вызывается клавишей F1, кнопкой на панели инструментов или двойным
щелчком на строке состояния в нижней части окна приложения).
Прерывание выполнения SCL-программы. Выполнение SCL-
программы может быть прервано щелчком мыши (любой ее кнопкой) или
клавишами «ESC» или «CTRL+BREAK». При этом система STATISTICA
запросит подтверждение на прерывание программы.
Пользовательские расширения языка SCL. Программы на языке SCL
могут включать не только предопределенные параметры и команды для
выполнения действий по статистической обработке, управлению и
графическому выводу данных (см. кнопки «Справка: примеры» и «Справка:
синтаксис» на панели инструментов), но и пользовательские «команды»,
определенные с помощью инструмента «Назначить клавиши» (в соответствии
с правилами, принятыми в MS Visual BASIC). Написанные таким образом
программы могут выполнять, например, операции с буфером обмена
(Копировать, Вставить), менять параметры вывода, принятые по умолчанию в
различных процедурах, и выполнять другие функции. SCL-программы могут
также включать в себя программы и процедуры, написанные на языке
STATISTICA BASIC (языке системы STATISTICA, предназначенном для
преобразования данных и графиков и управления ими, который доступен из
любого модуля пакета). Например, определенные пользователем графические
или вычислительные процедуры на языке STATISTICA BASIC могут
выполняться как часть пакета команд SCL.
Пользовательский интерактивный интерфейс для SCL-программ.
Несмотря на то, что в командном языке SCL не заложен в непосредственном
виде специальный пользовательский интерактивный интерфейс, тем не менее,
для этих целей можно использовать программы на языке STATISTICA
BASIC, вызываемые из SCL программ, например, для создания диалоговых
окон, позволяющих выбирать переменные, файлы данных и т.п. в ходе
выполнения программы (смотрите примеры в Электронном руководстве к
программе STATISTICA).
Создание SCL-программ «под ключ». Исполняемый модуль системы
STATISTICA. Командный язык содержит специальный Исполняемый модуль,
позволяющий разрабатывать приложения «под ключ» (рисунок 1.4), которые
вызываются двойным щелчком на значке соответствующего
«пользовательского приложения» на рабочем столе Windows. Эта
возможность позволяет экономить время пользователя, когда многократно
повторяется одна и та же процедура или последовательность процедур
анализа, а также дает возможность использовать SCL-программы, в том числе

11
и тем, кто не знаком с соглашениями системы STATISTICA. Чтобы создать
такое приложение «под ключ», сначала нужно написать саму SCL-программу
и сохранить ее обычным образом (например, в файле
«МояПрограммаПодКлюч.scl»). Затем в окне Диспетчер программ системы
Windows нужно создать ярлык для исполняемого модуля STATISTICA с
именем «Sta_run.exe» (оно находится в папке STATISTICA на диске) и
настроить его на запуск «МояПрограммаПодКлюч.scl».

Рисунок 1.4. Приложение под «ключ».

1.3. Язык программирования STATISTICA VISUAL BASIC


В программе STATISTICA имеется внутренний язык
программирования STATISTICA BASIC, который дает пользователю
прекрасную возможность писать собственные алгоритмы обработки,
генерировать различные временные ряды для дальнейшего анализа и
проверки алгоритмов.
В STATISTICA BASIC имеется собственная библиотека распределений,
где находится большое число различных функций распределения, обратных
функций распределения: бета-распределение, биномиальное, Коши, Лапласа,
Пуассона, Релея, нормальное и др.
Язык STATISTICA BASIC содержит большое количество специальных
функций (например, операции работы с матрицами включают всевозможные
разложения матриц, нахождения собственных векторов и собственных

12
значений и др.), позволяющих достаточно быстро написать даже сложную
процедуру обработки данных.
В STATISTICA BASIC имеется два режима работы: Sequential-режим и
RandomAccess-режим. Последний принят по умолчанию. Если не указан
никакой режим, то система будет считать, что вы выбрали RandomAccess.
RandomAccess позволяет обращаться к различным случаям разных
переменных; работая в этом режиме, вы можете представлять файл как
массив данных, например запись var2(10):=47 означает, что переменной var2
в 10-м случае присвоено значение 47.
В Sequential-режиме переменные рассматриваются как целое вместе со
своими значениями. Например, оператор присваивания vl:=(v2+v3)/2 в этом
режиме определяет новые значения переменной vl для всех случаев.
Далее приведены два примера элементарных программ на STATISTICA
BASIC. Примеры программ на STATISTICA BASIC
Программа 1.
Sequential; {задает Sequential-режим}
v1 :=(v2+v3)/2; {оператор присваивания}
for i:=ll to 21 do {начало цикла: FOR..TO..DO..}
v(i):=v(i)/1000; {тело цикла}

if v4<0 then v4:=0; {условный IF..THEN оператор}

if Valid(v6) then {условный IF..THEN оператор}


begin
v7:=0; v8:=l; v9:=2; {присвоение переменных}
end;

Программа 2
RandomAccess; {задает RandomAccess-режим}
sum := 0; {определяет переменную sum}
for i := 1 to NCases do {начало первого цикла}
for j :— 1 to NYars do {начало второго цикла}
sum := sum + Value(Data(i,j)); {тело цикла}

WriteLn('sum=',sum); {Вывод SUM на устройство вывода}

13
2. Элементарные понятия анализа данных
2.1. Что такое переменная
Переменные – это то, что можно измерять, контролировать или, что
можно изменять в исследованиях. Переменные отличаются многими
аспектами, особенно той ролью, которую они играют в исследованиях,
шкалой измерения и т.д.
Большинство эмпирических исследований данных можно отнести к
одному из ниже названных типов. В исследовании корреляций (зависимостей,
связей...) вы не влияете (или, по крайней мере, пытаетесь не влиять) на
переменные, а только измеряете их и хотите найти зависимости (корреляции)
между некоторыми измеренными переменными, например, между кровяным
давлением и уровнем холестерина. В экспериментальных исследованиях,
напротив, вы варьируете некоторые переменные и измеряете воздействия
этих изменений на другие переменные. Например, исследователь может
искусственно увеличивать кровяное давление, а затем на определенных
уровнях давления измерить уровень холестерина. Анализ данных в
экспериментальном исследовании также приходит к вычислению
"корреляций" (зависимостей) между переменными, а именно, между
переменными, на которые воздействуют, и переменными, на которые влияет
это воздействие. Тем не менее, экспериментальные данные потенциально
снабжают нас более качественной информацией. Только экспериментально
можно убедительно доказать причинную связь между переменными.
Например, если обнаружено, что всякий раз, когда изменяется переменная A,
изменяется и переменная B, то можно сделать вывод – "переменная A
оказывает влияние на переменную B", т.е. между переменными А и В имеется
причинная зависимость. Результаты корреляционного исследования могут
быть проинтерпретированы в каузальных (причинных) терминах на основе
некоторой теории, но сами по себе не могут отчетливо доказать причинность.
Зависимые и независимые переменные. Независимыми переменными
называются переменные, которые варьируются исследователем, тогда как
зависимые переменные – это переменные, которые измеряются, или
регистрируются. Может показаться, что проведение этого различия создает
путаницу в терминологии, поскольку как говорят некоторые студенты "все
переменные зависят от чего-нибудь". Тем не менее, однажды отчетливо
проведя это различие, вы поймете его необходимость. Термины зависимая и
независимая переменная применяются в основном в экспериментальном
исследовании, где экспериментатор манипулирует некоторыми переменными,
и в этом смысле они "независимы" от реакций, свойств, намерений и т.д.
присущих объектам исследования. Некоторые другие переменные, как
предполагается, должны "зависеть" от действий экспериментатора или от
экспериментальных условий. Иными словами, зависимость проявляется в

14
ответной реакции исследуемого объекта на посланное на него воздействие.
Отчасти в противоречии с данным разграничением понятий находится
использование их в исследованиях, где вы не варьируете независимые
переменные, а только приписываете объекты к "экспериментальным
группам", основываясь на некоторых их априорных свойствах. Например,
если в эксперименте мужчины сравниваются с женщинами относительно
числа лейкоцитов (WCC), содержащихся в крови, то Пол можно назвать
независимой переменной, а WCC зависимой переменной.

2.2. Шкалы измерений


Шкалы измерений. Переменные различаются также тем "насколько
хорошо" они могут быть измерены или, другими словами, как много
измеряемой информации обеспечивает шкала их измерений. Очевидно, в
каждом измерении присутствует некоторая ошибка, определяющая границы
"количества информации", которое можно получить в данном измерении.
Другим фактором, определяющим количество информации, содержащейся в
переменной, является тип шкалы, в которой проведено измерение. Различают
следующие типы шкал:(a) номинальная, (b) порядковая (ординальная), (c)
интервальная (d) относительная (шкала отношения). Соответственно, имеем
четыре типа переменных: (a) номинальная, (b) порядковая (ординальная), (c)
интервальная и (d) относительная.
Номинальные переменные используются только для качественной
классификации. Это означает, что данные переменные могут быть измерены
только в терминах принадлежности к некоторым, существенно различным
классам; при этом вы не сможете определить количество или упорядочить эти
классы. Например, вы сможете сказать, что 2 индивидуума различимы в
терминах переменной A (например, индивидуумы принадлежат к разным
национальностям). Типичные примеры номинальных переменных – пол,
национальность, цвет, город и т.д. Часто номинальные переменные называют
категориальными.
Порядковые переменные позволяют ранжировать (упорядочить)
объекты, указав какие из них в большей или меньшей степени обладают
качеством, выраженным данной переменной. Однако они не позволяют
сказать "на сколько больше" или "на сколько меньше". Порядковые
переменные иногда также называют ординальными. Типичный пример
порядковой переменной – социоэкономический статус семьи. Мы понимаем,
что верхний средний уровень выше среднего уровня, однако сказать, что
разница между ними равна, скажем, 18% мы не сможем. Само расположение
шкал в следующем порядке: номинальная, порядковая, интервальная является
хорошим примером порядковой шкалы.
Интервальные переменные позволяют не только упорядочивать
объекты измерения, но и численно выразить и сравнить различия между
ними. Например, температура, измеренная в градусах Фаренгейта или

15
Цельсия, образует интервальную шкалу. Вы можете не только сказать, что
температура 40 градусов выше, чем температура 30 градусов, но и что
увеличение температуры с 20 до 40 градусов вдвое больше увеличения
температуры от 30 до 40 градусов.
Относительные переменные очень похожи на интервальные
переменные. В дополнение ко всем свойствам переменных, измеренных в
интервальной шкале, их характерной чертой является наличие определенной
точки абсолютного нуля, таким образом, для этих переменных являются
обоснованными предложения типа: x в два раза больше, чем y . Типичными
примерами шкал отношений являются измерения времени или пространства.
Например, температура по Кельвину образует шкалу отношения, и вы можете
не только утверждать, что температура 200 градусов выше, чем 100 градусов,
но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не
обладают данным свойством шкалы отношения. Заметим, что в большинстве
статистических процедур не делается различия между свойствами
интервальных шкал и шкал отношения.

2.3. Связи между переменными


Независимо от типа, две или более переменных связаны (зависимы)
между собой, если наблюдаемые значения этих переменных распределены
согласованным образом. Другими словами, мы говорим, что переменные
зависимы, если их значения систематическим образом согласованы друг с
другом в имеющихся у нас наблюдениях. Например, переменные Пол и WCC
(число лейкоцитов) могли бы рассматриваться как зависимые, если бы
большинство мужчин имело высокий уровень WCC, а большинство женщин –
низкий WCC, или наоборот. Рост связан с Весом, потому что обычно высокие
индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с
количеством ошибок в тесте, т.к. люди высоким значением IQ делают меньше
ошибок и т.д.
Почему зависимости между переменными являются важными? Вообще
говоря, конечная цель всякого исследования или научного анализа состоит в
нахождение связей (зависимостей) между переменными. Философия науки
учит, что не существует иного способа представления знания, кроме как в
терминах зависимостей между количествами или качествами, выраженными
какими-либо переменными. Таким образом, развитие науки всегда
заключается в нахождении новых связей между переменными. Исследование
корреляций по существу состоит в измерении таких зависимостей
непосредственным образом. Тем не менее, экспериментальное исследование
не является в этом смысле чем-то отличным. Например, отмеченное выше
экспериментальное сравнение WCC у мужчин и женщин может быть описано
как поиск связи между переменными: Пол и WCC. Назначение статистики
состоит в том, чтобы помочь объективно оценить зависимости между
переменными. Действительно, все сотни описанных в данном руководстве

16
процедур могут быть проинтерпретированы в терминах оценки различных
типов взаимосвязей между переменными.
Две основные черты всякой зависимости между переменными. Можно
отметить два самых простых свойства зависимости между переменными: (a)
величина зависимости и (b) надежность зависимости.
Величину зависимости легче понять и измерить, чем надежность.
Например, если любой мужчина в вашей выборке имел значение WCC выше
чем любая женщина, то вы можете сказать, что зависимость между двумя
переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы
предсказать значения одной переменной по значениям другой.
Надежность ("истинность") взаимозависимости – менее наглядное
понятие, чем величина зависимости, однако чрезвычайно важное. Надежность
зависимости непосредственно связана с репрезентативностью определенной
выборки, на основе которой строятся выводы. Другими словами, надежность
говорит нам о том, насколько вероятно, что зависимость, подобная найденной
вами, будет вновь обнаружена (иными словами, подтвердится) на данных
другой выборки, извлеченной из той же самой популяции. Следует помнить,
что конечной целью почти никогда не является изучение данной конкретной
выборки; выборка представляет интерес лишь постольку, поскольку она дает
информацию обо всей популяции. Если ваше исследование удовлетворяет
некоторым специальным критериям (об этом будет сказано позже), то
надежность найденных зависимостей между переменными вашей выборки
можно количественно оценить и представить с помощью стандартной
статистической меры (называемой p-уровень или статистический уровень
значимости).

2.4. Статистическая значимость


Что такое статистическая значимость (p-уровень)? Статистическая
значимость результата представляет собой оцененную меру уверенности в его
"истинности" (в смысле "репрезентативности выборки"). Выражаясь более
технически, p-уровень это показатель, находящийся в убывающей
зависимости от надежности результата. Более высокий p-уровень
соответствует более низкому уровню доверия к найденной в выборке
зависимости между переменными. Именно, p-уровень представляет собой
вероятность ошибки, связанной с распространением наблюдаемого
результата на всю популяцию. Например, p-уровень=0.05 (т.е. 1/20)
показывает, что имеется 5% вероятность, что найденная в выборке связь
между переменными является лишь случайной особенностью данной
выборки. Иными словами, если данная зависимость в популяции отсутствует,
а вы многократно проводили бы подобные эксперименты, то примерно в
одном из двадцати повторений эксперимента можно было бы ожидать такой
же или более сильной зависимости между переменными. (Отметим, что это
не то же самое, что утверждать о заведомом наличии зависимости между

17
переменными, которая в среднем может быть воспроизведена в 5% или 95%
случаев; когда между переменными популяции существует зависимость,
вероятность повторения результатов исследования, показывающих наличие
этой зависимости называется статистической мощностью плана). Во многих
исследованиях p-уровень 0.05 рассматривается как "приемлемая граница"
уровня ошибки.
Как определить, является ли результат действительно значимым. Не
существует никакого способа избежать произвола при принятии решения о
том, какой уровень значимости следует действительно считать "значимым".
Выбор определенного уровня значимости, выше которого результаты
отвергаются как ложные, является достаточно произвольным. На практике
окончательное решение обычно зависит от того, был ли результат предсказан
априори (т.е. до проведения опыта) или обнаружен апостериорно в результате
многих анализов и сравнений, выполненных с множеством данных, а также
на традиции, имеющейся в данной области исследований. Обычно во многих
областях 0.05 является приемлемой границей статистической значимости,
однако следует помнить, что этот уровень все еще включает довольно
большую вероятность ошибки (5%). Результаты, значимые на уровне 0.01
обычно рассматриваются как статистически значимые, а результаты с
уровнем 0.005 или 0.001 как высоко значимые. Однако следует понимать, что
данная классификация уровней значимости достаточно произвольна и
является всего лишь неформальным соглашением, принятым на основе
практического опыта в той или иной области исследования.
Статистическая значимость и количество выполненных анализов.
Понятно, что чем больше число анализов вы проведете с совокупностью
собранных данных, тем большее число значимых (на выбранном уровне)
результатов будет обнаружено чисто случайно. Например, если вы
вычисляете корреляции между 10 переменными (имеете 45 различных
коэффициентов корреляции), то можно ожидать, что примерно два
коэффициента корреляции (один на каждые 20) чисто случайно окажутся
значимыми на уровне 0.05, даже если переменные совершенно случайны и
некоррелированны в популяции. Некоторые статистические методы,
включающие много сравнений, и, таким образом, имеющие хороший шанс
повторить такого рода ошибки, производят специальную корректировку или
поправку на общее число сравнений. Тем не менее, многие статистические
методы (особенно простые методы разведочного анализа данных) не
предлагают какого-либо способа решения данной проблемы. Поэтому
исследователь должен с осторожностью оценивать надежность неожиданных
результатов.
Величина зависимости между переменными в сравнении с
надежностью зависимости. Величина зависимости и надежность
представляют две различные характеристики зависимостей между
переменными. Тем не менее, нельзя сказать, что они совершенно независимы.

18
Говоря общим языком, чем больше величина зависимости (связи) между
переменными в выборке обычного объема, тем более она надежна.
Почему более сильные зависимости между переменными являются
более значимыми? Если предполагать отсутствие зависимости между
соответствующими переменными в популяции, то наиболее вероятно
ожидать, что в исследуемой выборке связь между этими переменными также
будет отсутствовать. Таким образом, чем более сильная зависимость
обнаружена в выборке, тем менее вероятно, что этой зависимости нет в
популяции, из которой она извлечена. Как вы видите, величина зависимости и
значимость тесно связаны между собой, и можно было бы попытаться
вывести значимость из величины зависимости и наоборот. Однако указанная
связь между зависимостью и значимостью имеет место только при
фиксированном объеме выборки, поскольку при различных объемах выборки
одна и та же зависимость может оказаться как высоко значимой, так и
незначимой вовсе.
Почему объем выборки влияет на значимость зависимости? Если
наблюдений мало, то соответственно имеется мало возможных комбинаций
значений этих переменных и таким образом, вероятность случайного
обнаружения комбинации значений, показывающих сильную зависимость,
относительно велика. Рассмотрим следующий пример. Если вы исследуете
зависимость двух переменных (Пол: мужчина/женщина и WCC (количество
лейкоцитов в крови): высокий/низкий) и имеете только 4 субъекта в выборке
(2 мужчины и 2 женщины), то вероятность того, что чисто случайно вы
найдете 100% зависимость между двумя переменными равна 1/8. Более точно,
вероятность того, что оба мужчины имеют высокий WCC, а обе женщины –
низкий WCC, или наоборот, – равна 1/8. Теперь рассмотрим вероятность
подобного совпадения для 100 субъектов; легко видеть, что эта вероятность
равна практически нулю. Рассмотрим более общий пример. Представим
популяцию, в которой среднее значение WCC мужчин и женщин одно и тоже.
Если вы будете повторять эксперимент, состоящий в извлечении пары
случайных выборок (одна выборка – мужчины, другая выборка – женщины), а
затем вычислите разности выборочных средних WCC для каждой пары
выборок, то в большинстве экспериментов результат будет близок к 0.
Однако время от времени, будут встречаться пары выборок, в которых
различие между средним количеством лейкоцитов у мужчин и женщин будет
существенно отличаться от 0. Как часто это будет происходить? Очевидно,
чем меньше объем выборки в каждом эксперименте, тем более вероятно
появление таких ложных результатов, которые показывают существование
зависимости между полом и WCC в данных, полученных из популяции, где
такая зависимость на самом деле отсутствует.
Рассмотрим следующий пример: "отношение числа новорожденных
мальчиков к числу новорожденных девочек". Имеются 2 больницы.
Предположим, что в первой из них ежедневно рождается 120 детей, во второй

19
только 12. В среднем отношение числа мальчиков, рождающихся в каждой
больнице, к числу девочек 50/50. Однажды девочек родилось вдвое больше,
чем мальчиков. Спрашивается, для какой больницы данное событие более
вероятно? Ответ очевиден для статистика, однако, он не столь очевиден
неискушенному. Конечно, такое событие гораздо более вероятно для
маленькой больницы. Объяснение этого факта состоит в том, что вероятность
случайного отклонения (от среднего) возрастает с уменьшением объема
выборки.
Почему слабые связи могут быть значимо доказаны только на больших
выборках? Предыдущий пример показывает, что если связь между
переменными "объективно" слабая (т.е. свойства выборки близки к свойствам
популяции), то не существует иного способа проверить такую зависимость
кроме как исследовать выборку достаточно большого объема. Даже если
выборка, находящаяся в вашем распоряжении, совершенно репрезентативна,
эффект не будет статистически значимым, если выборка мала. Аналогично,
если зависимость "объективно" (в популяции) очень сильная, тогда она может
быть обнаружена с высокой степенью значимости даже на очень маленькой
выборке. Рассмотрим пример. Представьте, что вы бросаете монету. Если
монета слегка несимметрична, и при подбрасывании орел выпадает чаще
решки (например, в 60% подбрасываний выпадает орел, а в 40% решка), то 10
подбрасываний монеты было бы не достаточно, чтобы убедить кого бы то ни
было, что монета асимметрична, даже если был бы получен, казалось,
совершенно репрезентативный результат: 6 орлов и 4 решки. Не следует ли
отсюда, что 10 подбрасываний вообще не могут доказать что-либо? Нет, не
следует, потому что если эффект, в принципе, очень сильный, то 10
подбрасываний может оказаться вполне достаточно для его доказательства.
Представьте, что монета настолько несимметрична, что всякий раз, когда вы
ее бросаете, выпадает орел. Если вы бросаете такую монету 10 раз, и всякий
раз выпадает орел, большинство людей сочтут это убедительным
доказательством того, что с монетой что-то не то. Другими словами, это
послужило бы убедительным доказательством того, что в популяции,
состоящей из бесконечного числа подбрасываний этой монеты орел будет
встречаться чаще, чем решка. В итоге этих рассуждений мы приходим к
выводу: если зависимость сильная, она может быть обнаружена с высоким
уровнем значимости даже на малой выборке.
Можно ли отсутствие связей рассматривать как значимый результат?
Чем слабее зависимость между переменными, тем большего объема требуется
выборка, чтобы значимо ее обнаружить. Представьте, как много бросков
монеты необходимо сделать, чтобы доказать, что отклонение от равной
вероятности выпадения орла и решки составляет только .000001%!
Необходимый минимальный размер выборки возрастает, когда степень
эффекта, который нужно доказать, убывает. Когда эффект близок к 0,
необходимый объем выборки для его отчетливого доказательства

20
приближается к бесконечности. Другими словами, если зависимость между
переменными почти отсутствует, объем выборки, необходимый для
значимого обнаружения зависимости, почти равен объему всей популяции,
который предполагается бесконечным. Статистическая значимость
представляет вероятность того, что подобный результат был бы получен при
проверке всей популяции в целом. Таким образом, все, что получено после
тестирования всей популяции было бы, по определению, значимым на
наивысшем, возможном уровне и это относится ко всем результатам типа
"нет зависимости".
Как измерить величину зависимости между переменными. Разработано
много различных мер взаимосвязи между переменными. Выбор определенной
меры в конкретном исследовании зависит от числа переменных,
используемых шкал измерения, природы зависимостей и т.д. Большинство
этих мер, тем не менее, подчиняются общему принципу: они пытаются
оценить наблюдаемую зависимость, сравнивая ее с "максимальной мыслимой
зависимостью" между рассматриваемыми переменными. Говоря технически,
обычный способ выполнить такие оценки заключается в том, чтобы
посмотреть как варьируются значения переменных и затем подсчитать, какую
часть всей имеющейся вариации можно объяснить наличием "общей"
("совместной") вариации двух (или более) переменных. Говоря менее
техническим языком, вы сравниваете то "что есть общего в этих
переменных", с тем "что потенциально было бы у них общего, если бы
переменные были абсолютно зависимы". Рассмотрим простой пример. Пусть
в вашей выборке, средний показатель (число лейкоцитов) WCC равен 100 для
мужчин и 102 для женщин. Следовательно, вы могли бы сказать, что
отклонение каждого индивидуального значения от общего среднего (101)
содержит компоненту связанную с полом субъекта и средняя величина ее
равна 1. Это значение, таким образом, представляет некоторую меру связи
между переменными Пол и WCC. Конечно, это очень бедная мера
зависимости, так как она не дает никакой информации о том, насколько
велика эта связь, скажем относительно общего изменения значений WCC.
Рассмотрим крайние возможности:
Если все значения WCC у мужчин были бы точно равны 100, а у
женщин 102, то все отклонения значений от общего среднего в выборке
всецело объяснялись бы полом индивидуума. Поэтому вы могли бы сказать,
что пол абсолютно коррелирован (связан) с WCC, иными словами, 100%
наблюдаемых различий между субъектами в значениях WCC объясняются
полом субъектов.
Если же значения WCC лежат в пределах 0 – 1000, то та же разность (2)
между средними значениями WCC мужчин и женщин, обнаруженная в
эксперименте, составляла бы столь малую долю общей вариации, что
полученное различие (2) считалось бы пренебрежимо малым. Рассмотрение
еще одного субъекта могло бы изменить разность или даже изменить ее знак.

21
Поэтому всякая хорошая мера зависимости должна принимать во внимание
полную изменчивость индивидуальных значений в выборке и оценивать
зависимость по тому, насколько эта изменчивость объясняется изучаемой
зависимостью.

2.5. Общая конструкция большинства статистических критериев


Цель большинства статистических критериев (тестов) состоит в
оценивании зависимости между переменными. Говоря техническим языком,
эти тесты представляют собой отношение изменчивости, общей для
рассматриваемых переменных, к полной изменчивости. Например, такой тест
может представлять собой отношение той части изменчивости WCC, которая
определяется полом, к полной изменчивости WCC (вычисленной для
объединенной выборки мужчин и женщин). Это отношение обычно
называется отношением объясненной вариации к полной вариации. В
статистике термин объясненная вариация не обязательно означает, что вы
даете ей "теоретическое объяснение". Он используется только для
обозначения общей вариации рассматриваемых переменных, иными словами,
для указания на то, что часть вариации одной переменной "объясняется"
определенными значениями другой переменной и наоборот.
Как вычисляется уровень статистической значимости? Предположим,
вы уже вычислили меру зависимости между двумя переменными (как
объяснялось выше). Следующий вопрос, стоящий перед вами: "насколько
значима эта зависимость?" Например, является ли 40% объясненной
дисперсии между двумя переменными достаточным, чтобы считать
зависимость значимой? Ответ: "в зависимости от обстоятельств". Именно,
значимость зависит в основном от объема выборки. Как уже объяснялось, в
очень больших выборках даже очень слабые зависимости между
переменными будут значимыми, в то время как в малых выборках даже очень
сильные зависимости не являются надежными. Таким образом, для того
чтобы определить уровень статистической значимости, вам нужна функция,
которая представляла бы зависимость между "величиной" и "значимостью"
зависимости между переменными для каждого объема выборки. Данная
функция указала бы вам точно "насколько вероятно получить зависимость
данной величины (или больше) в выборке данного объема, в предположении,
что в популяции такой зависимости нет". Другими словами, эта функция
давала бы уровень значимости (p-уровень), и, следовательно, вероятность
ошибочно отклонить предположение об отсутствии данной зависимости в
популяции. Эта "альтернативная" гипотеза (состоящая в том, что нет
зависимости в популяции) обычно называется нулевой гипотезой. Было бы
идеально, если бы функция, вычисляющая вероятность ошибки, была
линейной и имела только различные наклоны для разных объемов выборки. К
сожалению, эта функция существенно более сложная и не всегда точно одна и
та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно

22
использовать для определения уровней значимости при исследовании
выборок заданного размера. Большинство этих функций связано с очень
важным классом распределений, называемым нормальным.

2.6. Почему важно нормальное распределение


Нормальное распределение важно по многим причинам. В большинстве
случаев оно является хорошим приближением функций статистических
критериев. Распределение многих статистик является нормальным или может
быть получено из нормальных с помощью некоторых преобразований.
Рассуждая философски, можно сказать, что нормальное распределение
представляет собой одну из эмпирически проверенных истин относительно
общей природы действительности и его положение может рассматриваться
как один из фундаментальных законов природы. Точная форма нормального
распределения (характерная "колоколообразная кривая") определяется только
двумя параметрами: средним и стандартным отклонением.
Характерное свойство нормального распределения состоит в том, что
68% всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от
среднего, а диапазон ±2 стандартных отклонения содержит 95% значений.
Другими словами, при нормальном распределении, стандартизованные
наблюдения, меньшие -2 или большие +2, имеют относительную частоту
менее 5% (Стандартизованное наблюдение означает, что из исходного
значения вычтено среднее и результат поделен на стандартное отклонение
(корень из дисперсии)). Если у вас имеется доступ к пакету STATISTICA, Вы
можете вычислить точные значения вероятностей, связанных с различными
значениями нормального распределения, используя Вероятностный
калькулятор; например, если задать z-значение (т.е. значение случайной
величины, имеющей стандартное нормальное распределение) равным 4,
соответствующий вероятностный уровень, вычисленный STATISTICA будет
меньше 0.0001, поскольку при нормальном распределении практически все
наблюдения (т.е. более 99.99%) попадут в диапазон ±4 стандартных
отклонения.
Проиллюстрируем, как нормальное распределение используется в
статистических рассуждениях (индукция). Напомним пример,
обсуждавшийся выше, когда пары выборок мужчин и женщин выбирались из
совокупности, в которой среднее значение WCC для мужчин и женщин было
в точности одно и то же. Хотя наиболее вероятный результат таких
экспериментов (одна пара выборок на эксперимент) состоит в том, что
разность между средними WCC для мужчин и женщин для каждой пары
близка к 0, время от время появляются пары выборок, в которых эта разность
существенно отличается от 0. Как часто это происходит? Если объем выборок
достаточно большой, то разности "нормально распределены" и зная форму
нормальной кривой, вы можете точно рассчитать вероятность случайного
получения результатов, представляющих различные уровни отклонения

23
среднего от 0 – значения гипотетического для всей популяции. Если
вычисленная вероятность настолько мала, что удовлетворяет принятому
заранее уровню значимости, то можно сделать лишь один вывод: ваш
результат лучше описывает свойства популяции, чем "нулевая гипотеза".
Следует помнить, что нулевая гипотеза рассматривается только по
техническим соображениям как начальная точка, с которой сопоставляются
эмпирические результаты. Отметим, что все это рассуждение основано на
предположении о нормальности распределения этих повторных выборок (т.е.
нормальности выборочного распределения).
Как узнать последствия нарушений предположений нормальности?
Хотя многие приведенные выше утверждения можно доказать
математически, некоторые из них не имеют теоретического обоснования и
могут быть продемонстрированы только эмпирически, с помощью так
называемых экспериментов Moнте-Кaрло. В этих экспериментах большое
число выборок генерируется на компьютере, а результаты полученные из
этих выборок, анализируются с помощью различных тестов. Этим способом
можно эмпирически оценить тип и величину ошибок или смещений, которые
вы получаете, когда нарушаются определенные теоретические
предположения тестов, используемых вами. Исследования с помощью
методов Монте- Карло интенсивно использовались для того, чтобы оценить,
насколько тесты, основанные на предположении нормальности,
чувствительны к различным нарушениям предположений нормальности.
Общий вывод этих исследований состоит в том, что последствия нарушения
предположения нормальности менее фатальны, чем первоначально
предполагалось. Хотя эти выводы не означают, что предположения
нормальности можно игнорировать, они увеличили общую популярность
тестов, основанных на нормальном распределении.

24
3. Визуальный анализ данных
Визуальный анализ данных это наиболее быстрый способ получить
представление о характере данных. Современные программные
математические пакеты предлагают огромнейшую палитру всевозможных
графиков и их комбинаций. Всего в несколько «щелчков мышкой» можно
получить практически любой необходимый график.
Визуальный анализ данных позволяет получить картину «в целом» и
иногда увидеть наличие разнообразных зависимостей и аномалий, которые
достаточно тяжело выявить другим способом. Визуальный анализ очень
эффективно позволяет обнаруживать группировки данных, выбросы и прочие
проблемы в данных.
Самое главное преимущество визуального анализа данных – графики
наиболее универсальный способ отображения информации, понятный даже
самому неподготовленному в анализе данных человеку.

3.1. Категоризованные графики


Одним из наиболее мощных аналитических методов исследования
является разделение ("разбиение") данных на группы для сравнения
структуры получившихся подмножеств. Эти методы широко применяются
как в разведочном анализе данных, так и при проверке гипотез и известны
под разными названиями (классификация, группировка, категоризация,
разбиение, расслоение и пр.). Например, взаимосвязь между возрастом и
риском инфаркта может отличаться для мужчин и женщин (для мужчин эта
зависимость сильнее). Или например, зависимость между приемом лекарств и
снижением уровня холестерина может наблюдаться только для женщин с
пониженным давлением и в возрасте 30 – 40 лет. Производительность или
гистограммы мощности могут различаться для временных промежутков,
когда управление осуществляется разными операторами. Разным
экспериментальным группам также могут соответствовать разные наклоны
линий регрессии.
Для количественного описания различий между группами наблюдений
разработаны многочисленные вычислительные методы, основанные на
группировке данных (например, дисперсионный анализ). Однако графические
средства (такие как рассматриваемые в этом разделе категорированные
графики) дают особые преимущества и позволяют выявить закономерности,
которые трудно поддаются количественному описанию и которые весьма
сложно обнаружить с помощью вычислительных процедур (например,
сложные взаимосвязи, исключения или аномалии). В этих случаях
графические методы предоставляют уникальные возможности многомерного
аналитического исследования или "добычи" данных.
Термин "категоризованные графики" впервые был использован в
программе STATISTICA компании StatSoft в 1990 году. Эти графики

25
представляют собой наборы двумерных, трехмерных, тернарных или n-
мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные
графики, поверхности, тернарные диаграммы рассеяния и пр.), по одному
графику для каждой выбранной категории (подмножества) наблюдений,
например, опрашиваемых из Нью-Йорка, Чикаго или Далласа. Эти
"входящие" графики располагаются последовательно в одном графическом
окне, позволяя сравнивать структуру данных для каждой из указанных
подгрупп (например, городов).
Для выбора подгрупп можно использовать множество методов, самый
простой из них – это введение категориальной переменной (например,
переменной City с значениями New York, Chicago и Dallas). На рисунке 4.1
показаны гистограммы переменной, представляющей данные о самооценке
стресса жителями каждого из трех городов.
Кат егоризованная гист ограмма

Рисунок 3.1. Гистограммы.


На основе этих данных можно сделать вывод о том, что жители Далласа
не очень подвержены стрессам, в то время как распределения уровня стресса
в Нью-Йорке и Чикаго довольно похожи.
Некоторые программы (например, система STATISTICA)
поддерживают двухвходовую или многомерную категоризацию, где для
задания подгрупп используется не один (например, City), а два или более
критериев (например, City и Time ). Двухвходовые категоризованные графики
можно рассматривать как "таблицы графиков", где каждый входящий график
находится на "пересечении" определенных значений первой (например, City)
и второй (например, Time) группирующих переменных.

26
Кат егоризация гист ограмм по дву м переменным

Рисунок 3.2. Двухуровневые гистограммы.


Добавление второго фактора показывает, что картины стрессовых
нагрузок в Нью-Йорке и Чикаго в действительности сильно различаются,
если учитывается время опроса, в то время как фактор времени практически
ничего не меняет в Далласе.
Категоризованные и матричные графики. Матричные графики также
состоят из нескольких графиков; однако здесь каждый из них основывается
(или может основываться) на одном и том же множестве наблюдений, и
графики строятся для всех комбинаций переменных из одного или двух
списков. Для категоризованных графиков требуется такой же выбор
переменных, как и для некатегоризованных графиков соответствующего типа
(например, две переменных для диаграммы рассеяния). В то же время для
категоризованных графиков необходимо указать по крайней мере одну
группирующую переменную (или способ разбиения наблюдений на
категории), где содержалась бы информация о принадлежности каждого
наблюдения к определенной подгруппе (например, Chicago, Dallas).
Группирующая переменная не будет непосредственно изображена на графике
(т.е. не будет построена), однако она будет служить критерием для
разделения всех анализируемых наблюдений на отдельные подгруппы. Как
показано выше, для каждой группы (категории), определяемой
группирующей переменной, будет построен один график.
Общие и независимые шкалы. Каждый элементарный график,
входящий в состав категоризованного графика, может быть масштабирован в
соответствии со своим собственным диапазоном значений (независимые
шкалы).

27
Независимый масшт аб к ат егоризованных график ов

Рисунок 3.3. Независимые шкалы для каждого графика.


Или все графики могут иметь общую шкалу, достаточно широкую,
чтобы охватить весь диапазон значений.
Общ ий масшт аб к ат егоризованных график ов

Рисунок 3.4. Общая шкала для всех графиков.


Общий масштаб позволяет сравнивать диапазоны и распределения
значений разных категорий. Однако, если эти диапазоны сильно различаются
(что приводит к очень большой общей шкале), то исследование некоторых
графиков может быть затруднено. Использование независимого масштаба
может упростить выявление трендов и определенных закономерностей
внутри категорий, но в то же время затруднить сравнение диапазонов
значений разных подгрупп.

3.2. Методы категоризации


Существует пять основных методов категоризации значений, которые
будут кратко описаны в этом разделе: целые числа, категории, границы, коды
и сложные подгруппы. Обратите внимание, что одни и те же методы
категоризации можно использовать как для разбиения наблюдений по
входящим графикам, так и для категоризации наблюдений внутри входящих
графиков (например, на гистограммах или диаграммах размаха).
Целые числа. При использовании этого режима для определения
категорий будут использованы целые значения выбранной группирующей
переменной, и для всех наблюдений, принадлежащих каждой категории
(заданной этими целыми числами), будет построено по одному графику. Если

28
выбранная группирующая переменная содержит не целочисленные значения,
то программа автоматически округлит каждое значение выделенной
переменной до целого числа.
Кат егоризация по целым числам

Рисунок 3.5. Группировка по целым числам.


Категории. В этом режиме категоризации нужно указать желаемое
число категорий. Программа разделит весь диапазон значений выбранной
группирующей переменной (от минимального до максимального) на
указанное число интервалов равной длины.
Кат егории гру ппиру ющ ей переменной

Рисунок 3.6. Группировка по категориям


Границы. Метод границ также представляет собой интервальную
категоризацию, однако в этом случае интервалы могут иметь произвольную
(например, различную) длину, определяемую пользователем.
Кат егоризация по границам

Рисунок 3.7. Группировка по границам.

29
Например, "меньше -10", "больше или равно -10, но меньше 0", "больше
или равно 0, но меньше 10" и "больше или равно 10").
Коды. Этот метод следует использовать в том случае, если выбранная
группирующая переменная содержит "коды " (т.е. особые смысловые
значения, такие как Male, Female), по которым можно разбить данные на
категории.
Кат егоризация по к одам

Рисунок 3.8. Группировка по кодам.


Сложные подгруппы. Этот метод дает возможность пользователю
использовать для выделения подгрупп более одной переменной.
Кат егоризация мет одом сложных подгру пп

Рисунок 3.9. Сложные подгруппы.


Другими словами, категоризация, основанная на выделении сложных
подгрупп, может представлять не распределения конкретных переменных, а
распределения частот определенных "событий" при заданной комбинации
значений любого числа переменных текущего набора данных. Например,
можно указать шесть категорий, задаваемых комбинациями значений трех
переменных Gender, Age и Employment.

3.3. Гистограммы
Гистограммы используются для изучения распределений частот
значений переменных. Такое частотное распределение показывает, какие
именно конкретные значения или диапазоны значений исследуемой
переменной встречаются наиболее часто, насколько различаются эти
значения, расположено ли большинство наблюдений около среднего
значения, является распределение симметричным или асимметричным,

30
многомодальным (т.е. имеет две или более вершины) или одномодальным и
т.д. Гистограммы также используются для сравнения наблюдаемых и
теоретических или ожидаемых распределений.
Категоризованные гистограммы представляют собой наборы
гистограмм, соответствующих различным значениям одной или нескольких
категоризующих переменных или наборам логических условий
категоризации (см. Методы категоризации).
Частотные распределения могут представлять интерес по двум
основным причинам:
· По форме распределения можно судить о природе исследуемой
переменной (например, бимодальное распределение позволяет
предположить, что выборка не является однородной и содержит
наблюдения, принадлежащие двум различным множествам,
которые в свою очередь нормально распределены).
· Многие статистики основываются на определенных
предположениях о распределениях анализируемых переменных;
гистограммы позволяют проверить, выполняются ли эти
предположения.
Как правило, работа с новым набором данных начинается с построения
гистограмм всех переменных.
Категоризованные гистограммы предоставляют такую же информацию
о данных, как и группировка (например, среднее, медиану, минимум,
максимум, разброс и т.п.). Хотя конкретные (числовые) значения
описательных статистик легко увидеть в таблице, в то же время общую
структуру и глобальные характеристики распределения проще изучать на
графике. Более того, график дает качественную информацию о
распределении, которую невозможно отразить с помощью какого-либо
одного параметра. Например, по асимметрии распределения значений дохода
можно сделать вывод о том, что большинство населения имеет низкий, а не
высокий уровень доходов. Если помимо этого провести группировку данных
по этническому и половому признакам, то можно обнаружить, что в
некоторых подгруппах эта структура распределения станет еще более ярко
выраженной. Хотя эта информация содержится в значении коэффициента
асимметрии (для каждой подгруппы), но она легче воспринимается и
запоминается, будучи графически представленной на гистограмме. Кроме
того, на гистограмме можно наблюдать некоторые "впадины и выпуклости",
которые могут свидетельствовать о социальном расслоении в исследуемой
группе населения или об аномалиях в распределении дохода отдельных
подгрупп, связанных с недавней налоговой реформой.
Категоризованные гистограммы и диаграммы рассеяния. Полезное
применение категоризации для непрерывных переменных – это

31
представление взаимосвязи трех переменных одновременно. Ниже показана
диаграмма рассеяния для двух переменных Load 1 и Load 2.
Диаграмма рассеяния

Рисунок 3.10. Диаграмма рассеяния для переменных Load 1 и Load 2.


Предположим, к ним нужно добавить третью переменную (Output) и
исследовать ее распределение при различных значения совместного
распределения переменных Load 1 и Load 2. Для этого можно построить
следующий график:
Кат егоризованные гист ограммы

Рисунок 3.11. Категоризованные гистограммы.


На этом графике (рисунок 3.11) обе переменные Load 1 и Load 2
сгруппированы в 5 интервалов, и для каждой комбинации этих интервалов
вычислено распределение переменной Output. Обратите внимание, что внутри
"прямоугольника" (параллелограмма) находятся наблюдения, одинаковые для
обоих показанных выше графиков.

3.4. Диаграммы рассеяния


Двумерные диаграммы рассеяния используются для визуализации
взаимосвязей между двумя переменными X и Y (например, весом и ростом).
На этих диаграммах отдельные точки данных представлены маркерами на

32
плоскости, где оси соответствуют переменным. Две координаты (X и Y),
определяющие положение точки, соответствуют значениям переменных.
Если между переменными существует сильная взаимосвязь, то точки на
графике образуют упорядоченную структуру (например, прямую линию или
характерную кривую). Если переменные не взаимосвязаны, то точки
образуют "облако".
Можно построить также категоризованные диаграммы рассеяния,
сгруппированные по значениям одной или нескольких переменных, а с
помощью метода сложных подгрупп (см. Методы категоризации) –
диаграммы рассеяния, категоризованные по заданным логическим условиям
выбора подгрупп наблюдений.
Категоризованные диаграммы рассеяния представляют собой мощный
исследовательский и аналитический метод для изучения взаимосвязей между
двумя и более переменными среди различных подгрупп.
Однородность двумерных распределений (форма взаимосвязей).
Диаграммы рассеяния обычно используются для выявления природы
взаимосвязи двух переменных (например, кровяного давления и уровня
холестерина), поскольку они предоставляют гораздо больше информации,
чем коэффициент корреляции. Например, неоднородность выборки, по
которой рассчитываются корреляции, может привести к искажению значений
коэффициента корреляции. Предположим, коэффициент корреляции
рассчитывается по данным, полученным в двух экспериментальных группах,
но этот факт при вычислениях игнорируется. Пусть эксперимент в одной из
подгрупп привел к увеличению значений обеих переменных, и на диаграмме
рассеяния данные из каждой группы образуют отдельные "облака" (как
показано на картинке).
Диаграмма рассеяния

Рисунок 3.12. Диаграмма рассеяния.


В этом примере большое значение коэффициента корреляции целиком
обусловлено распределением по группам и не отражает "истинную"
взаимосвязь между двумя переменными, которая практически близка к 0 (это
хорошо видно, если рассматривать каждую группу отдельно).
Если вы предполагаете, что подобная структура присутствует и в ваших
данных, и знаете, каким образом выделить "подгруппы" наблюдений, то
имеет смысл построить категоризованную диаграмму рассеяния.

33
Кат егоризованная диаграмма рассеяния

Рисунок 3.13. Категоризованная диаграмму рассеяния.


Такой график поможет вам прояснить структуру взаимосвязей между
переменными X и Y внутри каждой подгруппы (после соответствующего
разбиения наблюдений).
Нелинейные зависимости. С помощью диаграмм рассеяния можно
исследовать и нелинейные взаимосвязи между переменными. При этом не
существует каких-либо "автоматических" или простых способов оценки
нелинейности. Стандартный коэффициент корреляции Пирсона r позволяет
оценить только линейность связи, а некоторые непараметрические
корреляции, например, Спирмена R, дают возможность оценить
нелинейность, но только для монотонных зависимостей. На диаграммах
рассеяния можно изучить структуру взаимосвязей, чтобы затем с помощью
преобразования привести данные к линейному виду или выбрать
подходящую нелинейную подгонку.

3.5. Вероятностные графики


Существует три типа категоризованных вероятностных графиков:
нормальные, полунормальные и с исключенным трендом. Нормальные
вероятностные графики – это быстрый способ визуальной проверки степени
соответствия данных нормальному распределению.
В свою очередь категоризованные вероятностные графики дают
возможность исследовать близость к нормальному распределению различных
подгрупп данных.
Нормальный вероят ност ный график

Рисунок 3.14. Категоризованный вероятностный график.

34
Категоризованные нормальные вероятностные графики представляют
собой эффективный инструмент для исследования однородности группы
наблюдений с точки зрения соответствия нормальному распределению.
Кат егоризованный вероят ност ный график

Рисунок 3.15. Категоризованный нормальный вероятностный график.

3.6. Графики квантиль-квантиль


Категоризованные графики квантиль-квантиль (или К-К) используются
для поиска в определенном семействе распределений того распределения,
которое наилучшим образом описывает имеющиеся данные.
График и к вант иль-к вант иль

Рисунок 3.16. Категоризованный график квантиль-квантиль.


В случае категоризованных графиков К-К строится набор графиков
квантиль-квантиль, по одному для каждого значения категориальных
переменных (X или X и Y) или для заданных условий выбора сложных
подгрупп (см. Методы категоризации). Для графиков К-К используются
следующие семейства распределений: экспоненциальное, экстремальное,
нормальное, Релея, бета-, гамма-, логнормальное и Вейбулла.

3.7. Графики вероятность-вероятность


Категоризованные графики вероятность-вероятность (или В-В)
используются для проверки соответствия конкретного теоретического
распределения имеющимся исходным данным. На этих графиках для каждого
значения категориальных переменных (X или X и Y) или для заданных
условий выбора сложных подгрупп (см. Методы категоризации) создается по
одному графику вероятность-вероятность.

35
График и вероят ност ь-вероят ность

Рисунок 3.17. Категоризованный график вероятность-вероятность.


На графиках В-В строится наблюдаемая функция в зависимости от
теоретической функции распределения, чтобы оценить соответствие этой
теоретической функции наблюдаемым данным. Если все точки этого графика
располагаются на диагонали (содержащей точку 0 и имеющей наклон 1), то
можно заключить, что наблюдаемое распределение хорошо
аппроксимируется данной теоретической функцией.
Если не все точки данных располагаются на диагональной линии, то на
таком графике можно визуально выделить группы наблюдений,
соответствующие и не соответствующие искомому распределению (если, к
примеру, точки образуют кривую S-образной формы вокруг диагональной
линии, то к ним можно применить определенное преобразование для
приведения к нужной форме распределения).

3.8. Линейные графики


На линейных графиках отдельные точки данных соединяются линиями.
Это простой способ визуального представления последовательности значений
(например, цены на фондовом рынке за несколько дней торгов).
Категоризованные линейные графики строятся в том случае, если необходимо
разбить данные на несколько групп (категоризовать) с помощью
группирующей переменной (например, цены при закрытии рынка по
понедельникам, вторникам и т.д.) или с помощью логических условий,
составленных по нескольким переменным (например, цены при закрытии
рынка в те дни, когда две другие акции и индекс Доу Джонса выросли по
сравнению с другими ценами закрытия; см. Методы категоризации).

36
Линейный график

Рисунок 3.18. Категоризованный линейный график.

3.9. Диаграммы размаха


На диаграммах размаха (этот термин был впервые использован Тьюки в
1970 году) представлены диапазоны значений выбранной переменной (или
переменных) для отдельных групп наблюдений. Для выделения этих групп
используются от одной до трех категориальных (группирующих) переменных
или набор логических условий выбора подгрупп.
Для каждой группы наблюдений вычисляется центральная тенденция
(медиана или среднее), а также размах или изменчивость (квартили,
стандартные ошибки или стандартные отклонения). Выбранные параметры
отображаются на графике одним из пяти способов (Прямоугольники-Отрезки,
Отрезки, Прямоугольники, Столбцы или Верхние-нижние засечки). На этом
графике можно показать и выбросы.
На следующем графике, например, выбор факторов можно было бы
считать вполне удачным, если бы не "досадное" несоответствие, на которое
указывают выделенные на рисунке выбросы (в данном случае это значения,
попадающие за пределы 1,5 квартильных размахов):
Кат егоризованная диаграмма размаха

Рисунок 3.19. Диаграмма размаха.


А на следующем рисунке не показаны ни выбросы, ни крайние точки.

37
Диаграмма размаха без выбросов

Рисунок 3.20. Диаграмма размаха без выбросов.


Можно выделить два основных направления использования диаграмм
размаха: (a) отображение диапазонов значений отдельных элементов,
наблюдений или выборок (например, типичные минимаксные графики цен на
акции или товары или графики агрегированных данных с диапазонами), (б)
отображение изменения значений в отдельных группах или выборках
(например, когда точкой внутри прямоугольника представлено среднее
значение для каждой выборки, сам прямоугольник соответствует значениям
стандартной ошибки, а меньший прямоугольник или пара "отрезков"
обозначает стандартное отклонение от среднего).
С помощью диаграмм размаха, на которых представлены
характеристики изменчивости, можно быстро оценить и "интуитивно
представить" силу связи между группирующей и зависимой переменной.
Предположив, что зависимая переменная нормально распределена, и зная
долю наблюдений, попадающих, к примеру, в интервал ±1 или ±2
стандартных отклонения от среднего, можно сделать, например, вывод о том,
что 95% наблюдений из экспериментальной группы 1 попадают в другой
диапазон значений, нежели 95% наблюдений из группы 2.
На этих графиках можно изобразить и так называемые усеченные
средние (этот термин был впервые использован Тьюки в 1962 году), которые
вычисляются после исключения заданного пользователем процента
наблюдений с концов (хвостов) распределения.

3.10. Круговые диаграммы


Одним из наиболее широко используемых типов графического
представления данных являются круговые диаграммы, на которых показаны
пропорции или сами значения переменных. Категоризованные графики этого
типа состоят из нескольких круговых диаграмм, где данные разделены по
группам с помощью одной или нескольких группирующих переменных
(например, gender) или категоризованы согласно логическим условиям
выбора подгрупп (см. Методы категоризации).
В дальнейшем, говоря о категоризации этих графиков, мы будем иметь
ввиду круговые диаграммы частот (в противоположность круговым

38
диаграммам значений). Эти типы графиков, называемые также частотными
круговыми диаграммами, представляют данные аналогично гистограммам.
Все значения выбранной переменной категоризуются с помощью заданного
метода категоризации, а затем относительные значения частот отображаются
в виде сегментов круговой диаграммы пропорционального размера. Таким
образом, эти графики являются альтернативным представлением
гистограммы частот (см. раздел о категоризованных гистограммах).
Кру говые диаграммы

Рисунок 3.21. Круговые диаграммы.


Диаграммы рассеяния круговых диаграмм. Еще одно очень полезное
применение категоризованных круговых диаграмм – это представление
относительных частот значений какой-либо переменной в различных
"местах" совместного распределения двух других переменных. Например:
Диаграммы рассеяния к ру говых диаграмм

Рисунок 3.22. Диаграмма рассеяния круговых диаграмм.


Обратите внимание, что круговые диаграммы изображены только в тех
"местах", где имеются данные. Показанный выше график напоминает
диаграмму рассеяния (переменных L1 и L2), где маркерами точек являются
круговые диаграммы. Однако помимо обычной информации, содержащейся в
диаграмме рассеяния, здесь в каждой точке дополнительно показано
относительное распределение третьей переменной (а именно, доля значений
Low, Medium и High Quality).

39
3.11. Графики пропущенных значений и данных вне диапазона
На этих графиках можно наглядно представить структуру
распределения точек данных, содержащих пропущенные значения или
находящихся "вне диапазонов", заданных пользователем. При этом строится
по одной двумерной диаграмме для каждой группы наблюдений, выделенной
с помощью группирующих переменных или с помощью условий выбора
сложных подгрупп (см. Методы категоризации).
График и пропу щ енных значений

Рисунок 3.23. График пропущенных значений.


Эти типы графиков используются в разведочном анализе данных, чтобы
определить, является ли случайным распределение точек с пропущенными
значениями, а также для оценки их диапазона.

3.12. Трехмерные (3М) графики


Трехмерные диаграммы рассеяния (пространственные, спектральные,
трассировочные и диаграммы отклонений), карты линий уровня и
поверхности также можно построить для подгрупп наблюдений, заданных с
помощью выбранной категориальной переменной или логических условий
выбора (см. Методы категоризации). Основная задача этих графиков -
упростить сравнение взаимосвязей между тремя и более переменными для
различных групп или категорий наблюдений.
Трехмерный график

Рисунок 3.24. Трехмерная диаграмма рассеяния.

40
Применения. Трехмерные графики в координатах XYZ отображают
взаимосвязи между тремя переменными. С помощью различных способов
категоризации можно исследовать эти зависимости при различных условиях
(т.е. в разных группах).
Кат егоризованный график поверхност и

Рисунок 3.25. Категоризованный график поверхности.


Изучая, например, рисунок 3.25 – категоризованный график
поверхности, можно сделать вывод о том, что величина допуска прибора не
влияет на измерения (переменные Depend1, Depend2 и Height), кроме случая,
когда она ≤ 3.
Этот вывод становится еще более очевидным, если использовать вместо
поверхности карту линий уровня.
Кат егоризованная к арт а линий у ровня

Рисунок 3.26. Линии равных уровней.

3.13. Тернарные графики


Категоризованные тернарные графики используются для исследования
взаимосвязей между тремя и более переменными, три из которых
представляют собой компоненты смеси (т.е. для каждого наблюдения
значения их суммы являются постоянной величиной), при этом отдельный
график строится для каждого уровня группирующей переменной.

41
Тернарный график

Рисунок 3.27. Тернарный график.


Для построения тернарных графиков используется треугольная система
координат на плоскости или в пространстве и строится зависимость между
четырьмя (или более) переменными (компонентами X, Y и Z и откликами V1,
V2 и т.д.). При этом накладываются ограничения на относительные значения
каждой из компонент, чтобы они в сумме давали одинаковую величину для
каждого наблюдения (например, 1).
На категоризованных тернарных графиках строится по одному графику
для каждого значения группирующей переменной (или заданного
пользователем подмножества данных), и все они отображаются в одном
графическом окне, чтобы можно было сравнивать различные подгруппы
наблюдений.
Применения. Эти графики применяются для анализа результатов
эксперимента, в котором измеряемый отклик зависит от относительного
соотношения трех компонент (например, трех химических веществ при
составлении смесей), которое варьируется с целью определения его
оптимального значения. Эти типы графического представления можно
использовать и в других случаях, когда взаимосвязь между переменными, на
которые наложены определенные ограничения, необходимо исследовать для
различных групп или категорий наблюдений.

42
Кат егоризованный т ернарный график

Рисунок 3.28. Категоризованный тернарный график.

3.14. Проекции трехмерных наборов данных


Полезным методом изучения и аналитического исследования структуры
поверхности (созданной, как правило, по трехмерным наборам данных)
является построение ее проекции на плоскость в виде карты линий уровня.
Поверхност ь и к арт а линий у ровня

Рисунок 3.29. Поверхность и ее проекция на линии равных уровней.


Эти графики менее эффективны для быстрого визуального анализа
формы трехмерных структур по сравнению с графиками поверхности, однако
их преимущество заключается в возможности точного исследования формы
поверхности - на картах линий уровня отображается ряд не искаженных
горизонтальных "сечений".

43
Пост роение к арт ы линий у ровня Пост роение к арт ы линий у ровня

Рисунок 3.30. Поверхности и их проекции на линии равных уровней.

3.15. Пиктографики
На пиктографиках каждое наблюдение представлено в виде
многомерного символа, что позволяет использовать эти типы графического
представления данных в качестве не очень простого, но мощного
исследовательского инструмента. Главная идея такого метода анализа
основана на человеческой способности "автоматически" фиксировать
сложные связи между многими переменными, если они проявляются в
последовательности элементов (в данном случае "пиктограмм"). Иногда
понимание (или "чувство") того, что некоторые элементы "чем-то похожи"
друг на друга, приходит раньше, чем наблюдатель (аналитик) может
объяснить, какие именно переменные обусловливают это сходство (Lewicki,
Hill, & Czyzewska, 1992). Конкретную природу проявившихся взаимосвязей
между переменными позволяет выявить уже последующий анализ данных,
основанный на изучении этого интуитивно обнаруженного сходства.
Пик т ографик лу чей

Рисунок 3.31. Пиктографики.


Основная идея пиктографиков заключается в представлении
элементарных наблюдений как отдельных графических объектов, где
значения переменных соответствуют определенным чертам или размерам
объекта (обычно одно наблюдение = одному объекту). Это соответствие
устанавливается таким образом, чтобы общий вид объекта менялся в
зависимости от конфигурации значений.

44
Пик т ограмма
Таким образом, объекты имеют
определенный "внешний вид" (рис. 3.32),
который уникален для каждой конфигурации
значений и может быть идентифицирован
наблюдателем. Изучение таких пиктограмм
помогает выявить как простые связи, так и
Рисунок 3.32. сложные взаимодействия между переменными.

Анализ пиктографиков. Целесообразно проводить анализ


пиктографиков в пять этапов:
1. Сначала выберите порядок анализируемых переменных. В
большинстве случаев наилучшим вариантом оказывается случайная
последовательность. Кроме того, можно попробовать расположить их в
порядке, соответствующем полученному уравнению множественной
регрессии, факторным нагрузкам или объясняемым факторам. Таким образом,
можно упростить и сделать более "однородным" общий вид пиктограмм,
чтобы легче идентифицировать слабо выраженные различия. В то же время
такой подход может затруднить идентификацию некоторых структур. На
этом этапе можно дать только один универсальный совет: прежде чем
использовать какие-либо сложные методы, попробуйте наиболее простой и
быстрый вариант, а именно, случайную последовательность переменных.
2. Попробуйте обнаружить какие-либо закономерности, например,
сходства между группами пиктограмм, выбросы или определенные связи
между элементами (например, " если первые два луча звезды длинные, то как
правило, с другой стороны есть один или два коротких луча"). На этом этапе
лучше использовать пиктографики кругового типа.
3. При обнаружении закономерностей постарайтесь сформулировать их
в терминах конкретных переменных.
4. Измените соответствие переменных и элементов пиктограмм (или
переключитесь на один из последовательных пиктографиков), чтобы
проверить обнаруженную структуру взаимосвязей (например, попробуйте
переместить ближе друг к другу элементы, между которыми обнаружена
связь). В некоторых случаях в конце этого этапа целесообразно исключить из
рассмотрения те переменные, которые не вносят явного вклада в
обнаруженную структуру.
5. И наконец, используйте один из численных методов (таких как
регрессионный анализ, нелинейное оценивание, дискриминантный или
кластерный анализ), чтобы проверить и попытаться количественно оценить
обнаруженные закономерности или хотя бы их часть.
Систематизация пиктографиков
Большинство пиктографиков можно отнести к одной из двух групп:
круговые и последовательные.

45
Круговые пиктографики. Круговые пиктографики (звезды, лучи,
многоугольники) имеют вид "велосипедного колеса", на них значения
переменных представлены расстояниями между центром пиктограммы
("втулкой") и их концами.
Лу чевые пик т ограммы

Рисунок 3.33. Звездные пиктографики.


Такие графики могут помочь в обнаружении связей между
переменными, которые проявляются в общей структуре пиктограмм и зависят
от конфигурации значений самих переменных.
Чтобы описать такую " общую картину" в терминах конкретных
моделей или проверить имеющиеся предположения, имеет смысл
использовать последовательные пиктографики, которые могут оказаться
более эффективными, если уже известно, что именно требуется обнаружить.
Последовательные пиктографики. Последовательные пиктографики
(столбцы, профили, линии) представляют собой набор картинок с
маленькими последовательными графиками (различных типов).
Ст олбчат ые пик т ограммы

Рисунок 3.34. Столбчатые пиктографики.


Значения переменных представлены здесь расстояниями между
основанием пиктограммы и последовательными точками (например,
высотами показанных выше столбцов). Эти графики менее эффективны на
начальной стадии разведочного анализа, поскольку пиктограммы очень
похожи между собой. Однако, как уже упоминалось ранее, такое
представление может быть весьма полезным для проверки уже
сформулированной гипотезы.
Пиктограммы круговых диаграмм. Эти пиктографики нельзя
однозначно отнести к одной из двух групп. Все они имеют круговую форму,

46
но в то же время последовательно разделены в соответствии с значениями
переменных.
Пик т ограммы к ру говых диаграмм

Рисунок 3.35. Круговые пиктографики.


Их можно отнести скорее к последовательным, чем к круговым
пиктографикам, но можно использовать и в том, и в другом случае.
"Лица Чернова". Этот тип пиктографиков составляет отдельную группу.
Здесь каждое наблюдение представляет собой схематичное изображение
лица, определенным чертам которого соответствуют относительные значения
выбранных переменных.
Лица Чернова

Рисунок 3.36. Лица Чернова.


Некоторые исследователи рассматривают этот способ графического
представления данных как уникальный многомерный метод разведочного
анализа, позволяющий выявить такие скрытые картины взаимосвязей между
переменными, которые не могут быть обнаружены другими методами.
Вероятно, такое заявление можно считать преувеличением. Кроме того,
следует заметить, что этот способ исследования весьма непрост в применении
и требует большого опыта в том, что касается сопоставления переменных
чертам лица.

47
4. Статистический вывод
4.1. Генеральные совокупности и выборки.
Генеральная совокупность — это набор объектов (людей, предметов
или чего-либо еще), о которых вы хотите получить информацию. Выборка –
это небольшой набор объектов, извлеченных из генеральной совокупности.
Обычно имеется подробная информация об объектах из выборки, я не из
генеральной совокупности. Существует много различных способов
построения выборки. Каждый способ имеет свои преимущества для
определенных целей. Рассмотрим несколько примеров генеральных
совокупностей и выборок.
1. Генеральная совокупность: примерно 980 000 жителей г.
Красноярска, в котором некоторая фирма решила открыть ресторан быстрого
обслуживания.
а) Выборку можно построить, наняв людей, которые будут дежурить в
местном торговом центре, и опрашивать каждого 35-го покупателя. Такая
выборка будет содержать информацию о покупателях, но информация об
остальной части генеральной совокупности будет отсутствовать.
б) Другой метод построения выборки – провести опрос по телефону
каждого 2000-го жителя города, взяв номера из телефонного справочника,
Такая систематическая выборка будет содержать определенную информацию
о людях, которые находятся дома и отвечают на телефонные звонки.
в) Еще один метод построить выборку может заключаться в том, чтобы
опросить тех, кто выходит из местного ресторана Мак-Дональдс. Такая
выборка даст информацию о группе людей, посещающих рестораны быстрого
питания.
2. Генеральная совокупность: 826 ящиков с различным компьютерным
оборудованием, только что поступивших к вам на склад. Необходимо
проверить на месте содержимое отдельных ящиков, чтобы убедиться,
насколько оно соответствует накладной.
а) Удобный способ заключается в том, чтобы взять 10 ближайших
ящиков и проверить их содержимое. Но такая выборка вряд ли будет
репрезентативной. К тому же, если поставщики разгадают этот метод отбора,
то вряд ли можно извлечь пользу из такой выборки.
б) Можно подойти к осуществлению выборки иначе: выбрать для
проверки три больших, три средних и три небольших по размеру ящика. На
первый взгляд, это некоторое расширение метода отбора, но такой вариант
вообще может не дать желаемого результата – выборка может оказаться
нерепрезентативной (например, почти все ящики могут оказаться больших
размеров).
в) Существует еще один вариант – взять накладную и случайно
отобрать ящики для проверки из перечня, указанного в накладной. Затем

48
следует найти и вскрыть отобранные ящики. Это будет наиболее подходящая
выборка. Начав с накладной, вы убедитесь в правильности этого документа.
Случайность отпора гарантирует, что поставщики не смогут предугадать,
какие именно ящики вы будете проверять.

3. Генеральная совокупность: поставщики (численностью 598), Вы


обдумываете новую систему снабжения, которая предполагает более высокую
оплату поставок с одновременным повышением качества и уменьшением
времени реагирования на заказ. Эта система будет эффективна только в том
случае, если достаточное количество поставщиков будет заинтересовано в
ней.
а) Выборка может состоять из пяти ваших основных поставщиков.
Конечно, важно рассмотреть эти крупные фирмы, но стоит также включить в
выборку и других поставщиков.
б) Другую выборку можно получить, полностью доверив право выбора
одному из ваших подчиненных (например, направив этому сотруднику
сопроводительную записку следующего содержания: «Пожалуйста, составьте
список из 10 поставщиков, которые могут работать по системе снабжения
«точно во время»)». Однако в таком случая вы не будете знать, на основе
каких критериев проводился отбор. Можно предположить, что ваш сотрудник
будет использовать «наиболее быструю» или «наиболее подходящую»
выборку, но это не означает, что полученная выборка будет
репрезентативной.
в) Можно также построить выборку включив в нее пять ваших
ключевых поставщиков и еще 10 поставщиков, отобранных на основе
определенных критериев (скажем, отобранных вашим сотрудником на
основании следующего задания: «Пожалуйста, составьте список из 10 не
основных поставщиков, используй таблицу случайных чисел». Это будет
удачная выборка, поскольку она будет включать как всех наиболее сажных
поставщиков, так и часть не основных поставщиков.

4.2. Что такое репрезентативная выборка


Процесс построения выборки показан на рисунке 4.1. Из большей по
размеру генеральной совокупности извлекается выборка для проведения
измерений и подробного анализа. В русском языке словом «выборка»
обозначают как сам процесс отбора, так и результат отбора. Смысл слова
«выборка», как правило, ясен из контекста. При этом предполагается, что
выборка является репрезентативной. Это означает, что каждое свойство (или
комбинация свойств) и в выборке, и в генеральной совокупности имеет
одинаковые частоты, О выборке, которая не является репрезентативной,
говорят, что она имеет смещение. Например, если в выборке доля мужчин
больше, чем в генеральной совокупности, то можно сказать, что выборка
имеет смещение по полу или что выборка смещена в сторону мужчин.

49
Генеральная совокупность Выборка

Рисунок 4.1. Формирование выборки


Поскольку каждый объект может быть уникальным, выборки, которая
будет полностью репрезентативной, может не существовать. Как получить
достаточно репрезентативную выборку? Если ни производить
целенаправленный отбор, основываясь на некоторой измеряемой
характеристике, то случайно взятая статистическая выборка будет свободной
(в среднем) от смешений и поэтому репрезентативной (в среднем). Более
того, специально введенная в процесс отбора случайность позволит
формулировать вероятностные суждения о результатах отбора (например,
вести речь о доверительных интервалах).
Тщательно построенная таким образом статистическая выборка будет
почти репрезентативной, и вы сможете оценить, насколько она
репрезентативна.
Определив для решаемой задачи генеральную совокупность,
необходимо выяснить, как с этой совокупностью работать практически. Для
практической работы необходимо иметь основу генеральной совокупности,
которая даст возможность обращаться к отдельным элементам по номерам.
Например, в виде списка.
Существуют два основных типа выборки. После того как объект
извлечен из генеральной совокупности для включения в выборку, его либо
возвращают обратно в генеральную совокупность (тогда он может попасть в
эту же выборку повторно), либо не возвращают. Выборка без возврата имеет
место, когда любой объект не может попасть в выборку более одного раза,
т.е. когда все объекты выборки всегда разные. Выборка с возвратом имеет
место, если объект генеральной совокупности может попасть в выборку более
одного раза. Следует отметить, что эти свойства определяются процессом,
использованным для осуществления выборки, а не результатами. этого
процесса. Если использовать эти два метода для небольшой выборки,

50
извлеченной из большой генеральной совокупности, то различия будут
незначительными.
Выборка, которая включает полную генеральную совокупность
называется переписью. Но даже если вы можете получить всю генеральную
совокупность, нужно подумать, стоит ли это делать. Сравнивая затраты и
преимущества, можно прийти к выводу, что не имеет смысла тратить время и
усилия на изучение всех объектов генеральной совокупности.

4.3. Параметры выборки и параметры генеральной совокупности


Параметром выборки (или выборочным параметром, или просто
статистикой) называют показатель (число), вычисленный на основе данных
выборки. В качестве примера можно привести выборочное среднее, медиану,
стандартное отклонений выборки и т.п. Статистика является случайной
величиной, так как в ее основе лежат данные, полученные путем случайного
отбора, который, в свою очередь, может рассматриваться как случайный
эксперимент. Поэтому статистика является известной и случайной величиной.
Параметр генеральной совокупности (или просто параметр) — это
показатель (число), вычисленный для всей генеральной совокупности. В
качестве примера можно привести среднее и стандартное отклонения
генеральной совокупности. Параметр является фиксированным числом, так
как при его вычислении отсутствует случайность. Однако обычно у нас нет
данных обо всей генеральной совокупности. Поэтому параметр является
неизвестной и фиксированной величиной.
Часто существует естественное соответствие между статистиками и
параметрами. Для каждого параметра совокупности (показателя, значение
которого хотелось бы знать, но которое точно неизвестно) существует
выборочная статистика, рассчитанная на основе данных, представляющих
наилучшую доступную информацию о неизвестном параметре. Такую
выборочную статистику называют оценочной функцией параметра
генеральной совокупности, а ее фактическое значение, рассчитанное из
данных выборки, называют оценкой параметра совокупности. Например,
среднее выборки является оценочной функцией среднего совокупности, и в
конкретном случае оценка может выть равна 18,3. Ошибкой оценки называют
разность между оценочной функцией (или оценкой) и параметром
генеральной совокупности; ошибка оценки обычно неизвестна.
Несмещенная оценка не является систематически слишком завышенной
или слишком заниженной в сравнении с соответствующим параметром
генеральной совокупности. Такое свойство представляется желательным для
оценки. Формально оценка является несмещенной, если ее среднее (среднее
ее выборочного распределения) равно соответствующему параметру
генеральной совокупности.

51
Большинство часто используемых оценок являются несмещенными или
почти (асимптотически) несмещенными. Например, среднее выборки
является несмещенной оценкой среднего генеральной совокупности.
Стандартное отклонение выборки является (как ни странно) смещенной
оценкой стандартного отклонения генеральной совокупности, но в то же
время асимптотически (приблизительно) несмещенной. Дисперсия выборки
представляет собой несмещенную оценку дисперсии генеральной
совокупности.

4.4. Случайная выборка


Простая случайная выборка строится таким образом, что (1) каждый
объект генеральной совокупности имеет одинаковую вероятность быть
отобранным и (2) объекты отбирают, независимо друг от друга. Если
элементы совокупности имеют равную вероятность быть извлеченными, то
полученная случайная выборка будет достаточно хорошей и, насколько это
возможно, несмещенной. Независимость отбора обеспечивает сбор
максимально возможного объема независимой информации. Поскольку
индивидуальные вкусы и человеческий фактор исключены из процесса
отбора, у полученной таким образом выборки будет больше шансов быть
репрезентативной, чем у той "произвольной" выборки, которую вы можете
поручить сделать кому-либо.
Другой возможный и эквивалентный способ определить случайную
выборку заключается в том, чтобы сказать, что это выборка, выбранная
случайно из множества всех возможных выборок такого объема, которые
можно было бы извлечь из генеральной совокупности. С таким определением
работать сложнее, так как число возможных выборок может быть огромно.
Например, существует 17 310 309 456 440 различных выборок объемом 10
объектов, которые можно извлечь из генеральной совокупности, содержащей
100 объектов. Однако такое определение ясно демонстрирует, что в процессе
построения случайной выборки мы не отдаем предпочтение ни одной из
потенциально возможных выборок.
Нисколько случайная выборка лучше произвольной? При извлечении
случайной выборки у вас есть гарантия, что математическая статистика на
вашей стороне. Вы не просто «надеетесь на лучшее», а получаете настоящую
гарантию, что выборка является репрезентативной, по крайней мере в
среднем, для всех характеристик генеральной совокупности (даже для тех
характеристик, которые еще не встретились, и тех, которые трудно или
невозможно измерить!). Кроме того, случайная выборка закладывает основу
для корректности заключений (статистических выводов) относительно
генеральной совокупности, которые могут быть сделаны исходя из данных
этой выборки. С другой стороны, например, если вы извлекаете неслучайную
выборку, которая должна быть репрезентативной в отношении (а) количества
мужчин и женщин, (b) семейного положения и (с) дохода, то результирующая

52
выборка может быть совершенно отличной от генеральной совокупности по
таким важным характеристикам, как использование Internet или желание
делать заказы по каталогам. Это легко может привести к неудачным бизнес
решениям, так как вы не использовали случайную выборку.

4.5. Доверительный интервал


Доверительный интервал можно также использовать, чтобы показать,
нисколько точно выраженная в процентах доля признака в выборке отражает
интересующую нас долю признака в совокупности. Например, результаты
маркетингового опроса 150 человек, случайно отобранных из вашей целевой
группы, показали, что 16 человек, или 30,7%, знают вашу торговую марку.
Вы, конечно же, не верите, что точно 30.7% всей целевой группы знают вашу
торговую марку, поскольку вам известно, что случайность процесса
построения выборки приводит к ошибке, которая приблизительно равна
одной стандартной ошибке. В данном случае стандартная ошибка равна 3,76
процентных единиц показывает приблизительное различие между
выряженными в процентах долями в выборке и в генеральной совокупности.
Доверительный интервал формализует это понятиt приблизительной
разности и позволяет сделать такое заключение.
Мы уверены на 95%, что доля людей, которым известна наша торговая
марка, в нашей целевой группе (в генеральной совокупности) находится где-
то между 23,3 и 38,0%.
Цель использования доверительных интервалов заключается в том,
чтобы по возможности избавиться от неопределенности и сделать как можно
более точный вывод. Вероятность дает нам возможность формулировать
точные утверждения в условиях неопределенности. Статистика дает
возможность извлекать необходимую информацию из данных выборки.
Процесс обобщения данных выборки, который приводит к вероятностным
утверждениям о всей генеральной совокупности называют статистическим
выводом. В частности, доверительным интервалом называют такой
вычисленный на данных интервал, который с известной вероятностью
содержит интересующий нас неизвестный параметр генеральной
совокупности, и эта вероятность определяется с учетом случайного
эксперимента, который начинается с извлечения случайной выборки. Таким
образом, определить доверительный интервал – это лучшее, что можно
сделать в условиях неопределенности: это точное вероятностное утверждение
вместо неясных замечаний типа: «Мы не уверены, но…» или «Это значение,
вероятно, близко к ...».
Доверительные интервалы используют часто, и ниже приведен краткий
предварительный обзор их полезных свойств. Есть возможность выбирать
вероятность утверждения. Эту вероятность называют доверительным уровнем
(используют, также термины «коэффициент доверия» и «доверительная

53
вероятность»). Традиционно его устанавливают равным 95%, но часто
используют также значения 90, 99 и даже 99,9%. Платой за более высокий
доверительный уровень является более широкий, а значит, и менее полезный
интервал. Доверительный интервал для процентного содержания в
генеральной совокупности можно легко вычислить, используя стандартную
ошибку для биномиального распределения. В зависимости от необходимости
можно использовать двусторонний (между двумя значениями) или
односторонний (но крайней мере больше, чем некоторое значение)
доверительный интервал. Как всегда, следует быть осторожным с не всегда
декларируемыми явно, но необходимыми предварительными техническими
условиями (в данном случае это нормальность и случайность выборки),
поскольку если эти условия не удовлетворяются, то сформулированные па
основе доверительных интервалов выводы будут неверными. Необходимо
также тщательно различать вероятность 95% для процесса построения
доверительного интервала и 95% доверительный уровень для конкретного
вычисленного интервала.
Сформулируем приблизительное универсальное утверждение о
доверительном интервале, которое применяют во многих ситуациях. Если вы
с помощью соответствующей несмещенной оценки оценили параметр
генеральной совокупности и вычислили соответствующую стандартную
ошибку этой оценки, то утверждение о доверительном интервале (в
обобщенном виде) можно сформулировать следующим образом:
Мы на 95% уверены, что параметр генеральной совокупности
находится между значением «оценки минус дне стандартные ошибки и
значением оценки плюс две стандартные ошибки.

Следует помнить, что значение нормально распределенной переменной


находится в пределах двух стандартных отклонений от своего среднего
приблизительно в 95% случаен; вот откуда (отчасти косвенно) возникли эти
значения в обобщенной формулировке утверждения о доверительном
интервале.
Насколько широко можно применять понятие доверительного
интервала? По существу, любое число, которое вы встречаете в газетах,
каких-то ваших конфиденциальных стратегических внутренних документах
или в телепередачах, является оценкой некоторого важного значения. По
сути, все зги оценки имеют собственные «личные» стандартные ошибки,
характеризующие их точность. Знание этих двух величии (оценка и ее
стандартная ошибка) позволяет использовать указанное выше
приблизительное утверждение о доверительном интервале.

Часто используемый 95% доверительный интервал. Почему чаще


всего доверительные интервалы вычисляют для уровня доверительности
95%? Говорят, что именно такой выбор рассматривают традиционно как

54
разумный. Уровень 95% представляет гобой компромисс между попыткой
получить по возможности более высокий уровень доверительности и
желанием получить относительно небольшой интервал.
Доверительный интервал для уровня 100%, к сожалению, не очень
полезен, так как оп слишком велик.
Другие доверительные уровни. Хотя наиболее часто используемым
доверительным уровнем является уровень 95%, иногда используют и другие
доверительные уровни. Выбор уровня представляет собой поиск компромисса
между размером интервала (меньший интервал является более точным, а
значит, и более предпочтительным) и вероятностью того, что интервал
включает искомый параметр генеральной совокупности (более высокая
вероятность является более предпочтительной). В одних ситуациях
необходима очень высокая точность выводов, и тогда увеличивают размеры
интервала, чтобы вероятность справедливости утверждения о
принадлежности параметра интервалу была выше. В других ситуациях может
быть необходим более короткий интервал, и для этого можно допустить,
чтобы утверждение о доверительном интервале могло быть неверным более
часто. Стандартный 95% доверительный интервал является общепринятым
компромиссом меледу этими двумя факторами, но не единственным
решением данной проблемы.
При построении доверительных уровней предпочитают попользовать
круглые числа (избегая такие сбивающие с толку утверждения, как,
например, «быть уверенным на 96,19%»). Значения t-таблицы можно
использовать для построения доверительных интервалов для уровней 90, 95 и
99,90%.
Интерпретация доверительного интервала. Что вы имеете в виду,
когда, говорите, что исходя из значений веса в выборке из дневной продукции
вы на 95% уверены, что средний вес всех изготовленных сегодня упаковок
мыла лежит в пределах от 35,93 до 40,47 грамм? Это похоже на
вероятностное утверждение, но с ним необходимо тщательно разобраться.
Средний вес всех выпущенных сегодня упаковок мыла является некоторым
конкретным неизвестным числом. Это число либо принадлежит интервалу,
либо не принадлежит. A раз так, то откуда появляется вероятность?
Какое событие имеет вероятность 95%? Чтобы возникла вероятность,
должен иметь место случайный эксперимент. Вероятность скорее относится к
процессу в целом, чем к конкретному результату. Когда вы говорите, что на
95% уверены в том, что среднее значение веса в генеральной совокупности
находится в пределах от 35,93 до 40,47 грамм, то делаете вывод о точных
числовых результатах, исходя из имеющихся данных. Однако вероятность
95% возникает из самого процесса, который рассматривает значения как
случайные. Более тщательная формулировка вероятностного утверждения
может быть такой: «Вероятность события «средний вес» в генеральной
совокупности находится в пределах доверительного интервала для

55
случайного эксперимента «случайно отобрать несколько упаковок и
построить доверительный интервал» равна 95%». Каждый раз, когда
собирают данные и вычисляют 95% доверительный интервал, проводят
случайный эксперимент.

56
5. Корреляционный анализ
Корреляционный анализ предполагает изучение зависимости между
случайными величинами с одновременной количественной оценкой степени
неслучайности их совместного изменения.
Изменение случайной величины y , соответствующее изменению
случайной величины x , разбивается на две составляющие – стохастическую,
связанную с неслучайной зависимостью y от x , и случайную (или
статическую), связанную со случайным характером поведения самих x и y .
Стохастическая составляющая связи между y и x характеризуется
коэффициентом корреляции
M {[x - M ( x )][ y - M ( y )]}
r= ,
D( x) D( y )
где M (z ) и D (z ) – соответственно математическое ожидание и
дисперсия случайной величины z .
Коэффициент корреляции показывает, насколько связь между
случайными величинами близка к строго линейной. Если y и x
распределены нормально, равенство r = 0 указывает на отсутствие линейной
связи между ними. Значение r = ±1 соответствует строго линейной связи
между y и x (знак указывает на направление связи).
Однако коэффициент корреляции r не учитывает возможной
криволинейной связи между случайными величинами. Для учета таких связей
используется корреляционное отношение, введенное К. Пирсоном.
Для двумерного ряда наблюдений, когда на каждом уровне одной
переменной yi наблюдаются ni значений другой переменной xij ( j = 1, ..., ni ) ,
корреляционное отношение определяется следующим образом
S 02
h = 2,
2
xy
S
2
где S 0 – дисперсия рассеяния значений xij , связанная с влиянием
2
группировки значений xij по i уровня переменной y ; S – дисперсия
рассеяния значений xij без учета их группировки по уровням переменной y .
В нашем случае определено корреляционное отношение x по y .
2
Перестановкой переменных по аналогии может быть определено h xy –
корреляционное отношение y по x (тогда на каждом уровне переменной xi

57
наблюдается группа значений другой переменной yij ). В общем случае
2 2
h xy ¹ h yx .
2 2
Если y и x связаны строго линейно, то h = r = 1 . Если между x и y
2 2
существует линейная стохастическая связь, то r = h < 1 . При нелинейной
2 2
стохастической связи r < h < 1. В любом случае имеет место неравенство
2 2
0 £ r £ h £ 1(равенство достигается только при строгой линейной связи
между y и x ).

5.1. Классический корреляционный анализ нормально


распределенных случайных величин

5.1.1. Оценка коэффициента корреляции


Рассматриваются нормально распределенные случайные величины y и
x – ( x1 , y1 ) , ( x2 , y2 ) , …, ( xi , yi ) , …, ( xn , yn ) . Выборочной оценкой
коэффициента корреляции r является случайная величина
n
å ( xi - x )( yi - y )
i =1
r= ,
n n
2 2
å ( xi - x ) å ( yi - y )
i =1 i =1

1 n 1 n
где x = å xi ; y = å yi ; n – объем выборки.
n i =1 n i =1
При малых значениях n ( n <15) лучшей оценкой коэффициента
корреляции является

*é 1- r ù
2
r = r ê1 + ú.
êë 2( n - 3 ) úû
При n >200 распределение выборочного коэффициента корреляции
удовлетворительно аппроксимируется нормальным законом со средним M ( r )
и дисперсией D( r ) :
2
1- r
M ( r ) = r ; D( r ) = .
n -1
При n >5 распределение случайной величины
1 1- r
z = ln = arcth ( r )
2 1+ r

58
удовлетворительно аппроксимируется нормальным распределением с
параметрами
1 æ1- r ö 1
M (z) = lnç ÷ = arcth (r) ; D( z ) .
2 è1 + r ø n-3
При n >10 распределение случайной величины
( r - r) n - 2
t= .
2 2
(1 - r )(1 - r )
удовлетворительно аппроксимируется распределением Стьюдента с
f = n - 2 степенями свободы.
Приведенные аппроксимации распределения выборочного
коэффициента корреляции позволяют строить статистические критерии для
проверки гипотез о существенности корреляционной связи и о возможных
значениях коэффициента корреляции.
На практике наибольший интерес представляет задача проверки
гипотезы о значимости корреляционной связи между случайными
величинами, т.е. значимости отклонения коэффициента корреляции r от
нуля. В принятых обозначениях проверяется нулевая гипотеза H 0 : r = 0
против альтернативы H1 : r ¹ 0 .
Эта гипотеза проверяется сравнением выборочного значения
коэффициента корреляции r с его критическим значением ra , являющимся
a -квантилью распределения r при r = 0 . Корреляция между случайными
величинами признается значимой, если r ³ ra . Критические значения ra
приведены в табл. 5.1.
Использование рассмотренных выше аппроксимаций приводит к
следующим оценкам
– при n >5
æ 2 ö
expç u1+ a ÷ - 1
ç n-3 ÷
ra = è 2 ø
;
æ 2 ö
expç u ÷ +1
ç n - 3 1+ a ÷
è 2 ø

– при n >10

59
2
t1+ a
ra = 2
2
;
n - 2 + t1+ a
2

– при n >200
1
ra = u1+ a .
n -1 2
Здесь ua и ta – a -квантили соответственно стандартного нормального
распределения и распределения Стьюдента с f = n - 2 степенями свободы.

Таблица 5.1
Критические значения ra
выборочного коэффициента корреляции для r = 0
n Доверительная вероятность a n Доверительная вероятность a
0,90 0,95 0,99 0,90 0,95 0,99
3 0,988 0,997 1,000 13 0,476 0,553 0,684
4 0,900 0,950 0,990 14 0,451 0,532 0,661
5 0,805 0,878 0,959 15 0,441 0,514 0,641
6 0,729 0,811 0,917 16 0,426 0,497 0,623
7 0,669 0,754 0,874 17 0,412 0,482 0,606
8 0,621 0,707 0,834 18 0,400 0,468 0,590
9 0,582 0,666 0,798 19 0,389 0,456 0,575
10 0,549 0,632 0,765 20 0,378 0,444 0,561
11 0,521 0,602 0,735 21 0,369 0,433 0,549
12 0,497 0,576 0,708 22 0,360 0,423 0,537
Если гипотеза о значимости корреляции между случайными
величинами не отклоняется, то можно построить доверительный интервал для
истинного коэффициента корреляции по его выборочному значению.
Впрочем, для корреляционного анализа это уже не столь важно, ибо его
основная цель – установление значимости наблюдаемой связи.
Пример 5.1. В результате наблюдений над случайными величинами x
и y получена следующая совокупность данных ( n = 10 ):
x : 2 4 1 7 3 11 14 15 21 4
y : 7 6 4 11 2 21 31 23 40 15
Необходимо проверить гипотезу о наличии корреляции между
случайными величинами x и y с достоверностью a =0,95.
Находим

60
1 10 10
2 1 10
x = × å xi = 8,2 ; å ( xi - x ) = 405,6 ; y = × å yi = 16,0 ;
10 i =1 i =1 10 i =1
10 10
2
å ( yi - y ) = 1422 ; å ( xi - x ) × ( yi - y ) = 723 .
i =1 i =1

Далее получаем оценки коэффициента корреляции

723 æ 1 - 0,953 2 ö
r = 0,952 × ç1 + ÷ = 0,958 .
*
r= = 0,952 ;
405,6 × 1422 ç 2 × 7 ÷ø
è
Из табл. 5.1 для n = 10 и a =0,95 находим r0 ,95 = 0,632 .
*
Так какr (r ) = 0,952(0,958) > r0,95 = 0,632 , наличие зависимости
между величинами x и y следует признать значимой с достоверностью
a =0,95.
Если воспользоваться аппроксимациями (имея в виду, что
u1+ 0,95= u0,975= 1,96 ), получим
2

æ 2 ×1,96 ö
expç ÷ -1
r0,95 = è 7 ø = 0,629 ,
æ 2 ×1,96 ö
expç ÷ +1
è 7 ø
Что близко к точному значению r0,95 = 0,632 .
С помощью t -приближения получим (t1+ a ( f = n - 2) = t 0,975 (8) = 2,31)
2
1
ìï 2
t 0,975 (8) üï 2 2,31
2
r0,95 = í 2 ý = 2
= 0,632 ,
ïî10 - 2 + t 0,975 (8) ïþ 8 + 2,31
что совпадает с табличным значением.
Наконец, приближение для больших выборок дает
u 0,975 1,96
r0,95 = = = 0,653.
n -1 3

5.1.2 Оценка корреляционного отношения


Предположим, что мы имеем n значений случайной величины
y : y1 , y 2 , ..., y k . При y = yi наблюдаются ni значений случайной величины

61
k
x . Если n = å ni ; xij - j -е значение величины x наблюдаемое при y = yi
i= 1
1 ni 1 k
( j = 1, 2, ..., ni ) ; xi = å xij ; x = å xi , то выборочная оценка
ni j = 1 k i= 1
корреляционного отношения x по y равна
k k
2 2 2
å ni ( xi - x ) å ni xi - nx
2 i =1 i =1
h xy = k ni
= k ni
.
2 2 2
å å ( xij - x ) å å xij - nx
i =1 j =1 i =1 j =1

2 2
Проверка гипотезы H 0 : h = 0 против альтернативы H 1 : h ¹ 0
2
h (n - k )
производится с помощью статистики l = 2
.
(k - 1)(1 - h )
Если l > Fa ( f1, f 2 ) , то нулевая гипотеза отклоняется с достоверностью
a . Здесь Fa ( f1, f 2 ) – a -квантиль F -распределения с f1 = k - 1 и f 2 = n - k
степенями свободы. При линейной связи между случайными величинами
2 2 2 2 2 2
h = r и h xy = h yx . Следовательно, разность h - r может служить мерой
2 2
нелинейности корреляционной связи. Проверка гипотезы H 0 : h - r = 0
2 2
против альтернативы H 1 : h - r ¹ 0 может быть осуществлена с помощью
статистики
2 2
* (h - r )(n - k )
l = 2
,
(k - 2)(1 - h )
имеющей при справедливости нулевой гипотезы F -распределение с
*
f1 = k - 2 и f 2 = n - k степенями свободы. Если l ³ Fa ( f1, f 2 ) , то с
вероятностью a гипотеза линейности корреляционной связи отклоняется.
Следует помнить, что для оценки корреляционной связи x по y необходимо
иметь несколько наблюдений x для различных y (и наоборот).
Пример 5.2. Проверить линейность корреляционной связи для выборки
yi : 2 4 9 13 15
xij :
1, 3, 4 7, 8, 12 14, 19, 21 11, 9, 6 8, 7, 3
при доверительной вероятности a =0,95.
Имеем k =5, ni = 3 и n =15. Вычисляем далее:

62
1+ 3+ 4
x1 = = 2,66 ; x2 = 9 ; x3 = 18 ; x 4 = 8,67 ; x5 = 6
3
5
2
3 2,67 + 9 + 18 + 8,67 + 6
å å xij = 1641; x = = 8,864 ;
i =1 j =1 5
5
2 2 2 2
å ni × xi = 3 × (2,66 + 9 + ... + 6 ) = 1569,2136 .
i =1

Тогда
2
2 1569,2136 - 15 × 8,864
h xy = 2
= 0,8448 .
1641 - 15 × 8,864
Из таблиц находим
F0,95 ( f1 , f 2 ) = F0,95 (5 - 1; 15 - 5) = F0,95 ( 4; 10) = 3,5 .
2
h × (n - k )
0,845 ×10
Вычисляем далее l = =
= 13,629 .
2
( k - 1) × (1 - h ) 4 × (1 - 0,845)
Полученная величина больше критического значения F0,95 ( 4; 10) = 3,5 ,
следовательно, необходимо признать наличие существенной нелинейной
связи между x и y . Оценим теперь отклонение связи между x и y от
линейной, для чего оценим коэффициент корреляции. Вместо значений xij на
каждом уровне yi будем использовать средние значения xi . Тогда ряд будет
следующим:
xi : 2,66 9 18 8,66 6
yi : 2 4 9 13 15
Используя, формулы из предыдущего раздела, получаем
1 1
x = × å xi = 8,864 ; y = × å yi = 8,6 ;
5 5
5 5
2
å ( xi - x ) = 130,2187 ; å ( yi - y ) = 125,5 ;
i =1 i =1
5
å ( xi - x ) × ( yi - y ) = (-6,204) × (-6,6) + ... + (-0,204) × 6,4 = 24,775 .
i =1

Тогда
24,775 2
r= = 0,194 ( r = 0,0376) ;
130,2187 ×125,2

63
* (0,8448 - 0,0376) × (15 - 5)
l = = 17,337 .
(5 - 2) × (1 - 0,8448)
Из таблиц имеем F0,95 (5 - 2; 15 - 5) = F0,95 (3; 10) = 3,7 .
*
Так как l = 17,337 > F0,95 (3; 10) = 3,7 , следует отклонить гипотезу о
наличии линейной корреляционной связи между случайными величинами.
Отсюда следует поучительный вывод – незначимость коэффициента
корреляции не означает отсутствия связи между исследуемыми величинами.
Следует говорить об отсутствии линейной зависимости, так как незначимость
коэффициента корреляции не исключает наличия нелинейной связи между
случайными величинами.

5.1.3. Частная и множественная корреляция


При необходимости исследования связи ³ 3 случайными величинами
используются частные и множественные коэффициенты корреляции.
Рассмотрим случай трех переменных – x , y и z (при числе переменных
больше трех выражения для коэффициентов корреляции могут быть
выписаны по аналогии).
Зависимость между двумя переменными x и y при фиксированной
третьей переменной z оценивается с помощью частного коэффициента
корреляции r xy, z . По аналогии можно определить частные коэффициенты
корреляции по остальным парам переменных r xz, y и r zy, x .
Выборочные частные (парные) коэффициенты корреляции
определяются с помощью соотношений
rxy - rxz ryz rxz - rxy rzy
rxy, z = ; rxz, y = ;
2 2 2 2
(1 - rxz )(1 - ryz ) (1 - rxy )(1 - rzy )
rzy - rzx ryx
rzy , x = ;
2 2
(1 - rzx )(1 - ryx )
ryz, x = ryz , x ; rxy , z = ryx, z ; rxz , y = rxz , y .
Так же, как и простые коэффициенты корреляции, парные
коэффициенты принимают значения от -1 до +1. Гипотеза H 0 : r xy , z = 0 для
коэффициента корреляции r xy, z (для остальных аналогично) проверяется с
помощью статистики
n - k rxy , z
t= ,
2
1 - rxy, z

64
где k – число переменных (в нашем случае k =3).
При справедливости H 0 величина t распределена в соответствии с
распределением Стьюдента при f = n - k степенях свободы.
При t > t1+ a ( n - k ) нулевая гипотеза H 0 отклоняется с вероятностью
2
a . Множественная корреляция исследуется в случае, когда необходимо
установить существенность взаимосвязи одной переменной с совокупностью
остальных. Выборочные множественные коэффициенты корреляции
обозначаются rx , yz , ry , xz , rz , xy и выражаются через парные коэффициенты
корреляции с помощью соотношений
2 2 2 2
2 rxy + rxz - 2rzy rzx ryz 2 ryx + ryz - 2ryx ryz rzx
rx , yz = 2
; ry , xz = 2
;
1 - ryz 1 - rxz
2 2
2 rzx + rzy - 2rzx rzy rxy
rz , xy = 2
.
1 - rxy
Между частными, множественными и обыкновенными парными
коэффициентами корреляции имеют место так называемые контрольные
соотношения:
2 2 2 2 2
rx, yz = 1 - (1 - rxz )(1 - rxy, z ) = 1 - (1 - rxy )(1 - rxz, y ) ;
2 2 2 2 2
ry , xz = 1 - (1 - ryz )(1 - ryx, z ) = 1 - (1 - ryx )(1 - ryz , x ) ;
2 2 2 2 2
rz , xy = 1 - (1 - rzy )(1 - rzx , y ) = 1 - (1 - rzx )(1 - rzy , x ) .
Для проверки H 0 : r x , yz = 0 используется статистика
2
rx , yz n-k
F= ,
1 - rx, yz
2
k -1

имеющая при справедливости H 0 F -распределение с f1 = k - 1 и


f 2 = n - k степенями свободы ( k – число переменных, в нашем случае k =3).

Таблица 5.2
Критические значения r1,23...k коэффициента множественной
корреляции ( k – число переменных, n – объем выборки)
n-k Доверительная вероятность a

65
0,95 0,99
k k
3 4 5 6 3 4 5 6
1 0,999 0,999 0,999 1,000 1,000 1,000 1,000 1,000
2 0,975 0,983 0,987 0,990 0,995 0,997 0,997 0,998
3 0,930 0,950 0,961 0,968 0,977 0,983 0,987 0,990
4 0,881 0,912 0,930 0,942 0,949 0,962 0,970 0,975
5 0,836 0,874 0,898 0,914 0,917 0,937 0,949 0,957
6 0,795 0,839 0,867 0,886 0,886 0,911 0,927 0,938
7 0,758 0,807 0,838 0,860 0,855 0,885 0,904 0,918
8 0,726 0,777 0,811 0,835 0,827 0,860 0,882 0,898
9 0,697 0,750 0,786 0,812 0,800 0,837 0,861 0,878
10 0,671 0,726 0,763 0,790 0,776 0,814 0,840 0,859
11 0,648 0,703 0,741 0,770 0,753 0,793 0,821 0,841
12 0,627 0,683 0,722 0,751 0,732 0,773 0,802 0,824
13 0,608 0,664 0,703 0,733 0,712 0,755 0,785 0,807
14 0,590 0,646 0,686 0,717 0,694 0,737 0,768 0,791
15 0,574 0,630 0,670 0,701 0,677 0,721 0,752 0,776
16 0,559 0,615 0,655 0,687 0,662 0,706 0,738 0,762
17 0,545 0,601 0,641 0,673 0,647 0,691 0,724 0,749
18 0,532 0,587 0,628 0,660 0,633 0,678 0,710 0,736
19 0,520 0,575 0,615 0,647 0,620 0,665 0,697 0,723
20 0,509 0,563 0,604 0,636 0,607 0,652 0,685 0,712
22 0,488 0,542 0,582 0,614 0,585 0,630 0,663 0,690
24 0,470 0,523 0,562 0,594 0,565 0,609 0,643 0,669
26 0,454 0,506 0,545 0,576 0,546 0,590 0,624 0,651
28 0,439 0,490 0,529 0,560 0,529 0,573 0,607 0,633
30 0,425 0,476 0,514 0,545 0,514 0,557 0,591 0,618
40 0,373 0,419 0,455 0,484 0,454 0,494 0,526 0,552
60 0,308 0,348 0,380 0,406 0,377 0,414 0,442 0,467
Если F > Fa ( f1 , f 2 ) , то соответствующая корреляция признается
значимой. Критическое значение коэффициента множественной корреляции
равно
(k - 1) Fa ( f1 , f 2 )
rx, yz (a) = .
n - k + ( k - 1) Fa ( f1 , f 2 )
Корреляция признается значимой при rx, yz ³ rx, yz (a) . Критические
значения r1,23...k (для общего случая k переменных) приведены в табл. 5.2
Пример 5.3. Вычислить коэффициенты частной и множественной
корреляций и проверить их значимость при доверительной вероятности
a =0,95 для данных, приведенных ниже n = 10 , k = 3 :

66
xi :
1 3 4 7 12 4 19 21 1 3
yi :
12 42 58 71 68 50 49 85 18 26
zi :
41 12 7 3 14 27 38 13 64 75
Найдем парные коэффициенты корреляции. Вычисляем коэффициент
rxy :
10 10
2 2
å ( xi - x ) = 484,5 ; å ( yi - y ) = 6882,1 ;
i= 1 i= 1
10
å ( xi - x ) × ( yi - y ) = 1091;
i= 1
1 10 1 10
x= å xi = 7,5 ; y= × å yi = 47,9 ;
10 i = 1 10 i = 1
1091
rxy = = 0,597 .
484,5 × 6882,1
Вычисляем коэффициент rxz :
10 10
2 2
å ( xi - x ) = 484,5 ; å ( zi - z ) = 5498,4 ;
i =1 i =1
10
å ( xi - x ) × ( z i - z ) = -519 ;
i =1
519
x = 7,5 ; z = 29,4 ; rxz = - = -0,318 .
484,5 × 5498,4
Вычисляем ryz :
10 10
2 2
å ( yi - y ) = 6882,1 ; å ( zi - z ) = 5498,4 ;
i =1 i =1
10
å ( yi - y ) × ( zi - z ) = -3172,66 ;
i =1
3172,66
y = 47,9 ; z = 29,4 ; ryz = - = -0,516 .
6862,1 × 5498,4
Вычислим теперь частные коэффициенты корреляции:
rxy - rxz × ryz 0,597 - (-0,318) × (-0,516)
rxy, z = = = 0,533 ;
2 2 2 2
(1 - rxy ) × (1 - ryz ) (1 - 0,318 ) × (1 - 0,516 )

67
rxz - rxy × rzy - 0,318 - 0,597 × (-0,516)
rxz, y = = = 0,014 ;
2 2 2 2
(1 - rxy ) × (1 - rzy ) (1 - 0,597 ) × (1 - 0,516 )
rxy - rzx × ryx - 0,516 - ( -0,318) × 0,597
rzy , x = = = -0,429 .
2 2 2 2
(1 - rxz ) × (1 - ryx ) (1 - 0,318 ) × (1 - 0,318 )
Вычислим множественные коэффициенты корреляции:
2 2
2 0,597 + 0,318 - 2 × 0,597 × (-0,18) × ( -0,516)
rx, yz = 2
= 0,356
1 - 0,516
2
( rx , yz = 0,597) ;
2 2
2 0,597 + 0,516 - 2 × 0,597 × (-0,516) × ( -0,318)
ry , xz = 2
= 0,475
1 - 0,318
2
( ry , xz = 0,689) ;
2 2
2 0,318 + 0,516 - 2 × ( -0,318) × 0,597 × (-0,516)
rz , xy = 2
= 0,266
1 - 0,597
2
( rz , xy = 0,516) .
Вычисляем t -статистики для проверки значимости частных
коэффициентов корреляции
2 10 - 3 × 0,533
– для проверки rxy, z : t xy, z = = 1,667;
2
1 - 0,533
2 7 × ( -0,014)
– для проверки rxz , y : t xz , y = = -0,037;
2
1 - 0,014
2 7 × ( -0,429)
– для проверки rzy , x : t zy , x = = -1,256.
2
1 - 0,429
Для a =0,95 и f = n - k = 7 из таблиц для t -распределения имеем
t1+ 0,95 = t0,975 (7) = 2,37 . Видимо, что t xy, z , t xz , y , t zy , x <2,37.
2
Следовательно, наличие частной корреляции отклоняется с
достоверностью a =0,95.
Для коэффициентов множественной корреляции находим критическое
значение из табл. 5.2 при k = 3 , n - k= 7 и a =0,95. Имеем
r1, 23 (0,95)= 0,758 .

68
Так как ни один множественный коэффициент корреляции
( rx, yz= 0,596 , ry , xz= 0,689 и rz , xy = 0,516 ) не превышает критическое
значение 0,758, то и наличие множественной корреляции отклоняется с
достоверностью 0,95.
В заключение проверим правильность вычислений, используя
контрольные соотношения:
2 2 2 2
rx, yz = 0,596 = 0,356 = 1 - (1 - rxz ) × (1 - rxy , z ) =
2 2
= 1 - (1 - 0,318 ) × (1 - 0,533 ) = 0,356 .

5.2. Непараметрический корреляционный анализ. Оценивая


корреляции с помощью порядковых статистик
Рассмотренные в разделе 5.1. методы корреляционного анализа
предполагали нормальность распределения исследуемых величин. Для других
распределений более эффективны методы изучения связи между случайными
величинами, основанные на применении порядковых статистик, либо на
замене наблюдаемых величин их рангами.
Такие методы, обладая повышенной устойчивостью к отклонениям
распределения от нормального, в большинстве случаев позволяют упростить
вычисления, оставляя на приемлемом уровне статистические характеристики
получаемых заключений по гипотезам.

5.2.1. Оценка корреляции с помощью тренда


Оценка наличия корреляции с помощью критериев тренда основано на
следующей идее. Если значение одной переменной (например, x )
предварительно упорядочить (например, по возрастанию), то поведение
второй переменной (например, y ) может служить индикатором искомой
корреляции. В самом деле, наличие корреляции должно приводить к
упорядочиванию значений второй переменной (т.е. к их тренду), отсутствие
корреляции не должно изменять случайный характер поведения значений y
при их размещении вдоль упорядоченной последовательности значений x .
Отсюда следует, что проверка ряда значений y на тренд любым из
критериев тренда, эквивалентно проверке наличия корреляции.

5.2.2. Критерий Кенуя


Рассмотрим некоторые из критериев, предложенных Кенуем и
предполагающих использование «быстрых» критериев сравнения средних.
Значения переменной x предварительно проранжируем по возрастанию:
x1 £ x 2 £ ... £ xn и зафиксируем ряд значений yi , соответствующих xi . Затем
проверим наличие тренда в ряду значений yi одним из «быстрых» критериев
Кенуя или Кокс–Стюарта.

69
Для применения «быстрого» критерия Кенуя поступаем следующим
образом.
Разбиваем проверяемую совокупность величин yi объема n на k групп
y11 , y12 , ..., y1m ; y 21, y22 , ..., y2 m ; ... ; yi1, yi 2 , ..., yim ; ... ;
y k1, yk 2 , ..., ykm , ( m = n / k ) .
В каждой группе фиксируем крайние значения y min i и y maxi для
i = 1, ..., k . Затем отбираем значения max y min i и min y maxi . Вычисляем
1£i £ k 1£i £ k
_ +
количество наблюдений n , для которых yi < max ymini и n , для которых
1£i £ k
yi > min ymaxi .
1£i £ k
Таблица 5.3
Критическое значение na критерия Кенуя
( a – доверительная вероятность)
k
a
2 3 4 5 6 8 10
0,95 8 17 27 37 47 70 93
0,99 12 22 33 45 57 83 110
- +
Статистикой критерия является число n = n + n . Гипотеза о наличии
корреляции принимается с достоверностью a , если n > na . Критические
значения na приведены в табл. 5.3.

5.2.3 Критерий Кокс–Стюарта


Рассмотрим теперь применение критерия Кокс–Стюарта для
установления корреляции. Ряд наблюдений yi , соответствующих
упорядоченному ряду наблюдений xi , разбивается на 3 приблизительно
равные подвыборки (если n / 3 – дробное число, то центральная подвыборка
уменьшается (увеличивается) на 1). Сравниваем попарно n¢ » n / 3 первых и
n¢ » n / 3 последних наблюдений. Если наблюдение из первой трети больше
соответствующего наблюдения третьей трети, то поставим знак +1, в ином
случае -1. Статистикой критерия является сумма Т получаемых +1 и -1.
Корреляция между изучаемыми величинами с вероятностью a
признается значимой, если T > Ta . Значения Ta приведены в табл. 5.4.
Таблица 5.4
Критические значения Ta критерия Кокс–Стюарта
( a – доверительная вероятность)
a a a a
n¢ n¢ n¢ n¢
0,95 0,99 0,95 0,99 0,95 0,99 0,95 0,99

70
6 6 – 12 8 10 18 10 12 24 12 14
7 7 – 13 9 11 19 11 13 25 11 15
8 8 8 14 10 12 20 10 14 26 12 14
9 7 9 15 9 11 21 11 13
10 8 10 16 10 12 22 12 14
11 9 11 17 9 13 23 11 15
Эффективность этого критерия по сравнению с классическим
корреляционным » 50%, т.е. для обеспечения одинаковых статистических
характеристик при проверке гипотез рассматриваемый критерий требует в 2
раза большего объема выборки.

Пример 5.4. Для ряда пар случайных величин


( xi , yi ) : (1, 51), (19, 52), (2, 48), (19, 14), (5, 51), (17, 14), (8, 49),
(10, 50), (13, 33), (51, 16), (20, 42), (22, 31), (48, 19), (47, 21),
(26, 41), (26, 53), (30, 58), (31, 43), (46, 21), (45, 1), (42, 11),
(33, 43), (33, 51), (35, 47), (36, 30), (40, 19), (41, 32), (44, 31)
установить наличие корреляции «быстрыми» критериями Кенуя и Кокс–
Стюарта.
Ранжируем величины xi по возрастанию и получаем совместный ряд:
xi yi xi yi xi yi xi yi xi yi xi yi xi yi
1 51 10 50 19 14 26 53 33 51 41 32 46 21
2 48 13 33 20 42 30 58 35 47 42 11 47 21
5 51 17 14 22 31 31 43 36 30 44 31 48 19
8 49 19 52 26 41 33 43 40 19 45 1 51 16
Используем критерия Кенуя. Разбиваем ряд yi на 4 подвыборки:
y1 : 51 48 51 49 50 33 14
y2 : 52 14 42 31 41 53 58
y3 : 43 43 51 47 30 19 32
y4 : 11 31 1 21 21 19 16
Имеем
ymin1= 14; y max1= 51; y min 2= 14; ymax 2= 58; ymin3= 19; y max3= 51;
ymin 4= 1; y max4= 31; max ymini= 19 ; min ymaxi= 31 .
1£i £ 4 1£i £ 4

Далее сравнением устанавливаем количество значений, меньших чем


- +
max ymini = 19 ( n = 5) , и больших чем min ymaxi = 31 ( n = 16) .
- +
Тогда статистика критерия равна T = n + n = 21.
Из табл. 5.3 для a =0,95 и k =4 находим T0,95 = 27 .

71
Так как T = 21 < T0,95 = 27 , корреляция с достоверностью a =0,95
признается незначимой.
Используем теперь критерий Кокс–Стюарта.
Имеем n =28. Выделим 28/3 » 9 первых наблюдений yi и 9 последних
наблюдений. Сравнивая их попарно, получаем последовательность
+1, +1, +1, +1, +1, +1, –1, +1, –1
и T = 5 . Из табл. 5.4 находим для n¢ = 9 и a =0,95: T0,95 = 7 .
Так как T = 5 < T0,95 = 7 , корреляцию следует признать незначимой на
уровне значимости 0,05.

5.2.4. Знаковый корреляционный критерий Нелсона


Критерий, предположенный Нелсоном, позволяет установить наличие
корреляции, непрерывно анализируя совместное поведение пар ( xi , yi ) по
мере их появления в эксперименте (в процессе). Критерий основан на числе
знаков последовательного изменения величин пар ( xi , yi ) .
Если xi > xi -1 , yi > yi -1 или xi < xi -1 , yi < yi -1 , то паре ( xi , yi )
приписывается знак +, в ином случае знак –. Другими словами, если значения
пар ( xi , yi ) изменились в одном направлении, то это отбражается знаком +, в
разных направлениях – знаком –. Если в паре одно или оба значения ( xi , yi )
не изменились, то этой паре приписывается значение 0. Статистикой
критерия является наименьшее количество S знаков одного вида (+ или –).
Корреляция признается значимой при S > S a ( S a – критическое значение,
приведенное в табл.5.6, n – число анализируемых знаков).
Таблица 5.6
Критические значения S a знакового
критерия корреляции Нелсона ( a – доверительная вероятность)
a a a
n n n
0,95 0,99 0,95 0,99 0,95 0,99
11 2 1 24 7 6 37 12 11
12 2 2 25 7 7 38 13 12
13 3 2 26 8 7 39 13 12
14 3 2 27 8 7 40 14 13
15 3 3 28 9 8 50 18 17
16 4 3 29 9 8 55 20 19
17 4 3 30 9 9 60 22 21
18 5 4 31 10 9 65 25 23
19 5 4 32 10 9 70 27 25
20 5 5 33 11 10 75 29 28
21 6 5 34 11 10 80 31 30
22 6 5 35 12 11 85 34 32

72
23 7 6 36 12 11 90 36 34

При n > 90 сумма S распределена асимптотически нормально и


n 11n - 2
S a» + u1-a .
2 36
Эффективность этого метода » 50% от классического. Однако основные
его достоинства – простота и возможность анализировать корреляцию
непрерывно (по мере поступления данных) делает его весьма
привлекательным для практического применения.
Пример 5.5. Проверить гипотезу корреляции по данным примера 5.2.4
критерием Нелсона при доверительной вероятности a = 0,95 .
Введем данные анализа появления пар в таблицу:

i xi yi Знак i Знак i xi yi Знак i xi yi Знак


xi yi
1 1 51 8 10 50 + 15 26 41 – 22 33 43 –
2 19 52 + 9 13 33 – 16 26 53 0 23 33 51 0
3 2 48 + 10 51 16 – 17 30 58 + 24 35 47 –
4 19 14 – 11 20 42 – 18 31 43 – 25 36 30 –
5 5 51 – 12 22 31 – 19 46 21 – 26 40 19 –
6 17 14 – 13 48 19 – 20 45 1 + 27 41 32 +
7 8 49 – 14 47 21 – 21 42 11 – 28 44 31 –
Из таблицы видим, что наименьшее количество знаков одного вида (в
нашем случае +) равно S . Критическое значение их табл. 5.5 для a = 0,95 и
общего количества знаков любого вида (в нашем случае оно равно 25, в том
числе 6 плюсов и 19 минусов) равно S 0,95 = 7 .
Так как S =< S0,95 = 7 , корреляция признается незначимой.
Для нормальной аппроксимации имеем
25 11× 25 - 2 25
S 0,95 = + u0,05 × = - 1,645 × 7,583 = 7,97 ,
2 36 2
что близко к табличному значению S 0,95 = 7 .

5.2.5. Квадрантный критерий


Рассматривается последовательность случайных величин x и y с
выборочными медианами ~x и~y . Введем обозначения
ì 1, если xi > ~
x и yi > ~
y;
S1 = í
î0 в остальных случаях;

73
ì1 / 2, если xi = ~
x и yi > ~
y;
S2 = í
î 0 в остальных случаях;
ìï 1
, если xi > ~
x и yi = ~y ;
S3 = í 2
ïî 0 в остальных случаях;
ìï 1
, если xi = ~
x и yi = ~
y;
S4 = í 4
ïî 0 в остальных случаях.
Статистика S = S1 + S 2 + S3 + S 4 может быть использована для оценки
корреляции между случайными величинами x и y при n четко очевидно, что
S = S1 ). Критерий называется квадрантным, так как статистика S основана
на числе наблюдений в квадрантах, на которые плоскость xy делится
прямыми x = ~ x и y=~ y.
Гипотеза о наличии корреляции отклоняется, если S1 (a) < S < S 2 (a)
(критические значения S1 (a) и S 2 (a) приведены в табл. 5.6).
Таблица 5.6
Критические значения S1 (a) и S 2 (a) квадрантного
критерия корреляции ( a – доверительная вероятность)
a a
n 0,95 0,99 n 0,95 0,99
S1 S2 S1 S2 S1 S2 S1 S2
8÷9 0 4 – – 74÷74 13 24 12 25
10÷11 0 5 0 5 76÷77 14 24 12 26
12÷13 0 6 0 6 78÷79 14 25 13 26
14÷15 1 6 0 7 80÷81 15 25 13 27
16÷17 1 7 0 8 82÷83 15 26 14 27
18÷19 1 8 1 8 84÷85 16 26 14 28
20÷21 2 8 1 9 86÷87 16 27 15 28
22÷23 2 9 2 9 88÷89 16 28 15 29
24÷25 3 9 2 10 90÷91 17 28 15 30
26÷27 3 10 2 11 92÷93 17 29 16 30
28÷29 3 11 3 11 94÷95 18 29 16 31
30÷31 4 11 3 12 96÷97 18 30 17 31
32÷33 4 12 3 13 98÷99 19 30 17 32
34÷35 5 12 4 13 100÷101 19 31 18 32
36÷37 5 13 4 14 110÷111 21 34 20 35
38÷39 6 13 5 14 120÷121 24 36 22 38
40÷41 6 14 5 15 130÷131 26 39 24 41
42÷43 6 15 5 16 140÷141 28 42 26 44

74
44÷45 7 15 6 16 150÷151 31 44 29 46
46÷47 7 16 6 17 160÷161 33 47 31 49
48÷49 8 16 7 17 170÷171 35 50 33 52
50÷51 8 17 7 18 180÷181 37 53 35 55
52÷53 8 18 7 19 200÷201 42 58 40 60
54÷55 9 18 8 19 220÷221 47 63 44 66
56÷57 9 19 8 20 240÷241 51 69 49 71
58÷59 10 19 9 20 260÷261 56 74 54 76
60÷61 10 20 9 21 280÷281 61 79 58 82
62÷63 11 20 9 22 300÷301 66 84 63 87
64÷65 11 21 10 22 320÷321 70 90 67 93
66÷67 12 21 10 23 340÷341 75 95 72 98
68÷69 12 22 11 23 360÷361 80 100 77 103
70÷71 12 23 11 24 380÷381 84 106 81 109
72÷73 13 23 12 24 400 89 111 86 114
При n > 100 может быть использована аппроксимация
ìn æ 1 ö
ï çç1 + u1+ α ÷ при n = 2k ;
ï4 è n - 1 2 ÷ø
S(a) = í
ï n æç1 + n u ö÷ при n = 2k - 1.
ï4 ç n - 1
1+ α ÷
î è 2 ø

Гипотеза наличия корреляции в этом случае отклоняется с


достоверностью a , если S < S (a) ( ug – g -квантиль стандартного
нормального распределения). Критерий обладает эффективностью » 41% от
классического корреляционного критерия, однако он очень прост для
вычислений.
Напомним, что медиана упорядоченного ряда z1 £ z 2 £ ... £ z n
определяется соотношением
ì z n +1 при n = 2k - 1;
ïï 2
~
z = í1 æ ö
ï çç z n + z n + 2 ÷÷ при n = 2k .
ïî 2 è 2 2 ø

Несколько иная версия квадрантного критерия – критерий Эландта. Его


статистикой при n четном является
n ì1 при ( xi - ~
x )( yi - ~
y ) > 0;
U = åUi , Ui = í ~ ~
i =1 î0 при ( xi - x )( yi - y ) £ 0.
При справедливости гипотезы о наличии корреляции

75
n 2
1 2æ iö
å* çç C n ÷÷ .
*
P (U ³ U ) = n
U è 2ø
C n2 i=
2
*
Если P (U ³ U ) > a , то с достоверностью a наличие корреляции
*
отклоняется (U – выборочное значение статистики U ).
Пример 5.6. Проверить гипотезу корреляции для данных примера 5.2.4
квадрантным критерием при доверительной вероятности a = 0,95 .
Для упорядоченного ряда значений
xi : 1 2 5 8 10 13 17 19 19 20 22 26 26 30
31 33 33 35 36 40 41 42 44 45 46 47 48 51
1 30 + 31
имеем медиану ~
x = × ( x14 + x15 ) = = 30,5.
2 2
Для упорядоченного ряда
yi : 1 11 14 16 19 19 21 21 30 31 32 33
41 42 43 43 48 49 50 51 51 52 53 58
( y14 + y15 ) 33 + 41
имеем ~
y= = = 37. Далее находим количество пар, для
2 2
которых xi > x и yi > y ; xi = ~
~ ~ x и yi > ~ y ; xi > ~x и yi = ~
y ; xi = ~
x и yi = ~y :
соответственно S1 = 4 , S 2 = 0 , S 3 = 0 , S 4 = 0 . Тогда S = S1 = 4 . Из табл. 5.6
для n = 28 и a = 0,95 имеем S1 (0,95) = 3 и S 2 (0,95) = 11 .
Так как S1 (0,95) = 3 < S = 4 < S 2 (0,95) = 11 , с достоверностью a = 0,95
наличие корреляции отклоняется. Используем теперь аппроксимацию
28 æ 1 ö æ 1,96 ö
S (0,95) = × ç1 + × u0,975 ÷ = 7 × ç1 + ÷ = 9,6 .
4 è 27 ø è 27 ø
Так как S = 4 < S (0,95) = 9,6 , то в этом случае наличие корреляции
отклоняется. Применим теперь критерий Эландта. Имеем последовательность
значений
U i : 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.
*
Тогда получаем U = å U i = 4 . Вычисляем далее
2 2 3 2 14 2
1 14
i 2 (C14 ) + (C14 ) + ... + (C14 )
P (U ³ 4) = 14
×å (C14 ) = 14
=
C28 i = 2 C28
1 2 2 2 2 2 2
= × (91 + 364 + 1001 + ... + 91 +14 + 1 ) = 0,999.
40116600
Так как P (U ³ 4) = 0,999 > a = 0,95 , гипотеза корреляции отклоняется.

76
5.2.6. Угловой критерий Олмстеда–Тьюки
Сущность критерия сводится к следующему. Двумерная диаграмма
( x, y ) сначала делится вертикальной прямой x = ~ x на две части и
горизонтальной прямой y = ~ x, ~
y на две части ( ~ y – медианы).
Если n – нечетное число, то медианы проходят через одну из точек
( xi , yi ) , которую следует исключить из рассмотрения. В результате получаем
четыре квадранта. Квадрантам, для которых ( xi - ~ x )( y i - ~
y ) > 0 (правый
верхний и левый нижний), приписываем знак +, а квадрантам, для которых
( xi - ~x ) ( yi - ~
y ) < 0 (левый верхний и правый нижний) – знак –.
Затем, двигаясь слева направо (от xmin к xmax ), подсчитываем
количество встречающихся подряд точек a1 , для которых yi > ~ y ( yi < ~ y ) . По
аналогии, двигаясь справа налево (от xmax к xmin ), подсчитываем количество
встречающихся подряд точек a 2 , для которых yi < ~ y ( yi > ~ y ) . Затем,
двигаясь сверху вниз (от ymax к ymin ), посчитываем количество
встречающихся подряд точек a3 , для которых xi < ~ x ( xi > ~ x ) , и, наконец,
двигаясь снизу вверх (от ymin к ymax ), посчитываем количество
встречающихся подряд точек a 4 , для которых xi > ~ x ( xi < ~ x ) . Знаки
значениям a1 , a 2 , a3 , a 4 присваиваются в зависимости от квадранта, в
котором располагаются отобранные точки.
Статистикой критерия является абсолютная сумма
4
Q= å ai ,
i =1

Критические значения которой приведены в табл. 5.7.


Таблица 5.7
Критические значения Qa угловой статистики Олмстеда–Тьюки
( a – доверительная вероятность)
a 0,90 0,95 0,99 0,999
Qa 9 11 14÷15 18÷21
Меньшая величина Qa применяется для выборок большого объема,
большая величина – для выборок малого объема.
При Q > Qa наличие корреляции признается значимым с вероятностью
a . Если Q > 2n при n £ 6 , то Олмстеда–Тьюки пользоваться не
рекомендуется.
Критерий обладает низкой эффективностью ( » 25% по сравнению с
классическими оценками) и рекомендуется к применению при больших

77
объемах выборок ( n > 50 ). При n > 50 вероятность того, что Q > Qa
оценивается по формуле
3 2
9Q + 9Q + 168Q + 208
a = 1- Q
.
2162 × 2
Пример 5.7. Проверить наличие корреляции между исследуемыми
данными критерием Олмстеда–Тьюки при доверительной вероятности
a = 0,95 в условиях примера 5.4.
В нашем случае ~ x = 30,5 и ~ y = 37 . Движемся слева направо (от xmin = 1
к xmax = 51) и подсчитываем количество встречающихся подряд точек
( xi , yi ) , для которых yi < ~y . Видим, что таких точек a1 =5 – это точки (1, 51),
(2, 48), (5, 51), (8, 49), (10, 50). Все эти точки расположены в левом верхнем
квадранте (так как xi < ~ x и yi > ~y ), значение a1 должно учитываться со
знаком «–».
Движемся теперь справа налево (от xmax = 51 к xmin = 1) и
подсчитываем количество встречающихся подряд точек, для которых yi < ~ y,
их количество a2 = 10 – это точки (51, 16), (48, 19), (47, 21), (46, 21), (45, 1),
(44, 31), (42, 11), (41, 32), (40, 19), (36, 30).
Так как все эти точки расположены в правом нижнем квадранте ( xi > ~ x
и yi < ~ y ), то сумма a2 = 10 должна учитываться со знаком –.
Далее движемся сверху вниз (от ymax =58 к ymin =1) и посчитываем
количество встречающихся подряд точек a3 , для которых xi < ~ x : это точки
(30, 58), (26, 53), (19, 52), (1, 51). Так как эти точки находятся в левом верхнем
квадранте, то значение a3 =4 учитывается со знаком –.
И, наконец, движемся снизу вверх (от ymin =1 к ymax =58) и
посчитываем количество встречающихся подряд точек, для которых xi > ~ x,
их a 4 =2. Это точки (45, 1), (42, 11). Все они располагаются в правом нижнем
квадранте, и поэтому a 4 =2 также учитывается со знаком –.
Окончательно имеем Q = a1 + a2 + a3 + a4 = - 5 - 10 - 4 - 2 = 21.
Легко видеть, что критерий приводит к принятию гипотезы о наличии
корреляции, так как Q = 21 > Q0,95 = 11 . Однако не следует этот вывод
считать достоверным, так как для принятия решения критерием Олмстеда–
Тьюки рекомендуется использовать выборки объема n > 50 ¸ 100 в силу
малой эффективности критерия. Здесь мы рассмотрели пример только для
демонстрации вычислительной техники критерия.
Теперь вычислим вероятность

78
3 2
9 × 21 + 9 × 21 + 168 × 21 + 208
a = 1- 21
0,9998 .
216 × 2
Так как a= 0,9998 > 0,95 , гипотеза корреляции принимается
(комментарий см. выше).

5.2.7. Приближенный критерий Шахани


В совокупности значений пар ( xi , yi ) выделим порядковые статистики
x[ 0,3n ] , x[ 0,7 n ] , y[ 0,3n ] , y[ 0,7 n ] , т.е. значения x и y , которые в упорядоченных
по возрастанию рядах xi и yi занимают места с номерами [0, 3n ] и [0, 7 n] .
Далее обозначим количество наблюдений, попавших в угол, для
которого xi < x[ 0,3n ] , y > y[ 0,7 n ] , через a1 ; количество наблюдений, попавших
в угол xi > x[ 0,7 n ] , y > y[ 0,7 n ] , через a 2 ; количество наблюдений, попавших в
угол xi > x[ 0,7 n ] , yi < y[ 0,3n ] , через a3 ; количество наблюдений в уголе
xi < x[ 0,3n ] , yi < y[ 0,3n ] , через a4 . Статистика критерия равна
q= a1 + a3 - a2 - a4 . Критическое значение q -статистики равно
1
ì 4
ü2
q=
a íå ai ý u1+ a , где ug – g -квантиль стандартного нормального
îi 1 þ 2
=
распределения.
При q > qa корреляция между исследуемыми величинами признается
значимой. Эффективность критерия по сравнению с классическим
коэффициентом корреляции » 0,67.

Пример 5.8. Проверить гипотезу корреляции для данных примера 5.4


критерием Шахани.
Имеем x[ 0,3n ] = x[ 0,3×28] = x9 = 19 ([a ] – ближайшее большее целое к a ).
Далее x[ 0,7 n ] = x20 = 40 ; y[ 0,3×n ] = y9 = 21 ; y[ 0,7 n ] = y20 = 48 .
Имеем в угле xi < 19 , yi > 48 : a1 = 5 ; в угле xi > 40 , yi > 48 : a2 = 0 ; в
угле xi > 40 , yi < 21 : a3 = 4 ; в угле xi < 19 , yi < 21 : a4 = 1 точку. Тогда

q = 5 + 4 - 0 - 1 = 8 ; q0,95 = 5 + 4 + 0 + 1u0,975 = 3,16 ×1,96 = 6,2.


Так как q = 8 > q0,95 = 6,2 корреляция признается значимой.

5.2.8. Сериальный критерий Шведа–Эйзенхарта


Совокупность n пар ( xi , yi ) разбивается на две равные совокупности,
y и yi < ~y ( ~
отвечающие условиям yi > ~ y – медиана ряда yi , при n нечетном

79
значение yi = ~ y исключается). Затем наблюдения ранжируются по
возрастающим значениям xi . Для последовательных пар значений ( xi , yi ) с
yi > ~
y – символ b . В результате получим последовательность элементов вида
a, b, b, a, a, a, b, .... Последовательность элементов одного вида, ограниченная
с двух сторон элементами другого вида (замыкающие интервал
последовательности одного вида ограничены с одной стороны
последовательностями другого вида), называется серией. Количество m
серий является статистикой рассматриваемого критерия.
Корреляция признается значимой, если m £ ma (критические значения
ma приведены в табл.5.8).
Таблица 5.8
Критические значения ma критерия Шведа–Эйзенхарта
( a – доверительная вероятность)
a a a
n n n
0,95 0,99 0,95 0,99 0,95 0,99
8÷9 2 – 20÷21 6 5 32÷33 11 10
10÷11 3 2 22÷23 7 6 34÷35 12 10
12÷13 3 2 24÷25 8 7 36÷37 13 11
14÷15 4 3 26÷27 9 7 38÷39 14 12
16÷17 5 4 28÷29 10 8 40÷41 15 13
18÷19 6 4 30÷31 11 9
При четных n > 40 можно использовать приближения
én +1 ù én +1 ù
m0,95 = ê - 0,82 n - 1ú ; m0,99 = ê - 1,16 n - 1ú ,
ë 2 û ë 2 û
где [z ] – ближайшее целое к z .
Пример 5.9. Проверить гипотезу корреляции для данных примера 5.4
критерием Шведа–Эйзенхарта.
В нашем случае ~ y = 37 . Будем обозначать пары ( xi , yi ) , в которых
yi > y = 37 , символом a , а пары в которых yi < ~
~ y = 37 , символом b .
Располагая пары в порядке увеличения значений xi , получаем
последовательность
aaaaa , bb, a, b, a, b, aaaaaaa , bbbbbbbbb .
Видим, что в полученной последовательности содержится m = 8 серий
(4 серии элементов a и 4 серии элементов b ). Из табл. 5.8 для n = 28 и
a = 0,95 находим m0,95 = 10 . Так как m = 8 < m0,95 = 10 , корреляция
é 28 + 1 ù
признается значимой. Приближение m0,95 = ê - 0,82 × 28 - 1ú = 10 дает
ë 2 û
такой же результат.

80
5.2.9. Критерий автокорреляции Кенуя
Критерий позволяет установить наличие корреляции в ряду пар
значений ( xi , yi ) , расположенных по возрастанию одной из величин
(например, x ). Под автокорреляцией понимается наличие зависимости
значений переменной величины от порядкового номера ее расположения в
ряду данных. Проверке такой зависимости и служит критерий Кенуя.
Критерий строится следующим образом. Все ( n - 1) пар значений
располагаются в порядке возрастания xi от xmin до xmax и разбиваются на
две группы, с yi > ~ y и yi < ~y ( ~
y – медиана). Затем последовательно
рассматриваем пары, для которых справедливо
( xi , yi > ~y ) , ( xi +1 , yi +1 > ~
y ) или ( xi , yi < ~
y ) , ( xi +1 , yi +1 < ~
y).
Другими словами, определяется количество последовательных пар
точек, находящихся по какую либо одну сторону от медианы. Количество
таких пар N является статистикой критерия. Если N > na , то корреляция
признается значимой. Критические значения na приведены в табл. 5.9.
Таблица 5.9
Критические значения N a критерия автокорреляции Кенуя
( a – доверительная вероятность)
a a a
n n n
0,95 0,99 0,95 0,99 0,95 0,99
8÷9 6 – 40–41 25 27 72÷73 43 46
10÷11 7 8 42÷43 26 28 74÷75 44 47
12÷13 9 10 44÷45 27 30 76÷77 45 48
14÷15 10 11 46÷47 29 31 78÷79 46 49
16÷17 11 12 48÷49 30 32 80÷81 47 50
18÷19 12 14 50÷51 31 33 82÷83 48 51
20÷21 14 15 52÷53 32 34 84÷85 49 53
22÷23 15 16 54÷55 33 35 86÷87 51 54
24÷25 16 17 56÷57 34 37 88÷89 52 55
26÷27 17 19 58÷59 35 38 90÷91 53 56
28÷29 18 20 60÷61 36 39 92÷93 54 57
30÷31 19 21 62÷63 37 40 94÷95 55 58
32÷33 21 22 64÷65 39 41 96÷97 56 59
34÷35 22 24 66÷67 40 42 98÷99 57 60
36÷37 23 25 68÷69 41 44 100÷101 58 62
38÷39 24 26 70÷71 42 45

Пример 5.10. Проверить наличие автокорреляции для данных примера


5.4. критерием Кенуя.

81
Для ~y = 37 и упорядоченной последовательности x1 £ x2 £ ... £ xn
имеем последовательность пар точек, находящихся по одну сторону от
медианы:
(1, 51), (2, 48), (26,41), (26, 53), (33, 51), (35, 47), (44, 31), (45, 1),
(2, 48), (5, 51), (26, 53), (30, 58), (36, 30), (40, 19), (45, 1), (46, 21),
(5, 51), (8, 49), (30, 58), (31, 43), (40, 19), (41, 32), (46, 21), (47, 21),
(8, 49), (10, 50), (31, 43), (33, 43), (41, 32), (42, 11), (47, 21), (48, 19),
(13, 33), (17, 14), (33, 43), (33, 51), (42, 11), (44, 31), (48, 19), (52, 16).
Всего таких пар точек N = 20 . В табл. 5.9 для n = 28 находим
n0,95 = 18 . Так как N = 20 > n0,95 = 18 , корреляция признается значимой.

5.2.10. Критерий Блума–Кифера–Розенблатта


Статистика критерия, предложенного Блумом, Кифером и
Розенблаттом, строится следующим образом. Имеется совокупность точек
( xi , yi ) , i = 1, ..., n . Через точку с координатами ( xi , yi ) проводятся прямые,
параллельные осям координат ( x, y ) , и подсчитывается количество точек
m1 (i) находящихся в первом квадранте (для которого x j > xi и y j > yi ),
m2 (i ) – находящихся во втором квадранте (для которого x j < xi и y j > yi ),
m3 (i) – в третьем квадранте (для которого x j < xi и y j < yi ), m4 (i ) – в
четвертом квадранте (для которого x j > xi и y j < yi ), Статистикой критерия
является величина
1 n
å [m1 (i)m4 (i) - m2 (i)m3 (i )]
2
B= 3
.
n i =1

Критические B (a) при n ® ¥


значения ( n > 30) равны
B (0,90)= 0,0469; B (0,95)= 0,0584; B (0,99)= 0,0868 . При B > B (a)
корреляция признается значимой с вероятностью a .
Пример 5.11. Для совокупности n = 10 пар величин ( xi , yi ) : (1, 12), (2,
17), (4, 8), (12, 14), (7, 1), (2, 4), (1, 13), (13, 6), (4, 1), (10, 9) установить
наличие корреляции критерием Блума–Кифера–Розенблатта при
доверительной вероятности a = 0,95 .
Для пар ( xi , yi ) имеем следующие значения m1 (i) , m2 (i ) , m3 (i) и
m4 (i ) :
i xi yi m1 (i) m2 (i ) m3 (i) m4 (i )
1 1 12 0 2 0 6
2 2 17 0 0 2 6
3 4 8 3 3 0 2
4 12 14 1 0 8 1
5 7 1 6 3 0 0

82
6 2 4 2 4 0 2
7 1 13 0 2 0 4
8 13 6 6 0 3 0
9 4 1 4 3 0 0
10 10 9 3 1 4 1
Статистика критерия равна
1 10
B= 3
× å [m1 (i ) × m4 (i ) - m2 (i) × m3 (i )]2 =
10 i =1
-3
[ 2 2 2
= 10 × (0 × 6 - 2 × 0) + (0 × 6 - 0 × 2) + ... + (3 ×1 - 1× 4) = 0,054 . ]
Так как B = 0,054 < B (0,95) = 0,0584 , с вероятностью a = 0,95
гипотеза о наличии корреляции между x и y отклоняется.

5.3. Ранговая корреляция


Понимая под рангом выборочного значения случайной величины его
номер в упорядоченной по возрастанию выборке, можно рассматривать для
оценки силы связи случайных величин не их численные значения, а
соответствующие им ранги.

5.3.1. Коэффициент ранговой корреляции t Кендалла


Предположим, имеется выборка пар случайных величин ( x, y ) объема
*
n , которым соответствуют последовательности рангов R (для ряда xi ) и R
(для ряда y j ). Расположим ряд значений xi в порядке возрастания величины:
x1 £ x2 £ ... £ xn . Тогда последовательность рангов R будет представлять
собой последовательность натуральных чисел 1, 2, …, n . Значения y ,
соответствующие значениям x , образуют в этом случае некоторую
*
последовательность рангов R .
Рассмотрим несколько способов оценки корреляции величин x и y ,
* *
предложенных Кендаллом. Назовем пару рангов R j и Rn ( j < n ) инверсией,
* * *
если в последовательности рангов R наблюдаем R j > Rn ( j = 1, ..., n - 1).
Обозначим через Q число таких пар. Тогда коэффициент корреляции
предложенный Кендаллом, равен
4Q
t = 1- .
n( n - 1)
Второй способ вычисления t заключается в следующем. В
*
последовательности рангов R подсчитываем количество членов,

83
* *
расположенных справа от R j = 1. Затем вычеркиваем R j = 1 и подсчитываем
*
число членов последовательности, расположенных справа от R j = 2 и т.д.
Обозначим сумму чисел, полученных с помощью указанной процедуры, через
K . Тогда t вычисляем по формуле
4K
t= -1.
n(n - 1)
Иногда используются эквивалентные формы записи t :
4S n( n - 1) n(n - 1)
t= , где S = K - Q = 2K - = - 2Q .
n(n - 1) 2 2
Коэффициент t принимает значения от –1 до +1. Равенство
t = 1 указывает на строгую линейную корреляцию. При n ³ 10 распределения
t , S , и K удовлетворительно аппроксимирутся нормальным распределением
с параметрами, соответственно:
2(2n + 15)
M ( t) = 0 ; D( t) = ;
9n( n + 1)
n(n - 1)(2n + 5)
M(S ) = 0 ; D( S ) = ;
18
n(n - 1) n(n - 1)(2n + 5)
M( K ) = ; D( K ) = .
4 72
Следовательно, при n ³ 10 наличие корреляции признается значимым с
достоверностью a , если выполняется любое из следующих неравенств:
1 1
ì 2(2n + 5) ü 2 ì n(n - 1)(2n + 5) ü 2
t > t a = ua = í ý ; S > S a = ua = í ý ;
î 9 n ( n - 1) þ î 18 þ
1
n(n - 1) ì n( n - 1)(2n + 5) ü 2
K ³ Ka = + ua í ý ,
4 î 72 þ
где ug – g -квантиль стандартного нормального распределения.
Если среди значений x и y есть совпадающие значения (т.е. xi = xn
при i ¹ v или y j = yn при j ¹ v ), то им приписываются средние ранги
(например, если значения 3 и 4-го членов ранжированной выборки
совпадают, то им приписывается одинаковый средний ранг (3+4):2=3,5). Если
наблюдается q связей в ряду x и f связей в ряду y , то оценка t
корректируется следующим образом:

84
S
t= ,
1 1
n(n - 1) - T n( n - 1) - U
2 2
1 q 1 f
где T = å ti (ti - 1) ; U = å ui (ui - 1) ; ti (ui ) – длина i -й связи в ряду
2 i =1 2 i =1
x( y) .
В случае выборок из нормального распределения коэффициент t
может быть использован для быстрой оценки обычного коэффициента
tp
корреляции r по формуле r = sin .
2
Пример 5.12. Имеется последовательность пар ( xi , yi ) :
xi : 2 4 7 1 5 9 11 12 17 8
yi : 6 3 5 7 1 2 4 14 18 21
Используя коэффициент корреляции Кендалла, установить наличие
корреляционной зависимости между x и y с достоверностью a = 0,95 .
Упорядочим ряд значений xi по возрастанию:
xi :
1 2 4 5 7 8 9 11 12 17
yj :
7 6 3 1 5 21 2 4 14 18
Заменяя значения xi и y j их рангами, получаем последовательность
рангов:
Ri : 1 2 3 4 5 6 7 8 9 10
*
Rj : 7 6 3 1 5 10 2 4 8 9
* * *
Далее находим для R1 = 7 число инверсий (когда R1 > Rv , v > 1 ) равно
* * * *
6, для R2 = 6 ® 5 , для R3 = 3 ® 2 , для R4 = 1 ® 0 , для R5 = 5 ® 2 , для
* * * *
R6 = 10 ® 4 , для R7 = 2 ® 0 , для R8 = 4 ® 0 , для R9 = 8 ® 0 .
Таким образом, общее число инверсий равно для
=
Q 6 + 5 + 2 + 2 +=
4 19 .
4 ×19
Следовательно,=
t 1- = 0,155 .
10 × 9
Теперь рассмотрим второй способ оценки t . Для первоначальной
последовательности рангов
*
R j 7, 6, 3, 1, 5, 10, 2, 4, 8, 9
*
Определяем количество членов, находящихся справа от для R4 = 1–
*
получаем 6 членов. Теперь вычеркиваем R4 = 1 и получаем ряд

85
*
R j 7, 6, 3, 5, 10, 2, 4, 8, 9
* *
Справа от R6 = 2 находятся 3 члена. Вычеркиваем R6 = 2 и получаем
ряд
*
R j 7, 6, 3, 5, 10, 4, 8, 9
*
В котором справа от R3 = 3 находятся 5 членов. Далее, действуя по
аналогии, находим
* *
– в ряду R j :7, 6, 5, 10, 4, 8, 9 справа от R5 = 4 находятся 2 члена;
* *
– в ряду R j :7, 6, 5, 10, 8, 9 справа от R3 = 5 находятся 3 члена;
* *
– в ряду R j :7, 6, 10, 8, 9 справа от R2 = 6 находятся 3 члена;
* *
– в ряду R j :7, 10, 8, 9 справа от R1 = 7 находятся 3 члена;
* *
– в ряду R j :10, 8, 9 справа от R2 = 8 находится 1 член;
* *
– в ряду R j :10, 9 справа от R2 = 9 находятся 0 членов.
Окончательно имеем K =6+3+5+2+3+3+3+1+0=26.
4 × 26
Коэффициент t равен t = - 1 = 0,155 что, и следовало ожидать.
10 × 9
2×S 2×7
Далее S = K - Q = 26 - 19 = 7 и t = = = 0,155 .
n × (n - 1) 10 × 9
Для нормальной аппроксимации находим
2 × (2n + 5) 2 × 25
D( t) = = = 0,0617 ;
9n × ( n - 1) 9 ×10 × 9
n × ( n - 1) × ( 2n + 5) 10 × 9 × 25
D( S ) = = = 125 ;
18 18
n × ( n - 1) × ( 2n + 5) 10 × 9 × 25
D( K ) = = = 31,25 ;
72 72
n × (n - 1) 10 × 9
M(K ) = = = 22,5 .
4 4
Далее для u0,95 = 1,645 имеем

t0,95 = 1,645 × 0,0617 = 0,409 ;


S 0,95 = 1,645 × 125 = 18,39 ;
K 0,95 = 22,5 + 1,645 × 31,25 = 31,69 .

86
Так = t 0,155 < t=
как 0, 95 0,409 ; =S 7 < S=
0,95 18,39 ;
=
K 26 < K= 0, 95 31,69 , с вероятностью a = 0,95 можно утверждать об
отсутствии корреляции между x и y . Оценка обычного коэффициента
корреляции равна
p×t p × 0,155
r = sin = sin = 0,241.
2 2
5.3.2. Коэффициент корреляции r Спирмена
*
Рассматриваем последовательность рангов Ri (величин xi ) и R j
(величин y j ). Необходимости упорядочивать какую-либо совокупность
*
рядов xi и y j нет. Находим разность рангов d i = Ri - R j , соответствующую
паре ( xi , yi ) . Коэффициент корреляции Спирмена определяется формулой
n
2
6å d i
i= 1
r = 1- 2
.
n(n - 1)
Его значения находятся в интервале от –1 до +1 ( r = 0 указывает на
отсутствие корреляции). При n ³ 10 распределение r удовлетворительно
описывается нормальным распределением с параметрами M (r) = 0 и
1
D (r) = .
n -1
Иногда в качестве статистики для проверки значимости r используется
сумма квадратов отклонений рангов
n n
2 * 2
S = å d i = å ( Ri - Ri ) .
i =1 i =1

При n ³ 10 ее распределение также аппроксимируется нормальным


распределением с параметрами
2 2 2
n(n - 1) n ( n + 1) (n - 1)
M( S ) = ; D( S ) = .
6 36
Корреляция признается значимой при r > ra или S > S a , где ra и
S a – критические значения, равные при n ³ 10
2
1 n(n - 1) n( n + 1)
ra = u1+ a ; Sa = + ua n -1.
2
n -1 6 6

87
Более точная аппроксимация критических точек r предложена Иманом
и Коновером. В соответствии с их аппроксимацией используется статистика
r æç n - 2 ö÷
J= n -1 + критические значения которой равны
2 çè 1 - r ÷ø
2

1 1
J (a=
) ua + ta (n - 2) , где ua – a -квантиль стандартного нормального
2 2
распределения; ta – a -квантиль распределения Стьюдента с f = n - 2
степенями свободы. Если
æ1+ a ö æ1+ a ö
J ³ Jç ÷ или J £ - J ç ÷,
è 2 ø è 2 ø
то гипотеза о наличии корреляции принимается с вероятностью a .
Для выборки из нормальных распределений может быть получена
p
оценка для обычного коэффициента корреляции r = 2 sin r.
6
В заключение приведем ряд полезных соотношений, связывающих
между собой значения коэффициента корреляции t и r : неравенство
Дэниелса
3(n + 2) 2(n + 1)
-1 £ t- r ³ 1,
n-2 n-2
или при n ® ¥ : - 1 £ 3t - 2r £ 1 ;
неравенства Дарбина–Стюарта
3nt - ( n - 2) 1- t
при r ³ 0 : £ r £ 1- [(n - 1)(1 - t) + 4]
2( n + 1) 2(n + 1)
3 1 1 1 2
(при n ® ¥ t - £ r £ + t - t );
2 2 2 2
1 2 1 3 1
при t < 0 : t + t - £ r £ t + .
2 2 2 2
Из приведенных соотношений следует, что хотя коэффициенты t и r и
связаны между собой, но эта связь не столь элементарна. На практике чаще
всего, если значения обоих коэффициентов не слишком близки к единице, то
r » 1,5t .
У читателя может возникнуть вопрос: стоит ли пользоваться
коэффициентом t , если вычисление коэффициента r значительно проще?
Почему же тогда коэффициент t применяется на практике чаще? Это связано
с тем, что если необходимо учесть вновь поступившие значения случайных

88
величин, то r в отличие от t приходится рассчитывать заново по всем
выборочным значениям.
Пример 5.13. Используя данные примера 5.12 проверить наличие
корреляции с помощью коэффициента r Спирмена при доверительной
вероятности a = 0,95 .
Имеем последовательность рангов xi и yi :
Ri : 2, 3, 5, 1, 4, 7, 8, 9, 10, 6
*
Ri : 6, 3, 5, 7, 2, 2, 4, 8, 9, 10
Вычисляем
10
2 2 2 2
å ( Ri -Ri* )= (2 - 6) + (3 - 3) + ... + (6 - 10)= 120 ;
=i 1
6 ×120
=
r 1- = 0,273.
10 × 99
a 0,95 имеем u1+ a = u1+0,95 = u0,975 = 1,96 и
При =
2 2

1,96 10 × 99 1,645 ×10 ×11× 9


r0,95 = = 0,653 ; S 0,95 = + = 255,47.
9 6 6
Так как r= 0,273 < r0,95= 0,653 и S = 120 < S 0,95 = 255,47 ,
корреляция не значима. Рассмотрим теперь аппроксимацию Имана–Коновера.
Находим

r æ n-2 ö 0,273 æ 8 ö
J = × ç n -1 + ÷= ×ç 9 + ÷ = 0,811.
2 çè 1- r
2 ÷
ø 2 çè 1 - 0,273
2 ÷
ø
При u0,975 = 1,96 и t0,975 (8) = 2,306 имеем

æ1+ a ö 1,96 2,306


Jç ÷ = J (0,975) = + = 2,133 .
è 2 ø 2 2
Так как J = 0,811 < J (0,975) = 2,133 , гипотеза корреляции отклоняется.
Оценка обыкновенного коэффициента корреляции равна
p × 0,273
r = 2 × sin = 0,285 .
6
Легко убедиться теперь, что неравенства Дэниелса и Дарбина–Стюарта
выполняются:
3 × ( n + 2) 2 × ( n + 1)
-1 £ ×t- × r £ 1;
n-2 n-2

89
3 ×12 × 0,155 2 ×11× 0,273
-1 £ - = -0,0532 £ 1 ;
8 8
1- t
r £ 1- × [(n - 1)(1 - t) + 4] ;
2 × ( n + 1)
1 - 0,155
0,273 £ 1 - × [9 × (1 - 0,155) + 4] = 0,554 ;
2 ×11
3n × t - ( n - 2)
r³ ;
2 × (n + 1)
3 ×10 × 0,155 - 8
0,273 ³ = -0,152 .
2 ×11
5.3.3. Критерий Гёфтинга
Критерий Гёфтинга является ранговым аналогом критерия Блума–
Кифера–Розенблатта. Статистика критерия строится следующим образом:
значения xi и yi предварительно ранжируются, а затем заменяются их
*
рангами Ri и Ri соответственно.
Обозначим через Ci число пар выборок ( xv , yv ) , для которых
одновременно xv < xi и yv < yi :
n
Ci = å j( xv , xi )j( yv , yi ) , i = 1, ..., n,
v =1
v ¹i

ì1, при a < b;


ï
где j(a, b) = í1 / 2, при a = b;
ï0, при a < b.
î
Положим
n
* *
Q = å ( Ri - 1)( Ri - 2)( Ri - 1)( Ri - 2);
i =1
n n
*
K = å Ci ( Ri - 2)( Ri - 2) ; S = å Ci (Ci - 1) ;
i =1 i =1
Q - 2(n - 2) K + ( n - 2)(n - 3) S
D= .
n(n - 1)(n - 2)(n - 3)(n - 4)
Гипотеза корреляции принимается, если D ³ Da , где Da – критическое
значение, приведенной в табл.5.10.
Таблица 5.10
Критические значения Da критерия независимости Гёфтинга

90
( a – доверительаня вероятность)
n
a
5 6 7 8 9
0,90 0,3330 – 0,00635 0,00476 0,00403
0,95 – 0,01660 0,00992 0,00773 0,00635
0,99 – 0,03330 0,01900 0,01488 0,01217
При n ® ¥ может быть использовано предельное распределение для
критерия Блума–Кифера–Розенблатта B , исходя из того, что случайная
1
величина D+ имеет такое же распределение имеет такое же
36n
распределение, как и B .
Корреляция признается значимой:
1
– с вероятностью a = 0,90 , если D > 0,0469 + ;
36n
1
– с вероятностью a = 0,95 , если D > 0,0584 + ;
36n
1
– с вероятностью a = 0,99 , если D > 0,0868 + .
36n
Пример 5.14. Для выборочных пар данных
( xi , yi ) : (7, 3), (7, 2), (8, 3), (9, 4), (10, 5), (11, 6)
установить наличие корреляции критерием Гёфтинга при
доверительной вероятности a = 0,95 .
Находим
С1 = j( x2 , x1 ) × j( y2 , y1 ) + j( x3 , x1 ) × j( y3 , y1 ) + j( x4 , x1 ) × j( y4 , y1 ) +
= +j( x5 , x1 ) × j( y5 , y1 ) + j( x6 , x1 ) × j( y6 , y1 ) =
1 1
= 0× + 0× + 0×0 + 0×0 + 0×0 = 0 ;
2 2
С2 = j( x1 , x2 ) × j( y1 , y2 ) + j( x3 , x2 ) × j( y3 , y2 ) + j( x4 , x2 ) × j( y4 , y2 ) +
= +j( x5 , x2 ) × j( y5 , y2 ) + j( x6 , x2 ) × j( y6 , y2 ) =
1
= 0× + 0×0 + 0×0 + 0×0 + 0×0 = 0;
2
С3 = j( x1 , x3 ) × j( y1 , y3 ) + j( x2 , x3 ) × j( y2 , y3 ) + j( x4 , x3 ) × j( y4 , y3 ) +
= + j( x5 , x3 ) × j( y5 , y3 ) + j( x6 , x3 ) × j( y6 , y3 ) =
1
= 1 × + 1×1 + 0 × 0 + 0 × 0 + 0 × 0 = 1,5 .
2
Вычисляя дальше по аналогии, получаем C4 = 3 , C5 = 4 , C6 = 5 .
Теперь ранжируем ряд xi :

91
xi : 7 7 8 9 10 11
Ri : 1,5 1,5 3 4 5 6
и ряд yi :
yi : 3 2 3 4 5 6
*
2,5 1 2,5 4 5 6
Ri :
(одинаковым значениям присвоены средние ранги).
Далее находим
6
* *
Q = å ( Ri - 1) ×( Ri - 2) × ( Ri - 1) × ( Ri - 2) =
i =1
= (1,5 - 1) × (1,5 - 1) × (2,5 - 1) × (2,5 - 2) + ... +
+ (6 - 1) × (6 - 2) × (6 - 1) × (6 - 2) = 581,3125 ;
6
*
K = å Ci × ( Ri - 2) × ( Ri - 2) =
i =1
= 0 × (1,5 - 2) × ( 2,5 - 2) + ... + 5 × (6 - 2) × (6 - 2) = 128,75 ;
6
S = å Ci × (ci - 1) = 0 × ( -1) + 0 × (-1) + 1,5 × 0,5 + 3 × 2 + 4 × 3 + 5 × 4 = 38,75 ;
i =1
581,3125 - 2 × 4 ×128.25 + 4 × 3 × 38,75
D= = 0,0282 .
6 ×5× 4 ×3× 2
Из табл. 5.10 для n = 6 и a = 0,95 находим D0,95 = 0,0166 .
Так как D = 0,0282 > D0,95 = 0,0166 , корреляция между x и y должна
быть признана значимой.

5.3.4. Критерий Ширахатэ


Критерий Ширахатэ является аналогом критерия Спирмена,
асимптотически ему эквивалентен, но обладает большей эффективностью для
малых выборок.
Определим ранги случайных величин ( xi , yi ) , i = 1, ..., n , следующим
образом:

å {u ( xi - x j ) + u ( xi - y j )}; å {u ( yi - x j ) + u ( yi - y j )},
n n
Ri = Rn +i =
j= 1 j= 1

ì1 при x ³ 0,
где u (a ) = í
î0 при x < 0.
Если случайные величины xi и yi коррелируют, то будут
коррелировать и ранги Ri и Rn +i .
Статистикой критерия Ширахатэ является сумма

92
n
S = å Ri Rn +i .
i =1

Если бы мы определили ранги обычным способом:


n n
* *
Ri = å u ( xi - x j ) и Rn +i = å u ( yi - x j ) ,
j =1 j =1

n
* * *
то сумма S = å Ri Rn+i являлась бы статистикой Спирмена, уже
i= 1
рассмотренной ранее.
*
Статистика S и S асимптотически эквивалентны, но если значения
*
статистики S находятся в интервале
n(n + 1)(n + 2) * n( n + 1)(2n + 1)
£S £ ,
6 6
то статистика S ограничена интервалом
n(n + 1)(2n + 1) n(n + 1)(4n - 1)
£S£ .
3 3
2
n( n - 1) *
Таким образом, если размах статистики S равен , то размах
6
2
2n( n - 1)
статистики S есть , т.е. больше в 4 раза. Следовательно S -
3
критерий может дать больше информации, чем критерий, основанный на
*
статистике S .
При S1 (a) < S < S 2 (a ) корреляция признается незначимой
(критические значения S1 (a) и S 2 (a) приведены в табл. 5.11).
Таблица 5.11
Критические значения S a критерия Ширахатэ
Доверительная вероятность a n Доверительная вероятность a
n 0,90 0,95 0,90 0,95
S1 S2 S1 S2 S1 S2 S1 S2
4 62 96 61 97 10 911 1259 881 1289
5 116 175 114 181 12 1575 2125 1528 2173
6 199 195 194 302 14 2506 3314 2436 3386
7 313 456 302 468 16 3748 4877 3649 4977
8 467 666 450 683 18 5349 6863 5214 6999
9 664 932 642 955 20 7353 9311 7177 9501
Пример 5.15. Используя данные и условия примера 5.12, проверить

93
наличие корреляции с помощью критерия Ширахатэ.
Имеем данные ( xi , yi ) :
xi : 2 4 1 5 7 8 9 11 12 17;
yi : 6 3 7 1 5 21 2 4 14 18.
Для=
i 1 находим

R1 = å {n × ( x1 - x j ) + n × ( x1 - y j )} = n × ( x1 - x1 ) + n × ( x1 - y1 ) +
10

j =1
+ n × ( x1 - x2 ) + n × ( x1 - y2 ) + n × ( x1 - x3 ) + n × ( x1 - y3 ) + n × ( x1 - x4 ) +
+ n × ( x1 - y4 ) + ... + n × ( x1 - x1 0 + n × ( x1 - y1 0)) =
= 1 + 0 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 = 2.
Далее находим
R2 = 4 ; R3 = 7 ; R4 = 9 ; R5 = 12 ; R6 = 13 ; R7 = 14 ;
R8 = 15 ; R9 = 16 ; R10 = 18 ;

[ ]
10
R10+1 = R11 + å n × ( y1 - x j ) + n × ( y1 - y j ) =
j =1
= 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 1 + 0 + 1 + 0 + 0 + 0 + 0 = 12 ;
R12 = 10 ; R13 = 5 ; R14 = 2 ; R15 = 9 ; R16 = 20 ; R17 = 4 ;
R18 = 7 ; R19 = 17 ; R20 = 19 .
В результате получаем ряды:
Ri : 2 4 7 9 12 13 14 15 16 18;
Rn +i : 12 10 5 2 9 20 4 7 17 19.
Тогда
n
S= å Ri × Ri +1= 2 ×12 + 4 ×10 + 7 × 5 + 9 × 2 + 12 × 9 + 13 × 20 + 14 × 4 + 15 × 7 +
=i 1
+ 16 ×17 + 18 ×19= 1260 .
Из табл. 5.11 для n = 10 и a = 0,95 находим S1 = 881 и S 2 = 1289 .
Так как S1= 881 < S = 1260 < S 2 = 1289 , корреляция признается
незначимой.

5.3.5. Критерий корреляции Фишера–Йэйтса


Определяется формулой
n
å an ( Ri )an ( Ri* )
* i =1
r = n
,
2
å an (i )
i =1

94
где an (i) – математическое ожидание i -й порядковой статистики в
выборке объема n из стандартного нормального распределения.
*
Значения r заключены между –1 и +1. Наибольшей эффективностью
*
применение r обладает при исследовании зависимости между случайными
величинами, имеющими распределение, близкое к нормальному.
При n ³ 10 распределение статистики
n
* *
S = å an ( Ri )an ( Ri )
i =1
*
Стремится к нормальному со средним M ( S ) = 0 и дисперсией
2
* 1 ìn 2 ü
D( S ) = íå a n ( i ) ý .
n - 1 îi =1 þ
Корреляция признается значимой с достоверностью a при
* 1 n 2
S > S (a)u1+ a å a n (i ) .
2
n - 1 i =1
*
Здесь, как и ранее, Ri и Ri обозначают ранги величин xi и yi в
упорядоченных рядах x и y соответственно.
Для нахождения величин an (i) можно пользоваться либо
специальными таблицами, либо аппроксимацией
ìæ 3ö
0,14
æ 3ö ü
0,14
ïïç i - ÷ ç i- ÷ ï
a n (i) » 4,91 × íç 8 ÷ - ç1 - 8 ÷ ï.
1 1 ý
ç
ïç n + ÷÷ ç ÷
ç n+ ÷ ï
ïîè 4ø è 4 ø ïþ
Следует учитывать соотношение an (i ) = an (n + 1 - i ) , что значительно
снижает необходимый объем вычислений.
Пример 5.16. Используя данные примера 5.2.12, проверить начие
корреляции с помощью критерия Фишера–Йэйтса.
Для наших данных
xi : 1 2 4 5 7 8 9 11 12 17
yi : 7 6 3 1 5 21 2 4 14 18
последовательность рангов будет иметь вид:
Ri : 1 2 3 4 5 6 7 8 9 10
*
7 6 3 1 5 10
Ri : 2 4 8 9
Используя аппроксимацию

95
ìæ 3 ö
0,14
æ 3 ö ü
0,14
ïïç i - ÷ ç i- ÷ ï
a10 (i) = 4,91 × íç 8 ÷ - ç1 - 8 ÷ ï,
ý
ïçç 10 + 1 ÷÷ çç 10 + 1 ÷÷ ï
ïîè 4ø è 4 ø ïþ
*
Вычисляем значения a10 ( Ri ) и a10 ( Ri ) . Результаты сводим в таблицу:

* * * *
i Ri Ri a10 ( Ri ) a10 ( Ri ) i Ri Ri a10 ( Ri ) a10 ( Ri )
1 1 7 –1,547980 0,373926 6 6 10 0,122033 1,547980
2 2 6 –0,998750 0,122033 7 7 2 0,373926 –0,998750
3 3 3 –0,653292 –0,653292 8 8 4 0,653292 0,373926
4 4 1 –0,373926 –1,547980 9 9 8 0,998750 0,653292
5 5 5 –0,122033 –0,122033 10 10 9 1,547980 0,998750
Вычисляем
10
* *
S = å a10 ( Ri ) ×a10 ( Ri ) = (-1,54798) × 0,373926 + ... +
i =1

+ 1,54798 × 0,99875 = 2,44965;


10
2 * 2,44965
å a10 (i) = 7,950449 r = = 0,308
i =1 ; 7,95049 .
10
2
u0,975 × å a10 (i)
i =1
S (0,95) = = 5,194
u0,975 = 1,96
Для a = 0,95 имеем и n -1 .
*
Так как S = 2,44965 < S (0,95)= 5,194 , корреляция признается
незначимой.

5.3.6. Коэффициент корреляции Ван дер Вардена


n
å u Ri u *
Ri
=i 1 n +1
Определяется формулой ~
r= n +1
, где ua – a -квантиль
n
2
åu i
=i 1 n +1
стандартного нормального распределения. Коэффициент оптимален для
оценки корреляции нормально распределенных случайных величин.

96
~ n
При n ³ 10 распределение S = å u Ri u Ri* стремится к нормальному с
i = 1 n +1
n +1
параметрами
2
~ ~ 1 ìï n 2 üï
M ( S ) = 0 ; D( S ) = íå u i ý .
n - 1 îïi = 1 n +1 þï

~ ~ 1 n 2
Отсюда: å u i , то с вероятностью a
S > S (a) = u1+ a
2
n - 1 i = 1 n +1

корреляция признается значимой. Для поиска ua могут быть использованы


таблицы, либо аппроксимации (см. раздел 1.1.1), например,
0,14 0,14
u a » 4,91[a - (1 - a) ],
Следует помнить, что ua = -u1- a .
Пример 5.2.17. Используя данные примера 2.12, проверить наличие
корреляции с помощью критерия Ван дер Вардена.
ìæ i ö i ö ü
0 ,14 0 ,14
æ
Используя аппроксимацию u i = 4,91× íç ÷ - ç1 - ÷ ý,
n+1 îè n + 1 ø è n + 1 ø þ
*
вычисляем значения u Ri и u * (значения Ri и Ri используем из примера
R1
11 11
5.16). Результаты сводим в таблицу:
* u Ri u * * u Ri u *
i Ri Ri R1 i Ri Ri R1
11 11 11 11
1 1 7 –1,335080 0,347309 6 6 10 0,113674 1,335080
2 2 6 –0,906470 0,113674 7 7 2 0,347309 –0,906470
3 3 3 –0,602509 –0,602509 8 8 4 0,602509 –0,347309
4 4 1 –0,347309 –1,335080 9 9 8 0,906470 0,602509
5 5 5 –0,113674 –0,113674 10 10 9 1,335080 0,906470
Вычисляем
~ 10
S = å u Ri × u * = ( -1,33508) × 0,347309 + (-0,90647) × 0,113674 + ...
Ri
i =1 n +1
n +1
... + 1,33508 × 0,90647 = 1,65687 ;
10 1,65687
å u i = 6,201377 ; ~r =
2
= 0,26718 ;
i =1 n +1 6,201373
~ u0,975 × 6,201377
S (0,95) = = 4,051.
3

97
~ ~
Так как S = 1,656 < S (0,95) = 4,051, гипотеза о наличии корреляции
отклоняется с вероятностью 0,95.

5.3.7. Коэффициент конкордации Кендалла–Бэбингтона Смита


До сих пор рассматривалась корреляция двух случайных величин.
Часто возникает необходимость исследовать корреляцию нескольких
последовательностей значений случайных величин. Предположим, имеется k
последовательностей рангов с равным числом рангов n в каждой
последовательности
R11 R12 … R1i … R1n ;
R21 R22 … R2i … R2 n ;
. . … . … .
. . … . … .
. . … . … .
R j1 R j 2 … R ji … R jn ;
. . … . … .
. . … . … .
. . … . … .
Rk1 Rk 2 … Rki … Rkn .
В качестве меры связи k последовательностей Кендалл и Б. Смит
предложили коэффициент конкордации (согласованности)
2
12SW n ìk k (n + 1) ü
W= 2 3
, где SW = å í å R ji - ý .
k ( n - n) i =1 î j =1 2 þ
Легко видеть, что SW является суммой отклонений рангов от их
среднего значения. Значения W располагаются в интервале от 0 до 1.
Для n ³ 20 величины W и SW распределены приблизительно
нормально с параметрами
1 2(k - 1)
M (W ) = ; D(W ) = 3
;
k k (n - 1)
3 2 2
k ( n - n) k (k - 1)(n + 1)(n - 1) n
M ( SW ) = D( SW ) =
; .
12 72
В силу нессиметричности распределение W при n ³ 20 лучше
аппроксимируется бета-распределением.
Точные критические суммы SW (a) приведены в табл. 5.12. Если
SW > SW (a) , то наличие согласованности признается значимым с
вероятностью a .

98
Таблица 5.12
Критические значения SW (a) для коэффициента
конкордации W
Доверительная
Доверительная вероятность a =0,99
вероятность a =0,95
k
n n
3 4 5 6 7 3 4 5 6 7
3 64,4 103,9 157,3 75,6 122,8 185,6
4 49,5 88,4 143,3 217,0 61,4 109,3 176,2 265,0
5 62,6 112,3 182,4 276,2 80,5 142,8 229,4 343,8
6 75,7 136,1 281,4 335,2 99,5 176,1 282,4 422,6
8 48,1 101,7 183,7 299,0 453,1 66,8 137,4 242,7 388,3 579,9
10 60,0 127,8 231,2 276,7 571,0 85,1 175,3 309,1 494,0 737,0
15 89,8 192,9 349,8 570,5 864,9 131,0 269,8 475,2 758,2 1129,5
20 119,7 258,0 468,5 764,4 1158,7 177,0 364,2 641,2 1022,2 1521,9
При n > 10 ¸ 15 и отсутствии корреляции величина k (n - 1)W
2
распределена приблизительно как c с f = n - 1 степенями свободы. Отсюда
2
ca
следует, что критическое значение равно Wa = .
k ( n - 1)
Если W > Wa , то с вероятностью a корреляция между изучаемыми
последовательностями признается значимой.
Если среди последовательностей рангов есть совпадения, то
коэффициент конкордации следует вычислять по формуле
12 SW
W= k
, где
2 2
k (n - 1) - k å T j
j =1

3
T j = å (t j - t j ) , tj – количество совпавших рангов в j -й
tj
последовательности.
Совпавшим рангам, как и ранее, присваиваются средние ранги.
Пример 5.18. Предположим, что имеются k = 4 последовательности
числовых рядов, объемом n = 10 каждая:
xi : 1 3 7 9 12 14 18 19 21 26;
yi : 7 8 6 1 4 2 7 0 3 1;
zi : 11 12 7 6 5 4 3 1 0 –1;
li : –1 0 1 12 4 5 7 3 2 –4.

99
Необходимо проверить согласованность рядов с помощью
коэффициента конкордации Кендалла–Б. Смита при доверительной
вероятности a= 0,95 .
Имеем совокупность рангов R ji и квадратов вида
2 2
æ k k × ( n + 1) ö æ 4 ö
Å = çç å Rij - ÷÷ = çç å Rij - 22 ÷÷
è j =1 2 ø è j =1 ø
Rij
i j Å
1 2 3 4
1 1 8,5 9 2 2,25
2 2 10 10 3 9
3 3 7 8 4 0
4 4 2,5 7 10 2,25
5 5 6 6 7 4
6 6 4 5 8 1
7 7 8,5 4 9 42,25
8 8 1 3 6 16
9 9 5 2 5 1
10 10 2,5 1 1 56,25
2
ì410 k × (n + 1) ü
Далее SW = å í å R ji - ý = 134 ;
i =1 î j =1 2 þ
12 ×134
W= 2 = 0,101 .
4 × (1000 - 10)
2
Имея ввиду, что c 0,95 (9) = 16,919 (см. табл. 55), получаем
2
c 0,95
16,919
W0,95 = =
= 0,470 .
4×9 36
Так как W = 0,101 < W0,95 = 0,470 , с вероятностью a = 0,95 можно
признать согласованность рангов незначимой.

5.3.8. Коэффициент конкордации Шукени-Фроли


Для случая двух групп экспертов Шукени и Фроли предложили аналог
коэффициента конкордации Кендалла–Б. Смита (см. раздел 5.3.7). Пусть две
группы экспертов численностями m и n ставят перед собой задачу
проранжировать k объектов. Обозначим через Rij ( i = 1, ..., m ; j = 1, ..., k ) –

100
*
ранги, предложенные m экспертами первой группы; через Rij (1 = 1, ..., n ;
j = 1, ..., k ) – ранги, предложенные n экспертами второй группы ( R j = å Rij
* *
и Rj = å Rij ).
k
*
L= å RjRj .
j =1

Значение статистики L находится в интервале


mnk (k + 1)(k + 2) mnk ( k + 1)(2k + 1)
£L£ .
6 6
Известно, что
2 2 2
mnk ( k + 1) mn( k - 1) k ( k + 1)
M ( L) = ; D( L ) = .
4 144
Обобщенный коэффициент конкордации Шукени–Фроли определяется
~ L - M ( L)
соотношением W = .
Lmax - M( L)
Если rij – коэффициент корреляции Спирмена ( см. раздел 5.2.2.2.2) для
i -го эксперта первой группы и j -го эксперта второй группы, то
~ 1 n m
W= å å rij .
mn =j 1=i 1
Предельное распределение коэффициента Шукени–Фроли отлично от
~
нормального и неудобно для применения. Значение W вблизи +1 означает
высокую степень согласованности внутри обеих групп экспертов и между
группами; вблизи –1 – высокую степень согласия внутри групп и сильное
несогласие между группами; вблизи 0 – либо несогласие внутри групп
экспертов, либо согласие внутри групп экспертов при несогласии между
ними.
Пример 5.19. Две группы экспертов в количествах m = 6 и n = 8
провели ранжирование k = 5 объектов (результаты приведены в таблице).
Необходимо проверить согласованность мнений экспертов критерием
Шукени–Фроли.
Номер Ранжировка объектов
Эксперта
Группа 1
1 1 3 4 2 5
2 1 2 3 4 5
3 4 3 2 1 5
4 1 2 3 4 5

101
5 2 1 3 4 5
6 5 4 3 2 1
å R1 = 14 R2 = 15 R3 = 18 R4 = 17 R5 = 26
Группа 2
1 1 2 3 4 5
2 3 2 1 5 4
3 4 5 1 2 3
4 1 2 3 4 5
5 5 4 2 3 1
6 1 2 3 4 5
7 3 2 4 5 1
8 1 5 4 3 2
å * * * *
R1 = 19 R2 = 24 R3 = 21 R4 = 30 R5 = 26
*

Вычисляем
5
*
L= å R j × R j = 14 ×19 + 15 × 24 + 18 × 21 + 17 × 30 + 26 × 26 = 2190 .
j =1

6×8×5× 6× 7 6 × 8 × 5 × 6 × 21
Границы изменения L : = 1680 £ L £ 5040 = .
6 6
Далее вычисляем
2
6×8×5× 6
M ( L) = = 2160 ;
4
6 × 8 × 4 × 25 × 36
D( L ) = = 1200 ( D( L ) = 34,64 );
144
~ 2190 - 2160
W= = 0,00729 .
5040 - 2160
~
Так как W = 0,00729 » 0 , согласованность внутри группы экспертов
либо между ними очень низка.

5.4. Точечно-бисериальная корреляцмя


При проведении некоторых исследований часто сталкиваются с
проблемой выяснения взаимосвязи между характеристиками, одна из которых
может быть ранжирована, а вторая допускает только группировку в две
группы по качественному признаку (дихотомия).
Приведем известные результаты для оценки зависимости в такой
ситуации. Одной из таких оценок является коэффициент точечно-
бисериальной корреляции

102
x1 - x2 n1n2
rd = ,
S n(n + 1)
где n1 , n2 – объемы двух групп; n = n1 + n2 ; x1 , x2 – средние значения первой
характеристики в двух группах, образованных в соответствии со второй
характеристикой;
2 2
2 n1 S1 + n2 S 2 2 1 n1 2
S = ; S1 = å ( xi - x1 ) ;
n n1 - 1 i = 1
2 1 n2 2
S2 = å ( xi - x 2 ) .
n2 - 1 i = 1
Значимость корреляции определяется так же, как и для обычного
коэффициента корреляции (см. раздел 5.1). Если rd > ra , то корреляция
признается значимой.
Рассмотрим теперь аналогичную задачу для ранговой корреляции,
применительно к коэффициенту ранговой корреляции t Кендалла (см. раздел
5.3.1).
Напомним, что в случае отсутствия дихотомии
2S
t= .
n( n - 1)
Предположим, что дихотомия реализуется в разделении данных по
двум признакам в группы объемов n1 и n2 ( n1 + n2 = n ).
В этом случае коэффициент точечно-бисериальной корреляции
Кендалла равен
1
ì1 ü2
rd = S í n(n - 1)[n( n - 1) - n1 ( n1 - 1) - n2 (n2 - 1)]ý .
î4 þ
Проверка значимости t d проводится аналогично проверке значимости
t (см. раздел 5.3.1).
Пример 5.20. В нашем распоряжении имеются следующие данные ( xi –
количественный признак, y – качественный признак, обозначаемый символом
+ или –):
xi : 1 2 3 4 5 6 7 8 9 10;
y : + + – – – + – + – –.
Необходимо оценить наличие зависимости между x и y при
достоверности a = 0,95 .

103
Используя коэффициент точечно-бисериальной корреляции t d . Имеем
n1 = 4 , n2 = 6 (n1 + n2 = n = 10) Находим далее
1+ 2 + 6 + 8 3 + 4 + 5 + 7 + 9 + 10
x1 = = 4,25 ; x2 = = 6,33 ;
4 6
2 1 4 2 2 1 6 2
S1 = å ( xi - x1 ) = 10,916 ; S 2 = å ( xi - x2 ) = 9,085 ;
3 i =1 5 i =1
S = 3,014 ;
4,25 - 6,33 4 × 6
rd = = -0,322 .
3,014 110
Для a = 0,95 и n = 10 из табл. 5.1 имеем r0,95 = 0,632 .
Так как rd = 0,322 < r0,95 = 0,632 , корреляция признается незначимой.
Теперь вычислим точечно-бисериальный коэффициент корреляции
Кендалла (см. раздел 5.3.1). Имеем последовательность рангов
Rj : 1 2 3 4 5 6 7 8 9 10
*
Rj : 2,5 2,5 7,5 7,5 7,5 2,5 7,5 2,5 7,5 7,5
*
Поясним подсчет рангов R j . Имеем последовательность членов
+ + – – – + – + – –,
что эквивалентно наличию n1 = 4 и n 2 = 6 равных элементов, которым
приписываем равные средние ранги. Элементы +, имеющие (условно) номера
1+ 2 + 3 + 4
1, 2, 3 и 4, получают равный средний ранг = 2,5 . Аналогично и
4
5 + 6 + 7 + 8 + 9 + 10
элементы – получают равные ранги = 7,5 . Теперь
6
подсчитаем сумму Q по алгоритму, изложенному в разделе 5.2.2.2.1.(т.е.
* *
число инверсий, когда R j < Rv ): Q = 6 + 6 + 3 + 2 = 17 .
Далее вычисляем
n × (n - 1) 10 × 9
S= - 34 = - 34 = 11;
2 2
11
td = = 0,335 ;
1
×10 × 9 × (10 × 9 - 4 × 3 - 6 × 5)
4
2 × ( 2n + 5) 2 × 25
t 0,95 = u0,95 × = 1,645 × = 0,409 .
9n × ( n - 1) 90 × 9

104
Так как t d = 0,335 < t 0,95 = 0,409 , точечно-бисериальная корреляция
незначима.

5.5. Статистическая оценка связи между качественными


признаками (таблицы сопряженности признаков)
Предположим, что наблюдаемая случайная величина может изменяться
в зависимости от некоторых признаков – например, долговечность
электронного прибора может зависеть от технологии изготовления,
применяемых материалов. По результатам наблюдений над случайной
величиной, классифицированным по наличию или отсутствию исследуемых
признаков, необходимо ответить на вопрос, существует ли взаимосвязь
между ними, иными словами: связано ли обладание одним признаком с
обладанием другим признаком (в условиях приведенного примера –
существует ли связь между технологией изготовления и применяемыми
материалами).
По существу, в данном случае мы имеем переход от точечно-
бисериальной корреляции к изучению зависимости между двумя (или
несколькими) качественными признаками.
Таблицы, в которых представлены значения исследуемой случайной
величины, классифицированные по качественным признакам, называются
таблицами сопряженности признаков.

5.5.1. Оценка связи признаков в таблицах сопряженности 2 ´ 2


Если исследуется взаимосвязь двух признаков A и B , то таблица
сопряженности называется таблицей 2 ´ 2 , или четырехклеточной таблицей и
имеет вид

a b
c d

где a – число элементов выборки, обладающим признаками A и B


одновременно; b – число элементов выборки, обладающих признаком A но
не обладающих признаком B ; c – число элементов выборки, обладающих
признаком B , но не обладающих признаком A ; d – число элементов
выборки, не обладающих ни одним из признаков A и B .

5.5.2. Коэффициент ассоциации


Находится по формуле
ad - bc
Q= .
ad - bc

105
Если признаки A и B независимы, то Q = 0 . В случае полной связи
между признаками Q = ±1. Дисперсия Q равна
1 2 æ1 1 1 1ö
D(Q) = (1 - Q )ç + + + ÷ .
4 èa b c d ø
Сравнение Q с полученным значением дисперсии (с учетом масштаба
D(Q) ) позволяет получить хотя бы первое приближение по оценке связи.

5.5.3. Коэффициент коллигации Юла


Находится по формуле
ad - bc 1 2 æ1 1 1 1ö
K= с дисперсией D( K ) = (1 - K )ç + + + ÷ .
ad + bc 16 èa b c d ø
Между Q и K существует связь
2K
Q= 2
.
1+ K
Пример 5.21. Предположим, что после перепроверки партии
электронных ламп из n = 110 шт., изготовленных по двум технологиям,
получены результаты, приведенные в таблице. Необходимо оценить связь
качества ламп с технологией их изготовления.
Технология Число дефектных ламп Число годных ламп Всего ламп
1 95 15 110
2 70 40 110
Итого 165 55 220
В нашем случае имеем a = 95 , b = 15 , c = 70 , d = 40 .
Вычисляем коэффициент ассоциации
95 × 40 - 15 × 70
Q= = 0,567 ;
95 × 40 + 15 × 70
1 2 æ 1 1 1 1ö
D(Q) = × (1 - 0,567 ) × ç + + + ÷ = 0,019758
4 è 95 15 70 40 ø
( D(Q) = 0,140 ).
Находим коэффициент коллигации Юла
95 × 40 - 15 × 70
K= = 0,311;
95 × 40 + 15 × 70
1 2 æ 1 1 1 1 ö
D( K ) = × (1 - 0,311 ) × ç + + + ÷ = 0,00675
16 è 95 15 70 40 ø

106
( D( K ) = 0,082 ).
Из анализа полученных оценок можно сделать оценочный вывод о том,
что по вероятности существует связь между технологией изготовления и
качеством продукции, так как коэффициенты Q = 0,567 и K = 0,311
достаточно велики по сравнению со своими среднеквадратическими
отклонениями (превышают их более, чем в три раза).

5.5.4. Коэффициент контингенции (сходства)


Основан на формуле
ad - bc
Q= .
(a + b)(a + c)(b + d )(c + d )
На практике для проверки гипотезы о существовании взаимосвязи
2 2
между изучаемыми признаками используется величина c = nV , имеющая
2
при отсутствии связи распределение c с f = 1 степенью свободы.
С учетом поправки на непрерывность статистика критерия
контингенции для проверки связи признаков имеет вид
2
æ nö
nç ad - bc - ÷
2
c = è 2ø
,
( a + b)(a + c)(b + d )(c + d )
где n – общее число данных в таблице n = a + b + c + d .
2 2
Если c > c a (1) ,то с достоверностью a зависимость признаков A и B
признается значимой. Приведем некоторые полезные значения:
2 2 2
) 3,85 ; c 0,99 (1=
) 2,70 ; c 0,95 (1=
c 0,90 (1= ) 6,58 .
Пример 5.22. Проверить значимость связи признаков в таблице
сопряженности 2 ´ 2 в условиях примера 5.20 коэффициентом контингенции
при доверительной вероятности a = 0,95 .
95 × 40 - 15 × 70
Имеем V = = 0,262 .
110 × 165 × 55110
2 220 × (95 × 40 - 15 × 70 - 110)2
Далее при n = 220 имеем c = = 14,07 .
100 × 165 × 55 × 110
2 2
Так как c = 14,07 > c 0,95 (1) = 3,85 , связь признаков в примере должна
быть признана значимой.

107
5.5.5. Точный критерий Фишера
2 2
Критерий c = nV применим при n ³ 40 и a , b, c, d ³ 5 . Если эти
условия не выполняются, то следует воспользоваться точным критерием
Фишера, основанном на статистике
( a + b)!(c + d )!( a + c)!(b + d )! a 1
p= å
( a + b + c + d )! i = 0 ( a + b - i )!(a + c - i )!( a + d - i )!

Если p > 1 - a , то с достоверностью a связь признаков признается


значимой.
Пример 5.23. Имеется следующая таблица сопряженности 2 ´ 2 :

11 6 17
13 10 23
∑ 24 16 40
Необходимо при доверительной вероятности a = 0,95 оценить
значимость связи признаков в таблице точным критерием Фишера.
Вычисляем
(11 + 6)!(13 + 10)!(11 + 13)!(6 + 10)!
p= ´
(11 + 6 + 13 + 10)!
11 1
´å = 0,227 .
i = 0 (11 + 6 - i )!(11 + 13 - i )!(11 + 10 - i )!

Так как p = 0,227 > 1 - a = 1 - 0,95 = 0,05 , связь признаков в таблице


следует считать значимой.

5.5.6. Быстрые критерии оценки связи в таблицах сопряженности 2 ´ 2


При a + b + c + d ³ 25 и при условии a + b = c + d или a + c = b + d
критерием является величина
( a + d ) - (b + c )
z= .
a+b+c+d
Связь признаков в таблице с достоверностью a признается значимой
при z > u a ( ua – a -квантиль стандартного нормального распределения).
При a + b ³ 10 при условии a + b << c + d или a + c << b + d
справедлив критерий
(a + c - b - d )(a + b)
a -b+
~
z= a+b+c+d .
a+b

108
Если ~z > u a , то связь признаков признается значимой.
Пример 5.24. Для таблицы сопряженности

14 28 42
6 36 42
∑ 20 64 84
проверить гипотезу о согласованности признаков при доверительной
вероятности a = 0,95 .
Имеем a = 14 , b = 28 , c = 6 , d = 36 . Так как a + b = 42 = c + d ,
используем критерий
(14 + 36) - (28 + 6)
z= = 1,745 .
84
Так как z = 1,745 > u 0,95 = 1,645 , связь признаков следует признать
значимой. Следует помнить, что всегда при z берется знак + (это не меняет
результат).
Пример 5.25. Для таблицы сопряженности

15 4 19
85 77 162
∑ 100 81 181
проверить гипотезу о согласованности признаков при доверительной
вероятности a = 0,95 .
В нашем случае a + b = 19 << c + d = 162 , поэтому используем
критерий
(15 + 85 - 4 - 77) × (15 + 4)
15 - 4 +
~
z= 15 + 4 + 85 + 77 = 1,97 .
15 + 4
Так как ~ z = 1,97 > u 0,95 = 1,645 , связь признаков в таблице следует
признать значимой.

5.5.7. Модифицированный критерий знаков Мак-Нимара


Предположим, что над одной и той же группой объектов производятся
два эксперимента и необходимо установить – меняется ли распределение
частот от одного эксперимента к другому. В этом случае мы имеем так же
таблицу сопряженности 2 ´ 2 , однако составляющие ее данные, вообще
говоря уже не будут независимыми
Мак-Нимар предположил простой критерий проверки изменения
соотношения частот в таблице при изменении условий опыта. Пусть мы
имеем таблицу:

109
Опыт 1
Опыт 2
+ –
+ a b
– c d
Из нее следует, что значения a и d соответствуют неизменным условиям
опыта (a – когда и опыт 1 и опыт 2 действуют на объект, d – когда ни один из
опытов не действует на объект). Значения b и c соответствуют условиям,
когда действует только один из опытов. Если b » c , то, следовательно, опыты
не оказывают влияния на объект.
Для проверки равенства b = c Мак-Нимар предложил критерий
2 (b - c)
2
2 ( b - c - 1) 2
c = , а при b + c < 30 : c = .
b + c +1 b + c +1
2 2 2
Если c > c a (1) , разница между b и c признается значимой ( c a (1) –
a -квантиль распределения хи-квадрат с f = 1 степенью свободы).
Пример 5.26. Предположим, 30 пациентов начали применять два
препарата. При этом 8 пациентов признали сильным действие как перврго ,
так и второго препаратов; 11 – слабым действие обоих препаратов; 16
признали действие первого препарата сильным, а второго слабым; 5
пациентов – наоборот. Необходимо проверить критерием Мак-Нимара при
достоверности a = 0,95 гипотезу о различии в действии препарата.
Имеем таблицу:
Препарат 1 Препарат 2
сильное слабое
+ (a) 8 16 (b)
– (c) 5 11 (d)
Разница между препаратами проявляется в разнице частот (b) с (c), так
как именно они фиксируют впечатления пациентов, связанные с различием
воздействия исследуемых препаратов. Имеем

2 (b - c - 1)2 (16 - 5 - 1)2


c = = = 4,54 .
b + c +1 16 + 5 + 1
2 2 2
Так как c 0,95 (1) = 3,84 , а c = 4,54 > c 0,95 , то с вероятностью 0,95
следует признать значимой разницу в воздействии препаратов на различных
пациентов.

5.5.8. G -критерий Вульфа


2
Критерий Вульфа используется вместо критерия c для
четырехклеточных таблиц. Он позволяет уменьшить количество вычислений
2
и лучше обоснован теоретически, чем c -критерий.

110
Критерий строится следующим образом. В таблице

a b
c d

Сначала наименьшая из величин увеличивается на 1 2 (так называемая


поправка Йэйтса). Затем соответствующим образом меняются все остальные
значения в таблице с тем, чтобы величины a + b , c + d , a + c и b + d не
менялись. Тогда таблица принимает следующий вид (считаем, что d яаляется
минимальным значением):

1 1
a+ b-
2 2
1 1
c- d+
2 2

Статистика критерия Вульфа равна


ìæ 1ö æ 1ö æ 1ö æ 1ö æ 1ö æ 1ö
G = 2íç a + ÷l nç a + ÷ + ç b - ÷ lnç b - ÷ + ç c - ÷ lnç c - ÷ +
îè 2ø è 2ø è 2ø è 2ø è 2ø è 2ø
æ 1ö æ 1ö
ç d + ÷ lnç d + ÷ - (a + b) ln(a + b) - (c + d ) ln(c + d ) -
è 2ø è 2ø
ü
- (a + c) ln( a + c ) - (b + d ) ln(b + d ) + ( a + b + c + d ) ln( a + b + c + d ) ý .
þ
2
Если G > c a (1) , то связь признаков в таблице признается значимой.
Пример 5.27. Для данных примера 5.21 проверить сопряженность
признаков в таблице критерием Вульфа при a = 0,95 .
Имеем таблицу

95 - 1 / 2 15 + 1 / 2 110
70 + 1 / 2 40 - 1 / 2 110
165 55 220
Вычисляем
G= 2 × {94,5 × ln 94,5 + 15,5 × ln 15,5 + 70 × ln 70 + 39,5 × ln 39,5 -
- 110 × ln 110 - 110 × ln 110 - 165 × ln 165 - 55 × ln 55 + 220 × ln 220}= 14,337.

111
2 2
Из таблиц имеем c 0,95 (1) = 3,85 . Так как G = 14,337 > c 0,95 (1) = 3,85 ,
следует признать связь частот в таблице значимой.

5.5.9. Критерий Ле Роя для сравнения двух таблиц сопряженности 2 ´ 2


Предположим, что мы имеем в своем распоряжении две таблицы
данных 2 ´ 2 :

a1 b1 a2 b2
c1 d1 c2 d2

Необходимо проверить гипотезу о том, что обе таблицы статистически не


различимы и являются выборками из единой совокупности.
Ле Рой предложил для проверки такой гипотезы критерий, основанный
на статистике
R = (a1 + b1 + c1 + d1 + a 2 + b2 + c2 + d 2 ) ´
ì 1 æ a22 b
2
c
2
d
2
ö ü
ï ç + 2
+ 2
+ 2 ÷ +ï
ï a 2 + b2 + c2 + d 2 è a1 + a2 b1 + b2 c1 + c2 d1 + d 2 ÷ø ï
ç
´í ý.
ï 1 æ a1
2 2
b1 c1
2 2
d1 ö ï
ï+ a + b + c + d çç a + a + b + b + c + c + d + d ÷÷ - 1 ï
î 1 1 1 1è 1 1 1 2 1 2 ø þ
Гипотеза о статистической неразличимости таблиц отклоняется с
2 2 2
достоверностью a , если R > c a (3) , ( c a (3) – a -квантиль c распределения с
f = 3 степенями свободы). Для употребляемых значений a укажем
2 2 2
c 0,90 (3) = 6,251 ; c 0,95 (3) = 7,815 ; c 0,99 (3) = 11,345 .
Следует помнить, что R -критерий применим, если все числа в таблицах
превышают 3.
Пример 5.28. Проверить гипотезу о статистической неразличимости
двух таблиц сопряженности 2 ´ 2 критерием Ле Роя при доверительной
вероятности a = 0,90 :
∑ ∑
15 48 63 27 94 121
21 71 95 112 456 568
∑ 36 122 158 ∑ 139 550 689
Имеем a1= 15 , b1= 48 , c1= 21 , d1= 74 , a 2= 27 , b2= 94 , c 2= 112 ,
d 2= 456 .
Вычисляем

112
R = (15 + 48 + 21 + 74 + 27 + 94 + 112 + 456) ´
ìï 1 æ 27 2 94
2
112
2
456 ö÷
2
´í × ç + + + +
ïî 27 + 94 + 112 + 456 çè 15 + 27 48 + 94 21 + 112 74 + 456 ÷ø
1 æ 152 48
2
21
2
74
2
ö üï
+ × ç + + + ÷ - 1ý = 37,938.
15 + 48 + 21 + 74 è 15 + 27 48 + 94 21 + 112 74 + 456 ÷ø ïþ
ç
2
Так как R = 37,938 > c 0,90 (3) = 6,251 , следует признать, что таблицы
статистически различимы.

5.5.10. Выбор числа наблюдений для анализа таблиц сопряженности 2 ´ 2


Сформулируем следующую задачу. Необходимо для задагнных
допустимых уровней ошибок – первого рода a (вероятность отклонить
верную гипотезу) и второго рода b (вероятность принять неверную гипотезу)
a c
и заданных значениях p1 = и p2 = при a + b = c + d = n определить
b d
необходимое число наблюдений – n , которое требуется провести, чтобы
сравнить относительные частоты p1 и p 2 между собой.
Необходимое число наблюдений n рассчитывается по формуле
K
(берется ближайшее целое число): n = 2
, где K –
(arcsin p1 - arcsin p2 )
коэффициент, приведенный в табл.5.13.
Таблица 5.13
Значения коэффициента K
a b
0,2 0,1 0,01
0,05 12885 17250 30161
0,01 16474 21369 35537
0,001 19172 24426 43945
Пример 5.29. Найти объем выборки, позволяющий сравнить
относительные частоты в таблице сопряженности признаков 2 ´ 2 : p1 = 0,61
и p 2 = 0,38 при уровнях ошибки первого рода a = 0,05 и второго рода
b = 0,1.
Из табл. 5.13 имеем K =17250.
Тогда
17250 17250
n= 2
= 2
= 97,55 .
(arcsin 0,61 - arcsin 0,38 ) (51,3545 - 38,0567)

113
Таким образом, необходимо иметь 98 наблюдений. Проверка разницы в
2
таких таблицах обеспечивает мощность критерия c , равную 1 - b = 0,90 .

5.5.11. Оценить связи признаков в многоклеточных таблицах


сопряженности r ´ c
Если результаты наблюдений могут быть классифицированы по трем
или более качественным признакам, рассматриваются так называемые
таблицы сопряженности r ´ c

n11 n12 … n1c n1
n21 n22 … n2 c n2
. . . .
. . . .
. . . .
nr1 nr 2 … nrc nr
* * *
n1 n2 … nc n
Здесь nij – число результатов наблюдений из общего числа n ,
обладающих признаками i и j одновременно. В качестве меры связи между
признаками r и c (либо между r и c градациями двух признаков A и B )
æ r c nij2 ö
используется статистика c = nç å å ÷ , имеющая при независимости
2
- 1
ç i =1 j = 1 n n * ÷
è i j ø
2
признаков c – распределение с f = ( r - 1)(c - 1) степенями свободы.
Следовательно, если c > c a [( r - 1)(c - 1)], то с вероятностью a признается
2 2

2
зависимость между изучаемыми признаками. Однако статистика c неудобна
при оценке связи признаков, так как ее значения не нормированы и при
2
n®¥ c ® ¥ (в отличие от рассмотренных ранее коэффициентов
корреляции, значения которых при любых n заключены между –1 и +1).
Поэтому для оценки связей в таблицах r ´ c используются специальные
коэффициенты сопряженности, предложенные Пирсоном и Чупровым.
1
æ c 2
ö2
Пирсон предложил коэффициент сопряженности в виде K P = ç ÷ .
ç n + c2 ÷
è ø
Значения K P зависят от числа изучаемых признаков, что не позволяет
использовать его для сравнения связей в таблицах с различными значениями
r и c . Этого недостатка лишен коэффициент сопряженности Чупрова

114
1
æ 2 ö2
ç c ÷
KR = ç ÷÷ .
ç n[( r - 1)(c - 1)]12
è ø
Коэффициент K R становится равным ± 1 в случае полной связи
признаков только при r = c . Так, как коэффициенты сопряженности
2
выражаются через c , то проверка их значимости может быть осуществлена с
2
помощью критических значений c -распределения.
Если K P > K P (a) или K R > K R (a) , то связь признаков признается
существенной.
Пример 5.30. Предположим, что в результате проверки партии
электронных ламп трех типов (по 100 шт. каждого типа), изготовленных на
пяти заводах, получены следующие количества годных ламп:
Завод–изготовитель ∑
Тип лампы 1 2 3 4 5
1 70 60 20 40 30 220
2 80 90 100 90 70 430
3 30 40 30 20 50 170
∑ 180 190 150 150 150 820
Необходимо проверить гипотезу о наличии связи между качеством
ламп различного типа и заводом изготовителем при доверительной
вероятности a = 0,95 .
Имеем r = 3 , c = 5 , ( r - 1) × (c - 1) = 8 . Тогда

æ 3 5 nij2 ö æ 70 2 60
2
2 ç
c = 820 å å ÷
- 1 = 820 × ç + +
ç i =1 j =1 n × n* ÷ ç 180 × 220 190 × 220
è i j ø è
90
2
20
2
50
2
ö
+ + ... + + - 1÷ = 51,244 .
150 × 220 150 ×170 150 ×170 ÷ø
2
Имеем из таблиц: c 0,95=
(8) 15,507 . Так как
2 2
=
c 51,244 > c 0,95=
(8) 15,507 , гипотеза о наличии связи между признаками
подтверждается.
Вычислим теперь коэффициенты сопряженности
51,244 51,244
KP = = 0,242 ; KR = = 0,149 .
820 + 51,244 820 × 2 × 4

115
6. Вопросы и упражнения к модулю 1. Современные
проблемы обработки экспериментальных данных
На вооружении современных специалистов (ученых, инженеров,
экономистов и т.д.) оказались многочисленные пакеты прикладных программ
(например, Statistica, Mathcad, MatLab, Matematica и др.), средствами которых
решаются практически все возникающие в практической деятельности
задачи. Однако крайне важно, чтобы пользователи этих пакетов понимали,
что и как они анализируют.
В большинстве случаев обработка и анализ различных данных
обусловлены необходимостью принять то или иное управленческое решение
в некоторой области деятельности. Управленческое решение, как правило,
опирается на анализ эмпирических сведений, почерпнутых и представленных
тем или иным образом и содержащих в себе информацию, необходимую для
его принятия.
Более полные теоретические сведения и ряд разобранных примеров
приведены в первом модуле основного учебного пособия.

6.1. Вопросы для самопроверки


1. Почему стоит тратить усилия на изучение методов обработки и
анализа экспериментальных данных, зная, что уже существует большое
количество разнообразных математических программных пакетов
прикладных программ?
2. Выберите одну из практических областей деятельности человека и
укажите, как можно использовать методы анализа экспериментальных
данных в этой области.
3. Какие бывают и что представляют собой этапы анализа данных?
4. Что такое набор данных?
5. Какими способами можно классифицировать наборы данных?
6. Почему двумерные данные представляют собой больше, чем просто
два отдельных одномерных набора данных?
7. В чем разница между качественными и количественными данными?
8. Что такое переменная? Приведите несколько примеров?
9. Найдите в интернете (или журналах) табличные данные. Определите
тип данных каждой переменной.
10. Можно ли принимать управленческие решения, опираясь только на
результаты, полученные в ходе анализа данных и не учитывать опыт и
интуицию экспертов?
11. Какие вы знаете основные законы распределения случайных
величин?
12. Как соотносятся различные законы распределения случайных
величин и объекты (явления) реального мира?

116
13. Найдите с помощью поисковых систем в интернете несколько
сайтов, посвященных различным математическим пакетам. Ознакомитесь с
презентационными материалами, представленными на этих сайтах.

6.2. Упражнения
6.1. . Найдите в сети Internet два различных набора двумерных данных.
В каждом случае определите характер зависимости между двумя факторами и
установите, можно ли и полезно ли иметь возможность предсказывать один
фактор на основании другого.

6.2. Выполните предыдущую задачу, но для многомерных данных.

6.3. Выберите некоторую фирму и назовите две количественные


переменные, представляющие интерес для нее. Укажите для каждой
переменной, является она дискретной или непрерывной.

6.4. Выберите некоторую фирму и назовите две качественные


переменные, представляющие для нее интерес. Для каждой переменной
укажите, является она номинальной или порядковой.

6.5. Определите, вид (первичные или вторичные) следующих данных.


а) Данные правительства России о текущей экономический ситуации в
каждом из субъектов федерации, используемые фирмой, планирующей
расширение.
б) Данные о себестоимости продукции одного из предприятий фирмы,
собранные в ходе кампании по снижению затрат».
в) Данные отчета по отрасли, приобретенные фирмой с целью оценки
своего места среди конкурирующих фирм.

6.6. В таблице 6.1 содержится несколько объектов из базы данных


сотрудников. Информация дана для 5 человек по состоянию на 3 июля 2008
года.
а) Что является элементарной единицей в этом наборе данных?
б) Определите вид данных: одномерные, двумерные, многомерные?
в) Какие из этих четырех переменных являются качественными, а
какие – количественными?
г) Какие из переменных (если такие есть) являются порядковыми
качественными переменными? Поясните свой ответ.
д) Это временной ряд или его данные об одном временном срезе?
Таблица 6.1
Пол Зарплата, руб. Образование Стаж, лет
М 42 300 Высшее 9
Ж 31 800 Техникум 4

117
М 29 500 Школа 2
Ж 58 100 Высшее 15
Ж 36 000 Техникум 7

6.7. Рассмотрим набор донных из таблицы 6.2, содержащий


информацию о некоторых видах продукции из пяти цехов (обозначаются
кодами).
а) Что является элементарной единицей для этого набора данных?
б) Определите вид данных: одномерные, двумерные, многомерные?
в) Укажите качественные переменные (если они есть).
г) Есть ли в этих данных порядковая переменная? Если да, то укажите
ее.
д) Это временной ряд или данные об одном временном среде?
Таблица 6.2
Код Деталь Качество Количество
служащих
A-235 Тормоз Хорошее 53
W-186 Топливопровод Отличное 37
X-937 Радио Довольно хорошее 26
C-447 Шасси Превосходное 85
F-258 Провод Хорошее 16

6.8. Что бы спланировать объем затрат на рекламу в различных


средствах массовой информации (телевидение, радио, газеты и др.), вы
изучаете набор данных, содержащий прошлогодние расходы каждого из
ваших конкурентов на телерекламу, радио рекламу и на рекламу в газетах.
Дайте полное описание типа для такого набора данных.

6.9. Объемы квартальных продаж фирмы за последние пять лет могут


быть полезны для стратегического планирования.
а) Это временной ряд или данные об одном временном срезе?
б) Определите вид данных: одномерные, двумерные, многомерные?

6.10. Рассмотрим данные продаж 35 компаний.


а) Определите вид данных: одномерные, двумерные, многомерные?
б) Это качественная или количественная переменная?
в) Это порядковая, номинальная или какая-либо другая переменная?

6.11. Инспектор по контролю качества оценил каждую из


произведенных сегодня партий продукции по шкале от A до E, где A –
высший сорт, а E – низший.
а) Какал это переменная: количественная или качественная?

118
б) Эти порядковая, номинальная или какая-либо другая переменная?

6.12. В таблице 6.3 содержатся данные о бытовых пылесосах.


а) Что является элементарной единицей в этом наборе данных?
б) Это одномерные, двумерные или многомерны данные?
и) Какие из переменных являются качественными, а какие
количественными?
г) Для каждой качественной переменной в этом наборе данных
определите ее тип: порядковая или номинальная?
д) Это временной ряд или данные об одном временном срезе?
Таблица 6.3
Цена, Вес, кг Качество Тип
руб
5 170 3,5 Хорошее Жесткий шланг
6 260 3,5 Отличное Мягкий шланг
4 100 4,6 Хорошее Жесткий шланг
3 090 3,1 Хорошее Мягкий шланг
8 340 3,0 Хорошее Мягкий шланг
5 120 5,2 Отличное Жесткий шланг
5 130 3,5 Хорошее Мягкий шланг

119
7. Вопросы и упражнения к модулю 2. Классификация в
распознавании образов

Процесс распознавания включает в себя ряд этапов, одним из которых


является процесс классификации. По мере расширения областей применения
для систем распознавания образов расширяются области использования и
алгоритмов классификации. Они встраиваются в системы
диагностики, построения моделей, адаптивного и оптимального управления и
др. Однако основные идеи и алгоритмы классификации лучше и полнее
изложены в монографиях по математической статистике и распознаванию
образов.
Более детальные теоретические сведения приведены во втором модуле
учебного пособия.

7.1. Вопросы для самопроверки


1. Какова общая схема системы распознавания?
2. Можно ли обойтись без датчиков в системе распознавания образов?
3. Зачем необходимо формирование информативных признаков?
4. Почему не идут по пути создания «всесильного» классификатора?
Ведь тогда можно сразу использовать исходные признаки.
5. Приведите реальные примеры распознавания образов.
6. Каков смысл «априорных вероятностей классов»?
7. Какую информацию несут условные вероятностные характеристики
(при условии истинности того или иного класса) для информативных
признаков?
8. Что такое апостериорные вероятности для всех рассматриваемых
классов?
9. Почему мы используем решающее правило в виде максимума
апостериорной вероятности?
10. Какие ещё Вам известны решающие правила?
11. Какую информацию несут условные плотности распределения (при
условии истинности того или иного класса) информативных признаков?
12. Что такое средний риск?
13. Критерий минимума среднего риска соответствует ли критерию
минимума вероятности ошибки классификации?
14. Запишите средний риск при дискретных информативных признаках.
15. Что такое «обучающая выборка» и зачем она необходима?
16. Что такое «самообучающие системы классификации»?
17. Можно ли по обучающей выборке восстановить решающую
функцию напрямую?
18. Что такое «персептроны»?
19. Что общее между персептронами и нейросетями?

120
7.2. Примеры решения задач
Пример 7.1. Имеются два класса. Заданы два ряда распределения
вероятностей (при истинном первом и втором классах) и априорные
вероятности классов.
xi -1 0 1 P( j)
p xi |1

p xi |2
Считаем, что измерение признака дало следующий результат: X = 0 .
Вычисляем апостериорные вероятности классов:
p0|1P(1) 0.8 × 0.5 0.4
P(1 | X = 0) = = = = 0.8 ,
p0|1P(1) + p0|2 P( 2) 0.8 × 0.5 + 0.2 × 0.5 0.5
p0|2 P(2) 0.2 × 0.5 0.1
P ( 2 | X = 0) = = = = 0.2 .
p0|1P (1) + p0|2 P( 2) 0.8 × 0.5 + 0.2 × 0.5 0.5
Наибольшей среди них является P (1 | X = 0)= 0.8 . Решающее
устройство принимает решение об истинности первого класса.
Предполагаем, что измерение дискретного признака дало значение
X = 1 . Теперь
p1|1P(1) 0.15 × 0.5 0.075
P(1 | X = 1) = = = = 0.176 ,
p1|1P(1) + p1|2 P( 2) 0.15 × 0.5 + 0.7 × 0.5 0.425
p1|2 P( 2) 0.7 × 0.5 0.35
P( 2 | X = 1) = = = = 0.824 .
p1|1P (1) + p1|2 P(2) 0.15 × 0.5 + 0.7 × 0.5 0.425
Решающее устройство принимает решение об истинности второго
класса.
Если в результате измерения информативный признак принял значение
X = -1 (вероятность этого события достаточно мала и равна 0.1), то
апостериорные вероятности принимают значения:
p-1|1P(1) 0.05 × 0.5 0.025
P(1 | X = -1) = = = = 0.333,
p-1|1P(1) + p-1|2 P(2) 0.05 × 0.5 + 0.1 × 0.5 0.075
p-1|2 P(2) 0.1 × 0.5 0.05
P(2 | X = -1) = = = = 0.667 ,
p-1|1P(1) + p-1|2 P(2) 0.05 × 0.5 + 0.1 × 0.5 0.075
и решающее устройство выносит решение об истинности второго
класса.
Пример 7.2. Имеются два класса. Заданы два распределения
вероятностей дискретных признаков. В верхней части каждой клетки таблицы
стоит соответствующая вероятность p xi , y j |1 при истинном первом классе, а

121
нижней части – p xi , y j | 2 при истинном втором классе. Рядом с таблицей
указаны априорные вероятности классов.
yj
xi

P (1) = 0.4

P( 2) = 0.6

Вычисляем взвешенные вероятности p xi , y j |1 P (1) , p xi , y j |2 P (2) . Они


приведены в следующей таблице, также в верхней и нижней части каждой
клетки.
yj
xi

По этой информации выносится решение об истинности того или иного


класса. Например, если информативные признаки приняли значения: X = 3 ,
Y = 1, то выносится решение об истинности первого класса, ибо первая
взвешенная вероятность 0.08 больше второй 0.06 (для этого варианта
вероятность ошибки равна 0.06, а вероятность правильного решения равна
0.08). Если же информативные признаки приняли значения X = 2 , Y = -1 , то
решающее устройство принимает решение об истинности второго класса (для
этого варианта вероятность ошибки равна 0.04, а вероятность правильного
решения равна 0.12).
Суммарная вероятность ошибки классификации равна величине
P (ош.) = 0.04 + 0.06 + 0.04 + 0.12 + 0.02 + 0.06 = 0.34.
Суммарная вероятность вынесения правильного решения равна
величине P (прав. реш.) = 0.12 + 0.08 + 0.18 + 0.14 + 0.06 + 0.08 = 0.66.
Сумма этих вероятностей равна единице.
Очевидно, что отклонение от байесовского решающего правила (даже
при одном возможном сочетании информативных признаков) приводит к
увеличению вероятности вынесения ошибочного решения и одновременно к
уменьшению вероятности вынесения правильного решения.

122
Пример 7.3. При наличии двух классов условные
плотности вероятности приведены ниже и 1 f (x | 1)
представлены на рис. 7.1 и 7.2.
x
1 - | x |, | x | £ 1,
f ( x | 1) = ìí -1 0 1
î 0, 1 £ | x |; Рис. 7.1
1 - | x - 1 |, | x - 1 | £ 1,
f ( x | 2) = ìí f (x | 2)
î 0, 1 £ | x -1| . 1

Априорные вероятности классов равны x


величинам: P (1=) 0.25 , P ( 2=
) 0.75 . 0 1 2
Рис. 7.2.
На рис. 7.3 приведены взвешенные условные
плотности вероятности: f ( x | 1) P (1) , f ( x | 2) P (2) . Безусловная плотность
распределения информативного признака f (x) = f ( x | 1) P (1) + f ( x | 2) P ( 2)
будет ненулевой на интервале (-1; 2) . Вне этого интервала информативный
признак не существует, и, следовательно,
измерения признака приходятся только на этот
интервал. f ( x | 1) P (1) f ( x | 2) P( 2)
Порог c = 0.25 . При - 1 < x < 0.25 0.75
0.5
принимается решение об истинности первого 0.25
класса, а при 0.25 < x < 2 – об истинности x
второго класса. -1 0 c 1 2
Рассчитаем теперь вероятность ошибки Рис. 7.3
классификации при двух классах. За счет
перекрытия взвешенных плотностей распределения f ( x|1) P (1) и f ( x|2) P (2 )
возникают две ошибки. Одна связана с тем, что принимается класс 2 (когда
x Î G2 ), но истинным является класс 1. Величина вероятности этой ошибки
равна площади под кривой f ( x|1) P (1) при x Î G2 :
Pош.1 = ò f ( x | 1) P(1)dx .
G2
Вероятность второй ошибки вычисляется аналогично:
Pош.2 = ò f ( x | 2) P ( 2) dx .
G1

7.3. Упражнения
7.1 – 7.4. Имеются два класса. Заданы два ряда распределения
вероятностей (при истинном первом и втором классах) и априорные
вероятности классов:

123
7.1 7.2

xi x1 x2 P( j) xi x1 x2 x3 x4 P( j )
p xi |1 0.1 0.9 0.4 p xi |1 0.01 0.09 0.7 0.2 0.8

p xi | 2 0.8 0.2 0.6 p xi |2 0.07 0.6 0.3 0.03 0.2


, ,
7.3 7.4

xi x1 x2 x3 P( j ) xi x1 x2 x3 P( j )
p xi |1 0.1 0.2 0.7 0.7 p xi |1 0.1 0.3 0.6 0.5
p xi | 2 0.5 0.3 0.2 0.3 p xi | 2 0.6 0.2 0.2 0.5
, .

Вычислите два ряда распределения апостериорных вероятностей


P (1 | xi ) , P ( 2 | xi ) , i = 1, n (либо pxi |1P (1), pxi |2 P ( 2), i = 1, n ), и укажите,
об истинности какого из классов выносится решение, если признак принял
то или иное значение. Определите вероятности ошибочного и правильного
решений.

7.5 – 7.8. Имеются три класса. заданы три ряда распределения


вероятностей (при истинности первого, второго и третьего классов) и
априорные вероятности классов:

7.5 7.6

xi x1 x2 P( j ) xi x1 x2 x3 x4 P( j )
p xi |1 0.1 0.9 0.1 p xi |1 0.01 0.09 0.7 0.2 0.3
p xi | 2 0.8 0.2 0.6 p xi | 2 0.07 0.6 0.3 0.03 0.3
p xi |3 0.3 0.7 0.3 p xi |3 0.8 0.1 0.07 0.03 0.4
, ,

124
7.7 7.8

xi x1 x2 x3 P( j ) xi x1 x2 x3 P( j )
p xi |1 0.1 0.2 0.7 0.5 p xi |1 0.1 0.3 0.6 0.2
p xi | 2 0.5 0.3 0.2 0.3 p xi | 2 0.2 0.6 0.2 0.1
p xi |3 0.1 0.6 0.3 0.2 p xi |3 0.7 0.2 0.1 0.7
, .

7.9. – 7.12. Вычислите три ряда распределения апостериорных


вероятностей P (1 | xi ) , P ( 2 | xi ) , P (3 | xi ) , i = 1, n (либо pxi |1P (1) , pxi |2 P (2) ,
pxi |3 P(3) , i = 1, n ), и укажите, об истинности какого из классов выносится
решение, если признак принял то или иное значение.
Определите вероятности ошибочного и правильного решений.

Имеются два класса. Заданы


yj 0 2 4 две таблицы распределения
xi
вероятностей дискретных признаков
0.05 0.20 0.10
1 X ,Y .
0.25 0.05 0.35
0.35 0.05 0.25 В верхней части каждой
3 клетки таблицы стоит
0.20 0.1 0.05 соответствующая вероятность
p xi , y j |1 при истинном первом классе,
а нижней части – p xi , y j | 2 при истинном втором классе.
Составьте таблицы взвешенных вероятностей p xi , y j |1 P (1) , p xi , y j |2 P (2)
и покажите, при каких наборах информативных признаков выносится
решения об истинности первого класса, а при каких – об истинности второго
класса. Наборы априорных вероятностей классов приведены ниже.

7. 9. P (1) = 0.2; P (2) = 0.8 . 7.10. P (1) = 0.4; P (2) = 0.6 .

7.11. P (1) = 0.5; P (2) = 0.5 . 7.12. P (1) = 0.7; P (2) = 0.3 .

Вычислите суммарную вероятность ошибки классификации и


суммарную вероятность вынесения правильного решения.

7.13. На основе критерия минимума вероятности ошибки классификации


необходимо получить разделяющие пороги, выписать решающее правило и

125
найти вероятность ошибки классификации. Информативный признак (при
истинности первого и второго класса) распределен по равномерному закону:

ì(bi - ai ) -1, x Î [ai , bi ],


f ( x | i) = í
î0, x Ï [ai , bi ], i = 1, 2.

Варианты:
а) интервалы [a1, b1 ], [a 2 , b 2 ] не перекрываются;
б) интервалы [a1, b1 ], [a 2 , b 2 ] перекрываются, а взвешенные условные
плотности f ( x | 1) P (1) , f ( x | 2) P (2) равны;
в) интервалы [a1 , b1 ],[a 2 , b 2 ] перекрываются, а взвешенные условные
плотности f ( x | 1) P (1) , f ( x | 2) P (2) не равны;
г) интервал [a1 , b1 ] включает в себя интервал [a 2 , b 2 ] .
Решение сопровождайте графическими пояснениями.

7.14. При наличии одного информативного непрерывного признака X


и двух классов условные плотности вероятности f (x | 1) , f (x | 2) имеют
равномерное распределение:

x Î [-1; 1], x Î [0; 2],


f ( x | 1) = ìí f ( x | 2) = ìí0.5
0.5,
î 0, x Ï [ -1; 1]; î0 x Ï [0; 2].

Выделите области возможных значений информативного признака X ,


при попадании в который принимается решение об истинности
соответствующего класса. Априорные вероятности классов P (1) , P ( 2)
принимают значения:
а) P (1) = 0.4, P ( 2) = 0.6; б) P (1) = 0.5, P ( 2) = 0.5;
в) P (1) = 0.6, P ( 2) = 0.4; г) P (1) = 1, P ( 2) = 0.

7.15. На основе критерия минимума вероятности ошибки


классификации необходимо вычислить разделяющие пороги, выписать
решающее правило и найти вероятность ошибки классификации. Условные
плотности вероятности для информативного признака имеют вид:

f ( x|1) – равномерный закон распределения в интервале [0; 1],


f ( x|2) – равномерный закон распределения в интервале [0.75; 2.25].

Варианты:
а) P (1) = 0.1, P ( 2) = 0.9 ; б) P (1) = 0.4, P ( 2) = 0.6 ;
в) P (1) =P ( 2) = 0.5 ; г) P (1) = 0.8, P (2) = 0.2 .

126
7.16. На основе байесовской теории принятия решений вычислите
разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид:

ì1-| x|, | x| £ 1, ìexp{- x}, x ³ 0,


f ( x|1) = í f ( x|2) = í
î0, | x| ³ 1; î0, x < 0.
Варианты:
а) P(1) = P (2) , б) P(1) ¹ P (2) .
Решение сопровождайте графиками.

7.17. Необходимо построить байесовское решающее правило и найти


вероятности ошибок классификации. Условные плотности вероятности для
информативного признака имеют вид (нормальный закон распределения)

1 ìï ( x - mi ) 2 üï
f ( x | i) = exp í- 2 ý, i = 1, 2 .
2 p si ïî 2si ïþ

Варианты:
2 2
а) m1 ¹ m2 , s1 = s 2 , P(1) = P (2) ;
2 2
б) m1 ¹ m2 , s1 = s 2 , P(1) ¹ P (2) ;
2 2
в) m1 ¹ m2 , s1 ¹ s 2 , P(1) ¹ P (2) ;
2 2
г) m1 = m2 , s1 ¹ s 2 , P(1) ¹ P (2) ;
д) m1 = 1, m2 = 3; s1 = 1, s2 = 2; P (1) = P ( 2) ;
е) m1 = 3, m2 = 9; s1 = 3, s 2 = 4; P (1) = 1 / 3, P (2) = 2 / 3 ;
ё) m1 = 1, m2 = 1; s1 = 1, s2 = 2; P (1) = P (2) ;
ж) m1 = 0, m2 = 1; s1 = 1, s2 = 3; P (1) = 0.25, P (2) = 0.75 .
Решение сопровождайте графическими пояснениями.

7.18. На основе байесовской теории принятия решений вычислите


разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид (распределение Лапласа)

1 ì | x - mi | ü
f ( x | i) = expí- ý, i = 1, 2 .
2g i î g i þ

127
Варианты:
а) m1 ¹ m2 , g1 = g 2 , P (1) = P (2) ;
б) m1 ¹ m2 , g1 ¹ g 2 , P (1) = P (2) ;
в) m1 ¹ m2 , g1 ¹ g 2 , P (1) ¹ P (2) ;
г) m1 = m2 , g1 ¹ g 2 , P (1) ¹ P (2) ;
д) m1 = 0, m2 = 2, g1 = 1, g 2 = 2, P (1) = P ( 2) .

7.19. На основе критерия минимума вероятности ошибки


классификации необходимо вычислить разделяющие пороги, выписать
решающее правило и найти вероятность ошибки классификации. Условные
плотности вероятности для информативного признака имеют вид
ì1- | x - 2 |, 1 £ x £ 3,
f ( x | 1) = 0.5 exp{- | x |}, f ( x | 2) = í
î0, x Ï [1; 3].

Варианты:
а) P(1) = P (2) ; б) P (1) = 0.2, P ( 2) = 0.8 ;
в) P (1) = 0.9, P ( 2) = 0.1 ; г) P (1) = 0.7, P ( 2) = 0.3 .

7.20. На основе критерия минимума вероятности ошибки


классификации необходимо вычислить разделяющие пороги, выписать
решающее правило и найти вероятность ошибки классификации. Условные
плотности вероятности для информативного признака имеют вид

ì1- | x |, | x |£ 1,
f ( x | 1) = í f ( x | 2) = 0.5 exp{- | x - 2 |} .
î0, 1 £ | x |;

Варианты:
а) P (1) = 1 / 3, P ( 2) = 2 / 3 ;
б) P (1) = P (2 ) ; в) P (1) = 2 / 3, P (2 ) = 1 / 3 .

7.21. На основе байесовской теории принятия решений необходимо


вычислить разделяющие пороги, выписать решающее правило и найти
вероятность ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид

ì x exp{- x 2 / 2}, x ³ 0,
f ( x | 1) = 0.5 exp{- | x |}, f ( x | 2) = í
î0, x < 0.

Варианты:
а) P (1) = 0.2, P ( 2) = 0.8 ; б) P(1) = P (2) ; в) P (1) = 0.8, P ( 2) = 0.2 .

128
7.22. На основе байесовской теории принятия решений вычислите
разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид

ì 2
f ( x | 1) = 0.5 exp{- | x - 1 |}, f ( x | 2) = í x exp{- x / 2}, x ³ 0,
î0, x < 0.

Варианты:
а) P (1) = 1 / 4, P (2 ) = 3 / 4 ; б) P (1) = P (2 ) ; в) P (1) = 3 / 4, P (2 ) = 1 / 4 .

7.23. На основе байесовской теории принятия решений вычислите


разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид

ìe- x , x ³ 0,
f ( x | 1) = 0.5 exp{- | x |}, f ( x | 2) = í
î0, x < 0.
Варианты:
а) P(1) = 1 / 3, P(2) = 2 / 3 ; б) P(1) = P(2) ; в) P(1) = 2 / 3, P(2) = 1 / 3 .

7.24. На основе байесовской теории принятия решений вычислите


разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид:

ì -x
f ( x | 1) = 0.5 exp{- | x |}; f ( x | 2) = íe , x ³ 0,
î0, x < 0;

ì1, x Î[ -2; - 1],


f ( x|3) = í
î0, x Ï[ -2; - 1].

Варианты:
а) P (1) = P (2 ) = P (3) = 1 / 3 ;
б) P (1) = 1 / 4, P (2) = 1 / 2, P (3) = 1 / 4 ;
в) P (1) = 1 / 6, P (2 ) = 1 / 2, P (3) = 1 / 3 ;
г) P (1) = 1 / 2, P (2) = 3 / 8, P (3) = 1 / 8 .

7.25. На основе байесовской теории принятия решений необходимо

129
вычислить разделяющие пороги, записать решающее правило и найти
вероятность ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид

1 ìï x 2 üï
f ( x | 1) = exp í- ý; f ( x | 2) = 0.5 exp{- | x |} .
2p ïî 2 ïþ

Варианты:
а) P(1) = P(2) ; б) P(1) = 1 / 4, P(2) = 3 / 4 ; в) P(1) = 3 / 4, P(2) = 1 / 4 .

7.26. На основе критерия минимума вероятности ошибки


классификации необходимо вычислить разделяющие пороги, выписать
решающее правило и найти вероятность ошибки классификации. Условные
плотности вероятности для информативного признака имеют вид:

ì0.5, | x |£ 1, ì0.75 × (1 - x 2 ), | x |£ 1,
f ( x | 1) = í f ( x | 2) = í
î0, 1 <| x |; î0, 1 <| x | .

Варианты:
а) P (1) = 3 / 4, P (2 ) = 1 / 4 ; б) P (1) = 3 / 5, P (2 ) = 2 / 5 ;
в) P (1) = P ( 2) = 1 / 2 ; г) P (1) = 1 / 4, P (2 ) = 3 / 4 .

7.27. На основе байесовской теории принятия решений вычислите


разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид (экспоненциальное распределение)

ìli e- l i x , x ³ 0,
f ( x | i) = í
î0, x < 0; i = 1, 2.

Варианты:
а) l1 ¹ l 2 , P (1) = P (2) ; б) l1 ¹ l 2 , P (1) ¹ P ( 2) ;
в) l1 = l 2 , P (1) ¹ P ( 2) .

7.28. На основе байесовской теории принятия решений необходимо


вычислить разделяющие пороги, выписать решающее правило и найти
вероятность ошибки классификации. Условные плотности вероятности для
информативного признака имеют распределение Релея:

130
ì x ìï x 2 üï
ï exp í- 2 ý, x ³ 0,
f ( x | i ) = í si2 ïî 2si ïþ
ï
î0, x < 0; i = 1, 2.

Варианты:
2 2 2 2
а) s1 ¹ s2 , P (1) = P ( 2) ; б) s1 ¹ s2 , P (1) ¹ P ( 2) ;
2 2
в) s1 = s2 , P (1) ¹ P ( 2) .

7.29. Имеются два информативных признака, распределенных по


нормальному закону:

r 1 ì 1 r r T -1 r r ü
f ( x | j) = 1/ 2
exp í- ( x - m( j )) K ( j )( x - m( j ))ý ,
2p | K ( j ) | î 2 þ

r æ x1 ö r æ m1 ( j ) ö æ s12 ( j ) k12 ( j ) ö
j = 1, 2, x = ç ÷, m( j ) = ç ÷, K ( j ) = ç ÷,
è x2 ø è m2 ( j ) ø ç 2 ÷
è k21 ( j ) s2 ( j ) ø
k12 ( j ) = k21 ( j ), j = 1, 2 .

Необходимо найти разделяющую функцию и выписать решающее


правило, основываясь на байесовском подходе.
Варианты:
æ s12 ( j ) 0 ö
а) признаки некоррелированные: K ( j ) = ç ÷,
ç0 s 2 ( j ) ÷ø
2
è
r r
m(1) ¹ m( 2), K (1) ¹ K ( 2), P(1) ¹ P( 2) ,

б) признаки некоррелированные, K (1)= K ( 2) , s1 = s 2 = s,


P (1)= P ( 2) .

7.30. Имеется m информативных признаков, распределенных по


нормальному закону. Необходимо найти разделяющую поверхность и
построить решающее правило в соответствии с байесовской теорией
принятия решений. Корреляционные матрицы одинаковые
( K=
(1) K (=2) K ), а признаки коррелированные.
Варианты: а) P(1) ¹ P (2) ; б) P(1) = P (2) .

7.31. Для случая двух информативных признаков на основе критерия

131
минимума вероятности ошибки классификации необходимо построить
разделяющие функции, выписать решающее правило и найти вероятности
ошибок классификации. Условные плотности вероятности для
информативных признаков имеют равномерные законы распределения;
признаки некоррелированные, априорные вероятности для всех классов
одинаковые.
Варианты:
а) два класса; области ненулевых значений плотностей (т. е. области
существования признаков) не пересекаются;
б) два класса; области ненулевых значений плотностей частично
пересекаются;
в) три класса; области ненулевых значений плотностей не
пересекаются;
г) три класса; области ненулевых значений плотностей частично
пересекаются.
Процесс поиска решения желательно сопровождать графиками в
пространстве двух информативных признаков.

7.32. Рассмотреть исходную постановку задачи классификации и


получить байесово решающее правило для случая, когда из двух
информативных признаков один дискретный, второй – непрерывный.

7.33 – 7.37. При наличии двух классов известна обучающая выборка:


1 1 2 2
x1 , K, xn1 ; x1 , K, xn2 общего объема n1 + n2 = n . По ней необходимо
доопределить априорные вероятности и параметры в соответствующих
(указанных ниже) законах распределения информативного признака, а также
записать байесовские решающие правила.
За основу рассмотрения необходимо взять следующие законы
распределения для информативного признака:
7.33. Равномерное распределение, неизвестные параметры
ai , bi , =
i 1, 2 .

7.34. Нормальное распределение, неизвестные параметры


2
mi , si ,=
i 1, 2 .

7.35. Распределение Лапласа, неизвестные параметры g i , i = 1, 2 .

7.36. Экспоненциальное распределение, неизвестные параметры


l i , i= 1, 2 .

7.37. Распределение Релея, неизвестные параметры si , i = 1, 2 .

132
8. Вопросы и упражнения к модулю 3. Планирование
эксперимента

Целью планирования эксперимента является создание таких планов


покачивания входных переменных, которые обеспечивают более быстрое и
точное построение модели объекта.

Все необходимые теоретические сведения и ряд разобранных примеров


приведены в третьем модуле учебного пособия.

8.1 Вопросы для самопроверки


1. Постановка задачи планирования эксперимента.
2. Построение линейной статической модели объекта при планировании
эксперимента.
3. Крутое восхождение по поверхности отклика.
4. Полный факторный эксперимент.
5. Дробные реплики.
6. Генерирующие соотношения и определяющие контрасты для
дробных реплик.
7. Обобщённый определяющий контраст для дробных реплик.
8. Насыщенные планы. Симплекс.
9. Разбиение матрицы планирования на блоки с целью устранения
кусочно-постоянного дрейфа.
10. Обработка результатов эксперимента при построении линейной
статической модели с использованием ортогональных планов первого
порядка.
11. Ортогональное планирование второго порядка.
12. Расчёт параметров квадратичных моделей при ортогональном
планировании.
13. Ротатабельное планирование.
14. Метод случайного баланса при построении матрицы планирования.
15. Выделение главных факторов с помощью диаграмм рассеяния.

8.2. Примеры
Пример 8.1. Найти коэффициенты линейной модели для следующего
плана эксперимента:

n x0 x1 x2 x1 x2 yi
1 + + + + y1

133
2 + – + – y2
3 + + – – y3
4 + – – + y4
y1 + y 2 + y3 + y 4 y - y 2 + y3 - y 4
b0 = , b1 = 1 ,
4 4

y1 + y 2 - y3 - y 4 y - y 2 - y3 - y 4
b2 = , b12 = 1 ,
4 4
2
2 2 2 2 sy
Дисперсия выхода модели: s b0 = sb1 = sb 2 = sb12 = .
4
Пример 8.2. Упорядочить факторы по значимости для следующего
эксперимента:
n x1 x2 x1 x2 y y1
1 + + + 24 27
2 – + – 27 27
3 + – – 26 29
4 – – + 29 29
24 - 27 + 26 - 29
D1= 2b1= -3; b1= = -1.5
4
D 2= 2 b 2 , D12= 2 b12 .
Наиболее значимым фактором будет тот, у которого наибольшая по
модулю дельта.
Исключим этот фактор из дальнейшего рассмотрения, введя
корректировку в результаты измерения выхода. Для корректировки следует
"стабилизировать" x j , например, на нижнем уровне "–". Для этого в тех
строках таблице эксперимента, где x j имеет уровень "+", значения y
уменьшаются на величину D j (с учетом знака). Скорректированные данные
приведены в дополнительном столбце y 1 .
Повторить процедуру для оставшихся факторов.

8.3. Упражнения

8.1. Постройте ортогональный план взвешивания 7 тел и 15 тел;


определите веса тел по результатам взвешивания; вычислите дисперсии
получаемого веса тел (считая равноточными результаты взвешивания во всех

134
точках плана); сравните результаты вышеуказанного взвешивания с
результатами обычного поочередного взвешивания тел.
Указание. Матрицы планирования проще всего построить как дробные
реплики 2 7 - 4 , 215 - 11 .
Таблица 8.У.4
n x1 x2 x3 y 8.2. Постройте ортогональный полный
1 + + + 13.6 факторный план 2 m при m = 2, 3, 4, 5, 6.
2 – + + 10.4
3 + – + 7.4 8.3. Вычислите коэффициенты
4 – – + 4.6 линейной модели на основе результатов,
5 + + – 4.6 приведенных в табл.
8.У.1. Таблица 8.У.1
6 – + – 3.4
7 + – – 2.4 n x1 x2 y
8 – – – 1.6 8.4. Вычислите
1 + + 5
параметры линейной
2 – + 3
модели, обрабатывая результаты полного факторного
эксперимента (табл. 8.У.2). На основе этих же 3 + – –1
4 – – –3
результатов определите коэффициенты b12 , b13 , b 23 ,
b123 , стоящие в модели перед факторами взаимодействия.
8.5. Вычислите коэффициенты линейной модели по экспериментальным
Таблица 8.У.2 Таблица 8.У.3
n x1 x2 x3 y y
n x1 x2 x3 x4
1 + + + 12 1 + + + + 26
2 – + + 10 2 – + + – 20
3 + – + 8 3 + – + – 5
4 – – + 6 4 – – + + 14
5 + + – 6 5 + + – – 10
6 – + – 4 6 – + – + 25
7 + – – 2 7 + – – + 15
8 – – – 0 8 – – – – 9
данным, приведенным в табл. 8.У.3.
Найдите определяющий контраст этой дробной реплики.

8.6. Вычислите коэффициенты b 0 , b1 , b 2 , b3 , b12 , b13 , b 23 , b123 модели


(с учетом факторов взаимодействия) на основе результатов планирования,
приведенных в табл. 8.У.4.

8.7. Определите разрешающую способность дробных реплик 2 4 - 1 с


определяющими контрастами: а) = 1 x1 x2 x3 x4 ;

135
б) - 1 = x1 x2 x3 x4 ; в) 1 = x1 x2 x4 ;
г) - 1 = x1 x2 x4 ; д) 1 = x2 x3 x4 .

8.8. Постройте дробные реплики 2 3 -1 с определяющими контрастами


1 = x1 x2 x3 , - 1 = x1 x2 x3 ; оцените их разрешающие способности; вычислите
коэффициенты линейной модели и найдите дисперсии этих коэффициентов.

8.9. Постройте дробную реплику 2 4 - 1 с определяющим контрастом


1 = x1 x2 x3 x4 ; запишите полную модель, которую можно построить на основе
этого плана; выпишите формулы расчета параметров модели; вычислите
дисперсию выхода модели.

8.10. Выполните задание предыдущего примера для дробных реплик


5 -1
2 с определяющими контрастами 1 = x1 x2 x4 ; 1 = x1 x3 x4 ; 1 = x2 x3 x4 .

8.11. Постройте дробную реплику 2 5 - 2 с генерирующими


соотношениями x4= x1 x2 x3 ; x5= x1 x3 ; оцените ее разрешающую
способность; выпишите синтезируемую модель и вычислите дисперсию
выхода модели.

8.12. Можно ли в модель включить следующие существенные


переменные: x0 , x1 , x2 , x3 , x4 , x1 x2 , x2 x3 , x2 x4 , если при планировании
эксперимента используется дробная реплика 2 4 -1 с определяющим
контрастом 1= x1 x3 x4 ?

8.13. Можно ли в модель включить следующие существенные


переменные: x0 , x1 , x2 , x3 , x4 , x1 x2 , x2 x3 , x2 x4 , если при планировании
эксперимента используется дробная реплика 2 4 -1 с определяющим
контрастом 1= x1 x2 x3 x4 ?

8.14. Можно ли в модель объекта включить существенные переменные


x0 , x1 , x2 , x3 , x4 , x1 x2 , x2 x3 , x3 x4 , если используется дробная реплика 2 4 - 1
с определяющим контрастом 1 = x1 x2 x3 x4 ?

8.15. Можно ли на основе использования дробной реплики 2 5 - 2 с


обобщенным определяющим контрастом 1= x1 x2 x3 x4 = x1 x3 x5 = x2 x4 x5
построить модель, включающую в себя следующие существенные
переменные:

136
а) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 ;
б) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 , x4 , x5 ;
в) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 , x1 x 3 , x1 x4 , x1 x5 ;
г) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 , x 2 x 4 , x4 x5 , x1 x2 x3 ?

8.16. Имеется дробная реплика 2 5 - 2 с определяющими контрастами


1 = x1 x2 x4 , 1 = x1 x2 x3 x5 . Найдите обобщенный определяющий контраст;
оцените, какие существенные факторы могут быть включены в модель;
определите разрешающую способность дробной реплики.

8.17. Определите, какие дробные реплики 2 4 - 1 могут быть построены;


оцените их разрешающие способности; покажите, какие модели могут быть
построены с помощью этих планов.

8.18. Выявите все дробные реплики 2 5 - 2 ; оцените разрешающие


способности их и выпишите модели, которые могут быть построены с
помощью этих планов.

8.19. Найдите все возможные дробные реплики 2 6 - 3 и для трех из них:


а) x4 = x1 x2 , x5 = x1 x3 , x6 = x2 x3 ; б) x4= x1 x2 , x5= x1 x3 , x6= x1 x2 x3 ;
в) x4= x1 x3 , x5= x2 x3 , x6= x1 x2 x3 , выпишите структуры оцениваемых
моделей.

8.20. Для нейтрализации кусочно-постоянного дрейфа необходимо


полный факторный эксперимент 2 4 разбить на 2 блока, а затем каждый из
них – тоже на 2 блока. Необходимо убедиться, что при полученном
упорядоченном во времени планировании дрейф не приводит к смещению
параметров модели.
8.21. Считаем, что через каждые четыре измерения аддитивный
кусочно-постоянный дрейф выхода меняет свое значение. Разбивая полный
факторный эксперимент 2 3 на блоки, составьте план, который не приведёт к
смещению параметров линейной модели за счет наличия дрейфа.
8.22. На основе матрицы планирования 2 3 -1 на объекте поставлен
эксперимент с одинаковым числом повторных опытов (табл. 8.У.5).
Проверьте гипотезу о равной точности измерений. Если эта гипотеза
принимается, то вычислите оценку дисперсии для выходной координаты.
Далее постройте линейную модель объекта, оцените значимость всех
параметров, незначимые параметры исключите из модели и проверьте для

137
полученной модели гипотезу адекватности. При решении вышеуказанных
задач уровень значимости a = 0.05.
Таблица 8.У.6
8.23. На объекте реализован
n x1 x2 x3 x4 y план, представленный в табл. 8.У.6.
1 + + + + 26 Постройте линейную модель,
2 – + + – 20 проверьте значимость
коэффициентов, а затем убедитесь в
3 + – + – 5
адекватности модели, если
4 – – + + 14 )2
5 + + – – 10 =
s 3.06=
, a 0.05 .
6 – + – + 25
7 + – – + 15 8.24. На объекте реализован
8 – – – – 9
полный факторный эксперимент 2 2 с
повторными опытами (табл. 3.У.7).
Проверьте гипотезу о
Таблица 8.У.7
равноточности измерений. Если эта
n x1 x2 y (1) y ( 2) y ( 3) гипотеза оказывается принятой, то
1 + + 0.5 1.5 1.0 вычислите оценку дисперсии для
2 – + 2.0 2.0 2.1 выходной координаты объекта. Затем
постройте линейную модель и
3 + – 3.0 2.9 3.1
проверьте ее на адекватность. Уровень
4 – – 4.5 5.5 5.0
значимости примите равным 0.05.

8.25. В таблице 8.У.8 Таблица 8.У.8


представлены результаты y
n x1 x2 x3 x4 x5
эксперимента. Оценка дисперсии
)2 1 + + + + – 53.0
s ( y ) для выходной координаты 2 – + + – + 64.8
объекта равна величине 6.5 и имеет 3 + – + – + 46.0
8 степеней свободы. При уровне 4 – – + + – 48.1
значимости 0.05 проверьте 5 + + – – – 57.2
гипотезы о значимости 6 – + – + + 54.8
коэффициентов линейной модели,
7 + – – + + 45.3
незначимые коэффициенты
8 – – – – – 50.0
исключите из модели и проверьте
гипотезу адекватности модели.
Найдите также генерирующие соотношения для вышеуказанной
дробной реплики.

8.26. Составьте ортогональный композиционный план второго порядка


при m = 2 и приведите расчетные формулы для всех параметров модели,
дисперсии параметров и дисперсии выхода модели.

138
8.27. Выделите главные факторы с использованием диаграмм
рассеяния. Результаты планирования приведены в табл. 8.У.9.

8.28. По результатам планирования, приведенным в табл. 8.У.10, на


основе диаграмм рассеяния выделите главные факторы.

Таблица 8.У.9 Таблица 8.У.10


n x1 x2 x3 x4 y n x1 x2 x3 x4 y
1 + + + + 29.6 1 + + + + 3.0
2 + – + – 12.2 2 + – + + 1.2
3 – – + + 23.9 3 – – + – 2.4
4 – + + – 58.6 4 – + + – 5.9
5 + + – + 23.2 5 + + – – 2.3
6 + – – – 29.2 6 + – – – 2.9
7 – – – + 53.9 7 – – – + 5.4
8 – + – – 38.3 8 – + – + 3.8

Таблица 8.У.11 8.29. Выделить главные


факторы методом диаграмм
n x1 x2 x3 x4 y
рассеяния по результатам
1 + + + + 6.0 планирования эксперимента,
2 + + – – 2.4 приведенным в табл. 8.У.11.
3 – – – + 4.8
4 – – + – 11.8
5 + – – – 1.6 8.30. Методом диаграмм
6 + – + + 5.8 рассеяния выделите главные
7 – + + – 10.8 факторы, используя результаты
8 – + – + 7.6 планирования, приведенные в
табл. 8.У.12.

8.31. Выделите главные факторы с использованием диаграмм


рассеяния. Результаты планирования эксперимента приведены в табл. 8.У.13.

139
Таблица 8.У.12 Таблица 8.У.13
n x1 x2 x3 x4 x5 y n x1 x2 x3 x4 y
1 + + + + + 30 1 + + – – 10
2 + – + – – 12 2 – – – – 9
3 – – + – + 24 3 + – – + 15
4 – + + + – 59 4 – + – + 25
5 + + – – – 23 5 + + + + 26
6 + – – + + 29 6 – – + + 14
7 – – – + – 54 7 + – + – 5
8 – + – – + 38 8 – + + – 20

Таблица 8.У.14 Таблица 8.У.15


n x1 x2 x3 x4 x5 y n x1 x2 x3 x4 x5 y
1 – – – – – 50 1 + + + + + 19
2 + + – – – 57 2 + – – + + 24
3 – – + + – 48 3 – – + – + 31
4 + – + – + 46 4 – + – – + 13
5 – + + – + 65 5 – – + + – 32
6 + – – + + 45 6 – + – + 14
7 – + – + + 55 7 + + + – – 25
8 + + + + – 53 8 + – – – – 30

8.32. По результатам планирования, приведенным в табл. 8.У.14,


методом диаграмм рассеяния выделите главные факторы.
8.33. Методом диаграмм рассеяния выделите главные факторы,
используя приведенные в табл. 8.У.15 результаты планирования
эксперимента.

8.34. Выделите главные факторы объекта на основе метода диаграмм


рассеяния, используя приведенные в табл. 8.У.16 результаты планирования
эксперимента.
8.35. На основе метода диаграмм рассеяния выделите главные факторы,
используя результаты планирования эксперимента, приведенные
в табл. 8.У.17.

140
Таблица 8.У.16 Таблица 8.У.17
n x1 x2 x3 y n x1 x2 x3 x4 y
1 + + + 18 1 + + + + 19
2 – + + 16 2 – – + – 17
3 + – + 12 3 + + – – 29
4 – – + 10 4 – – – + 27
5 + + – 8 5 + – – + 16
6 – + – 6 6 – + – – 32
7 + – – 2 7 + – + – 0
8 – – – 0 8 – + + + 20

8.36. Методом диаграмм рассеяния выделите главные факторы,


используя результаты планирования эксперимента, приведенные в табл.
8.У.18.
Таблица 8.У.18
n x1 x2 x3 x4 x5 x6 x7 y
1 + + + + + + + 12.4
2 – + + – – + – 6.5
3 + – + – + – – 11.5
4 – – + + – – + 4.0
5 + + – + – – – 11.8
6 – + – – + – + 5.0
7 + – – – – + + 9.9
8 – – – + + + – 2.2

141
9. Вопросы и упражнения к модулю 4. Методы
непараметрической обработки информации

Методы статистической обработки информации можно условно


разделить на две группы: параметрические и непараметрические.
Параметрические методы используют параметрические семейства
зависимостей (разделяющей поверхности в распознавании образов, плотности
распределения вероятности, модели объекта) и существенно используют
свойства объектов. Непараметрические методы не ориентированы на
указанные параметрические семейства, имеют более универсальную
структуру и более широкую область применения. Они работают при большей
неопределенности по априорной информации. Платой за это служит более
сложная обработка исходной выборки и, как правило, непараметрические
методы с этой выборкой никогда не расстаются. В лучшем случае исходная
избыточная выборка заменяется укороченной выборкой, которая впитала
основную информацию из исходной выборки.

Более полные теоретические сведения и ряд разобранных примеров


приведены в четвертом модуле учебного пособия.

9.1. Вопросы для самопроверки


1. Чем принципиально отличаются методы параметрической и
непараметрической обработки информации?
2. Есть ли в непараметрических моделях (алгоритмах) подстраиваемые
параметры? Приведите примеры.
3. Как ставится задача оценивания функционалов?
4. Каковы преимущества и недостатки простейших оценок функции и
плотности распределения вероятности?
5. Что такое оценка "К ближайших соседей"?
6. Что такое оценка Розенблатта – Парзена и чем она отличается от
оценки "К ближайших соседей"?
7. Как добиться состоятельности оценки Розенблатта – Парзена?
6. Адаптивная перестройка оценок Розенблатта – Парзена.
9. Как на основе оценки Розенблатта – Парзена построить оценки
моментов случайных величин?
10. Как на основе оценки Розенблатта – Парзена построить оценки
совместной энтропии случайных величин?
11. Как на базе оценки Розенблатта – Парзена построить оценку
условной плотности вероятности?
12. Адаптивный расчёт оценки условной плотности вероятности.
13. Как построить оценку прямой регрессии?

142
14. Можно ли на основе тех же экспериментальных данных построить
оценку инверсной регрессии?
15. Как осуществляется расчёт оптимального коэффициента размытости
оценки регрессии в одномерном случае.
16. Рекуррентный расчет оценки регрессии.
17. Робастные оценки регрессии.
18. Постановка задачи адаптивного управления при априорной
неопределенности.
19. Основная идея построения алгоритмов адаптивного управления при
априорной неопределенности.
20. Алгоритм адаптивного управления экстремальным объектом.
21. Распространение алгоритма адаптивного управления
экстремальным объектом на решение задачи минимизации функций многих
переменных.
22. Основные особенности применение непараметрического
сглаживания при классификации в распознавании образов.

9.2. Примеры
Пример 9.1. Необходимо по выборке xi , i = 1, n , найти оценку
математического ожидания от функции j( X ) случайной величины:
¥
M {j( X )} = ò j( x ) f ( x )dx .

Берем интегральное выражение и вместо плотности f ( x) ставим ее
оценку f n ( x ) . Получаем для d -функции:
¥
) 1 n
M {j( X )} = ò j( x ) n å
i =1
d ( x - xi )dx =

n ¥
1 1 n
= å ò j( x )d ( x - xi )dx = å j ( xi ) .
n i =1 - ¥ n i =1
Отсюда при j( X ) = X получаем оценку
) 1 n )
M { X } = å xi º m
n i =1

Пример 9.2. Вычислим моменты


o ¥
M {j( X )} = ò j ( x - m ) f ( x )dx

o
для центрированной случайной величины X= X - m , причем
математическое ожидание m = M { X } неизвестно. Получаем

143
) o ¥
æ ¥
ö
M {j( X )} = ò j ç x - ò xf n ( x )dx )÷ f n ( x ) dx =
-¥ è -¥ ø
¥
æ ¥
1 n ö1 n
= ò j ç x - ò x å d ( x - xi )dx÷ å d ( x - xi ) dx =
-¥ è - ¥ n i =1 ø n i =1
1 n ¥ ) 1 n ) ) 1 n
= å ò j( x - m ) d ( x - xi ) dx = å j( xi - m ); m = å xi .
n i =1 - ¥ n i =1 n i =1

Пример 9.3. Оценим дисперсию


¥
D{ X } = ò ( x - m) 2 f ( x )dx .

Если математическое ожидание m известно, то оценка дисперсии имеет
вид
1 n
D$1{ X } = å ( xi - m)2 .
n i =1

Пример 9.4. Пример 4.5.1. Оценка для математического ожидания


имеет вид

) ¥ 1 n 1 æ x - xi ö 1 n 1 ¥ æ x - xi ö
m = ò x å Kç ÷dx = å ò xK ç ÷ dx =
-¥ n i =1 h è h ø n i =1 h -¥ è h ø
ì x - xi ü
í = z, x = xi + hz, dx = hdz ý
î h þ
1 n 1 1 n 1 1
= å ò ( xi + hz )K ( z )dz = å[ xi ò K ( z )dz + h ò z K ( z ) dz ] =
n i =1 -1 n i =1 -1 -1
1 n 1 n
= å [ xi + h × 0]= å xi .
n i =1 n i =1

Это известная оценка. Она является состоятельной, несмещенной,


асимптотически нормально распределенной N ( m, s 2 / n ) с математическим
)
ожиданием M {mn } = m и дисперсией s m2) n = s 2 / n . Здесь m и s 2
соответственно математическое ожидание и дисперсия случайной величины
X.
9.3. Упражнения
9.1. На основе простейшей оценки для плотности распределения
вероятности вычислите оценку математического ожидания случайной
величины. Рассчитайте для нее математическое ожидание и дисперсию.

144
9.2. На основе использования простейшей оценки для плотности
распределения вероятности вычислите оценку математического ожидания от
аналитической функции центрированной случайной величины.
o ¥
M {j( X )} = ò j( x - m) f ( x) dx .

9.3. Используя оценку, вычисленную в предыдущем примере, найдите


оценку дисперсии случайной величины.

9.4. Используя краткую выборку случайной величины и построенную


на основе нее простейшую оценку плотности распределения вероятности,
вычислите оценки для математического ожидания случайной величины, ее
дисперсии и для математического ожидания функции случайной величины.

9.5. Используя выборку системы нескольких случайных величин,


постройте простейшую оценку совместной плотности распределения
вероятности и на основе нее найдите оценки элементов корреляционной
матрицы.

9.6. На основе полиграммы первого порядка найдите оценку


математического ожидания случайной величины. Покажите, что эта оценка
является несмещенной и состоятельной.

9.7. Для оценки математического ожидания случайной величины,


полученной по полиграмме 1 порядка, вычислите дисперсию и сравните ее с
дисперсией обычной оценки.

9.8. Оценку дисперсии


) 1 n -1 ( xi +1 - xi ) 2
D1 = å [( xi - m)( xi +1 - m) +
n - 1 i =1 3
]

исследуйте на смещенность ( m – известно).

9.9. Исследуйте на смещенность следующую оценку дисперсии:


2
1 n -1æ xi + xi +1 ö
D1 = åç - m ÷ , ( m – известно).
n - 1 i =1 è 2 ø

9.10. В одномерном случае запишите оценку Розенблатта – Парзена.

9.11. Запишите оценку Розенблатта – Парзена для двумерной случайной


величины.

145
9.12. Постройте модифицированную оценку Розенблатта – Парзена и
придайте ей рекуррентный вид.

9.13. Придайте рекуррентный вид оценке математического ожидания:


) 1 n
m = å xi .
n i =1

9.14. Придайте рекуррентный вид оценкам, рассмотренным в


упражнениях 9.2, 9.3, 9.4, 9.6.

9.15. Рассчитайте оценку математического ожидания случайной


величины на основе оценки Розенблатта – Парзена при треугольном виде
ядра.

9.16. Рассчитайте оценку математического ожидания случайной


величины на основе оценки Розенблатта – Парзена при параболическом виде
ядра.
9.17. Рассчитайте оценку математического ожидания аналитической
функции случайной величины на основе использования оценки Розенблатта –
Парзена при треугольном виде ядра. Используя полученный результат,
получите оценку дисперсии и исследуйте ее на смещенность.

9.18. Выполните задание предыдущего примера при использовании


параболического вида ядра.

9.19. На основе оценки Розенблатта – Парзена постройте оценку


коэффициента корреляции.

9.20. На основе оценки Розенблатта – Парзена постройте оценку


энтропии двумерной случайной величины.

9.21. Запишите оценку условной плотности распределения вероятности,


используя оценки Розенблатта – Парзена для совместных плотностей
вероятности (у объекта 2 входа и один выход).

9.22. Придайте рекуррентный вид оценке условной плотности


распределения вероятности.

9.23. Для объекта с одним входом и одним выходом постройте


непараметрические оценки прямой и обратной регрессий.

146
9.24. Для объекта с двумя входами и одним выходом постройте
непараметрическую оценку прямой и инверсных регрессии.

9.25. Для объекта с двумя входами и двумя выходами постройте


непараметрические оценки прямых и инверсных регрессий.

9.26. Для объекта с одним входом и одним выходом постройте


адаптивные непараметрические оценки прямой и инверсной регрессий.

9.27. Запишите алгоритм расчета робастной непараметрической оценки


регрессии для объекта с двумя входами и одним выходом.

9.28. На основе оценки Розенблатта – Парзена получите оценки средней


условной энтропии и среднего количества информации (объект с двумя
входами и одним выходом).

9.29. Запишите алгоритм адаптивного управления (используя


непараметрические оценки инверсных регрессий) объектом с двумя
управляющими входами и одним выходом.

9.30. Синтезируйте алгоритм адаптивного управления (на основе


использования непараметрической оценки инверсной регрессии) для объекта
с одним входом и двумя выходами.

9.31. Синтезируйте алгоритм адаптивного управления (на основе


использования непараметрических оценок инверсных регрессий) объектом с
двумя управляющими входами и двумя выходами.

9.32. Синтезируйте алгоритм адаптивного управления экстремальным


объектом с двумя управляющими входами и двумя выходами.

9.33. Синтезируйте непараметрический алгоритм минимизации


функции двух переменных.

147
10. Вопросы и упражнения к модулю 5. Дисперсионный
анализ

Методы дисперсионного, корреляционного и регрессионного анализов


являются последовательными ступенями при исследовании связей между
случайными величинами.
Методами дисперсионного анализа устанавливается наличие влияния
заданного фактора на изучаемый процесс (на выходную переменную
процесса) за счёт статистической обработки наблюдаемой совокупности
выборочных данных. Корреляционный анализ позволяет оценить силу такой
связи, а методами регрессионного анализа строится математическая модель и
оценивается адекватность модели.
В последние десятилетия методы математического планирования
эксперимента активно используются в методах дисперсного и регрессионного
анализов и, естественно, дополняют их.
Более полные теоретические сведения и ряд разобранных примеров
приведены в пятом модуле основного учебного пособия.

10.1. Вопросы для самопроверки


1. Что такое дисперсионный анализ?
2. Что такое корреляционный анализ?
3. Что такое регрессионный анализ?
4. Можно ли с помощью дисперсионного анализа построить
математическую модель объекта?
5. Какие гипотезы проверяются в дисперсионном анализе?
6. Что такое статистика Фишера и критерий Фишера?
7. Основные предпосылки при решении задач с помощью
дисперсионного анализа.
8. Основная идея однофакторного дисперсионного анализа.
9. Как проверяется гипотеза о равенстве нескольких дисперсий?
10. Основная идея двухфакторного дисперсионного анализа.
11. Как применяется планирование эксперимента в дисперсионном
анализе?
12. Какие дисперсионные характеристики статических моделей
стохастических объектов Вам известны?
13. Что такое регрессия?
14. Как построить оценку регрессии?
15. Что такое дисперсионное отношение?
16. Приведите дисперсионные характеристики параметрических
статических моделей стохастических объектов.
17. Зачем необходимо строить непараметрическую оценку регрессии?

148
18. Как построить оценки дисперсионных характеристик?
19. Почему некоторые модели называют субоптимальными?

10.2. Примеры
Пример 10.1. Провести дисперсионный анализ данных, представленных
таблицей, при уровне значимости a = 0.05 :

Уровни фактора Ai
i
A1 A2 A3 A4 A5
1 3.2 2.6 2.9 3.6 3.0
2 3.1 3.1 2.6 3.4 3.4
3 3.1 2.7 3.0 3.2 3.2
4 2.8 2.9 3.1 3.3 3.5
5 3.3 2.7 3.0 3.5 2.9
6 3.0 2.8 2.8 3.3 3.1
S 18.5 16.8 17.4 20.3 19.1

Вычисляем

5 6
2
Q1= å å xij= 284.8 ;
=i 1=j 1

1 5 2 1 2 2 2
Q2= å X i= × (18.5 + 16.8 + ... + 19.1 =) 284.025 ;
6=i 1 6
2
1 æ5 ö 1 2
Q3= ×çå Xi ÷ = × (18.5 + 16.8 + 17.4 + 20.3 + 19.1) = 282.747 .
5× 6 =
èi 1 ø 30
Далее вычисляем дисперсии
2 284.87 - 284.025 2 284.025 - 282.747
S0 = = 0.0338 ; SA = = 0.319 ;
5 × (6 - 1) 5 -1
2
SA 0.319
2
= = 9.45 .
S0 0.0338

Из таблиц для n1= k - 1= 4 и n 2 = k × ( n - 1) = 25 находим


2
SA
F0.05 ( 4; 25)= 2.8 . Так как 2
= 9.45 > F0.05 ( 4; 25) = 2.8 , влияние фактора A
S0
на поведение наблюдаемой случайной величины следует признать значимым.

149
Пример 10.2. Проведём двухфакторный дисперсионный анализ данных,
представленных следующей таблицей, при уровне значимости a = 0.05 :
A
B A1 A2 A3
B1 3.6 3.8 4.1 2.9 3.1 3.0 2.6 2.5 2.9
B2 4.2 4.0 4.1 3.3 2.9 3.2 3.7 3.5 3.6
B3 3.8 3.5 3.6 3.6 3.7 3.5 3.2 3.0 3.4
B4 3.4 3.2 3.2 3.4 3.6 3.5 3.6 3.8 3.7

Заменяя в клетках таблицы серии значений их средними, получаем


следующую таблицу:
A
B A1 A2 A3 S
B1 3.83 3.00 2.67 9.50
B2 4.10 3.13 3.60 10.83
B3 3.63 3.60 3.20 10.43
B4 3.27 3.50 3.70 10.47
S 14.83 13.23 13.17 41.23

Используя данные таблицы, вычисляем суммы


3 4
2 1 3 2
Q1 = å å xij = 143.34 ; Q2 = × å X i = 142.102675 ;
i =1 j =1 4 i =1
2
1 4 2 1 æ3 ö
Q3 = × å X j = 141.98157 ; Q4 = × ç å X i ÷ = 141.6594 ;
3 j =1 4 × 3 è i =1 ø
3 4 3
2
Q5 = å å å xijv = 430.79 .
i =1 j= 1v= 1
Далее вычисляем:
2Q1 + Q4 - Q2 - Q3
S0 = =
(k - 1) × ( m - 1)
143.3745 + 141.6594 - 142.102675 - 141.98157
= = 0.1582 ;
2×3
2 Q - Q4 142.3745 - 141.6594
SA = 2 = = 0.223675 ;
k -1 2
2 Q - Q4 141.98157 - 141.6594
SB = 3 = = 0.10739 ;
m -1 3

150
2 Q5 - n × Q1 430.79 - 3 × 143.3745
S AB = = = 0.02777 ;
mk × ( n - 1) 4 × 3× 2
2 2
SA 0.223675 S B 0.10739
2
= = 1. 41 ; 2
= = 0.679 ;
S0 0.1582 S0 0.1582
2
n × S0 3 × 0.1582
2
= = 17.09 .
S AB 0.02777
Из таблицы П4 приложения имеем
F0.05 [ k - 1; ( k - 1) × ( m - 1)] = F0.05 ( 2; 6) = 5.1
F0.05 [m - 1; ( k - 1) × ( m - 1)] = 4.8 ;
F0.05 [( k - 1) × ( m - 1); mk × ( n - 1) ] = F0.05 (6; 24) = 2.5 .
Сравнивая, получаем
2 2
SA SB
2
= 1.41 < F0.05 ( 2; 6) = 5.1; 2
= 0.679 < F0.05 (3; 6) = 4.8;
S0 S0
2
n × S0
2
= 17.09 > F0.05 (6; 24) = 2.5.
S AB
Следовательно, влияние факторов A и B должно быть признано
незначимым. Однако, существенно значимым является взаимодействие
факторов A и B .

10.3. Упражнения
10.1. На основе дисперсионного анализа выявить влияние фактора A на
случайную величину с использованием экспериментальных данных,
представленных в таблице, при уровнях значимости: а) a = 0.05 ; б)
a = 0.025 :

Уровни Ai фактора A
i A1 A2 A3 A4 A5
1 0.2 -0.4 -0.2 0.7 0.0
2 0.3 -0.1 -0.5 0.5 0.4
3 0.1 -0.4 -0.1 0.4 0.2
4 0.5 -0.1 0.1 0.3 0.5
5 0.3 -0.5 0.0 0.6 -0.2
6 0.0 -0.2 -0.3 0.3 0.3
S 1.4 -1.7 -1.0 2.8 1.2

151
10.2. Дисперсионным анализом выявить влияние фактора A на
случайную величину на основе экспериментальных данных, представленных
в таблице, при уровнях значимости: а) a = 0.05 ; б) a = 0.025 :
Уровни Ai фактора A
i
A1 A2 A3 A4 A5
1 1.3 0.6 1.2 1.6 1.0
2 1.1 1.1 0.7 1.4 1.3
3 1.2 0.7 1.0 1.2 1.2
4 0.7 0.9 1.1 1.3 1.5
5 1.4 0.7 1.3 1.6 1.0
6 1.0 0.8 0.9 1.4 1.1
S 6.7 4.8 6.2 8.5 7.1

10.3. Провести дисперсионный анализ объекта на основе


экспериментальных данных, представленных таблицей, при уровнях
значимости: а) a = 0.05 ; б) a = 0.025 :

Уровни Ai фактора A
i
A1 A2 A3 A4 A5
1 2.2 1.6 1.9 2.6 2.0
2 2.1 2.1 1.6 2.4 2.4
3 2.1 1.7 2.0 2.2 2.2
4 1.8 1.9 2.1 2.3 2.5
5 2.3 1.7 2.0 2.5 1.9
6 2.0 1.8 1.8 2.3 2.1
S 12.5 10.8 11.4 14.3 13.1

10.4. Осуществить дисперсионный анализ влияния фактора A на


случайную величину, используя экспериментальные данные из
нижеприведённой таблицы, при уровнях значимости: а) a = 0.05 ; б)
a = 0.025 :

Уровни Ai фактора A
i
A1 A2 A3 A4 A5

152
1 4.2 3.6 3.7 4.7 4.1
2 4.1 4.1 3.6 4.5 4.4
3 4.3 3.7 4.0 4.3 4.2
4 3.8 3.9 4.1 4.4 4.6
5 4.4 3.7 4.0 4.6 4.0
6 4.0 3.8 3.9 4.3 4.3
S 24.8 22.8 23.3 26.8 25.6

10.5. На основе двухфакторного дисперсионного анализа выявить


влияние факторов A , B , а также взаимодействия факторов AB , на
случайную величину с использованием экспериментальных данных,
представленных в таблице, при уровнях значимости: а) a = 0.05 ; б)
a = 0.025 :

A
B A1 A2 A3
B1 0.6 0.8 1.1 -0.1 0.1 0.0 -0.4 -0.5 -0.1
B2 1.2 1.0 1.1 0.3 -0.1 0.2 0.7 0.5 0.6
B3 0.8 0.5 0.6 0.6 0.7 0.5 0.2 0.0 0.4
B4 0.4 0.2 0.2 0.4 0.6 0.5 0.6 0.8 0.7

10.6. Двухфакторным дисперсионным анализом выявить влияние


факторов A , B (и фактора взаимодействия AB ) на случайную величину X
на основе экспериментальных данных, представленных в таблице, при
уровнях значимости: а) a = 0.05 ; б) a = 0.025 :

A
B A1 A2 A3
B1 1.7 1.8 2.1 0.9 1.0 1.1 0.6 0.5 0.9

153
B2 2.2 2.0 2.3 1.3 0.9 1.2 1.7 1.5 1.4
B3 1.8 1.4 1.6 1.6 1.4 1.5 1.1 1.2 1.3
B4 1.5 1.2 1.3 1.5 1.6 1.3 1.6 1.8 1.7

10.7. Провести двухфакторный дисперсионный анализ объекта на основе


экспериментальных данных, представленных таблицей, при уровнях
значимости: а) a = 0.05 ; б) a = 0.025 :

A
B A1 A2 A3
B1 2.6 2.8 3.1 1.9 2.1 2.0 1.6 1.5 1.9
B2 3.2 3.0 3.0 2.3 1.9 2.2 2.7 2.5 2.8
B3 2.7 2.5 2.6 2.8 2.7 2.6 2.2 2.0 2.3
B4 2.4 2.2 2.3 2.4 2.6 2.5 2.6 2.8 2.7

10.8. Осуществить двухфакторный дисперсионный анализ влияния


факторов A , B (и фактора взаимодействия AB ) на случайную величину X ,
используя экспериментальные данные из нижеприведённой таблицы, при
уровнях значимости: а) a = 0.05 ; б) a = 0.025 :

A
B A1 A2 A3
B1 4.6 4.8 5.1 3.7 4.1 4.0 3.6 3.5 3.9
B2 5.2 5.3 5.0 4.3 3.9 4.2 4.7 4.5 4.6
B3 4.8 4.5 4.6 4.6 4.7 4.3 4.2 4.0 4.3
B4 4.4 4.2 4.2 4.4 4.6 4.5 4.6 4.8 4.7

154
11. Вопросы и упражнения к модулю 6. Анализ трендов и
временных рядов
Временные ряды отличаются от данных об одном временном срезе в
том отношении, что в случае временных рядов сама последовательность
наблюдений несет в себе важную информацию. В частности, чтобы
охарактеризовать какую-либо совокупность данных в целом, вам уже
недостаточно знать лишь типичное значение этих данных (например, среднее
значение) или даже изменчивость этой совокупности данных (описываемую,
например, стандартным отклонением). В этом случае желательно знать, что,
скорее всего, произойдет дальше. Подобный прогноз должен по возможности
точнее экстраполировать ближайшее поведение системы с точки зрения
моделей поведения этой системы в прошлом.
Все необходимые теоретические сведения и ряд разобранных примеров
приведены в шестом модуле учебного пособия.

11.1. Вопросы для самопроверки


1. В чем отличие временного ряда от данных об одном временном
срезе?
2. Какая информация утрачивается, когда вы анализируете
гистограмму, построенную для временного ряда?
3. Что такое "прогноз"?
4. Что такое "границы прогноза"?
5. Какую роль в прогнозировании играет математическая модель?
6. Почему анализ трендов и сезонных колебаний не позволяет получить
границы прогноза?
7. Назовите четыре базовых компонента помесячных или
поквартальных временных рядов (с точки зрения подхода, основанного на
трендах и сезонных колебаниях).
8. Подробно опишите различия между циклическим и нерегулярным
компонентами.
9. В чем отличие скользящего среднего от исходного ряда?
10. Почему в случае анализа трендов и сезонных колебаний мы
используем в скользящем среднем данные именно за целый год?
11. Какие компоненты сохраняются в скользящем среднем? Какие
уменьшаются или вообще исчезают?
12. Как вычисляется отношение к скользящему среднему? Какие
компоненты оно представляет?
13. Что нужно сделать, чтобы на основе отношения к скользящему
среднему получить сезонный индекс? Почему это возможно?
14. Что представляет собой сезонный индекс?

155
15. Как внести сезонную поправку в значение временного ряда? Как вы
интерпретируете полученный результат?
16. Как оценивается линейный тренд в анализе трендов и сезонных
колебаний?
17. Какой вид прогноза представляет линейный тренд?
18. Как получить прогноз на основе линейного тренда?
19. Какие компоненты будут представлены в этом прогнозе? Какие
будут отсутствовать?
20. Каким образом гибкость ARIMA-процессов Бокса-Дженкинса
помогает в анализе временных рядов?
21. Что такое "экономная модель"?
22. Как соотносится прогноз с фактическим будущим поведением
оцениваемого процесса?
23. Как соотносятся границы прогноза с фактическим будущим
поведением оцениваемого процесса?
24. Дайте определение процесса случайного шума с точки зрения
взаимосвязи между последовательными наблюдениями.
25. Прокомментируйте следующее утверждение: если мы имеем дело с
процессом случайного шума, то для его анализа не требуется применять
специальные методы исследования временных рядов.
26. Что представляют собой прогноз и границы прогноза для процесса
случайного шума?
27. Дайте определение процесса авторегрессии первого порядка с точки
зрения взаимосвязи между последовательными наблюдениями.
28. Что представляют собой переменные Х и Y в регрессионной модели
для прогнозирования следующего наблюдения в процессе авторегрессии
первого порядка?
29. Опишите прогнозы процесса авторегрессии в терминах последнего
наблюдения и долгосрочного среднего значения для оцениваемой модели.
30. Дайте определение процесса скользящего среднего в терминах
взаимосвязи между последовательными наблюдениями.
31. Какое скользящее среднее (скользящее среднее чего именно) мы
имеем в виду, когда говорим о "процессе скользящего среднего"?
32. Для процесса скользящего среднего первого порядка опишите в
терминах долгосрочного среднего значения для оцениваемой модели
прогнозы на два или больше периодов времени в будущее.
33. Дайте определение ARMA-процесса первого порядка в терминах
взаимосвязи между последовательными наблюдениями.
34. Значение какого параметра АRМА-процесса нужно установить
равным нулю, чтобы получить процесс авторегрессии?
35. Значение какого параметра АRМА-процесса нужно установить
равным нулю, чтобы получить процесс скользящего среднего?

156
36. Опишите прогнозы на отдаленное будущее исходя из ARMA-
процесса.
37. Дайте определение случайного блуждания в терминах взаимосвязи
между последовательными наблюдениями.
38. Подробно опишите различия между процессом случайного шума и
случайным блужданием.
39. Прокомментируйте следующее утверждение: если мы имеем дело со
случайным блужданием, то для его анализа не требуется применять
специальные методы исследования временных рядов.
40. Каково влияние составляющей дрейфа в случайном блуждании?
41. Опишите прогнозы для процесса случайного блуждания.
42. Чем различается поведение стационарных и нестационарных
временных рядов?
43. Для каждого из перечисленных ниже видов процессов укажите,
является ли он стационарным или нестационарным.
а) Процесс авторегрессии.
б) Случайное блуждание.
в) Процесс скользящего среднего.
г) ARMA-процесс.
44. Дайте определение ARIMA-процесса первого порядка в терминах
взаимосвязи между последовательными наблюдениями.
45. Значение какого параметра ARIMA-процесса нужно установить
равным нулю, чтобы получить случайное блуждание?
46. Как получить ARMA-процесс из ARIMA-процесса?
47. Опишите прогнозы на отдаленное будущее исходя из ARIMA-
процесса.
48. Какие потребуются дополнительные члены уравнений, чтобы
включить сезонное поведение в усовершенствованные ARIMA-модели?

11.2. Упражнения
11.1. Для каждого из перечисленных ниже случаев укажите,
присутствует ли в нем значительный сезонный компонент. Поясните свой
ответ.
а) Продажа цветной оберточной бумаги (объемы продаж фиксируются
помесячно).
б) Количество авиапассажиров, направляющихся из Красноярска в
Сочи (количество пассажиров фиксируется помесячно).
в) Биржевой индекс (фиксируется ежедневно). Предполагается, что
биржа работает эффективно, в результате чего любые прогнозируемые
тенденции уже устранены действиями крупных инвесторов, пытающихся
извлечь из них для себя выгоду.

157
11.2. Некоторое время вас терзают подозрения, что проблемы с
производством обостряются, как правило, именно в зимние месяцы в первом
квартале каждого года. Анализ трендов и сезонных колебаний процента
производственного брака позволил установить следующие значения сезонных
индексов: 1,00 – 1-й квартал; 1,01 – 2-й квартал; 1,03 – 3-й квартал и 0,97 – 4-й
квартал. Подтверждает ли этот анализ ваши подозрения о том, что
наивысший процент производственного брака приходится именно на первый
квартал? Если да, обоснуйте свой ответ. Если нет, тогда может быть, следует
обратить внимание на какой-то другой квартал?
11.3. В январе у одного из банков зафиксировано 38 091 операции в
сети автоматических кассовых аппаратов, а в феврале 43 182.
Соответствующий сезонный индекс для января равен 0.925, а для февраля —
0.986.
а) На какой процент увеличилось количество операций в сети
автоматических кассовых аппаратов с января но февраль?
б) На какой процент должно было бы, по вашему мнению, увеличиться
количество операций в сети автоматических кассовых аппаратов с января по
февраль? (Подсказка: воспользуйтесь сезонными индексами.)
в) Определите, учитывал сезонную поправку, количество операции в
сети автоматических кассовых аппаратов дли каждого из этих двух месяцев.
г) На какой процент увеличилось (или уменьшилось) количество
операций в сети автоматических кассовых аппаратов с января по февраль с
учетом сезонной поправки?

11.4. На производственном собрании все выразили удовлетворение тем


фактом, что объем продаж в фирме вырос с 21 791 000 рублей в третьем
квартале до 22 675 000 рублей в четвертом квартале. Кратко опишите анализ
этой ситуации (с учетом поправки па сезон), если вам известно, что сезонный
индекс для третьего квартала равен 1,061, а для четвертого – 1,180. Так ли
радужна картина с объемами продаж в фирме, как показалось участникам
собрания?

11.5. В таблице 11.1 представлены поквартальные величины нетто-


продажи (суммарные продажи компании за вычетом возврата продукции,
штрафов, расходов по доставке, скидок и т.п.) и доходы компании крупного
производителя сельскохозяйственного и промышленного оборудования.
а) Постройте график временного ряда для этой совокупности дачных.
Опишите все тенденции и сезонные колебания, замеченные вами на этом
графике.
б) Вычислите скользящее среднее (используя каждый раз данные за
один год) для этого временного ряда. Постройте график временного ряда,
содержащий и данные, и скользящее среднее.

158
в) Найдите сезонный индекс для каждого квартала. Кажутся ли
полученные вами значения обоснованными, если исходить из построенного
графика временного ряда?
г) Какой из кварталов (1, 2, 3 или 4) оказывается для компании самым
неблагоприятным? Насколько ниже (в среднем) оказывается объем продажи в
это квартале по сравнению с типичным кварталом в течение года?
д) Определите значения объемов продажи с поправкой на сезон,
соответствующие каждому из исходных величин объемов продаж.
е) С третьего по четвертый квартал 2005 г. объемы продажи
увеличились с 2673 до 2718. Как выглядит картина с учетом сезонной
поправки?
ж) Со второго по третий квартал 2007 г. объемы продажи компании
снизились с 3521 до 3430. Как выглядит картина с учетом сезонной поправки?
з) Найдите уравнение регрессии для прогнозирования долгосрочного
тренда изменения объемов продажи (с учетом сезонной поправки) для
каждого периода времени, используя в качестве значений переменной X
числа 1, 2, ....
и) Вычислите прогноз (с поправкой на сезон) на второй квартал 2008 г.
к) Вычислите прогноз па первый квартал 2009 г.
Таблица 11.1
Год Продажи, Год Продажи, млн.
млн. руб. руб.
2005 2088 2006 2905
2005 2812 2006 2917
2005 2673 2007 2396
2005 2718 2007 3512
2006 2318 2007 3430
2006 3089 2007 3444

11.6. В таблице 11.2 приведены данные о квартальных объемах


продажи международной компании, специализирующейся на производстве
известных марок продуктов питания. В годовом отчете за 2003 г.
утверждается, что "значительное влияние на ежеквартальные результаты
деятельности компании оказывают сезонные факторы, неразрывно связанные
с ее бизнесом".
а) Постройте график временного ряда для этой совокупности данных.
Согласны ли вы, что в этом случае действительно имеют место сезонные
факторы?
б) Вычислите скользящее среднее (используя каждый раз данные за
один год) для этого временного ряда. Постройте график временного ряда,
включающий как данные, так и значения скользящего среднего.

159
в) Опишите циклическое поведение (если оно наблюдается)
скользящего среднего.
г) Найдите сезонный индекс для каждого квартала. Кажутся ли
полученные вами значения обоснованными, если исходить из построенного
графика временного ряда?
д) Какой из кварталов (1, 2, 3 или 4) оказывается для компании самым
благоприятным? Насколько в среднем выше объем продажи в этом квартале
по сравнению с типичным кварталом в течение года?
е) Какой из кварталов (1, 2, 3 или 4) окалывается для компании самым
неблагоприятным? Насколько в среднем ниже оказывается объем продажи и
этом квартале по сравнению с типичным кварталом в течение года?
ж) Определите значения объемов продажи с учетом сезонной поправки
соответствующие каждой из исходных величин объема продажи. Постройте
график для этого временного ряда с поправкой на сезон.
з) Опишите поведение этого временного ряда с поправкой на сезон. В
частности, выявите любые: изменения непостоянства продаж за этот период
времени.
Таблица 11.2
Год Продажи, Год Продажи, млн.
млн. руб. руб.
2002 453 491 2004 343 167
2002 343 669 2004 468 195
2002 387 988 2005 460 398
2002 435 645 2005 324 155
2003 352 004 2005 386 082
2003 284 030 2005 429 918
2003 404 634 2006 381 080
2003 402 120 2006 487 473
2004 404 643 2006 492 266
2004 306 606 2006 377 072

11.7. Исходя из накопленных за несколько прошлых лет данных были


обнаружены сезонные колебания объемов продажи в некоторой фирме.
Сезонный индекс за ноябрь равен 1.08; за декабрь – 1.38 и за январь — 0.84.
Объем продажи в ноябре составил 285 167 рублей.
а) Можно ли, как правило, ожидать увеличения объемов продажи с
ноября по декабрь в «типичном» году. Обоснуйте свой ответ.
б) Найдите объем продажи в ноябре с поправкой на сезон.
в) Внесите в показатель объема продажи в ноябре (с поправкой на
сезон) сезонность с помощью декабрьского индекса, чтобы найти ожидаемый
объем продажи в декабре-

160
г) Было объявлено, что объем продажи в декабре составил 430 106 млн.
руб. Оказался, ли этот показатель выше или ниже, чем ожидалось, если
исходить из объема продажи в ноябре?
д) Найдите объем продажи в декабре с поправкой па сезон.
е) Объемы продажи с ноября по декабрь – с учетом поправки на сезон –
выросли или, наоборот, снизились? О чем это свидетельствует?
ж) Пользуясь тем же методом, что и в п. "в", найдите ожидаемый объем
продаж в январе исходя из объема продажи в декабре.

11.8. Вы решили изучить поквартальное количество посетителей


ресторана для любителей горнолыжного спорта, воспользовавшись методом
анализа трендов и сезонных колебаний. Квартальные сезонные индексы
равны 1,45; 0,55; 0,72 и 1,26 для 1-го, 2-го, 3-го и 4-го кварталов
соответственно. Линейный тренд оценивается уравнением вида 5 423 +
408(номер квартала), причем номер квартала начинается с 1 в первом
квартале 2001 г. и увеличивается на единицу для каждого последующего
квартала.
а) Найдите прогнозируемое значение (с поправкой на сезон) для
первого квартала 2005 г.
б) Найдите прогнозируемое значение (с поправкой на сезон) для
второго квартала 2005 г.
в) Почему прогнозируемое значение с поправкой на сезон оказалось
большим во втором квартале, в котором, как можно было бы предположить,
ресторан посещает меньшее количество лыжников?
г) Найдите прогнозируемое значение для первого квартала 2006 г.
д) Найдите прогнозируемое значение для второго квартала 2006 г.
е) С учетом поправки на сезон и в соответствии с оценкой линейного
тренда ответьте на вопрос: насколько больше посетителей ожидается
обслуживать в ресторане каждый квартал в сравнении с предыдущим
кварталом?
ж) Стратегический бизнес-план включает проект значительное
расширения ресторанного бизнеса (количество посетителей ресторана должно
достичь 70 000 за год). В каком году – в соответствии с прогнозом это должно
произойти впервые? (Подсказка: вычислите и сложите четыре
прогнозируемых значения для каждого года, чтобы найти годовые итоговые
показатели для 2006 и 2006 гг.).

11.9. Какой тип анализа временных рядов обеспечит получение


простейших результатов для изучения спроса на мазут (используемый для
обогрева), который, как правило, достигает пика в зимний период?

11.10. Для каждой из перечисленных ниже ситуаций укажите, какому


типу процесса (стационарный или нестационарный) она соответствует.

161
а) Цена, одной акции компании IBM, фиксируемая ежедневно.
б) Прайм-рейт, фиксируемый еженедельно и представляющий собой
публикуемую байками процентную старку по кредитам для наилучших
заемщиков.
в) Толщина бумаги измеряемая пять раз в минуту в процессе
производства бумаги и ее намотки на рулоны. (Предполагается, что этот
процесс находится под контролем,)
г) Цена одной страницы рекламного объявления в журнале TV Guide;
изменяется раз в год.

11.11. Выберите какую-либо интересующую вас фирму и получите


данные о поквартальных объемах продаж этой фирмы по крайней мере за три
последовательных года (для этого можно воспользоваться ежегодными
отчетами фирмы, которые можно получить в библиотеке или через Internet).
а) Изобразите график временного ряда и прокомментируйте структуру,
которая следует из этого графика.
б) Вычислите скользящее среднее за год, отобразите его на своем
графике и прокомментируйте,
в) Вычислите сезонные индексы, отобразите их на своем графике и
прокомментируйте.
г) Вычислите и отобразите на своем графике временной ряд с
поправкой на сезон, затем прокомментируйте полученный результат. В
частности, ответьте на вопрос: какую новую информацию можно извлечь в
результате внесения сезонной поправки?
д) Вычислите линию тренда и внесите в нее сезонную поправку, чтобы
получить прогнозы на два последующих. Отобразите эти прогнозы на своем
графике наряду с исходными данными. Прокомментируйте, насколько
правдоподобными кажутся вам эти прогнозы.

162
12. Вопросы и упражнения к модулю 7. Идентификация
статических моделей объектов

Идентификация – это процесс построения моделей объектов различной


природы. Теория идентификации имеет в своем арсенале достаточно
эффективные методы и алгоритмы, на базе которых разработаны и широко
используются программные комплексы.
Процесс идентификации складывается из двух взаимосвязанных этапов:
идентификации структуры моделей и идентификации параметров в моделях
выбранной структуры. При построении структуры модели (или набора
конкурирующих либо взаимодополняющих структур) используется
априорная информация об объекте. Для каждого класса объектов
формируются банки структур с сопутствующей информацией.

Более полные теоретические сведения и ряд разобранных примеров


приведены в седьмом модуле основного учебного пособия.

12.1. Вопросы для самопроверки


1. Что такое идентификация?
2. Постановка задачи подстройки параметров нелинейных моделей.
3. Критерий наименьших квадратов.
4. Метод наименьших квадратов при линейной параметризации модели.
5. Как рассчитывается корреляционная матрица для вектора параметров
модели?
6. Как построить доверительный интервал для параметров модели?
7. Как вычислить дисперсию выхода модели?
8. Как проверить гипотезу адекватности модели (при
некоррелированных равноточных измерениях выхода)?
9. Постройте линейную модель для объекта с одним входом и одним
выходом и исследуйте её свойства.
10. Постройте линейную модель для объекта с двумя входами и одним
выходом.
11. Опишите метод последовательной линеаризации при подстройке
параметров статических моделей.
12. Метод последовательной линеаризации при подстройке параметров
на основе критерия наименьших квадратов.
13. Как вычислять робастные оценки параметров?
14. Запишите критерий, которому удовлетворяет оценка медианы?
15. Адаптивные алгоритмы метода наименьших квадратов при
линейной параметризации модели и некоррелированных измерениях выхода
объекта.

163
16. Адаптивные алгоритмы метода наименьших квадратов при
линейной параметризации модели и забывании информации.
17. Адаптивные алгоритмы метода наименьших квадратов при
нелинейной параметризации модели и некоррелированных измерениях
выхода объекта.
18 Адаптивные алгоритмы при подстройке нестационарных параметров
моделей.
19. Адаптивные алгоритмы подстройки робастных оценок параметров
моделей.
20. В чём принципиальное отличие адаптивных алгоритмов
наименьших квадратов от простейшего адаптивного алгоритма?
21. Простейший адаптивный алгоритм подстройки линейных
параметров моделей.
22. Простейший адаптивный алгоритм подстройки линейных
параметров многомерных моделей.
23. Простейший адаптивный алгоритм подстройки нелинейных
параметров моделей.
24. Многоэтапный метод селекции при построении моделей сложных
объектов.

12.2. Примеры
Пример 12.1. Для объекта с одним входом и одним выходом по
критерию наименьших квадратов (для случая некоррелированных
равноточных измерений) необходимо вычислить параметры линейной модели
n
h(u, a) = a1 + a 2 (u - u ),u = n -1
å ui .
i =1
Базисными функциями являются: j1 = 1, j 2 = u - u . Система линейных
алгебраических уравнений
æ n * ö
æ n 0 ö ç å hi ÷
1ç n ÷ æ a1 ö 1 ç i =1 ÷
2ç 2÷çç ÷÷ = 2 n
s ç 0 å ( ui - u ) ÷ è a 2 ø s ç ÷
çå i - h*
è i =1 ø ( u u ) i ÷
è i =1 ø
распадается на 2 независимых уравнения, из которых вычисляются
параметры модели:
n n n
a1 = n -1
åh , *
i a 2 = å ( ui - u ) h *
i å ( ui - u ) 2 .
i =1 i =1 i =1
Корреляционная матрица для параметров a диагональная и
диагональные элементы (дисперсии параметров) равны величинам:
n
s 2
a1 = s n,
2
s 2
a1 =s 2
å ( ui - u ) 2 .
i =1

164
Нетрудно рассчитать дисперсию выхода модели:
æ s 2a1 0 öæ 1 ö
Dh( u ,a ) =(1; (u - u ))ç ÷ç ÷ = s 2a1 + s 2a2 ( u - u ) 2 .
ç 0 s a ÷è u - u ø
2
è 2 ø

Пример 12.2. По выборке ui , h*i , i = 1, n при условии равноточности


измерений необходимо рассчитать параметр a модели h( u, a) = u a .
Критерий наименьших квадратов имеет вид
n
I = s - 2 å ( h*i - uia ) 2 = min .
a
i =1
Находим аппроксимацию функции качества, подставляя в I (a)
линейное приближение модели в точке al , и приходим к простейшей
экстремальной задаче:
l +1
I ( Da ) = s -2
å (h
n

i =1
*
i -u al
i
al
- [u ln ui ]Da
i
l +1
) = min .
2

Da l +1

Из необходимого условия минимума ( dI / dDal +1 = 0) получаем


линейное уравнение для приращения искомого параметра:
n l n l l
å [uia ln ui ]2 Dal +1 = å [uia ln ui ](h*i - uia ) .
i =1 i =1

Пример 12.3. Для линейной модели h(u, a) = a1 + a2u простейший


адаптивный алгоритм перестройки параметров a1 ,a 2 имеет вид
h*n - a 1,n -1 - a 2,n -1 u n
a 1, n = a 1,n -1 + ,
1 + u n2
h*n - a 1, n -1 - a 2 ,n -1 u n
a 2, n = a 2 ,n -1 + un , n = 1, 2, K .
1+ u n2

12.3. Упражнения

12.1. Для модели h(u, a) = a найти параметр a из критерия


наименьших квадратов при:
а) некоррелированных равноточных измерениях,
б) некоррелированных неравноточных измерениях,
в) коррелированных измерениях.

165
12.2. Для объекта с двумя входами u1 , u2 и одним выходом h*
эксперимент спланирован так, что выход измерен ( h*ij , i = 1, n, j = 1, m) для
всех пар (u1i , u2 j ) , i = 1, n, j = 1, m значений входов, а измерения выхода
некоррелированные равноточные (см. пример 6.3.3). Записать критерий
наименьших квадратов и уравнения расчёта параметров линейной модели:

1 n 1 m
h(u1 , u2 ) = a0 + a1 (u1 - u1 ) + a 2 (u2 - u2 ) , u1= å u1i , u2 = å u2 j .
n i =1 m j =1

12.3. Вычислить параметры линейной модели h(u, a) = a0 + a1u на


основе критерия наименьших квадратов при:
а) некоррелированных равноточных измерениях,
б) некоррелированных неравноточных измерениях,
в) коррелированных измерениях.

12.4. Составить уравнения расчета параметров на основе критерия


наименьших квадратов при некоррелированных неравноточных измерениях
для следующих моделей:

1
а) h(u, a) = a0 + a1u + a 2 , б) h(u, a) = a0 + a1 sin w1u + a 2 cos w2u ,
u
в) h(u, a) = a0 + a1u + a 2u 2 , г) h(u, a) = a0 + a1u1 + a2 u2 + a3u3 ,
1
д) h(u, a) = a0 + a1 2 , е) h(u, a) = a0 + a1u + a 2 e - u .
u

12.5. Построить алгоритм расчета параметров по критерию наименьших


квадратов для следующих нелинейных относительно параметров моделей:

1) h(u, a) = a1u a2 , 2) h(u, a) = a1 sin( a2 u ) ,


3) h(u, a) = a1 sin( wu + a 2 ) , 4) h(u, a) = a1 sin( a1u + a 2 ) ,
a1
5) h(u, a) = , 6) h(u, a) = a1e a2u ;
a 2 + a3u
при:
а) некоррелированных равноточных измерениях,
б) некоррелированных неравноточных измерениях.

12.6. Записать алгоритмы вычисления робастных оценок параметров


моделей:

166
а) h(u, a) = a , б) h(u, a) = a0 + a1u ; в) h(u, a) = a1u1 + a 2u2 ,
г) h(u, a) = a1u a2 , д) h(u, a) = a1 sin( a1u + a 2 ) , е) h(u, a) = a1e a2u .

12.7. Записать адаптивный алгоритм идентификации параметров


моделей:

а) h(u, a) = a u 2 , б) h(u, a) = a0 + a1u , в) h(u, a) = u a ,


a1
г) h(u, a) = a1u a2 , д) h(u, a) = , е) h(u, a) = a1e a2u .
1 + a2 u

За основу взять критерий наименьших квадратов с забыванием


информации при некоррелированных неравноточных измерениях.

12.8. Построить алгоритмы адаптивного расчета робастных оценок


параметров моделей:
а) h(u, a) = a , б) h(u, a) = a0 + a1u ; в) h(u, a) = a1u1 + a 2u2 ,
г) h(u, a) = u a , д) h(u, a) = a1u a2 , е) h(u, a) = a1 sin( a2 u ) ,
ж) h(u, a) = a1 sin( a1u + a 2 ) , з) h(u, a) = a1e a2u .

12.9. Записать простейший адаптивный алгоритм идентификации


моделей:
а) a , б) a0 + a1u + a2 u 2 , в) a0 + a1u + a2 e - u ,

1
г) a1 + a2 , д) a0 + a1 sin w1u1 + a 2 sin w2 u2 , е) a1u1 + a2 u2 ,
ub

é (u - a 2 )2 ù
ж) a0 + a1u1 + a 2u2 + a 3u3 , з) a1 sin( a2 u + a 3 ) , и) a1 exp ê ú,
ë 2 a 3 û

a1 a1 + a2 u
к) a1u a 2 + a 3e a4u , л) , м) .
a 2 + a 3u a 3 + a 4 u + a5 u 2

167
13. Вопросы и упражнения к модулю 8. Идентификация и
адаптивное управление динамическими объектами

В динамическом режиме поведение объектов описывается различными


динамическими уравнениями: обыкновенными дифференциальными,
интегральными, интегродифференциальными уравнениями; уравнениями с
запаздываниями; уравнениями в частных производных и их дискретными
аналогами. С целью упрощения изложения материала будут рассматриваться
наиболее простые дискретные модели. Последние выбраны именно потому,
что получаемые алгоритмы идентификации и управления напрямую
реализуемы на цифровой вычислительной технике (мини-,микро-ЭВМ,
микропроцессоры).
В адаптивных системах обработки информации и управления
происходит приспособление к изменяющимся условиям и неизвестным
характеристикам объекта.
Задается (или синтезируется) структура модели с точностью до
параметров. На базе нее из критериев оптимальности синтезируется
управление, которое, естественно, зависит от параметров модели. Параметры
модели перестраиваются блоком идентификации непрерывно по мере
поступления новой информации об объекте.

Более полные теоретические сведения и ряд разобранных примеров


приведены в восьмом модуле учебного пособия.

13.1. Вопросы для самопроверки


1. Почему предпочитают брать за основу дискретные динамические
модели по сравнению с непрерывными?
2. Какой применяют критерий при получении оптимальной структуры
модели для линейных стохастических объектов?
3. Какова структура оптимальной модели линейных стохастических
объектов?
4. Что такое «окрашенная помеха»?
5. Что такое «дискретный белый шум»?
6. Как конструируют субоптимальные структуры моделей нелинейных
стохастических объектов?
7. Как по оптимальной (или субоптимальной) структуре модели можно
создать структуру модели с переменными перестраиваемыми (по мере
поступления новой информации о входах и выходах объекта) параметрами?
8. На примере продемонстрируйте принцип построения итеративной
модели с переменными перестраиваемыми параметрами.

168
9. Какова идея построения модели с перестраиваемыми параметрами
при применении функций чувствительности?
10. Что такое функции чувствительности?
11. Объясните принцип построения уравнений чувствительности.
12. На некотором простом примере продемонстрируйте применение
простейшего адаптивного алгоритма для перестройки параметров модели с
функциями чувствительности.
13. Как оцениваются параметры моделей, если неизвестные параметры
стохастических объектов являются нестационарными?
14. На некотором примере продемонстрируйте применение
простейшего адаптивного алгоритма для перестройки параметров
итеративной модели.
15. Поставьте задачу адаптивного управления стохастическими
динамическими объектами.
16. Что такое адаптивные системы с идентификатором?
17. Какова основная идея построения алгоритмов адаптивного
управления с идентификатором?
18. Что такое локальный критерий оптимальности?
19. Приведите примеры синтеза устройств управления для простейших
линейных систем.
20. Причины дополнительного прогнозирования параметров моделей
при синтезе алгоритмов адаптивного управления с идентификатором?
21. Какова общая схема синтеза алгоритмов адаптивного управления
для обычных линейных систем?
22. Как синтезируются алгоритмы адаптивного управления для
обычных нелинейных систем?
23. Чем отличается процесс синтеза алгоритмов адаптивного
управления для динамических систем с чистыми запаздываниями?
24. Приведите пример синтеза устройства управления для простейшей
линейной динамической системы с чистым запаздыванием.

13.2. Примеры
Пример 13.1. Рассматриваем модель без обратной связи
n m )
)
y ( t ) = å a i x (t - i ) + å b j u (t - j ) .
i =1 j =1
Функциями чувствительности выхода модели к ее параметрам являются
измеренные значения выхода и входа объекта:
wa)i ( t ) = x (t - i ), i = 1, n, wb) (t ) = u(t - j ), j = 1, m .
j

В каждый текущий момент времени t на основе измерений x (t );


x (t - 1), u(t - 1); x ( t - 2), u( t - 2) параметры корректируем по простейшему
адаптивному алгоритму:

169
) ) x (t ) - y (t | a(t - 1))
ai (t ) = ai (t - 1) + n m
x (t - i ); i = 1, n ;
2 2
å wa)i (t ) + å wb) (t )
j
i =1 j =1
) ) x (t ) - y ( t | a(t - 1))
b j (t ) = b j (t - 1) + n m
u(t - j ); j = 1, m ;
2 2
å wa)i (t ) + å wb) (t )
j
i =1 j =1
n m )
)
y (t | a(t - 1) = å ai ( t - 1)x (t - i ) + å b j (t - 1)u(t - j ) .
i =1 j =1

Пример 13.2. При нелинейной структуре модели без обратной связи


y (t ) = f ( x (t - 1), u (t - 1), a1 , a 2 )
получаем следующие выход модели y ( t | a(t - 1)) и функции чувствительности (с
перестраиваемыми параметрами:
y ( t | a( t - 1) = f ( x (t - 1), u (t - 1), a1 ( t - 1), a 2 (t - 1)) ,
¶ f ( x (t - 1), u (t - 1), a1 ( t - 1), a 2 (t - 1))
wa1 (t ) = ,
¶a1
¶ f ( x ( t - 1), u(t - 1), a1 (t - 1), a 2 ( t - 1))
wa 2 ( t ) = ,
¶a 2
а также простейший адаптивный алгоритм перестройки параметров:
x (t ) - y (t | a(t - 1))
a1 (t ) = a1 (t - 1) + wa1 ( t ) ,
w2a1 (t ) + w2a2 ( t )
x( t ) - y (t | a(t - 1))
a 2 (t ) = a 2 (t - 1) + wa2 (t ) .
wa2 1 (t ) + wa2 2 (t )

13.3. Упражнения

Для объектов, описываемых уравнениями:

13.1. x (t ) = bu (t - 1) + e(t ) ,

13.2. x (t ) = bu (t - 1) + ce(t - 1) + e(t ) ,

13.3. x (t ) = bu (t - 1) + c1e(t - 1) + c2 e(t - 2) + e(t ) ,

13.4. x (t ) = bu (t - 2) + e(t ) ,

13.5. x (t ) = bu (t - 3) + ce(t - 1) + e(t ) ,

170
13.6. x (t ) = ax (t - 1) + bu (t - 2) + ce(t - 1) + e(t ) ,

13.7. x (t ) = ax (t - 1) + bu (t - 1 - t1 ) + c1e(t - 1) + c2 e(t - 1 - t2 ) + e(t ) ,

13.8. x (t ) = ax (t - 1) / u (t - 1) + e(t ) ,

13.9. x (t ) = ax (t - 1) / u (t - 1) + ce(t - 1) + e(t ) ,

13.10. x (t ) = ax (t - 1)u (t - 3) + e(t ) ,

необходимо построить оптимальную структуру модели и вычислить


параметры модели с использованием рекурсивной модели на основе:
а) рекуррентного алгоритма наименьших квадратов;
в) простейшего адаптивного алгоритма;
д) алгоритма Поляка.

13.11. Синтезируйте алгоритмы адаптивного управления для следующих


объектов:
а) x (t ) = bu( t - 1) + h( t ), b – известный коэффициент, h ( t ) –
неизвестное возмущающее воздействие;
б) x (t ) = bu( t - 1) + h(t ), b – неизвестный коэффициент;
в) x (t ) = bu( t - 1) + h(t ) + ce( t - 1) + e(t ), e( t ) – случайное воздействие
типа белого шума;
г) x (t ) = ax ( t - 1) + bu( t - 1) + e(t ) ;
д) x (t ) = bu( t - 1) + c1e(t - 1) + c2 e(t - 2) + e( t ) ;
е) x (t ) = bu( t - t ) + h (t ), t > 1 ;
ж) x (t ) = bu( t - t ) + ce( t - t ) + e( t ), t > 1 ;
з) x (t ) = x (t - 1)u( t - 1) + ce( t - 1) + e(t ) .

171
Библиографический список

1. Рубан, А. И. Методы анализа данных. Учебное пособие / А. И. Рубан


Изд. 2-е., исправл. и доп. Красноярск: ИПЦ КГТУ, 2004. – 319 с.
2. Кнут, Д. Э. Исскуство программироаня том 2. Получисленные алго-
ритмы / Д. Э. Кнут, Изд 3-е., Пер. с англ. : Уч. пособие. – М.: Издательский
дом «Вильямс», 2000. – 832 с.
3. Красовский, Г. И. Планирование эксперимента / Г. И. Красовский,
Г. Ф. Филаретов, Минск: Изд-во БГУ, 1982. – 302 с.
4. Вентцель, Е. С. Теория вероятностей / Е. С. Вентцель. – М.: Высш.
шк., 2001. – 575 с.
5. Рубан, А. И. Теория вероятностей и математическая статистика /
А. И. Рубан. Красноярск: ИПЦ КГТУ, 2002. – 320 с.
6. Гмурман, В. Е. Руководство к решению задач по теории вероятно-
стей и математической статистике: Учеб. пособие для студентов вузов /
В. Е. Гмурман. Изд. 5-е, стер. М.: Высш. шк., 1999. – 400 с.
7. Гмурман, В. Е. Теория вероятностей и математическая статистика:
Учеб. пособие для студентов вузов / В. Е. Гмурман. М.: Высш. шк., 1977. –
479 с.
8. Сигел, Э. Ф. Практическая бизнес-статистика / Э. Ф. Сигел. М.:
Издательский дом «Вильямс», 2002. – 1056 с.
9. Боровиков, В. П. STATISTICA. Искусство анализа данных на
компьютере: Для профессионалов. / В. П. Боровиков. Спб.: Питер, 2003. – 688
с.6.3.
10. Боровиков, В. П. Популярное Введение в программу Statistica / В. П.
Боровиков. Спб.: Питер, 2002. – 301 с.
11. Бендат, Дж. Прикладной анализ случайных данных / Дж. Бендат,
А. Пирсол. М.: Мир, 1989. – 540 с.

172
ПРИЛОЖЕНИЕ

Таблица П1. Пороговое значение xa нормально распределенной


случайной величины N (0; 1) в зависимости от доверительной вероятности
a : P{x a < X } = a

f (x)

a
x
0 xa

a 0.20 0.10 0.05 0.025 0.01 0.005 0.001 0.0005


xa 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.29

Таблица П2. Распределение c 2 . Величина порога c 2n,a в зависимости от


числа степеней свободы n и вероятности a : P{c n2 ,a < c 2 } = a

2 2
f (c ) f (c )

a
2 a 2
c c
0 c2 0 2
c n ,a
n ,a

Вероятность a
n 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01
1 0.00016 0.00098 0.0039 0.016 2.7 3.8 5.0 6.6
2 0.020 0.051 0.103 0.211 4.6 6.0 7.4 9.2
3 0.115 0.216 0.352 0.584 6.3 7.8 9.3 11.3
4 0.30 0.48 0.71 1.06 7.8 9.5 11.1 13.3
5 0.55 0.83 1.14 1.61 9.2 11.1 12.8 15.1
6 0.87 1.24 1.63 2.20 10.6 12.6 14.4 16.8

173
Вероятность a
n 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01
7 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5
8 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1
9 2.09 2.70 3.32 4.17 14.7 16.9 19.0 21.7
10 2.56 3.25 3.94 4.86 16.0 18.3 20.5 23.2
11 3.1 3.8 4.6 5.6 17.3 19.7 21.9 24.7
12 3.6 4.4 5.2 6.3 18.5 21.0 23.3 26.2
13 4.1 5.0 5.9 7.0 19.8 22.4 24.7 27.7
14 4.7 5.6 6.6 7.8 21.1 23.7 26.1 29.1
15 5.2 6.3 7.3 8.5 22.3 25.0 27.5 30.6
16 5.8 6.9 8.0 9.3 23.5 26.3 28.8 32.0
17 6.4 7.6 8.7 10.1 24.8 27.6 30.2 33.4
18 7.0 8.2 9.4 10.9 26.0 28.9 31.5 34.8
19 7.6 8.9 10.1 11.7 27.2 30.1 32.9 36.2
20 8.3 9.6 10.9 12.4 28.4 31.4 34.2 37.6
21 8.9 10.3 11.6 13.2 29.6 32.7 35.5 38.9
22 9.5 11.0 12.3 14.0 30.8 33.9 36.8 40.3
23 10.2 11.7 13.1 14.8 32.0 35.2 38.1 41.6
24 10.9 12.4 13.8 15.7 33.2 36.4 39.4 43.0
25 11.5 13.1 14.6 16.5 34.4 37.7 40.6 44.3
26 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6
27 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0
28 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3
29 14.3 16.0 17.7 19.8 39.1 42.6 45.7 49.6
30 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9

174
Таблица П3. T – распределение Стьюдента. Значения tn,a в
зависимости от числа степеней свободы n и вероятности a : P{t n,a < T } = a
f (t )

a
t
0 tn,a

Вероятность a
n 0.20 0.10 0.05 0.025 0.01 0.005 0.001 0.0005
1 1.38 3.08 6.31 12.71 31.82 63.66 318.31 636.62
2 1.06 1.89 2.92 4.30 6.97 9.93 22.33 31.60
3 0.98 1.64 2.35 3.18 4.54 5.84 10.21 12.94
4 0.94 1.53 2.13 2.78 3.75 4.60 7.17 8.61
5 0.92 1.48 2.02 2.57 3.37 4.03 5.89 6.86
6 0.91 1.44 1.94 2.45 3.14 3.71 5.21 5.96
7 0.90 1.42 1.90 2.37 3.00 3.50 4.78 5.41
8 0.89 1.40 1.86 2.31 2.90 3.36 4.50 5.04
9 0.88 1.38 1.83 2.26 2.82 3.25 4.30 4.78
10 0.88 1.37 1.81 2.23 2.76 3.17 4.14 4.59
11 0.88 1.36 1.80 2.20 2.72 3.11 4.02 4.44
12 0.87 1.36 1.78 2.18 2.68 3.06 3.93 4.32
13 0.87 1.35 1.77 2.16 2.65 3.01 3.85 4.22
14 0.87 1.34 1.76 2.15 2.62 2.98 3.79 4.14
15 0.87 1.34 1.75 2.13 2.60 2.95 3.73 4.07
16 0.86 1.34 1.75 2.12 2.58 2.92 3.69 4.02
17 0.86 1.33 1.74 2.11 2.57 2.90 3.65 3.97
18 0.86 1.33 1.73 2.10 2.55 2.88 3.61 3.92
19 0.86 1.33 1.73 2.09 2.54 2.86 3.58 3.88
20 0.86 1.33 1.73 2.09 2.53 2.85 3.55 3.85
21 0.86 1.32 1.72 2.08 2.52 2.83 3.53 3.82
22 0.86 1.32 1.72 2.07 2.51 2.82 3.50 3.79
23 0.86 1.32 1.71 2.07 2.50 2.81 3.48 3.77
24 0.86 1.32 1.71 2.06 2.49 2.80 3.47 3.75
25 0.86 1.32 1.71 2.06 2.48 2.79 3.45 3.73
30 0.85 1.31 1.70 2.04 2.46 2.75 3.39 3.65
40 0.85 1.30 1.68 2.02 2.42 2.70 3.31 3.55
60 0.85 1.30 1.67 2.00 2.39 2.66 3.23 3.46
120 0.84 1.29 1.66 1.98 2.36 2.62 3.16 3.37
¥ 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.29

175
f (F )
Таблица П4. F – распределение Фишера.
Значения Fn1 ,n 2 ,a в зависимости от числа степеней
свободы n1 , n 2 и фиксированной вероятности a : a
F
0 F n 1 , n 2 ,a
P{Fn1 ,n 2 ,a < F} = a

a = 0.05
¯ n 2 n1 ® 1 2 3 4 5 6 7 8 9
1 161 200 216 225 230 234 237 239 241
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90
12 4.75 3.88 3.49 3.26 3.11 3.00 2.91 2.85 2.80
13 4.67 3.80 3.41 3.18 3.03 2.92 2.83 2.77 2.71
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30
25 4.24 3.38 2.99 2.76 2.60 2.49 2.40 2.34 2.28
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96
¥ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88

176
Продолжение табл. П4

a = 0.05
¯ n 2 n1 ® 10 12 15 20 24 30 40 60 120 ¥
1 242 244 246 248 249 250 251 252 253 254
2 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5
3 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
¥ 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00

177
Продолжение табл. П4
a = 0.025
¯ n 2 n1 ® 1 2 3 4 5 6 7 8 9
1 648 800 864 900 922 937 948 957 963
2 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4
3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5
4 12.2 10.6 9.98 9.60 9.36 9.20 9.07 8.98 8.90
5 10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78
11 5.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22
¥ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11

178
Окончание табл. П4
a = 0.025
¯ n 2 n1 ® 10 12 15 20 24 30 40 60 120 ¥
1 969 977 985 993 997 1001 1006 1010 1014 1018
2 39.4 39.4 39.4 39.4 39.5 39.5 39.5 39.5 39.5 39.5
3 14.4 14.3 14.3 14.2 14.1 14.1 14.0 14.0 13.9 13.9
4 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02
6 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14
8 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08
11 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
13 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
16 2.99 2.89 2.79 2.68 2.62 2.57 2.51 2.45 2.38 2.32
17 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09
21 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94
25 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91
26 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88
27 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85
28 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83
29 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81
30 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64
60 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48
120 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
¥ 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00

179
Таблица П5. G – распределение Кочрена. Значения Gk , n,a в
зависимости от числа степеней свободы n , числа выборок k и
фиксированной вероятности a : P{Gk ,n,a < G} = a

f (G )

a
G
0 Gk ,n,a

a = 0.05
k /n 1 2 3 4 5 6 7
2 0.9985 0.9750 0.9392 0.9057 0.8772 0.8534 0.8332
3 0.9669 0.8709 0.7977 0.7457 0.7071 0.6771 0.6530
4 0.9065 0.7679 0.6841 0.6287 0.5895 0.5598 0.5365
5 0.8412 0.6838 0.5981 0.5440 0.5063 0.4783 0.4564
6 0.7808 0.6161 0.5321 0.4803 0.4447 0.4184 0.3980
7 0.7271 0.5612 0.4800 0.4307 0.3974 0.3726 0.3535
8 0.6798 0.5157 0.4377 0.3910 0.3595 0.3362 0.3185
9 0.6385 0.4775 0.4027 0.3584 0.3286 0.3067 0.2901
10 0.6020 0.4450 0.3733 0.3311 0.3029 0.2823 0.2666
12 0.5410 0.3924 0.3264 0.2880 0.2624 0.2439 0.2299
15 0.4709 0.3346 0.2758 0.2419 0.2195 0.2034 0.1911
20 0.3894 0.2705 0.2205 0.1921 0.1735 0.1602 0.1501
24 0.3434 0.2354 0.1907 0.1656 0.1493 0.1374 0.1286
30 0.2929 0.1980 0.1593 0.1377 0.1237 0.1137 0.1061
40 0.2370 0.1576 0.1259 0.1082 0.0968 0.0887 0.0827
60 0.1737 0.1131 0.0895 0.0766 0.0682 0.0623 0.0583
120 0.0998 0.0632 0.0495 0.0419 0.0371 0.0337 0.0312

180
Продолжение табл. П5
a = 0.05
k /n 8 9 10 16 36 144 ¥
2 0.8159 0.8010 0.7880 0.7341 0.6602 0.5813 0.5000

3 0.6333 0.6167 0.6025 0.5466 0.4748 0.4031 0.3333

4 0.5175 0.5017 0.4884 0.4366 0.3720 0.3093 0.2500

5 0.4387 0.4241 0.4118 0.3645 0.3066 0.2513 0.2000

6 0.3817 0.3682 0.3568 0.3135 0.2612 0.2119 0.1667

7 0.3384 0.3259 0.3154 0.2756 0.2278 0.1833 0.1429

8 0.3043 0.2926 0.2829 0.2462 0.2022 0.1616 0.1250

9 0.2768 0.2659 0.2568 0.2226 0.1820 0.1446 0.1111

10 0.2541 0.2439 0.2353 0.2032 0.1655 0.1308 0.1000

12 0.2187 0.2098 0.2020 0.1737 0.1403 0.1100 0.0833

15 0.1815 0.1736 0.1671 0.1429 0.1144 0.0889 0.0667

20 0.1422 0.1357 0.1303 0.1108 0.0879 0.0675 0.0500

24 0.1216 0.1160 0.1113 0.0942 0.0743 0.0567 0.0417

30 0.1002 0.0958 0.0921 0.0771 0.0604 0.0457 0.0333

40 0.0780 0.0745 0.0713 0.0595 0.0462 0.0347 0.0250

60 0.0552 0.0520 0.0497 0.0411 0.0316 0.0234 0.0167

120 0.0292 0.0279 0.0266 0.0218 0.0165 0.0120 0.0083

181
Продолжение табл. П5

a = 0.01
k /n 1 2 3 4 5 6 7

2 0.9999 0.9950 0.9794 0.9586 0.9373 0.9172 0.8988

3 0.9933 0.9423 0.8831 0.8355 0.7933 0.7606 0.7335

4 0.9676 0.8643 0.7814 0.7212 0.6761 0.6410 0.6129

5 0.9279 0.7885 0.6957 0.6329 0.5875 0.5531 0.5259

6 0.8828 0.7218 0.6258 0.5635 0.5195 0.4866 0.4608

7 0.8376 0.6644 0.5685 0.5080 0.4659 0.4347 0.4105

8 0.7945 0.6162 0.5209 0.4627 0.4226 0.3932 0.3704

9 0.7544 0.5727 0.4810 0.4251 0.3870 0.3592 0.3378

10 0.7175 0.5358 0.4469 0.3934 0.3572 0.3308 0.3106

12 0.6528 0.4751 0.3919 0.3428 0.3099 0.2861 0.2680

15 0.5747 0.4069 0.3317 0.2882 0.2593 0.2386 0.2228

20 0.4799 0.3297 0.2654 0.2288 0.2048 0.1877 0.1748

24 0.4247 0.2871 0.2295 0.1970 0.1759 0.1608 0.1495

30 0.3632 0.2412 0.1913 0.1635 0.1454 0.1327 0.1232

40 0.2940 0.1915 0.1508 0.1281 0.1135 0.1033 0.0957

60 0.2151 0.1371 0.1069 0.0902 0.0796 0.0722 0.0668

120 0.1252 0.0759 0.0585 0.0489 0.0429 0.0387 0.0357

182
Окончание табл. П5

a = 0.01
k /n 8 9 10 16 36 144 ¥
2 0.8823 0.8674 0.8539 0.7949 0.7067 0.6062 0.5000

3 0.7107 0.6912 0.6743 0.6059 0.5153 0.4230 0.3333

4 0.5897 0.5702 0.5536 0.4884 0.4057 0.3251 0.2500

5 0.5037 0.4854 0.4697 0.4094 0.3351 0.2644 0.2000

6 0.4401 0.4229 0.4084 0.3529 0.2858 0.2229 0.1667

7 0.3911 0.3751 0.3616 0.3105 0.2494 0.1929 0.1429

8 0.3522 0.3373 0.3248 0.2779 0.2214 0.1700 0.1250

9 0.3207 0.3067 0.2950 0.2514 0.1992 0.1521 0.1111

10 0.2945 0.2813 0.2704 0.2297 0.1811 0.1376 0.1000

12 0.2535 0.2419 0.2320 0.1961 0.1535 0.1157 0.0833

15 0.2104 0.2002 0.1918 0.1612 0.1251 0.0934 0.0667

20 0.1646 0.1567 0.1501 0.1248 0.0960 0.0709 0.0500

24 0.1406 0.1338 0.1283 0.1060 0.0810 0.0595 0.0417

30 0.1157 0.1100 0.1054 0.0867 0.0658 0.0480 0.0333

40 0.0898 0.0853 0.0816 0.0668 0.0503 0.0363 0.0250

60 0.0625 0.0594 0.0567 0.0461 0.0344 0.0245 0.0167

120 0.0334 0.0316 0.0302 0.0242 0.0178 0.0125 0.0083

183
Оглавление
Введение.......................................................................................................3
1. Современные методы анализа данных на компьютере .........................5
1.1. Общие приемы работы с данными в пакете «STATISTICA 6.0». ...5
1.2. Командный язык STATISTICA (SCL) ............................................10
1.3. Язык программирования STATISTICA VISUAL BASIC ..............12
2. Элементарные понятия анализа данных...............................................14
2.1. Что такое переменная ......................................................................14
2.2. Шкалы измерений ...........................................................................15
2.3. Связи между переменными .............................................................16
2.4. Статистическая значимость ............................................................17
2.5. Общая конструкция большинства статистических критериев...... 22
2.6. Почему важно нормальное распределение ....................................23
3. Визуальный анализ данных...................................................................25
3.1. Категоризованные графики.............................................................25
3.2. Методы категоризации ....................................................................28
3.3. Гистограммы....................................................................................30
3.4. Диаграммы рассеяния .....................................................................32
3.5. Вероятностные графики ..................................................................34
3.6. Графики квантиль-квантиль ...........................................................35
3.7. Графики вероятность-вероятность .................................................35
3.8. Линейные графики ..........................................................................36
3.9. Диаграммы размаха .........................................................................37
3.10. Круговые диаграммы.....................................................................38
3.11. Графики пропущенных значений и данных вне диапазона ........ 40
3.12. Трехмерные (3М) графики ............................................................40
3.13. Тернарные графики .......................................................................41
3.14. Проекции трехмерных наборов данных .......................................43
3.15. Пиктографики ................................................................................44
4. Статистический вывод...........................................................................48
4.1. Генеральные совокупности и выборки. .........................................48
4.2. Что такое репрезентативная выборка .............................................49
4.3. Параметры выборки и параметры генеральной совокупности .....51
4.4. Случайная выборка .........................................................................52
4.5. Доверительный интервал ................................................................53
5. Корреляционный анализ........................................................................57
5.1. Классический корреляционный анализ нормально
распределенных случайных величин ..............................................................58
5.1.1. Оценка коэффициента корреляции .......................................... 58
5.1.2 Оценка корреляционного отношения ....................................... 61
5.1.3. Частная и множественная корреляция ..................................... 64

184
5.2. Непараметрический корреляционный анализ. Оценивая
корреляции с помощью порядковых статистик .............................................69
5.2.1. Оценка корреляции с помощью тренда ................................... 69
5.2.2. Критерий Кенуя ........................................................................ 69
5.2.3 Критерий Кокс–Стюарта ........................................................... 70
5.2.4. Знаковый корреляционный критерий Нелсона ....................... 72
5.2.5. Квадрантный критерий ............................................................. 73
5.2.6. Угловой критерий Олмстеда–Тьюки ....................................... 77
5.2.7. Приближенный критерий Шахани ........................................... 79
5.2.8. Сериальный критерий Шведа–Эйзенхарта.............................. 79
5.2.9. Критерий автокорреляции Кенуя ............................................. 81
5.2.10. Критерий Блума–Кифера–Розенблатта .................................. 82
5.3. Ранговая корреляция ....................................................................... 83
5.3.1. Коэффициент ранговой корреляции t Кендалла.................... 83
5.3.2. Коэффициент корреляции r Спирмена .................................. 87
5.3.3. Критерий Гёфтинга ................................................................... 90
5.3.4. Критерий Ширахатэ .................................................................. 92
5.3.5. Критерий корреляции Фишера–Йэйтса ................................... 94
5.3.6. Коэффициент корреляции Ван дер Вардена ............................ 96
5.3.7. Коэффициент конкордации Кендалла–Бэбингтона Смита ..... 98
5.3.8. Коэффициент конкордации Шукени-Фроли ......................... 100
5.4. Точечно-бисериальная корреляцмя .............................................. 102
5.5. Статистическая оценка связи между качественными признаками
(таблицы сопряженности признаков)............................................................ 105
5.5.1. Оценка связи признаков в таблицах сопряженности 2 ´ 2 ... 105
5.5.2. Коэффициент ассоциации....................................................... 105
5.5.3. Коэффициент коллигации Юла .............................................. 106
5.5.4. Коэффициент контингенции (сходства) ................................ 107
5.5.5. Точный критерий Фишера ...................................................... 108
5.5.6. Быстрые критерии оценки связи в таблицах
сопряженности 2 ´ 2 ................................................................................. 108
5.5.7. Модифицированный критерий знаков Мак-Нимара ............. 109
5.5.8. G -критерий Вульфа ............................................................... 110
5.5.9. Критерий Ле Роя для сравнения двух таблиц
сопряженности 2 ´ 2 ................................................................................. 112
5.5.10. Выбор числа наблюдений для анализа таблиц
сопряженности 2 ´ 2 ................................................................................. 113
5.5.11. Оценить связи признаков в многоклеточных таблицах
сопряженности r ´ c ................................................................................ 114
6. Вопросы и упражнения к модулю 1. Современные проблемы
обработки экспериментальных данных ........................................................... 116
6.1. Вопросы для самопроверки .......................................................... 116

185
6.2. Упражнения ................................................................................... 117
7. Вопросы и упражнения к модулю 2. Классификация в распознавании
образов ............................................................................................................... 120
7.1. Вопросы для самопроверки .......................................................... 120
7.2. Примеры решения задач ............................................................... 121
7.3. Упражнения ................................................................................... 123
8. Вопросы и упражнения к модулю 3. Планирование эксперимента .. 133
8.1 Вопросы для самопроверки ........................................................... 133
8.2. Примеры ......................................................................................... 133
8.3. Упражнения ................................................................................... 134
9. Вопросы и упражнения к модулю 4. Методы непараметрической
обработки информации ..................................................................................... 142
9.1. Вопросы для самопроверки .......................................................... 142
9.2. Примеры ......................................................................................... 143
9.3. Упражнения ................................................................................... 144
10. Вопросы и упражнения к модулю 5. Дисперсионный анализ ......... 148
10.1. Вопросы для самопроверки ........................................................ 148
10.2. Примеры ....................................................................................... 149
10.3. Упражнения ................................................................................. 151
11. Вопросы и упражнения к модулю 6. Анализ трендов и временных
рядов ................................................................................................................... 155
11.1. Вопросы для самопроверки ........................................................ 155
11.2. Упражнения ................................................................................. 157
12. Вопросы и упражнения к модулю 7. Идентификация статических
моделей объектов .............................................................................................. 163
12.1. Вопросы для самопроверки ........................................................ 163
12.2. Примеры ....................................................................................... 164
12.3. Упражнения ................................................................................. 165
13. Вопросы и упражнения к модулю 8. Идентификация и адаптивное
управление динамическими объектами ........................................................... 168
13.1. Вопросы для самопроверки ........................................................ 168
13.2. Примеры ....................................................................................... 169
13.3. Упражнения ................................................................................. 170
Библиографический список ................................................................. 172
Оглавление ............................................................................................... 184

186

Вам также может понравиться