Академический Документы
Профессиональный Документы
Культура Документы
Красноярск 2008 г.
1
Учебное пособие содержит дополнительный теоретический
материал, перечень вопросов для самопроверки и набор задач для
самостоятельного решения в течение семестра для закрепления
теоретических знаний. Рекомендуется использовать совместно с основным
учебным пособием по дисциплине «Методы обработки экспериментальных
данных».
Предназначено для самостоятельного изучения магистрантами
укрупненной группы подготовки направления 230100.68 – Информатика и
вычислительная техника и преподавателей дисциплины «Методы обработки
экспериментальных данных».
2
Введение
3
конструкция статистических тестов. Почему важно нормальное
распределение. Как проверить нормальность наблюдаемых величин.
3. Визуальный анализ данных. Визуальный анализ категорированных
данных. Двухмерный визуальный анализ данных. Трехмерный визуальный
анализ данных. Пиктографики.
4. Статистический вывод. Генеральные совокупности и выборки.
Методы построения выборки. Доверительные интервалы.
5. Корреляционный анализ. Изучение зависимости между случайными
величинами. Оценка коэффициента корреляции. Частная и множественная
корреляция. Ранговая корреляция.
4
1. Современные методы анализа данных на компьютере
Окружающий нас мир насыщен информацией – разнообразные потоки
данных окружают нас, захватывая в поле своего действия, лишая правильного
восприятия действительности. Не будет преувеличением сказать, что
информация становится частью действительности и нашего сознания. Без
адекватных технологий анализа данных человек оказывается беспомощным в
жестокой информационной среде и скорее напоминает броуновскую частицу,
испытывающую жестокие удары со стороны и не имеющую возможности
рационально принять решение.
Современной науке, производству и бизнесу необходимы мощные
автоматизированные аналитические средства. Потребность производить
сложные расчеты, постоянно уменьшать издержки производства,
оптимизировать складские запасы, исследовать рынок и прогнозировать его
развитие поддерживают интерес к компьютерным технологиям обработки
данных.
За последние 5 лет произошел значительный рост мощности
компьютерных систем, теперь даже обычный офисный компьютер способен
выполнят гигантские объемы вычислений за приемлемое время. Все это
способствует появлению и широкому распространению разнообразных
компьютерных программ для обработки и анализа экспериментальных
данных.
Современный подход к обработке экспериментальных данных – это
обработка на компьютере с помощью специализированных программных
средств.
5
трехмерных научных и деловых графиков и диаграмм становятся
легкодоступными для пользователя.
Кроме стандартных типов графиков в STATISTICA имеется большое
количество специализированных графиков: «ящиков с усами» с
разнообразными опциями по выбору средней точки, граничных значений,
подгонки, определения выбросов, различных гистограмм, графиков на
нормальной вероятностной бумаге, графиков типа «вероятность –
вероятность», «квантиль – квантиль» и т. д.
Графики можно уменьшать, увеличивать, накладывать друг на друга,
изменять масштабы, вращать, корректировать перспективу. Применять
средство «Рентген» в трехмерной графике, чтобы увидеть «очертания
дальних гор на фоне ближних», определять собственную палитру цветов,
добавлять пользовательский текст, рисунки, стрелки и т. д.
Графики могут автоматически изменяться при изменении связанного с
ними файла данных.
STATISTICA – это интегрированная система анализа и управления
данными. Все аналитические инструменты, имеющиеся в системе, доступны
пользователю и легко могут быть выбраны пользователем с помощью
клавиатуры или мышки. Пользователь может всесторонне автоматизировать
свою работу, начиная с применения простых макросов для автоматизации
рутинных действий вплоть до углубленных проектов, включающих, в том
числе, интеграцию системы с другими приложениями или Интернетом.
Технология автоматизации позволяет даже неопытному пользователю
настроить систему на свой проект.
Процедуры системы STATISTICA имеют высокую скорость и точность
вычислений. Гибкая и мощная технология доступа к данным позволяет
эффективно работать хранилищами данных на локальном диске, так и с
удаленными хранилищами данных.
Система обладает следующими общепризнанными достоинствами:
· Содержит полный набор классических методов анализа данных:
от основных методов статистики до продвинутых методов, что
позволяет гибко организовать анализ.
· Является средством построения приложений в конкретных
областях.
· В комплект поставки входят специально подобранные примеры,
позволяющие систематически осваивать методы анализа.
· Отвечает всем стандартам Windows, что позволяет сделать анализ
высокоинтерактивным.
Вооружившись мышью, вы открываете диалоговые окна, новые файлы
с данными, запускаете вычислительные процедуры, строите графики,
просматриваете результаты обработки, выводите их на печать.
6
Ранее (или в других пакетах обработки данных) каждый шаг
исследований, начиная от представления данных, перевода их в нужный
формат, проверки, группировки, сортировки, сжатия, графической
интерпретации, подготовки программ обработки до просмотра результатов,
был трудной задачей. Теперь достаточно двух-трех щелчков мыши, чтобы
огромные объемы данных чрезвычайно быстро преобразовались,
обработались и появились на экране в виде графиков, диаграмм и таблиц.
Кроме того, вы можете вернуться в любую точку анализа, подвергнуть
данные другому способу обработки. Вы также можете внести в них
искусственные изменения и проверить гипотезу типа: «что будет, если?»
Статистические модули системы покрывают практически весь спектр
современного анализа данных. На рисунке 1.1 представлен внешний вид
программы «STATISTICA», в которой открыто несколько окон для анализа
данных.
Все основные действия в программе производятся через главное меню,
которое занимает вторую строку основного окна модуля (рисунок 1.1) и
содержит в себе систему выпадающих меню. Ряд пунктов меню, таких как:
«Файл», «Правка», «Вид», «Окно», «Справка», стандартен для Windows.
Пункты «Анализ», «Графика», «Сервис» специфичны для STATISTICA.
Выбор команд осуществляется из выпадающих меню с помощью
мышки или клавиатуры.
Панель инструментов (рисунок 1.1) находится под главным меню и
содержит кнопки для быстрого доступа к наиболее часто используемым
командам меню (для ускорения работы). При помощи щелчка мышью на
какой-либо кнопке можно получить быстрый доступ к соответствующей
команде. Каждому типу документа STATISTICA соответствует своя панель
инструментов. Внешний вид панели инструментов и ее расположение в окне
системы можно настроить при помощи команды «Панель инструментов» из
меню «Вид». Эти установки действуют только для текущего сеанса работы.
Панель инструментов может быть выведена в одну и две строчки и может
быть расположена в разных частях основного окна системы. Постоянный вид
панели инструментов может быть установлен в меню «Опции» командой
«Экран».
7
Рисунок 1.1. Внешний вид программы STATISTICA.
8
Система может работать как с численными, так и с текстовыми
данными, что, конечно, важно в практических статистических исследованиях.
В частности, электронные таблицы могут содержать и численную, и
текстовую информацию. Аналогично MS Excel они поддерживают различные
типы операций с данными, такие как операции с использованием буфера
обмена Windows; операции с выделенными блоками значений, в том числе и с
использованием метода drag-and-drop, автозаполнение блоков и т. д.
С системой STATISTICA поставляется большое число файлов,
содержащих интересные данные. Эти файлы находятся в каталоге «examples».
Файлы STATISTICA с исходными данными имеют, расширение «*.sta».
Программа «STATISTICA» организована по модульному принципу.
Это означает, что все методы статистической обработки, реализованные в
системе, разбиты на несколько групп – модулей – в соответствии с разделами
статистического анализа.
В системе STATISTICA можно очень быстро и удобно переключаться
между различными видами анализа данных, используя переключатель
модулей (рисунок 1.2).
9
Каждый модуль является отдельным приложением и может работать
независимо от остальных модулей системы.
10
данных, которые предстоит обрабатывать (команды выпадающего меню
«Сервис»). Например, непосредственно во время написания SCL-программы
можно проверять, действительно ли переменная с таким именем или такое
текстовое значение присутствуют в обрабатываемом наборе данных
(подробнее смотри интерактивную систему документации, которая
вызывается клавишей F1, кнопкой на панели инструментов или двойным
щелчком на строке состояния в нижней части окна приложения).
Прерывание выполнения SCL-программы. Выполнение SCL-
программы может быть прервано щелчком мыши (любой ее кнопкой) или
клавишами «ESC» или «CTRL+BREAK». При этом система STATISTICA
запросит подтверждение на прерывание программы.
Пользовательские расширения языка SCL. Программы на языке SCL
могут включать не только предопределенные параметры и команды для
выполнения действий по статистической обработке, управлению и
графическому выводу данных (см. кнопки «Справка: примеры» и «Справка:
синтаксис» на панели инструментов), но и пользовательские «команды»,
определенные с помощью инструмента «Назначить клавиши» (в соответствии
с правилами, принятыми в MS Visual BASIC). Написанные таким образом
программы могут выполнять, например, операции с буфером обмена
(Копировать, Вставить), менять параметры вывода, принятые по умолчанию в
различных процедурах, и выполнять другие функции. SCL-программы могут
также включать в себя программы и процедуры, написанные на языке
STATISTICA BASIC (языке системы STATISTICA, предназначенном для
преобразования данных и графиков и управления ими, который доступен из
любого модуля пакета). Например, определенные пользователем графические
или вычислительные процедуры на языке STATISTICA BASIC могут
выполняться как часть пакета команд SCL.
Пользовательский интерактивный интерфейс для SCL-программ.
Несмотря на то, что в командном языке SCL не заложен в непосредственном
виде специальный пользовательский интерактивный интерфейс, тем не менее,
для этих целей можно использовать программы на языке STATISTICA
BASIC, вызываемые из SCL программ, например, для создания диалоговых
окон, позволяющих выбирать переменные, файлы данных и т.п. в ходе
выполнения программы (смотрите примеры в Электронном руководстве к
программе STATISTICA).
Создание SCL-программ «под ключ». Исполняемый модуль системы
STATISTICA. Командный язык содержит специальный Исполняемый модуль,
позволяющий разрабатывать приложения «под ключ» (рисунок 1.4), которые
вызываются двойным щелчком на значке соответствующего
«пользовательского приложения» на рабочем столе Windows. Эта
возможность позволяет экономить время пользователя, когда многократно
повторяется одна и та же процедура или последовательность процедур
анализа, а также дает возможность использовать SCL-программы, в том числе
11
и тем, кто не знаком с соглашениями системы STATISTICA. Чтобы создать
такое приложение «под ключ», сначала нужно написать саму SCL-программу
и сохранить ее обычным образом (например, в файле
«МояПрограммаПодКлюч.scl»). Затем в окне Диспетчер программ системы
Windows нужно создать ярлык для исполняемого модуля STATISTICA с
именем «Sta_run.exe» (оно находится в папке STATISTICA на диске) и
настроить его на запуск «МояПрограммаПодКлюч.scl».
12
значений и др.), позволяющих достаточно быстро написать даже сложную
процедуру обработки данных.
В STATISTICA BASIC имеется два режима работы: Sequential-режим и
RandomAccess-режим. Последний принят по умолчанию. Если не указан
никакой режим, то система будет считать, что вы выбрали RandomAccess.
RandomAccess позволяет обращаться к различным случаям разных
переменных; работая в этом режиме, вы можете представлять файл как
массив данных, например запись var2(10):=47 означает, что переменной var2
в 10-м случае присвоено значение 47.
В Sequential-режиме переменные рассматриваются как целое вместе со
своими значениями. Например, оператор присваивания vl:=(v2+v3)/2 в этом
режиме определяет новые значения переменной vl для всех случаев.
Далее приведены два примера элементарных программ на STATISTICA
BASIC. Примеры программ на STATISTICA BASIC
Программа 1.
Sequential; {задает Sequential-режим}
v1 :=(v2+v3)/2; {оператор присваивания}
for i:=ll to 21 do {начало цикла: FOR..TO..DO..}
v(i):=v(i)/1000; {тело цикла}
Программа 2
RandomAccess; {задает RandomAccess-режим}
sum := 0; {определяет переменную sum}
for i := 1 to NCases do {начало первого цикла}
for j :— 1 to NYars do {начало второго цикла}
sum := sum + Value(Data(i,j)); {тело цикла}
13
2. Элементарные понятия анализа данных
2.1. Что такое переменная
Переменные – это то, что можно измерять, контролировать или, что
можно изменять в исследованиях. Переменные отличаются многими
аспектами, особенно той ролью, которую они играют в исследованиях,
шкалой измерения и т.д.
Большинство эмпирических исследований данных можно отнести к
одному из ниже названных типов. В исследовании корреляций (зависимостей,
связей...) вы не влияете (или, по крайней мере, пытаетесь не влиять) на
переменные, а только измеряете их и хотите найти зависимости (корреляции)
между некоторыми измеренными переменными, например, между кровяным
давлением и уровнем холестерина. В экспериментальных исследованиях,
напротив, вы варьируете некоторые переменные и измеряете воздействия
этих изменений на другие переменные. Например, исследователь может
искусственно увеличивать кровяное давление, а затем на определенных
уровнях давления измерить уровень холестерина. Анализ данных в
экспериментальном исследовании также приходит к вычислению
"корреляций" (зависимостей) между переменными, а именно, между
переменными, на которые воздействуют, и переменными, на которые влияет
это воздействие. Тем не менее, экспериментальные данные потенциально
снабжают нас более качественной информацией. Только экспериментально
можно убедительно доказать причинную связь между переменными.
Например, если обнаружено, что всякий раз, когда изменяется переменная A,
изменяется и переменная B, то можно сделать вывод – "переменная A
оказывает влияние на переменную B", т.е. между переменными А и В имеется
причинная зависимость. Результаты корреляционного исследования могут
быть проинтерпретированы в каузальных (причинных) терминах на основе
некоторой теории, но сами по себе не могут отчетливо доказать причинность.
Зависимые и независимые переменные. Независимыми переменными
называются переменные, которые варьируются исследователем, тогда как
зависимые переменные – это переменные, которые измеряются, или
регистрируются. Может показаться, что проведение этого различия создает
путаницу в терминологии, поскольку как говорят некоторые студенты "все
переменные зависят от чего-нибудь". Тем не менее, однажды отчетливо
проведя это различие, вы поймете его необходимость. Термины зависимая и
независимая переменная применяются в основном в экспериментальном
исследовании, где экспериментатор манипулирует некоторыми переменными,
и в этом смысле они "независимы" от реакций, свойств, намерений и т.д.
присущих объектам исследования. Некоторые другие переменные, как
предполагается, должны "зависеть" от действий экспериментатора или от
экспериментальных условий. Иными словами, зависимость проявляется в
14
ответной реакции исследуемого объекта на посланное на него воздействие.
Отчасти в противоречии с данным разграничением понятий находится
использование их в исследованиях, где вы не варьируете независимые
переменные, а только приписываете объекты к "экспериментальным
группам", основываясь на некоторых их априорных свойствах. Например,
если в эксперименте мужчины сравниваются с женщинами относительно
числа лейкоцитов (WCC), содержащихся в крови, то Пол можно назвать
независимой переменной, а WCC зависимой переменной.
15
Цельсия, образует интервальную шкалу. Вы можете не только сказать, что
температура 40 градусов выше, чем температура 30 градусов, но и что
увеличение температуры с 20 до 40 градусов вдвое больше увеличения
температуры от 30 до 40 градусов.
Относительные переменные очень похожи на интервальные
переменные. В дополнение ко всем свойствам переменных, измеренных в
интервальной шкале, их характерной чертой является наличие определенной
точки абсолютного нуля, таким образом, для этих переменных являются
обоснованными предложения типа: x в два раза больше, чем y . Типичными
примерами шкал отношений являются измерения времени или пространства.
Например, температура по Кельвину образует шкалу отношения, и вы можете
не только утверждать, что температура 200 градусов выше, чем 100 градусов,
но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не
обладают данным свойством шкалы отношения. Заметим, что в большинстве
статистических процедур не делается различия между свойствами
интервальных шкал и шкал отношения.
16
процедур могут быть проинтерпретированы в терминах оценки различных
типов взаимосвязей между переменными.
Две основные черты всякой зависимости между переменными. Можно
отметить два самых простых свойства зависимости между переменными: (a)
величина зависимости и (b) надежность зависимости.
Величину зависимости легче понять и измерить, чем надежность.
Например, если любой мужчина в вашей выборке имел значение WCC выше
чем любая женщина, то вы можете сказать, что зависимость между двумя
переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы
предсказать значения одной переменной по значениям другой.
Надежность ("истинность") взаимозависимости – менее наглядное
понятие, чем величина зависимости, однако чрезвычайно важное. Надежность
зависимости непосредственно связана с репрезентативностью определенной
выборки, на основе которой строятся выводы. Другими словами, надежность
говорит нам о том, насколько вероятно, что зависимость, подобная найденной
вами, будет вновь обнаружена (иными словами, подтвердится) на данных
другой выборки, извлеченной из той же самой популяции. Следует помнить,
что конечной целью почти никогда не является изучение данной конкретной
выборки; выборка представляет интерес лишь постольку, поскольку она дает
информацию обо всей популяции. Если ваше исследование удовлетворяет
некоторым специальным критериям (об этом будет сказано позже), то
надежность найденных зависимостей между переменными вашей выборки
можно количественно оценить и представить с помощью стандартной
статистической меры (называемой p-уровень или статистический уровень
значимости).
17
переменными, которая в среднем может быть воспроизведена в 5% или 95%
случаев; когда между переменными популяции существует зависимость,
вероятность повторения результатов исследования, показывающих наличие
этой зависимости называется статистической мощностью плана). Во многих
исследованиях p-уровень 0.05 рассматривается как "приемлемая граница"
уровня ошибки.
Как определить, является ли результат действительно значимым. Не
существует никакого способа избежать произвола при принятии решения о
том, какой уровень значимости следует действительно считать "значимым".
Выбор определенного уровня значимости, выше которого результаты
отвергаются как ложные, является достаточно произвольным. На практике
окончательное решение обычно зависит от того, был ли результат предсказан
априори (т.е. до проведения опыта) или обнаружен апостериорно в результате
многих анализов и сравнений, выполненных с множеством данных, а также
на традиции, имеющейся в данной области исследований. Обычно во многих
областях 0.05 является приемлемой границей статистической значимости,
однако следует помнить, что этот уровень все еще включает довольно
большую вероятность ошибки (5%). Результаты, значимые на уровне 0.01
обычно рассматриваются как статистически значимые, а результаты с
уровнем 0.005 или 0.001 как высоко значимые. Однако следует понимать, что
данная классификация уровней значимости достаточно произвольна и
является всего лишь неформальным соглашением, принятым на основе
практического опыта в той или иной области исследования.
Статистическая значимость и количество выполненных анализов.
Понятно, что чем больше число анализов вы проведете с совокупностью
собранных данных, тем большее число значимых (на выбранном уровне)
результатов будет обнаружено чисто случайно. Например, если вы
вычисляете корреляции между 10 переменными (имеете 45 различных
коэффициентов корреляции), то можно ожидать, что примерно два
коэффициента корреляции (один на каждые 20) чисто случайно окажутся
значимыми на уровне 0.05, даже если переменные совершенно случайны и
некоррелированны в популяции. Некоторые статистические методы,
включающие много сравнений, и, таким образом, имеющие хороший шанс
повторить такого рода ошибки, производят специальную корректировку или
поправку на общее число сравнений. Тем не менее, многие статистические
методы (особенно простые методы разведочного анализа данных) не
предлагают какого-либо способа решения данной проблемы. Поэтому
исследователь должен с осторожностью оценивать надежность неожиданных
результатов.
Величина зависимости между переменными в сравнении с
надежностью зависимости. Величина зависимости и надежность
представляют две различные характеристики зависимостей между
переменными. Тем не менее, нельзя сказать, что они совершенно независимы.
18
Говоря общим языком, чем больше величина зависимости (связи) между
переменными в выборке обычного объема, тем более она надежна.
Почему более сильные зависимости между переменными являются
более значимыми? Если предполагать отсутствие зависимости между
соответствующими переменными в популяции, то наиболее вероятно
ожидать, что в исследуемой выборке связь между этими переменными также
будет отсутствовать. Таким образом, чем более сильная зависимость
обнаружена в выборке, тем менее вероятно, что этой зависимости нет в
популяции, из которой она извлечена. Как вы видите, величина зависимости и
значимость тесно связаны между собой, и можно было бы попытаться
вывести значимость из величины зависимости и наоборот. Однако указанная
связь между зависимостью и значимостью имеет место только при
фиксированном объеме выборки, поскольку при различных объемах выборки
одна и та же зависимость может оказаться как высоко значимой, так и
незначимой вовсе.
Почему объем выборки влияет на значимость зависимости? Если
наблюдений мало, то соответственно имеется мало возможных комбинаций
значений этих переменных и таким образом, вероятность случайного
обнаружения комбинации значений, показывающих сильную зависимость,
относительно велика. Рассмотрим следующий пример. Если вы исследуете
зависимость двух переменных (Пол: мужчина/женщина и WCC (количество
лейкоцитов в крови): высокий/низкий) и имеете только 4 субъекта в выборке
(2 мужчины и 2 женщины), то вероятность того, что чисто случайно вы
найдете 100% зависимость между двумя переменными равна 1/8. Более точно,
вероятность того, что оба мужчины имеют высокий WCC, а обе женщины –
низкий WCC, или наоборот, – равна 1/8. Теперь рассмотрим вероятность
подобного совпадения для 100 субъектов; легко видеть, что эта вероятность
равна практически нулю. Рассмотрим более общий пример. Представим
популяцию, в которой среднее значение WCC мужчин и женщин одно и тоже.
Если вы будете повторять эксперимент, состоящий в извлечении пары
случайных выборок (одна выборка – мужчины, другая выборка – женщины), а
затем вычислите разности выборочных средних WCC для каждой пары
выборок, то в большинстве экспериментов результат будет близок к 0.
Однако время от времени, будут встречаться пары выборок, в которых
различие между средним количеством лейкоцитов у мужчин и женщин будет
существенно отличаться от 0. Как часто это будет происходить? Очевидно,
чем меньше объем выборки в каждом эксперименте, тем более вероятно
появление таких ложных результатов, которые показывают существование
зависимости между полом и WCC в данных, полученных из популяции, где
такая зависимость на самом деле отсутствует.
Рассмотрим следующий пример: "отношение числа новорожденных
мальчиков к числу новорожденных девочек". Имеются 2 больницы.
Предположим, что в первой из них ежедневно рождается 120 детей, во второй
19
только 12. В среднем отношение числа мальчиков, рождающихся в каждой
больнице, к числу девочек 50/50. Однажды девочек родилось вдвое больше,
чем мальчиков. Спрашивается, для какой больницы данное событие более
вероятно? Ответ очевиден для статистика, однако, он не столь очевиден
неискушенному. Конечно, такое событие гораздо более вероятно для
маленькой больницы. Объяснение этого факта состоит в том, что вероятность
случайного отклонения (от среднего) возрастает с уменьшением объема
выборки.
Почему слабые связи могут быть значимо доказаны только на больших
выборках? Предыдущий пример показывает, что если связь между
переменными "объективно" слабая (т.е. свойства выборки близки к свойствам
популяции), то не существует иного способа проверить такую зависимость
кроме как исследовать выборку достаточно большого объема. Даже если
выборка, находящаяся в вашем распоряжении, совершенно репрезентативна,
эффект не будет статистически значимым, если выборка мала. Аналогично,
если зависимость "объективно" (в популяции) очень сильная, тогда она может
быть обнаружена с высокой степенью значимости даже на очень маленькой
выборке. Рассмотрим пример. Представьте, что вы бросаете монету. Если
монета слегка несимметрична, и при подбрасывании орел выпадает чаще
решки (например, в 60% подбрасываний выпадает орел, а в 40% решка), то 10
подбрасываний монеты было бы не достаточно, чтобы убедить кого бы то ни
было, что монета асимметрична, даже если был бы получен, казалось,
совершенно репрезентативный результат: 6 орлов и 4 решки. Не следует ли
отсюда, что 10 подбрасываний вообще не могут доказать что-либо? Нет, не
следует, потому что если эффект, в принципе, очень сильный, то 10
подбрасываний может оказаться вполне достаточно для его доказательства.
Представьте, что монета настолько несимметрична, что всякий раз, когда вы
ее бросаете, выпадает орел. Если вы бросаете такую монету 10 раз, и всякий
раз выпадает орел, большинство людей сочтут это убедительным
доказательством того, что с монетой что-то не то. Другими словами, это
послужило бы убедительным доказательством того, что в популяции,
состоящей из бесконечного числа подбрасываний этой монеты орел будет
встречаться чаще, чем решка. В итоге этих рассуждений мы приходим к
выводу: если зависимость сильная, она может быть обнаружена с высоким
уровнем значимости даже на малой выборке.
Можно ли отсутствие связей рассматривать как значимый результат?
Чем слабее зависимость между переменными, тем большего объема требуется
выборка, чтобы значимо ее обнаружить. Представьте, как много бросков
монеты необходимо сделать, чтобы доказать, что отклонение от равной
вероятности выпадения орла и решки составляет только .000001%!
Необходимый минимальный размер выборки возрастает, когда степень
эффекта, который нужно доказать, убывает. Когда эффект близок к 0,
необходимый объем выборки для его отчетливого доказательства
20
приближается к бесконечности. Другими словами, если зависимость между
переменными почти отсутствует, объем выборки, необходимый для
значимого обнаружения зависимости, почти равен объему всей популяции,
который предполагается бесконечным. Статистическая значимость
представляет вероятность того, что подобный результат был бы получен при
проверке всей популяции в целом. Таким образом, все, что получено после
тестирования всей популяции было бы, по определению, значимым на
наивысшем, возможном уровне и это относится ко всем результатам типа
"нет зависимости".
Как измерить величину зависимости между переменными. Разработано
много различных мер взаимосвязи между переменными. Выбор определенной
меры в конкретном исследовании зависит от числа переменных,
используемых шкал измерения, природы зависимостей и т.д. Большинство
этих мер, тем не менее, подчиняются общему принципу: они пытаются
оценить наблюдаемую зависимость, сравнивая ее с "максимальной мыслимой
зависимостью" между рассматриваемыми переменными. Говоря технически,
обычный способ выполнить такие оценки заключается в том, чтобы
посмотреть как варьируются значения переменных и затем подсчитать, какую
часть всей имеющейся вариации можно объяснить наличием "общей"
("совместной") вариации двух (или более) переменных. Говоря менее
техническим языком, вы сравниваете то "что есть общего в этих
переменных", с тем "что потенциально было бы у них общего, если бы
переменные были абсолютно зависимы". Рассмотрим простой пример. Пусть
в вашей выборке, средний показатель (число лейкоцитов) WCC равен 100 для
мужчин и 102 для женщин. Следовательно, вы могли бы сказать, что
отклонение каждого индивидуального значения от общего среднего (101)
содержит компоненту связанную с полом субъекта и средняя величина ее
равна 1. Это значение, таким образом, представляет некоторую меру связи
между переменными Пол и WCC. Конечно, это очень бедная мера
зависимости, так как она не дает никакой информации о том, насколько
велика эта связь, скажем относительно общего изменения значений WCC.
Рассмотрим крайние возможности:
Если все значения WCC у мужчин были бы точно равны 100, а у
женщин 102, то все отклонения значений от общего среднего в выборке
всецело объяснялись бы полом индивидуума. Поэтому вы могли бы сказать,
что пол абсолютно коррелирован (связан) с WCC, иными словами, 100%
наблюдаемых различий между субъектами в значениях WCC объясняются
полом субъектов.
Если же значения WCC лежат в пределах 0 – 1000, то та же разность (2)
между средними значениями WCC мужчин и женщин, обнаруженная в
эксперименте, составляла бы столь малую долю общей вариации, что
полученное различие (2) считалось бы пренебрежимо малым. Рассмотрение
еще одного субъекта могло бы изменить разность или даже изменить ее знак.
21
Поэтому всякая хорошая мера зависимости должна принимать во внимание
полную изменчивость индивидуальных значений в выборке и оценивать
зависимость по тому, насколько эта изменчивость объясняется изучаемой
зависимостью.
22
использовать для определения уровней значимости при исследовании
выборок заданного размера. Большинство этих функций связано с очень
важным классом распределений, называемым нормальным.
23
среднего от 0 – значения гипотетического для всей популяции. Если
вычисленная вероятность настолько мала, что удовлетворяет принятому
заранее уровню значимости, то можно сделать лишь один вывод: ваш
результат лучше описывает свойства популяции, чем "нулевая гипотеза".
Следует помнить, что нулевая гипотеза рассматривается только по
техническим соображениям как начальная точка, с которой сопоставляются
эмпирические результаты. Отметим, что все это рассуждение основано на
предположении о нормальности распределения этих повторных выборок (т.е.
нормальности выборочного распределения).
Как узнать последствия нарушений предположений нормальности?
Хотя многие приведенные выше утверждения можно доказать
математически, некоторые из них не имеют теоретического обоснования и
могут быть продемонстрированы только эмпирически, с помощью так
называемых экспериментов Moнте-Кaрло. В этих экспериментах большое
число выборок генерируется на компьютере, а результаты полученные из
этих выборок, анализируются с помощью различных тестов. Этим способом
можно эмпирически оценить тип и величину ошибок или смещений, которые
вы получаете, когда нарушаются определенные теоретические
предположения тестов, используемых вами. Исследования с помощью
методов Монте- Карло интенсивно использовались для того, чтобы оценить,
насколько тесты, основанные на предположении нормальности,
чувствительны к различным нарушениям предположений нормальности.
Общий вывод этих исследований состоит в том, что последствия нарушения
предположения нормальности менее фатальны, чем первоначально
предполагалось. Хотя эти выводы не означают, что предположения
нормальности можно игнорировать, они увеличили общую популярность
тестов, основанных на нормальном распределении.
24
3. Визуальный анализ данных
Визуальный анализ данных это наиболее быстрый способ получить
представление о характере данных. Современные программные
математические пакеты предлагают огромнейшую палитру всевозможных
графиков и их комбинаций. Всего в несколько «щелчков мышкой» можно
получить практически любой необходимый график.
Визуальный анализ данных позволяет получить картину «в целом» и
иногда увидеть наличие разнообразных зависимостей и аномалий, которые
достаточно тяжело выявить другим способом. Визуальный анализ очень
эффективно позволяет обнаруживать группировки данных, выбросы и прочие
проблемы в данных.
Самое главное преимущество визуального анализа данных – графики
наиболее универсальный способ отображения информации, понятный даже
самому неподготовленному в анализе данных человеку.
25
представляют собой наборы двумерных, трехмерных, тернарных или n-
мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные
графики, поверхности, тернарные диаграммы рассеяния и пр.), по одному
графику для каждой выбранной категории (подмножества) наблюдений,
например, опрашиваемых из Нью-Йорка, Чикаго или Далласа. Эти
"входящие" графики располагаются последовательно в одном графическом
окне, позволяя сравнивать структуру данных для каждой из указанных
подгрупп (например, городов).
Для выбора подгрупп можно использовать множество методов, самый
простой из них – это введение категориальной переменной (например,
переменной City с значениями New York, Chicago и Dallas). На рисунке 4.1
показаны гистограммы переменной, представляющей данные о самооценке
стресса жителями каждого из трех городов.
Кат егоризованная гист ограмма
26
Кат егоризация гист ограмм по дву м переменным
27
Независимый масшт аб к ат егоризованных график ов
28
выбранная группирующая переменная содержит не целочисленные значения,
то программа автоматически округлит каждое значение выделенной
переменной до целого числа.
Кат егоризация по целым числам
29
Например, "меньше -10", "больше или равно -10, но меньше 0", "больше
или равно 0, но меньше 10" и "больше или равно 10").
Коды. Этот метод следует использовать в том случае, если выбранная
группирующая переменная содержит "коды " (т.е. особые смысловые
значения, такие как Male, Female), по которым можно разбить данные на
категории.
Кат егоризация по к одам
3.3. Гистограммы
Гистограммы используются для изучения распределений частот
значений переменных. Такое частотное распределение показывает, какие
именно конкретные значения или диапазоны значений исследуемой
переменной встречаются наиболее часто, насколько различаются эти
значения, расположено ли большинство наблюдений около среднего
значения, является распределение симметричным или асимметричным,
30
многомодальным (т.е. имеет две или более вершины) или одномодальным и
т.д. Гистограммы также используются для сравнения наблюдаемых и
теоретических или ожидаемых распределений.
Категоризованные гистограммы представляют собой наборы
гистограмм, соответствующих различным значениям одной или нескольких
категоризующих переменных или наборам логических условий
категоризации (см. Методы категоризации).
Частотные распределения могут представлять интерес по двум
основным причинам:
· По форме распределения можно судить о природе исследуемой
переменной (например, бимодальное распределение позволяет
предположить, что выборка не является однородной и содержит
наблюдения, принадлежащие двум различным множествам,
которые в свою очередь нормально распределены).
· Многие статистики основываются на определенных
предположениях о распределениях анализируемых переменных;
гистограммы позволяют проверить, выполняются ли эти
предположения.
Как правило, работа с новым набором данных начинается с построения
гистограмм всех переменных.
Категоризованные гистограммы предоставляют такую же информацию
о данных, как и группировка (например, среднее, медиану, минимум,
максимум, разброс и т.п.). Хотя конкретные (числовые) значения
описательных статистик легко увидеть в таблице, в то же время общую
структуру и глобальные характеристики распределения проще изучать на
графике. Более того, график дает качественную информацию о
распределении, которую невозможно отразить с помощью какого-либо
одного параметра. Например, по асимметрии распределения значений дохода
можно сделать вывод о том, что большинство населения имеет низкий, а не
высокий уровень доходов. Если помимо этого провести группировку данных
по этническому и половому признакам, то можно обнаружить, что в
некоторых подгруппах эта структура распределения станет еще более ярко
выраженной. Хотя эта информация содержится в значении коэффициента
асимметрии (для каждой подгруппы), но она легче воспринимается и
запоминается, будучи графически представленной на гистограмме. Кроме
того, на гистограмме можно наблюдать некоторые "впадины и выпуклости",
которые могут свидетельствовать о социальном расслоении в исследуемой
группе населения или об аномалиях в распределении дохода отдельных
подгрупп, связанных с недавней налоговой реформой.
Категоризованные гистограммы и диаграммы рассеяния. Полезное
применение категоризации для непрерывных переменных – это
31
представление взаимосвязи трех переменных одновременно. Ниже показана
диаграмма рассеяния для двух переменных Load 1 и Load 2.
Диаграмма рассеяния
32
плоскости, где оси соответствуют переменным. Две координаты (X и Y),
определяющие положение точки, соответствуют значениям переменных.
Если между переменными существует сильная взаимосвязь, то точки на
графике образуют упорядоченную структуру (например, прямую линию или
характерную кривую). Если переменные не взаимосвязаны, то точки
образуют "облако".
Можно построить также категоризованные диаграммы рассеяния,
сгруппированные по значениям одной или нескольких переменных, а с
помощью метода сложных подгрупп (см. Методы категоризации) –
диаграммы рассеяния, категоризованные по заданным логическим условиям
выбора подгрупп наблюдений.
Категоризованные диаграммы рассеяния представляют собой мощный
исследовательский и аналитический метод для изучения взаимосвязей между
двумя и более переменными среди различных подгрупп.
Однородность двумерных распределений (форма взаимосвязей).
Диаграммы рассеяния обычно используются для выявления природы
взаимосвязи двух переменных (например, кровяного давления и уровня
холестерина), поскольку они предоставляют гораздо больше информации,
чем коэффициент корреляции. Например, неоднородность выборки, по
которой рассчитываются корреляции, может привести к искажению значений
коэффициента корреляции. Предположим, коэффициент корреляции
рассчитывается по данным, полученным в двух экспериментальных группах,
но этот факт при вычислениях игнорируется. Пусть эксперимент в одной из
подгрупп привел к увеличению значений обеих переменных, и на диаграмме
рассеяния данные из каждой группы образуют отдельные "облака" (как
показано на картинке).
Диаграмма рассеяния
33
Кат егоризованная диаграмма рассеяния
34
Категоризованные нормальные вероятностные графики представляют
собой эффективный инструмент для исследования однородности группы
наблюдений с точки зрения соответствия нормальному распределению.
Кат егоризованный вероят ност ный график
35
График и вероят ност ь-вероят ность
36
Линейный график
37
Диаграмма размаха без выбросов
38
диаграммам значений). Эти типы графиков, называемые также частотными
круговыми диаграммами, представляют данные аналогично гистограммам.
Все значения выбранной переменной категоризуются с помощью заданного
метода категоризации, а затем относительные значения частот отображаются
в виде сегментов круговой диаграммы пропорционального размера. Таким
образом, эти графики являются альтернативным представлением
гистограммы частот (см. раздел о категоризованных гистограммах).
Кру говые диаграммы
39
3.11. Графики пропущенных значений и данных вне диапазона
На этих графиках можно наглядно представить структуру
распределения точек данных, содержащих пропущенные значения или
находящихся "вне диапазонов", заданных пользователем. При этом строится
по одной двумерной диаграмме для каждой группы наблюдений, выделенной
с помощью группирующих переменных или с помощью условий выбора
сложных подгрупп (см. Методы категоризации).
График и пропу щ енных значений
40
Применения. Трехмерные графики в координатах XYZ отображают
взаимосвязи между тремя переменными. С помощью различных способов
категоризации можно исследовать эти зависимости при различных условиях
(т.е. в разных группах).
Кат егоризованный график поверхност и
41
Тернарный график
42
Кат егоризованный т ернарный график
43
Пост роение к арт ы линий у ровня Пост роение к арт ы линий у ровня
3.15. Пиктографики
На пиктографиках каждое наблюдение представлено в виде
многомерного символа, что позволяет использовать эти типы графического
представления данных в качестве не очень простого, но мощного
исследовательского инструмента. Главная идея такого метода анализа
основана на человеческой способности "автоматически" фиксировать
сложные связи между многими переменными, если они проявляются в
последовательности элементов (в данном случае "пиктограмм"). Иногда
понимание (или "чувство") того, что некоторые элементы "чем-то похожи"
друг на друга, приходит раньше, чем наблюдатель (аналитик) может
объяснить, какие именно переменные обусловливают это сходство (Lewicki,
Hill, & Czyzewska, 1992). Конкретную природу проявившихся взаимосвязей
между переменными позволяет выявить уже последующий анализ данных,
основанный на изучении этого интуитивно обнаруженного сходства.
Пик т ографик лу чей
44
Пик т ограмма
Таким образом, объекты имеют
определенный "внешний вид" (рис. 3.32),
который уникален для каждой конфигурации
значений и может быть идентифицирован
наблюдателем. Изучение таких пиктограмм
помогает выявить как простые связи, так и
Рисунок 3.32. сложные взаимодействия между переменными.
45
Круговые пиктографики. Круговые пиктографики (звезды, лучи,
многоугольники) имеют вид "велосипедного колеса", на них значения
переменных представлены расстояниями между центром пиктограммы
("втулкой") и их концами.
Лу чевые пик т ограммы
46
но в то же время последовательно разделены в соответствии с значениями
переменных.
Пик т ограммы к ру говых диаграмм
47
4. Статистический вывод
4.1. Генеральные совокупности и выборки.
Генеральная совокупность — это набор объектов (людей, предметов
или чего-либо еще), о которых вы хотите получить информацию. Выборка –
это небольшой набор объектов, извлеченных из генеральной совокупности.
Обычно имеется подробная информация об объектах из выборки, я не из
генеральной совокупности. Существует много различных способов
построения выборки. Каждый способ имеет свои преимущества для
определенных целей. Рассмотрим несколько примеров генеральных
совокупностей и выборок.
1. Генеральная совокупность: примерно 980 000 жителей г.
Красноярска, в котором некоторая фирма решила открыть ресторан быстрого
обслуживания.
а) Выборку можно построить, наняв людей, которые будут дежурить в
местном торговом центре, и опрашивать каждого 35-го покупателя. Такая
выборка будет содержать информацию о покупателях, но информация об
остальной части генеральной совокупности будет отсутствовать.
б) Другой метод построения выборки – провести опрос по телефону
каждого 2000-го жителя города, взяв номера из телефонного справочника,
Такая систематическая выборка будет содержать определенную информацию
о людях, которые находятся дома и отвечают на телефонные звонки.
в) Еще один метод построить выборку может заключаться в том, чтобы
опросить тех, кто выходит из местного ресторана Мак-Дональдс. Такая
выборка даст информацию о группе людей, посещающих рестораны быстрого
питания.
2. Генеральная совокупность: 826 ящиков с различным компьютерным
оборудованием, только что поступивших к вам на склад. Необходимо
проверить на месте содержимое отдельных ящиков, чтобы убедиться,
насколько оно соответствует накладной.
а) Удобный способ заключается в том, чтобы взять 10 ближайших
ящиков и проверить их содержимое. Но такая выборка вряд ли будет
репрезентативной. К тому же, если поставщики разгадают этот метод отбора,
то вряд ли можно извлечь пользу из такой выборки.
б) Можно подойти к осуществлению выборки иначе: выбрать для
проверки три больших, три средних и три небольших по размеру ящика. На
первый взгляд, это некоторое расширение метода отбора, но такой вариант
вообще может не дать желаемого результата – выборка может оказаться
нерепрезентативной (например, почти все ящики могут оказаться больших
размеров).
в) Существует еще один вариант – взять накладную и случайно
отобрать ящики для проверки из перечня, указанного в накладной. Затем
48
следует найти и вскрыть отобранные ящики. Это будет наиболее подходящая
выборка. Начав с накладной, вы убедитесь в правильности этого документа.
Случайность отпора гарантирует, что поставщики не смогут предугадать,
какие именно ящики вы будете проверять.
49
Генеральная совокупность Выборка
50
извлеченной из большой генеральной совокупности, то различия будут
незначительными.
Выборка, которая включает полную генеральную совокупность
называется переписью. Но даже если вы можете получить всю генеральную
совокупность, нужно подумать, стоит ли это делать. Сравнивая затраты и
преимущества, можно прийти к выводу, что не имеет смысла тратить время и
усилия на изучение всех объектов генеральной совокупности.
51
Большинство часто используемых оценок являются несмещенными или
почти (асимптотически) несмещенными. Например, среднее выборки
является несмещенной оценкой среднего генеральной совокупности.
Стандартное отклонение выборки является (как ни странно) смещенной
оценкой стандартного отклонения генеральной совокупности, но в то же
время асимптотически (приблизительно) несмещенной. Дисперсия выборки
представляет собой несмещенную оценку дисперсии генеральной
совокупности.
52
выборка может быть совершенно отличной от генеральной совокупности по
таким важным характеристикам, как использование Internet или желание
делать заказы по каталогам. Это легко может привести к неудачным бизнес
решениям, так как вы не использовали случайную выборку.
53
вероятность»). Традиционно его устанавливают равным 95%, но часто
используют также значения 90, 99 и даже 99,9%. Платой за более высокий
доверительный уровень является более широкий, а значит, и менее полезный
интервал. Доверительный интервал для процентного содержания в
генеральной совокупности можно легко вычислить, используя стандартную
ошибку для биномиального распределения. В зависимости от необходимости
можно использовать двусторонний (между двумя значениями) или
односторонний (но крайней мере больше, чем некоторое значение)
доверительный интервал. Как всегда, следует быть осторожным с не всегда
декларируемыми явно, но необходимыми предварительными техническими
условиями (в данном случае это нормальность и случайность выборки),
поскольку если эти условия не удовлетворяются, то сформулированные па
основе доверительных интервалов выводы будут неверными. Необходимо
также тщательно различать вероятность 95% для процесса построения
доверительного интервала и 95% доверительный уровень для конкретного
вычисленного интервала.
Сформулируем приблизительное универсальное утверждение о
доверительном интервале, которое применяют во многих ситуациях. Если вы
с помощью соответствующей несмещенной оценки оценили параметр
генеральной совокупности и вычислили соответствующую стандартную
ошибку этой оценки, то утверждение о доверительном интервале (в
обобщенном виде) можно сформулировать следующим образом:
Мы на 95% уверены, что параметр генеральной совокупности
находится между значением «оценки минус дне стандартные ошибки и
значением оценки плюс две стандартные ошибки.
54
разумный. Уровень 95% представляет гобой компромисс между попыткой
получить по возможности более высокий уровень доверительности и
желанием получить относительно небольшой интервал.
Доверительный интервал для уровня 100%, к сожалению, не очень
полезен, так как оп слишком велик.
Другие доверительные уровни. Хотя наиболее часто используемым
доверительным уровнем является уровень 95%, иногда используют и другие
доверительные уровни. Выбор уровня представляет собой поиск компромисса
между размером интервала (меньший интервал является более точным, а
значит, и более предпочтительным) и вероятностью того, что интервал
включает искомый параметр генеральной совокупности (более высокая
вероятность является более предпочтительной). В одних ситуациях
необходима очень высокая точность выводов, и тогда увеличивают размеры
интервала, чтобы вероятность справедливости утверждения о
принадлежности параметра интервалу была выше. В других ситуациях может
быть необходим более короткий интервал, и для этого можно допустить,
чтобы утверждение о доверительном интервале могло быть неверным более
часто. Стандартный 95% доверительный интервал является общепринятым
компромиссом меледу этими двумя факторами, но не единственным
решением данной проблемы.
При построении доверительных уровней предпочитают попользовать
круглые числа (избегая такие сбивающие с толку утверждения, как,
например, «быть уверенным на 96,19%»). Значения t-таблицы можно
использовать для построения доверительных интервалов для уровней 90, 95 и
99,90%.
Интерпретация доверительного интервала. Что вы имеете в виду,
когда, говорите, что исходя из значений веса в выборке из дневной продукции
вы на 95% уверены, что средний вес всех изготовленных сегодня упаковок
мыла лежит в пределах от 35,93 до 40,47 грамм? Это похоже на
вероятностное утверждение, но с ним необходимо тщательно разобраться.
Средний вес всех выпущенных сегодня упаковок мыла является некоторым
конкретным неизвестным числом. Это число либо принадлежит интервалу,
либо не принадлежит. A раз так, то откуда появляется вероятность?
Какое событие имеет вероятность 95%? Чтобы возникла вероятность,
должен иметь место случайный эксперимент. Вероятность скорее относится к
процессу в целом, чем к конкретному результату. Когда вы говорите, что на
95% уверены в том, что среднее значение веса в генеральной совокупности
находится в пределах от 35,93 до 40,47 грамм, то делаете вывод о точных
числовых результатах, исходя из имеющихся данных. Однако вероятность
95% возникает из самого процесса, который рассматривает значения как
случайные. Более тщательная формулировка вероятностного утверждения
может быть такой: «Вероятность события «средний вес» в генеральной
совокупности находится в пределах доверительного интервала для
55
случайного эксперимента «случайно отобрать несколько упаковок и
построить доверительный интервал» равна 95%». Каждый раз, когда
собирают данные и вычисляют 95% доверительный интервал, проводят
случайный эксперимент.
56
5. Корреляционный анализ
Корреляционный анализ предполагает изучение зависимости между
случайными величинами с одновременной количественной оценкой степени
неслучайности их совместного изменения.
Изменение случайной величины y , соответствующее изменению
случайной величины x , разбивается на две составляющие – стохастическую,
связанную с неслучайной зависимостью y от x , и случайную (или
статическую), связанную со случайным характером поведения самих x и y .
Стохастическая составляющая связи между y и x характеризуется
коэффициентом корреляции
M {[x - M ( x )][ y - M ( y )]}
r= ,
D( x) D( y )
где M (z ) и D (z ) – соответственно математическое ожидание и
дисперсия случайной величины z .
Коэффициент корреляции показывает, насколько связь между
случайными величинами близка к строго линейной. Если y и x
распределены нормально, равенство r = 0 указывает на отсутствие линейной
связи между ними. Значение r = ±1 соответствует строго линейной связи
между y и x (знак указывает на направление связи).
Однако коэффициент корреляции r не учитывает возможной
криволинейной связи между случайными величинами. Для учета таких связей
используется корреляционное отношение, введенное К. Пирсоном.
Для двумерного ряда наблюдений, когда на каждом уровне одной
переменной yi наблюдаются ni значений другой переменной xij ( j = 1, ..., ni ) ,
корреляционное отношение определяется следующим образом
S 02
h = 2,
2
xy
S
2
где S 0 – дисперсия рассеяния значений xij , связанная с влиянием
2
группировки значений xij по i уровня переменной y ; S – дисперсия
рассеяния значений xij без учета их группировки по уровням переменной y .
В нашем случае определено корреляционное отношение x по y .
2
Перестановкой переменных по аналогии может быть определено h xy –
корреляционное отношение y по x (тогда на каждом уровне переменной xi
57
наблюдается группа значений другой переменной yij ). В общем случае
2 2
h xy ¹ h yx .
2 2
Если y и x связаны строго линейно, то h = r = 1 . Если между x и y
2 2
существует линейная стохастическая связь, то r = h < 1 . При нелинейной
2 2
стохастической связи r < h < 1. В любом случае имеет место неравенство
2 2
0 £ r £ h £ 1(равенство достигается только при строгой линейной связи
между y и x ).
1 n 1 n
где x = å xi ; y = å yi ; n – объем выборки.
n i =1 n i =1
При малых значениях n ( n <15) лучшей оценкой коэффициента
корреляции является
*é 1- r ù
2
r = r ê1 + ú.
êë 2( n - 3 ) úû
При n >200 распределение выборочного коэффициента корреляции
удовлетворительно аппроксимируется нормальным законом со средним M ( r )
и дисперсией D( r ) :
2
1- r
M ( r ) = r ; D( r ) = .
n -1
При n >5 распределение случайной величины
1 1- r
z = ln = arcth ( r )
2 1+ r
58
удовлетворительно аппроксимируется нормальным распределением с
параметрами
1 æ1- r ö 1
M (z) = lnç ÷ = arcth (r) ; D( z ) .
2 è1 + r ø n-3
При n >10 распределение случайной величины
( r - r) n - 2
t= .
2 2
(1 - r )(1 - r )
удовлетворительно аппроксимируется распределением Стьюдента с
f = n - 2 степенями свободы.
Приведенные аппроксимации распределения выборочного
коэффициента корреляции позволяют строить статистические критерии для
проверки гипотез о существенности корреляционной связи и о возможных
значениях коэффициента корреляции.
На практике наибольший интерес представляет задача проверки
гипотезы о значимости корреляционной связи между случайными
величинами, т.е. значимости отклонения коэффициента корреляции r от
нуля. В принятых обозначениях проверяется нулевая гипотеза H 0 : r = 0
против альтернативы H1 : r ¹ 0 .
Эта гипотеза проверяется сравнением выборочного значения
коэффициента корреляции r с его критическим значением ra , являющимся
a -квантилью распределения r при r = 0 . Корреляция между случайными
величинами признается значимой, если r ³ ra . Критические значения ra
приведены в табл. 5.1.
Использование рассмотренных выше аппроксимаций приводит к
следующим оценкам
– при n >5
æ 2 ö
expç u1+ a ÷ - 1
ç n-3 ÷
ra = è 2 ø
;
æ 2 ö
expç u ÷ +1
ç n - 3 1+ a ÷
è 2 ø
– при n >10
59
2
t1+ a
ra = 2
2
;
n - 2 + t1+ a
2
– при n >200
1
ra = u1+ a .
n -1 2
Здесь ua и ta – a -квантили соответственно стандартного нормального
распределения и распределения Стьюдента с f = n - 2 степенями свободы.
Таблица 5.1
Критические значения ra
выборочного коэффициента корреляции для r = 0
n Доверительная вероятность a n Доверительная вероятность a
0,90 0,95 0,99 0,90 0,95 0,99
3 0,988 0,997 1,000 13 0,476 0,553 0,684
4 0,900 0,950 0,990 14 0,451 0,532 0,661
5 0,805 0,878 0,959 15 0,441 0,514 0,641
6 0,729 0,811 0,917 16 0,426 0,497 0,623
7 0,669 0,754 0,874 17 0,412 0,482 0,606
8 0,621 0,707 0,834 18 0,400 0,468 0,590
9 0,582 0,666 0,798 19 0,389 0,456 0,575
10 0,549 0,632 0,765 20 0,378 0,444 0,561
11 0,521 0,602 0,735 21 0,369 0,433 0,549
12 0,497 0,576 0,708 22 0,360 0,423 0,537
Если гипотеза о значимости корреляции между случайными
величинами не отклоняется, то можно построить доверительный интервал для
истинного коэффициента корреляции по его выборочному значению.
Впрочем, для корреляционного анализа это уже не столь важно, ибо его
основная цель – установление значимости наблюдаемой связи.
Пример 5.1. В результате наблюдений над случайными величинами x
и y получена следующая совокупность данных ( n = 10 ):
x : 2 4 1 7 3 11 14 15 21 4
y : 7 6 4 11 2 21 31 23 40 15
Необходимо проверить гипотезу о наличии корреляции между
случайными величинами x и y с достоверностью a =0,95.
Находим
60
1 10 10
2 1 10
x = × å xi = 8,2 ; å ( xi - x ) = 405,6 ; y = × å yi = 16,0 ;
10 i =1 i =1 10 i =1
10 10
2
å ( yi - y ) = 1422 ; å ( xi - x ) × ( yi - y ) = 723 .
i =1 i =1
723 æ 1 - 0,953 2 ö
r = 0,952 × ç1 + ÷ = 0,958 .
*
r= = 0,952 ;
405,6 × 1422 ç 2 × 7 ÷ø
è
Из табл. 5.1 для n = 10 и a =0,95 находим r0 ,95 = 0,632 .
*
Так какr (r ) = 0,952(0,958) > r0,95 = 0,632 , наличие зависимости
между величинами x и y следует признать значимой с достоверностью
a =0,95.
Если воспользоваться аппроксимациями (имея в виду, что
u1+ 0,95= u0,975= 1,96 ), получим
2
æ 2 ×1,96 ö
expç ÷ -1
r0,95 = è 7 ø = 0,629 ,
æ 2 ×1,96 ö
expç ÷ +1
è 7 ø
Что близко к точному значению r0,95 = 0,632 .
С помощью t -приближения получим (t1+ a ( f = n - 2) = t 0,975 (8) = 2,31)
2
1
ìï 2
t 0,975 (8) üï 2 2,31
2
r0,95 = í 2 ý = 2
= 0,632 ,
ïî10 - 2 + t 0,975 (8) ïþ 8 + 2,31
что совпадает с табличным значением.
Наконец, приближение для больших выборок дает
u 0,975 1,96
r0,95 = = = 0,653.
n -1 3
61
k
x . Если n = å ni ; xij - j -е значение величины x наблюдаемое при y = yi
i= 1
1 ni 1 k
( j = 1, 2, ..., ni ) ; xi = å xij ; x = å xi , то выборочная оценка
ni j = 1 k i= 1
корреляционного отношения x по y равна
k k
2 2 2
å ni ( xi - x ) å ni xi - nx
2 i =1 i =1
h xy = k ni
= k ni
.
2 2 2
å å ( xij - x ) å å xij - nx
i =1 j =1 i =1 j =1
2 2
Проверка гипотезы H 0 : h = 0 против альтернативы H 1 : h ¹ 0
2
h (n - k )
производится с помощью статистики l = 2
.
(k - 1)(1 - h )
Если l > Fa ( f1, f 2 ) , то нулевая гипотеза отклоняется с достоверностью
a . Здесь Fa ( f1, f 2 ) – a -квантиль F -распределения с f1 = k - 1 и f 2 = n - k
степенями свободы. При линейной связи между случайными величинами
2 2 2 2 2 2
h = r и h xy = h yx . Следовательно, разность h - r может служить мерой
2 2
нелинейности корреляционной связи. Проверка гипотезы H 0 : h - r = 0
2 2
против альтернативы H 1 : h - r ¹ 0 может быть осуществлена с помощью
статистики
2 2
* (h - r )(n - k )
l = 2
,
(k - 2)(1 - h )
имеющей при справедливости нулевой гипотезы F -распределение с
*
f1 = k - 2 и f 2 = n - k степенями свободы. Если l ³ Fa ( f1, f 2 ) , то с
вероятностью a гипотеза линейности корреляционной связи отклоняется.
Следует помнить, что для оценки корреляционной связи x по y необходимо
иметь несколько наблюдений x для различных y (и наоборот).
Пример 5.2. Проверить линейность корреляционной связи для выборки
yi : 2 4 9 13 15
xij :
1, 3, 4 7, 8, 12 14, 19, 21 11, 9, 6 8, 7, 3
при доверительной вероятности a =0,95.
Имеем k =5, ni = 3 и n =15. Вычисляем далее:
62
1+ 3+ 4
x1 = = 2,66 ; x2 = 9 ; x3 = 18 ; x 4 = 8,67 ; x5 = 6
3
5
2
3 2,67 + 9 + 18 + 8,67 + 6
å å xij = 1641; x = = 8,864 ;
i =1 j =1 5
5
2 2 2 2
å ni × xi = 3 × (2,66 + 9 + ... + 6 ) = 1569,2136 .
i =1
Тогда
2
2 1569,2136 - 15 × 8,864
h xy = 2
= 0,8448 .
1641 - 15 × 8,864
Из таблиц находим
F0,95 ( f1 , f 2 ) = F0,95 (5 - 1; 15 - 5) = F0,95 ( 4; 10) = 3,5 .
2
h × (n - k )
0,845 ×10
Вычисляем далее l = =
= 13,629 .
2
( k - 1) × (1 - h ) 4 × (1 - 0,845)
Полученная величина больше критического значения F0,95 ( 4; 10) = 3,5 ,
следовательно, необходимо признать наличие существенной нелинейной
связи между x и y . Оценим теперь отклонение связи между x и y от
линейной, для чего оценим коэффициент корреляции. Вместо значений xij на
каждом уровне yi будем использовать средние значения xi . Тогда ряд будет
следующим:
xi : 2,66 9 18 8,66 6
yi : 2 4 9 13 15
Используя, формулы из предыдущего раздела, получаем
1 1
x = × å xi = 8,864 ; y = × å yi = 8,6 ;
5 5
5 5
2
å ( xi - x ) = 130,2187 ; å ( yi - y ) = 125,5 ;
i =1 i =1
5
å ( xi - x ) × ( yi - y ) = (-6,204) × (-6,6) + ... + (-0,204) × 6,4 = 24,775 .
i =1
Тогда
24,775 2
r= = 0,194 ( r = 0,0376) ;
130,2187 ×125,2
63
* (0,8448 - 0,0376) × (15 - 5)
l = = 17,337 .
(5 - 2) × (1 - 0,8448)
Из таблиц имеем F0,95 (5 - 2; 15 - 5) = F0,95 (3; 10) = 3,7 .
*
Так как l = 17,337 > F0,95 (3; 10) = 3,7 , следует отклонить гипотезу о
наличии линейной корреляционной связи между случайными величинами.
Отсюда следует поучительный вывод – незначимость коэффициента
корреляции не означает отсутствия связи между исследуемыми величинами.
Следует говорить об отсутствии линейной зависимости, так как незначимость
коэффициента корреляции не исключает наличия нелинейной связи между
случайными величинами.
64
где k – число переменных (в нашем случае k =3).
При справедливости H 0 величина t распределена в соответствии с
распределением Стьюдента при f = n - k степенях свободы.
При t > t1+ a ( n - k ) нулевая гипотеза H 0 отклоняется с вероятностью
2
a . Множественная корреляция исследуется в случае, когда необходимо
установить существенность взаимосвязи одной переменной с совокупностью
остальных. Выборочные множественные коэффициенты корреляции
обозначаются rx , yz , ry , xz , rz , xy и выражаются через парные коэффициенты
корреляции с помощью соотношений
2 2 2 2
2 rxy + rxz - 2rzy rzx ryz 2 ryx + ryz - 2ryx ryz rzx
rx , yz = 2
; ry , xz = 2
;
1 - ryz 1 - rxz
2 2
2 rzx + rzy - 2rzx rzy rxy
rz , xy = 2
.
1 - rxy
Между частными, множественными и обыкновенными парными
коэффициентами корреляции имеют место так называемые контрольные
соотношения:
2 2 2 2 2
rx, yz = 1 - (1 - rxz )(1 - rxy, z ) = 1 - (1 - rxy )(1 - rxz, y ) ;
2 2 2 2 2
ry , xz = 1 - (1 - ryz )(1 - ryx, z ) = 1 - (1 - ryx )(1 - ryz , x ) ;
2 2 2 2 2
rz , xy = 1 - (1 - rzy )(1 - rzx , y ) = 1 - (1 - rzx )(1 - rzy , x ) .
Для проверки H 0 : r x , yz = 0 используется статистика
2
rx , yz n-k
F= ,
1 - rx, yz
2
k -1
Таблица 5.2
Критические значения r1,23...k коэффициента множественной
корреляции ( k – число переменных, n – объем выборки)
n-k Доверительная вероятность a
65
0,95 0,99
k k
3 4 5 6 3 4 5 6
1 0,999 0,999 0,999 1,000 1,000 1,000 1,000 1,000
2 0,975 0,983 0,987 0,990 0,995 0,997 0,997 0,998
3 0,930 0,950 0,961 0,968 0,977 0,983 0,987 0,990
4 0,881 0,912 0,930 0,942 0,949 0,962 0,970 0,975
5 0,836 0,874 0,898 0,914 0,917 0,937 0,949 0,957
6 0,795 0,839 0,867 0,886 0,886 0,911 0,927 0,938
7 0,758 0,807 0,838 0,860 0,855 0,885 0,904 0,918
8 0,726 0,777 0,811 0,835 0,827 0,860 0,882 0,898
9 0,697 0,750 0,786 0,812 0,800 0,837 0,861 0,878
10 0,671 0,726 0,763 0,790 0,776 0,814 0,840 0,859
11 0,648 0,703 0,741 0,770 0,753 0,793 0,821 0,841
12 0,627 0,683 0,722 0,751 0,732 0,773 0,802 0,824
13 0,608 0,664 0,703 0,733 0,712 0,755 0,785 0,807
14 0,590 0,646 0,686 0,717 0,694 0,737 0,768 0,791
15 0,574 0,630 0,670 0,701 0,677 0,721 0,752 0,776
16 0,559 0,615 0,655 0,687 0,662 0,706 0,738 0,762
17 0,545 0,601 0,641 0,673 0,647 0,691 0,724 0,749
18 0,532 0,587 0,628 0,660 0,633 0,678 0,710 0,736
19 0,520 0,575 0,615 0,647 0,620 0,665 0,697 0,723
20 0,509 0,563 0,604 0,636 0,607 0,652 0,685 0,712
22 0,488 0,542 0,582 0,614 0,585 0,630 0,663 0,690
24 0,470 0,523 0,562 0,594 0,565 0,609 0,643 0,669
26 0,454 0,506 0,545 0,576 0,546 0,590 0,624 0,651
28 0,439 0,490 0,529 0,560 0,529 0,573 0,607 0,633
30 0,425 0,476 0,514 0,545 0,514 0,557 0,591 0,618
40 0,373 0,419 0,455 0,484 0,454 0,494 0,526 0,552
60 0,308 0,348 0,380 0,406 0,377 0,414 0,442 0,467
Если F > Fa ( f1 , f 2 ) , то соответствующая корреляция признается
значимой. Критическое значение коэффициента множественной корреляции
равно
(k - 1) Fa ( f1 , f 2 )
rx, yz (a) = .
n - k + ( k - 1) Fa ( f1 , f 2 )
Корреляция признается значимой при rx, yz ³ rx, yz (a) . Критические
значения r1,23...k (для общего случая k переменных) приведены в табл. 5.2
Пример 5.3. Вычислить коэффициенты частной и множественной
корреляций и проверить их значимость при доверительной вероятности
a =0,95 для данных, приведенных ниже n = 10 , k = 3 :
66
xi :
1 3 4 7 12 4 19 21 1 3
yi :
12 42 58 71 68 50 49 85 18 26
zi :
41 12 7 3 14 27 38 13 64 75
Найдем парные коэффициенты корреляции. Вычисляем коэффициент
rxy :
10 10
2 2
å ( xi - x ) = 484,5 ; å ( yi - y ) = 6882,1 ;
i= 1 i= 1
10
å ( xi - x ) × ( yi - y ) = 1091;
i= 1
1 10 1 10
x= å xi = 7,5 ; y= × å yi = 47,9 ;
10 i = 1 10 i = 1
1091
rxy = = 0,597 .
484,5 × 6882,1
Вычисляем коэффициент rxz :
10 10
2 2
å ( xi - x ) = 484,5 ; å ( zi - z ) = 5498,4 ;
i =1 i =1
10
å ( xi - x ) × ( z i - z ) = -519 ;
i =1
519
x = 7,5 ; z = 29,4 ; rxz = - = -0,318 .
484,5 × 5498,4
Вычисляем ryz :
10 10
2 2
å ( yi - y ) = 6882,1 ; å ( zi - z ) = 5498,4 ;
i =1 i =1
10
å ( yi - y ) × ( zi - z ) = -3172,66 ;
i =1
3172,66
y = 47,9 ; z = 29,4 ; ryz = - = -0,516 .
6862,1 × 5498,4
Вычислим теперь частные коэффициенты корреляции:
rxy - rxz × ryz 0,597 - (-0,318) × (-0,516)
rxy, z = = = 0,533 ;
2 2 2 2
(1 - rxy ) × (1 - ryz ) (1 - 0,318 ) × (1 - 0,516 )
67
rxz - rxy × rzy - 0,318 - 0,597 × (-0,516)
rxz, y = = = 0,014 ;
2 2 2 2
(1 - rxy ) × (1 - rzy ) (1 - 0,597 ) × (1 - 0,516 )
rxy - rzx × ryx - 0,516 - ( -0,318) × 0,597
rzy , x = = = -0,429 .
2 2 2 2
(1 - rxz ) × (1 - ryx ) (1 - 0,318 ) × (1 - 0,318 )
Вычислим множественные коэффициенты корреляции:
2 2
2 0,597 + 0,318 - 2 × 0,597 × (-0,18) × ( -0,516)
rx, yz = 2
= 0,356
1 - 0,516
2
( rx , yz = 0,597) ;
2 2
2 0,597 + 0,516 - 2 × 0,597 × (-0,516) × ( -0,318)
ry , xz = 2
= 0,475
1 - 0,318
2
( ry , xz = 0,689) ;
2 2
2 0,318 + 0,516 - 2 × ( -0,318) × 0,597 × (-0,516)
rz , xy = 2
= 0,266
1 - 0,597
2
( rz , xy = 0,516) .
Вычисляем t -статистики для проверки значимости частных
коэффициентов корреляции
2 10 - 3 × 0,533
– для проверки rxy, z : t xy, z = = 1,667;
2
1 - 0,533
2 7 × ( -0,014)
– для проверки rxz , y : t xz , y = = -0,037;
2
1 - 0,014
2 7 × ( -0,429)
– для проверки rzy , x : t zy , x = = -1,256.
2
1 - 0,429
Для a =0,95 и f = n - k = 7 из таблиц для t -распределения имеем
t1+ 0,95 = t0,975 (7) = 2,37 . Видимо, что t xy, z , t xz , y , t zy , x <2,37.
2
Следовательно, наличие частной корреляции отклоняется с
достоверностью a =0,95.
Для коэффициентов множественной корреляции находим критическое
значение из табл. 5.2 при k = 3 , n - k= 7 и a =0,95. Имеем
r1, 23 (0,95)= 0,758 .
68
Так как ни один множественный коэффициент корреляции
( rx, yz= 0,596 , ry , xz= 0,689 и rz , xy = 0,516 ) не превышает критическое
значение 0,758, то и наличие множественной корреляции отклоняется с
достоверностью 0,95.
В заключение проверим правильность вычислений, используя
контрольные соотношения:
2 2 2 2
rx, yz = 0,596 = 0,356 = 1 - (1 - rxz ) × (1 - rxy , z ) =
2 2
= 1 - (1 - 0,318 ) × (1 - 0,533 ) = 0,356 .
69
Для применения «быстрого» критерия Кенуя поступаем следующим
образом.
Разбиваем проверяемую совокупность величин yi объема n на k групп
y11 , y12 , ..., y1m ; y 21, y22 , ..., y2 m ; ... ; yi1, yi 2 , ..., yim ; ... ;
y k1, yk 2 , ..., ykm , ( m = n / k ) .
В каждой группе фиксируем крайние значения y min i и y maxi для
i = 1, ..., k . Затем отбираем значения max y min i и min y maxi . Вычисляем
1£i £ k 1£i £ k
_ +
количество наблюдений n , для которых yi < max ymini и n , для которых
1£i £ k
yi > min ymaxi .
1£i £ k
Таблица 5.3
Критическое значение na критерия Кенуя
( a – доверительная вероятность)
k
a
2 3 4 5 6 8 10
0,95 8 17 27 37 47 70 93
0,99 12 22 33 45 57 83 110
- +
Статистикой критерия является число n = n + n . Гипотеза о наличии
корреляции принимается с достоверностью a , если n > na . Критические
значения na приведены в табл. 5.3.
70
6 6 – 12 8 10 18 10 12 24 12 14
7 7 – 13 9 11 19 11 13 25 11 15
8 8 8 14 10 12 20 10 14 26 12 14
9 7 9 15 9 11 21 11 13
10 8 10 16 10 12 22 12 14
11 9 11 17 9 13 23 11 15
Эффективность этого критерия по сравнению с классическим
корреляционным » 50%, т.е. для обеспечения одинаковых статистических
характеристик при проверке гипотез рассматриваемый критерий требует в 2
раза большего объема выборки.
71
Так как T = 21 < T0,95 = 27 , корреляция с достоверностью a =0,95
признается незначимой.
Используем теперь критерий Кокс–Стюарта.
Имеем n =28. Выделим 28/3 » 9 первых наблюдений yi и 9 последних
наблюдений. Сравнивая их попарно, получаем последовательность
+1, +1, +1, +1, +1, +1, –1, +1, –1
и T = 5 . Из табл. 5.4 находим для n¢ = 9 и a =0,95: T0,95 = 7 .
Так как T = 5 < T0,95 = 7 , корреляцию следует признать незначимой на
уровне значимости 0,05.
72
23 7 6 36 12 11 90 36 34
73
ì1 / 2, если xi = ~
x и yi > ~
y;
S2 = í
î 0 в остальных случаях;
ìï 1
, если xi > ~
x и yi = ~y ;
S3 = í 2
ïî 0 в остальных случаях;
ìï 1
, если xi = ~
x и yi = ~
y;
S4 = í 4
ïî 0 в остальных случаях.
Статистика S = S1 + S 2 + S3 + S 4 может быть использована для оценки
корреляции между случайными величинами x и y при n четко очевидно, что
S = S1 ). Критерий называется квадрантным, так как статистика S основана
на числе наблюдений в квадрантах, на которые плоскость xy делится
прямыми x = ~ x и y=~ y.
Гипотеза о наличии корреляции отклоняется, если S1 (a) < S < S 2 (a)
(критические значения S1 (a) и S 2 (a) приведены в табл. 5.6).
Таблица 5.6
Критические значения S1 (a) и S 2 (a) квадрантного
критерия корреляции ( a – доверительная вероятность)
a a
n 0,95 0,99 n 0,95 0,99
S1 S2 S1 S2 S1 S2 S1 S2
8÷9 0 4 – – 74÷74 13 24 12 25
10÷11 0 5 0 5 76÷77 14 24 12 26
12÷13 0 6 0 6 78÷79 14 25 13 26
14÷15 1 6 0 7 80÷81 15 25 13 27
16÷17 1 7 0 8 82÷83 15 26 14 27
18÷19 1 8 1 8 84÷85 16 26 14 28
20÷21 2 8 1 9 86÷87 16 27 15 28
22÷23 2 9 2 9 88÷89 16 28 15 29
24÷25 3 9 2 10 90÷91 17 28 15 30
26÷27 3 10 2 11 92÷93 17 29 16 30
28÷29 3 11 3 11 94÷95 18 29 16 31
30÷31 4 11 3 12 96÷97 18 30 17 31
32÷33 4 12 3 13 98÷99 19 30 17 32
34÷35 5 12 4 13 100÷101 19 31 18 32
36÷37 5 13 4 14 110÷111 21 34 20 35
38÷39 6 13 5 14 120÷121 24 36 22 38
40÷41 6 14 5 15 130÷131 26 39 24 41
42÷43 6 15 5 16 140÷141 28 42 26 44
74
44÷45 7 15 6 16 150÷151 31 44 29 46
46÷47 7 16 6 17 160÷161 33 47 31 49
48÷49 8 16 7 17 170÷171 35 50 33 52
50÷51 8 17 7 18 180÷181 37 53 35 55
52÷53 8 18 7 19 200÷201 42 58 40 60
54÷55 9 18 8 19 220÷221 47 63 44 66
56÷57 9 19 8 20 240÷241 51 69 49 71
58÷59 10 19 9 20 260÷261 56 74 54 76
60÷61 10 20 9 21 280÷281 61 79 58 82
62÷63 11 20 9 22 300÷301 66 84 63 87
64÷65 11 21 10 22 320÷321 70 90 67 93
66÷67 12 21 10 23 340÷341 75 95 72 98
68÷69 12 22 11 23 360÷361 80 100 77 103
70÷71 12 23 11 24 380÷381 84 106 81 109
72÷73 13 23 12 24 400 89 111 86 114
При n > 100 может быть использована аппроксимация
ìn æ 1 ö
ï çç1 + u1+ α ÷ при n = 2k ;
ï4 è n - 1 2 ÷ø
S(a) = í
ï n æç1 + n u ö÷ при n = 2k - 1.
ï4 ç n - 1
1+ α ÷
î è 2 ø
75
n 2
1 2æ iö
å* çç C n ÷÷ .
*
P (U ³ U ) = n
U è 2ø
C n2 i=
2
*
Если P (U ³ U ) > a , то с достоверностью a наличие корреляции
*
отклоняется (U – выборочное значение статистики U ).
Пример 5.6. Проверить гипотезу корреляции для данных примера 5.2.4
квадрантным критерием при доверительной вероятности a = 0,95 .
Для упорядоченного ряда значений
xi : 1 2 5 8 10 13 17 19 19 20 22 26 26 30
31 33 33 35 36 40 41 42 44 45 46 47 48 51
1 30 + 31
имеем медиану ~
x = × ( x14 + x15 ) = = 30,5.
2 2
Для упорядоченного ряда
yi : 1 11 14 16 19 19 21 21 30 31 32 33
41 42 43 43 48 49 50 51 51 52 53 58
( y14 + y15 ) 33 + 41
имеем ~
y= = = 37. Далее находим количество пар, для
2 2
которых xi > x и yi > y ; xi = ~
~ ~ x и yi > ~ y ; xi > ~x и yi = ~
y ; xi = ~
x и yi = ~y :
соответственно S1 = 4 , S 2 = 0 , S 3 = 0 , S 4 = 0 . Тогда S = S1 = 4 . Из табл. 5.6
для n = 28 и a = 0,95 имеем S1 (0,95) = 3 и S 2 (0,95) = 11 .
Так как S1 (0,95) = 3 < S = 4 < S 2 (0,95) = 11 , с достоверностью a = 0,95
наличие корреляции отклоняется. Используем теперь аппроксимацию
28 æ 1 ö æ 1,96 ö
S (0,95) = × ç1 + × u0,975 ÷ = 7 × ç1 + ÷ = 9,6 .
4 è 27 ø è 27 ø
Так как S = 4 < S (0,95) = 9,6 , то в этом случае наличие корреляции
отклоняется. Применим теперь критерий Эландта. Имеем последовательность
значений
U i : 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.
*
Тогда получаем U = å U i = 4 . Вычисляем далее
2 2 3 2 14 2
1 14
i 2 (C14 ) + (C14 ) + ... + (C14 )
P (U ³ 4) = 14
×å (C14 ) = 14
=
C28 i = 2 C28
1 2 2 2 2 2 2
= × (91 + 364 + 1001 + ... + 91 +14 + 1 ) = 0,999.
40116600
Так как P (U ³ 4) = 0,999 > a = 0,95 , гипотеза корреляции отклоняется.
76
5.2.6. Угловой критерий Олмстеда–Тьюки
Сущность критерия сводится к следующему. Двумерная диаграмма
( x, y ) сначала делится вертикальной прямой x = ~ x на две части и
горизонтальной прямой y = ~ x, ~
y на две части ( ~ y – медианы).
Если n – нечетное число, то медианы проходят через одну из точек
( xi , yi ) , которую следует исключить из рассмотрения. В результате получаем
четыре квадранта. Квадрантам, для которых ( xi - ~ x )( y i - ~
y ) > 0 (правый
верхний и левый нижний), приписываем знак +, а квадрантам, для которых
( xi - ~x ) ( yi - ~
y ) < 0 (левый верхний и правый нижний) – знак –.
Затем, двигаясь слева направо (от xmin к xmax ), подсчитываем
количество встречающихся подряд точек a1 , для которых yi > ~ y ( yi < ~ y ) . По
аналогии, двигаясь справа налево (от xmax к xmin ), подсчитываем количество
встречающихся подряд точек a 2 , для которых yi < ~ y ( yi > ~ y ) . Затем,
двигаясь сверху вниз (от ymax к ymin ), посчитываем количество
встречающихся подряд точек a3 , для которых xi < ~ x ( xi > ~ x ) , и, наконец,
двигаясь снизу вверх (от ymin к ymax ), посчитываем количество
встречающихся подряд точек a 4 , для которых xi > ~ x ( xi < ~ x ) . Знаки
значениям a1 , a 2 , a3 , a 4 присваиваются в зависимости от квадранта, в
котором располагаются отобранные точки.
Статистикой критерия является абсолютная сумма
4
Q= å ai ,
i =1
77
объемах выборок ( n > 50 ). При n > 50 вероятность того, что Q > Qa
оценивается по формуле
3 2
9Q + 9Q + 168Q + 208
a = 1- Q
.
2162 × 2
Пример 5.7. Проверить наличие корреляции между исследуемыми
данными критерием Олмстеда–Тьюки при доверительной вероятности
a = 0,95 в условиях примера 5.4.
В нашем случае ~ x = 30,5 и ~ y = 37 . Движемся слева направо (от xmin = 1
к xmax = 51) и подсчитываем количество встречающихся подряд точек
( xi , yi ) , для которых yi < ~y . Видим, что таких точек a1 =5 – это точки (1, 51),
(2, 48), (5, 51), (8, 49), (10, 50). Все эти точки расположены в левом верхнем
квадранте (так как xi < ~ x и yi > ~y ), значение a1 должно учитываться со
знаком «–».
Движемся теперь справа налево (от xmax = 51 к xmin = 1) и
подсчитываем количество встречающихся подряд точек, для которых yi < ~ y,
их количество a2 = 10 – это точки (51, 16), (48, 19), (47, 21), (46, 21), (45, 1),
(44, 31), (42, 11), (41, 32), (40, 19), (36, 30).
Так как все эти точки расположены в правом нижнем квадранте ( xi > ~ x
и yi < ~ y ), то сумма a2 = 10 должна учитываться со знаком –.
Далее движемся сверху вниз (от ymax =58 к ymin =1) и посчитываем
количество встречающихся подряд точек a3 , для которых xi < ~ x : это точки
(30, 58), (26, 53), (19, 52), (1, 51). Так как эти точки находятся в левом верхнем
квадранте, то значение a3 =4 учитывается со знаком –.
И, наконец, движемся снизу вверх (от ymin =1 к ymax =58) и
посчитываем количество встречающихся подряд точек, для которых xi > ~ x,
их a 4 =2. Это точки (45, 1), (42, 11). Все они располагаются в правом нижнем
квадранте, и поэтому a 4 =2 также учитывается со знаком –.
Окончательно имеем Q = a1 + a2 + a3 + a4 = - 5 - 10 - 4 - 2 = 21.
Легко видеть, что критерий приводит к принятию гипотезы о наличии
корреляции, так как Q = 21 > Q0,95 = 11 . Однако не следует этот вывод
считать достоверным, так как для принятия решения критерием Олмстеда–
Тьюки рекомендуется использовать выборки объема n > 50 ¸ 100 в силу
малой эффективности критерия. Здесь мы рассмотрели пример только для
демонстрации вычислительной техники критерия.
Теперь вычислим вероятность
78
3 2
9 × 21 + 9 × 21 + 168 × 21 + 208
a = 1- 21
0,9998 .
216 × 2
Так как a= 0,9998 > 0,95 , гипотеза корреляции принимается
(комментарий см. выше).
79
значение yi = ~ y исключается). Затем наблюдения ранжируются по
возрастающим значениям xi . Для последовательных пар значений ( xi , yi ) с
yi > ~
y – символ b . В результате получим последовательность элементов вида
a, b, b, a, a, a, b, .... Последовательность элементов одного вида, ограниченная
с двух сторон элементами другого вида (замыкающие интервал
последовательности одного вида ограничены с одной стороны
последовательностями другого вида), называется серией. Количество m
серий является статистикой рассматриваемого критерия.
Корреляция признается значимой, если m £ ma (критические значения
ma приведены в табл.5.8).
Таблица 5.8
Критические значения ma критерия Шведа–Эйзенхарта
( a – доверительная вероятность)
a a a
n n n
0,95 0,99 0,95 0,99 0,95 0,99
8÷9 2 – 20÷21 6 5 32÷33 11 10
10÷11 3 2 22÷23 7 6 34÷35 12 10
12÷13 3 2 24÷25 8 7 36÷37 13 11
14÷15 4 3 26÷27 9 7 38÷39 14 12
16÷17 5 4 28÷29 10 8 40÷41 15 13
18÷19 6 4 30÷31 11 9
При четных n > 40 можно использовать приближения
én +1 ù én +1 ù
m0,95 = ê - 0,82 n - 1ú ; m0,99 = ê - 1,16 n - 1ú ,
ë 2 û ë 2 û
где [z ] – ближайшее целое к z .
Пример 5.9. Проверить гипотезу корреляции для данных примера 5.4
критерием Шведа–Эйзенхарта.
В нашем случае ~ y = 37 . Будем обозначать пары ( xi , yi ) , в которых
yi > y = 37 , символом a , а пары в которых yi < ~
~ y = 37 , символом b .
Располагая пары в порядке увеличения значений xi , получаем
последовательность
aaaaa , bb, a, b, a, b, aaaaaaa , bbbbbbbbb .
Видим, что в полученной последовательности содержится m = 8 серий
(4 серии элементов a и 4 серии элементов b ). Из табл. 5.8 для n = 28 и
a = 0,95 находим m0,95 = 10 . Так как m = 8 < m0,95 = 10 , корреляция
é 28 + 1 ù
признается значимой. Приближение m0,95 = ê - 0,82 × 28 - 1ú = 10 дает
ë 2 û
такой же результат.
80
5.2.9. Критерий автокорреляции Кенуя
Критерий позволяет установить наличие корреляции в ряду пар
значений ( xi , yi ) , расположенных по возрастанию одной из величин
(например, x ). Под автокорреляцией понимается наличие зависимости
значений переменной величины от порядкового номера ее расположения в
ряду данных. Проверке такой зависимости и служит критерий Кенуя.
Критерий строится следующим образом. Все ( n - 1) пар значений
располагаются в порядке возрастания xi от xmin до xmax и разбиваются на
две группы, с yi > ~ y и yi < ~y ( ~
y – медиана). Затем последовательно
рассматриваем пары, для которых справедливо
( xi , yi > ~y ) , ( xi +1 , yi +1 > ~
y ) или ( xi , yi < ~
y ) , ( xi +1 , yi +1 < ~
y).
Другими словами, определяется количество последовательных пар
точек, находящихся по какую либо одну сторону от медианы. Количество
таких пар N является статистикой критерия. Если N > na , то корреляция
признается значимой. Критические значения na приведены в табл. 5.9.
Таблица 5.9
Критические значения N a критерия автокорреляции Кенуя
( a – доверительная вероятность)
a a a
n n n
0,95 0,99 0,95 0,99 0,95 0,99
8÷9 6 – 40–41 25 27 72÷73 43 46
10÷11 7 8 42÷43 26 28 74÷75 44 47
12÷13 9 10 44÷45 27 30 76÷77 45 48
14÷15 10 11 46÷47 29 31 78÷79 46 49
16÷17 11 12 48÷49 30 32 80÷81 47 50
18÷19 12 14 50÷51 31 33 82÷83 48 51
20÷21 14 15 52÷53 32 34 84÷85 49 53
22÷23 15 16 54÷55 33 35 86÷87 51 54
24÷25 16 17 56÷57 34 37 88÷89 52 55
26÷27 17 19 58÷59 35 38 90÷91 53 56
28÷29 18 20 60÷61 36 39 92÷93 54 57
30÷31 19 21 62÷63 37 40 94÷95 55 58
32÷33 21 22 64÷65 39 41 96÷97 56 59
34÷35 22 24 66÷67 40 42 98÷99 57 60
36÷37 23 25 68÷69 41 44 100÷101 58 62
38÷39 24 26 70÷71 42 45
81
Для ~y = 37 и упорядоченной последовательности x1 £ x2 £ ... £ xn
имеем последовательность пар точек, находящихся по одну сторону от
медианы:
(1, 51), (2, 48), (26,41), (26, 53), (33, 51), (35, 47), (44, 31), (45, 1),
(2, 48), (5, 51), (26, 53), (30, 58), (36, 30), (40, 19), (45, 1), (46, 21),
(5, 51), (8, 49), (30, 58), (31, 43), (40, 19), (41, 32), (46, 21), (47, 21),
(8, 49), (10, 50), (31, 43), (33, 43), (41, 32), (42, 11), (47, 21), (48, 19),
(13, 33), (17, 14), (33, 43), (33, 51), (42, 11), (44, 31), (48, 19), (52, 16).
Всего таких пар точек N = 20 . В табл. 5.9 для n = 28 находим
n0,95 = 18 . Так как N = 20 > n0,95 = 18 , корреляция признается значимой.
82
6 2 4 2 4 0 2
7 1 13 0 2 0 4
8 13 6 6 0 3 0
9 4 1 4 3 0 0
10 10 9 3 1 4 1
Статистика критерия равна
1 10
B= 3
× å [m1 (i ) × m4 (i ) - m2 (i) × m3 (i )]2 =
10 i =1
-3
[ 2 2 2
= 10 × (0 × 6 - 2 × 0) + (0 × 6 - 0 × 2) + ... + (3 ×1 - 1× 4) = 0,054 . ]
Так как B = 0,054 < B (0,95) = 0,0584 , с вероятностью a = 0,95
гипотеза о наличии корреляции между x и y отклоняется.
83
* *
расположенных справа от R j = 1. Затем вычеркиваем R j = 1 и подсчитываем
*
число членов последовательности, расположенных справа от R j = 2 и т.д.
Обозначим сумму чисел, полученных с помощью указанной процедуры, через
K . Тогда t вычисляем по формуле
4K
t= -1.
n(n - 1)
Иногда используются эквивалентные формы записи t :
4S n( n - 1) n(n - 1)
t= , где S = K - Q = 2K - = - 2Q .
n(n - 1) 2 2
Коэффициент t принимает значения от –1 до +1. Равенство
t = 1 указывает на строгую линейную корреляцию. При n ³ 10 распределения
t , S , и K удовлетворительно аппроксимирутся нормальным распределением
с параметрами, соответственно:
2(2n + 15)
M ( t) = 0 ; D( t) = ;
9n( n + 1)
n(n - 1)(2n + 5)
M(S ) = 0 ; D( S ) = ;
18
n(n - 1) n(n - 1)(2n + 5)
M( K ) = ; D( K ) = .
4 72
Следовательно, при n ³ 10 наличие корреляции признается значимым с
достоверностью a , если выполняется любое из следующих неравенств:
1 1
ì 2(2n + 5) ü 2 ì n(n - 1)(2n + 5) ü 2
t > t a = ua = í ý ; S > S a = ua = í ý ;
î 9 n ( n - 1) þ î 18 þ
1
n(n - 1) ì n( n - 1)(2n + 5) ü 2
K ³ Ka = + ua í ý ,
4 î 72 þ
где ug – g -квантиль стандартного нормального распределения.
Если среди значений x и y есть совпадающие значения (т.е. xi = xn
при i ¹ v или y j = yn при j ¹ v ), то им приписываются средние ранги
(например, если значения 3 и 4-го членов ранжированной выборки
совпадают, то им приписывается одинаковый средний ранг (3+4):2=3,5). Если
наблюдается q связей в ряду x и f связей в ряду y , то оценка t
корректируется следующим образом:
84
S
t= ,
1 1
n(n - 1) - T n( n - 1) - U
2 2
1 q 1 f
где T = å ti (ti - 1) ; U = å ui (ui - 1) ; ti (ui ) – длина i -й связи в ряду
2 i =1 2 i =1
x( y) .
В случае выборок из нормального распределения коэффициент t
может быть использован для быстрой оценки обычного коэффициента
tp
корреляции r по формуле r = sin .
2
Пример 5.12. Имеется последовательность пар ( xi , yi ) :
xi : 2 4 7 1 5 9 11 12 17 8
yi : 6 3 5 7 1 2 4 14 18 21
Используя коэффициент корреляции Кендалла, установить наличие
корреляционной зависимости между x и y с достоверностью a = 0,95 .
Упорядочим ряд значений xi по возрастанию:
xi :
1 2 4 5 7 8 9 11 12 17
yj :
7 6 3 1 5 21 2 4 14 18
Заменяя значения xi и y j их рангами, получаем последовательность
рангов:
Ri : 1 2 3 4 5 6 7 8 9 10
*
Rj : 7 6 3 1 5 10 2 4 8 9
* * *
Далее находим для R1 = 7 число инверсий (когда R1 > Rv , v > 1 ) равно
* * * *
6, для R2 = 6 ® 5 , для R3 = 3 ® 2 , для R4 = 1 ® 0 , для R5 = 5 ® 2 , для
* * * *
R6 = 10 ® 4 , для R7 = 2 ® 0 , для R8 = 4 ® 0 , для R9 = 8 ® 0 .
Таким образом, общее число инверсий равно для
=
Q 6 + 5 + 2 + 2 +=
4 19 .
4 ×19
Следовательно,=
t 1- = 0,155 .
10 × 9
Теперь рассмотрим второй способ оценки t . Для первоначальной
последовательности рангов
*
R j 7, 6, 3, 1, 5, 10, 2, 4, 8, 9
*
Определяем количество членов, находящихся справа от для R4 = 1–
*
получаем 6 членов. Теперь вычеркиваем R4 = 1 и получаем ряд
85
*
R j 7, 6, 3, 5, 10, 2, 4, 8, 9
* *
Справа от R6 = 2 находятся 3 члена. Вычеркиваем R6 = 2 и получаем
ряд
*
R j 7, 6, 3, 5, 10, 4, 8, 9
*
В котором справа от R3 = 3 находятся 5 членов. Далее, действуя по
аналогии, находим
* *
– в ряду R j :7, 6, 5, 10, 4, 8, 9 справа от R5 = 4 находятся 2 члена;
* *
– в ряду R j :7, 6, 5, 10, 8, 9 справа от R3 = 5 находятся 3 члена;
* *
– в ряду R j :7, 6, 10, 8, 9 справа от R2 = 6 находятся 3 члена;
* *
– в ряду R j :7, 10, 8, 9 справа от R1 = 7 находятся 3 члена;
* *
– в ряду R j :10, 8, 9 справа от R2 = 8 находится 1 член;
* *
– в ряду R j :10, 9 справа от R2 = 9 находятся 0 членов.
Окончательно имеем K =6+3+5+2+3+3+3+1+0=26.
4 × 26
Коэффициент t равен t = - 1 = 0,155 что, и следовало ожидать.
10 × 9
2×S 2×7
Далее S = K - Q = 26 - 19 = 7 и t = = = 0,155 .
n × (n - 1) 10 × 9
Для нормальной аппроксимации находим
2 × (2n + 5) 2 × 25
D( t) = = = 0,0617 ;
9n × ( n - 1) 9 ×10 × 9
n × ( n - 1) × ( 2n + 5) 10 × 9 × 25
D( S ) = = = 125 ;
18 18
n × ( n - 1) × ( 2n + 5) 10 × 9 × 25
D( K ) = = = 31,25 ;
72 72
n × (n - 1) 10 × 9
M(K ) = = = 22,5 .
4 4
Далее для u0,95 = 1,645 имеем
86
Так = t 0,155 < t=
как 0, 95 0,409 ; =S 7 < S=
0,95 18,39 ;
=
K 26 < K= 0, 95 31,69 , с вероятностью a = 0,95 можно утверждать об
отсутствии корреляции между x и y . Оценка обычного коэффициента
корреляции равна
p×t p × 0,155
r = sin = sin = 0,241.
2 2
5.3.2. Коэффициент корреляции r Спирмена
*
Рассматриваем последовательность рангов Ri (величин xi ) и R j
(величин y j ). Необходимости упорядочивать какую-либо совокупность
*
рядов xi и y j нет. Находим разность рангов d i = Ri - R j , соответствующую
паре ( xi , yi ) . Коэффициент корреляции Спирмена определяется формулой
n
2
6å d i
i= 1
r = 1- 2
.
n(n - 1)
Его значения находятся в интервале от –1 до +1 ( r = 0 указывает на
отсутствие корреляции). При n ³ 10 распределение r удовлетворительно
описывается нормальным распределением с параметрами M (r) = 0 и
1
D (r) = .
n -1
Иногда в качестве статистики для проверки значимости r используется
сумма квадратов отклонений рангов
n n
2 * 2
S = å d i = å ( Ri - Ri ) .
i =1 i =1
87
Более точная аппроксимация критических точек r предложена Иманом
и Коновером. В соответствии с их аппроксимацией используется статистика
r æç n - 2 ö÷
J= n -1 + критические значения которой равны
2 çè 1 - r ÷ø
2
1 1
J (a=
) ua + ta (n - 2) , где ua – a -квантиль стандартного нормального
2 2
распределения; ta – a -квантиль распределения Стьюдента с f = n - 2
степенями свободы. Если
æ1+ a ö æ1+ a ö
J ³ Jç ÷ или J £ - J ç ÷,
è 2 ø è 2 ø
то гипотеза о наличии корреляции принимается с вероятностью a .
Для выборки из нормальных распределений может быть получена
p
оценка для обычного коэффициента корреляции r = 2 sin r.
6
В заключение приведем ряд полезных соотношений, связывающих
между собой значения коэффициента корреляции t и r : неравенство
Дэниелса
3(n + 2) 2(n + 1)
-1 £ t- r ³ 1,
n-2 n-2
или при n ® ¥ : - 1 £ 3t - 2r £ 1 ;
неравенства Дарбина–Стюарта
3nt - ( n - 2) 1- t
при r ³ 0 : £ r £ 1- [(n - 1)(1 - t) + 4]
2( n + 1) 2(n + 1)
3 1 1 1 2
(при n ® ¥ t - £ r £ + t - t );
2 2 2 2
1 2 1 3 1
при t < 0 : t + t - £ r £ t + .
2 2 2 2
Из приведенных соотношений следует, что хотя коэффициенты t и r и
связаны между собой, но эта связь не столь элементарна. На практике чаще
всего, если значения обоих коэффициентов не слишком близки к единице, то
r » 1,5t .
У читателя может возникнуть вопрос: стоит ли пользоваться
коэффициентом t , если вычисление коэффициента r значительно проще?
Почему же тогда коэффициент t применяется на практике чаще? Это связано
с тем, что если необходимо учесть вновь поступившие значения случайных
88
величин, то r в отличие от t приходится рассчитывать заново по всем
выборочным значениям.
Пример 5.13. Используя данные примера 5.12 проверить наличие
корреляции с помощью коэффициента r Спирмена при доверительной
вероятности a = 0,95 .
Имеем последовательность рангов xi и yi :
Ri : 2, 3, 5, 1, 4, 7, 8, 9, 10, 6
*
Ri : 6, 3, 5, 7, 2, 2, 4, 8, 9, 10
Вычисляем
10
2 2 2 2
å ( Ri -Ri* )= (2 - 6) + (3 - 3) + ... + (6 - 10)= 120 ;
=i 1
6 ×120
=
r 1- = 0,273.
10 × 99
a 0,95 имеем u1+ a = u1+0,95 = u0,975 = 1,96 и
При =
2 2
r æ n-2 ö 0,273 æ 8 ö
J = × ç n -1 + ÷= ×ç 9 + ÷ = 0,811.
2 çè 1- r
2 ÷
ø 2 çè 1 - 0,273
2 ÷
ø
При u0,975 = 1,96 и t0,975 (8) = 2,306 имеем
89
3 ×12 × 0,155 2 ×11× 0,273
-1 £ - = -0,0532 £ 1 ;
8 8
1- t
r £ 1- × [(n - 1)(1 - t) + 4] ;
2 × ( n + 1)
1 - 0,155
0,273 £ 1 - × [9 × (1 - 0,155) + 4] = 0,554 ;
2 ×11
3n × t - ( n - 2)
r³ ;
2 × (n + 1)
3 ×10 × 0,155 - 8
0,273 ³ = -0,152 .
2 ×11
5.3.3. Критерий Гёфтинга
Критерий Гёфтинга является ранговым аналогом критерия Блума–
Кифера–Розенблатта. Статистика критерия строится следующим образом:
значения xi и yi предварительно ранжируются, а затем заменяются их
*
рангами Ri и Ri соответственно.
Обозначим через Ci число пар выборок ( xv , yv ) , для которых
одновременно xv < xi и yv < yi :
n
Ci = å j( xv , xi )j( yv , yi ) , i = 1, ..., n,
v =1
v ¹i
90
( a – доверительаня вероятность)
n
a
5 6 7 8 9
0,90 0,3330 – 0,00635 0,00476 0,00403
0,95 – 0,01660 0,00992 0,00773 0,00635
0,99 – 0,03330 0,01900 0,01488 0,01217
При n ® ¥ может быть использовано предельное распределение для
критерия Блума–Кифера–Розенблатта B , исходя из того, что случайная
1
величина D+ имеет такое же распределение имеет такое же
36n
распределение, как и B .
Корреляция признается значимой:
1
– с вероятностью a = 0,90 , если D > 0,0469 + ;
36n
1
– с вероятностью a = 0,95 , если D > 0,0584 + ;
36n
1
– с вероятностью a = 0,99 , если D > 0,0868 + .
36n
Пример 5.14. Для выборочных пар данных
( xi , yi ) : (7, 3), (7, 2), (8, 3), (9, 4), (10, 5), (11, 6)
установить наличие корреляции критерием Гёфтинга при
доверительной вероятности a = 0,95 .
Находим
С1 = j( x2 , x1 ) × j( y2 , y1 ) + j( x3 , x1 ) × j( y3 , y1 ) + j( x4 , x1 ) × j( y4 , y1 ) +
= +j( x5 , x1 ) × j( y5 , y1 ) + j( x6 , x1 ) × j( y6 , y1 ) =
1 1
= 0× + 0× + 0×0 + 0×0 + 0×0 = 0 ;
2 2
С2 = j( x1 , x2 ) × j( y1 , y2 ) + j( x3 , x2 ) × j( y3 , y2 ) + j( x4 , x2 ) × j( y4 , y2 ) +
= +j( x5 , x2 ) × j( y5 , y2 ) + j( x6 , x2 ) × j( y6 , y2 ) =
1
= 0× + 0×0 + 0×0 + 0×0 + 0×0 = 0;
2
С3 = j( x1 , x3 ) × j( y1 , y3 ) + j( x2 , x3 ) × j( y2 , y3 ) + j( x4 , x3 ) × j( y4 , y3 ) +
= + j( x5 , x3 ) × j( y5 , y3 ) + j( x6 , x3 ) × j( y6 , y3 ) =
1
= 1 × + 1×1 + 0 × 0 + 0 × 0 + 0 × 0 = 1,5 .
2
Вычисляя дальше по аналогии, получаем C4 = 3 , C5 = 4 , C6 = 5 .
Теперь ранжируем ряд xi :
91
xi : 7 7 8 9 10 11
Ri : 1,5 1,5 3 4 5 6
и ряд yi :
yi : 3 2 3 4 5 6
*
2,5 1 2,5 4 5 6
Ri :
(одинаковым значениям присвоены средние ранги).
Далее находим
6
* *
Q = å ( Ri - 1) ×( Ri - 2) × ( Ri - 1) × ( Ri - 2) =
i =1
= (1,5 - 1) × (1,5 - 1) × (2,5 - 1) × (2,5 - 2) + ... +
+ (6 - 1) × (6 - 2) × (6 - 1) × (6 - 2) = 581,3125 ;
6
*
K = å Ci × ( Ri - 2) × ( Ri - 2) =
i =1
= 0 × (1,5 - 2) × ( 2,5 - 2) + ... + 5 × (6 - 2) × (6 - 2) = 128,75 ;
6
S = å Ci × (ci - 1) = 0 × ( -1) + 0 × (-1) + 1,5 × 0,5 + 3 × 2 + 4 × 3 + 5 × 4 = 38,75 ;
i =1
581,3125 - 2 × 4 ×128.25 + 4 × 3 × 38,75
D= = 0,0282 .
6 ×5× 4 ×3× 2
Из табл. 5.10 для n = 6 и a = 0,95 находим D0,95 = 0,0166 .
Так как D = 0,0282 > D0,95 = 0,0166 , корреляция между x и y должна
быть признана значимой.
å {u ( xi - x j ) + u ( xi - y j )}; å {u ( yi - x j ) + u ( yi - y j )},
n n
Ri = Rn +i =
j= 1 j= 1
ì1 при x ³ 0,
где u (a ) = í
î0 при x < 0.
Если случайные величины xi и yi коррелируют, то будут
коррелировать и ранги Ri и Rn +i .
Статистикой критерия Ширахатэ является сумма
92
n
S = å Ri Rn +i .
i =1
n
* * *
то сумма S = å Ri Rn+i являлась бы статистикой Спирмена, уже
i= 1
рассмотренной ранее.
*
Статистика S и S асимптотически эквивалентны, но если значения
*
статистики S находятся в интервале
n(n + 1)(n + 2) * n( n + 1)(2n + 1)
£S £ ,
6 6
то статистика S ограничена интервалом
n(n + 1)(2n + 1) n(n + 1)(4n - 1)
£S£ .
3 3
2
n( n - 1) *
Таким образом, если размах статистики S равен , то размах
6
2
2n( n - 1)
статистики S есть , т.е. больше в 4 раза. Следовательно S -
3
критерий может дать больше информации, чем критерий, основанный на
*
статистике S .
При S1 (a) < S < S 2 (a ) корреляция признается незначимой
(критические значения S1 (a) и S 2 (a) приведены в табл. 5.11).
Таблица 5.11
Критические значения S a критерия Ширахатэ
Доверительная вероятность a n Доверительная вероятность a
n 0,90 0,95 0,90 0,95
S1 S2 S1 S2 S1 S2 S1 S2
4 62 96 61 97 10 911 1259 881 1289
5 116 175 114 181 12 1575 2125 1528 2173
6 199 195 194 302 14 2506 3314 2436 3386
7 313 456 302 468 16 3748 4877 3649 4977
8 467 666 450 683 18 5349 6863 5214 6999
9 664 932 642 955 20 7353 9311 7177 9501
Пример 5.15. Используя данные и условия примера 5.12, проверить
93
наличие корреляции с помощью критерия Ширахатэ.
Имеем данные ( xi , yi ) :
xi : 2 4 1 5 7 8 9 11 12 17;
yi : 6 3 7 1 5 21 2 4 14 18.
Для=
i 1 находим
R1 = å {n × ( x1 - x j ) + n × ( x1 - y j )} = n × ( x1 - x1 ) + n × ( x1 - y1 ) +
10
j =1
+ n × ( x1 - x2 ) + n × ( x1 - y2 ) + n × ( x1 - x3 ) + n × ( x1 - y3 ) + n × ( x1 - x4 ) +
+ n × ( x1 - y4 ) + ... + n × ( x1 - x1 0 + n × ( x1 - y1 0)) =
= 1 + 0 + 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 = 2.
Далее находим
R2 = 4 ; R3 = 7 ; R4 = 9 ; R5 = 12 ; R6 = 13 ; R7 = 14 ;
R8 = 15 ; R9 = 16 ; R10 = 18 ;
[ ]
10
R10+1 = R11 + å n × ( y1 - x j ) + n × ( y1 - y j ) =
j =1
= 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 1 + 0 + 1 + 0 + 0 + 0 + 0 = 12 ;
R12 = 10 ; R13 = 5 ; R14 = 2 ; R15 = 9 ; R16 = 20 ; R17 = 4 ;
R18 = 7 ; R19 = 17 ; R20 = 19 .
В результате получаем ряды:
Ri : 2 4 7 9 12 13 14 15 16 18;
Rn +i : 12 10 5 2 9 20 4 7 17 19.
Тогда
n
S= å Ri × Ri +1= 2 ×12 + 4 ×10 + 7 × 5 + 9 × 2 + 12 × 9 + 13 × 20 + 14 × 4 + 15 × 7 +
=i 1
+ 16 ×17 + 18 ×19= 1260 .
Из табл. 5.11 для n = 10 и a = 0,95 находим S1 = 881 и S 2 = 1289 .
Так как S1= 881 < S = 1260 < S 2 = 1289 , корреляция признается
незначимой.
94
где an (i) – математическое ожидание i -й порядковой статистики в
выборке объема n из стандартного нормального распределения.
*
Значения r заключены между –1 и +1. Наибольшей эффективностью
*
применение r обладает при исследовании зависимости между случайными
величинами, имеющими распределение, близкое к нормальному.
При n ³ 10 распределение статистики
n
* *
S = å an ( Ri )an ( Ri )
i =1
*
Стремится к нормальному со средним M ( S ) = 0 и дисперсией
2
* 1 ìn 2 ü
D( S ) = íå a n ( i ) ý .
n - 1 îi =1 þ
Корреляция признается значимой с достоверностью a при
* 1 n 2
S > S (a)u1+ a å a n (i ) .
2
n - 1 i =1
*
Здесь, как и ранее, Ri и Ri обозначают ранги величин xi и yi в
упорядоченных рядах x и y соответственно.
Для нахождения величин an (i) можно пользоваться либо
специальными таблицами, либо аппроксимацией
ìæ 3ö
0,14
æ 3ö ü
0,14
ïïç i - ÷ ç i- ÷ ï
a n (i) » 4,91 × íç 8 ÷ - ç1 - 8 ÷ ï.
1 1 ý
ç
ïç n + ÷÷ ç ÷
ç n+ ÷ ï
ïîè 4ø è 4 ø ïþ
Следует учитывать соотношение an (i ) = an (n + 1 - i ) , что значительно
снижает необходимый объем вычислений.
Пример 5.16. Используя данные примера 5.2.12, проверить начие
корреляции с помощью критерия Фишера–Йэйтса.
Для наших данных
xi : 1 2 4 5 7 8 9 11 12 17
yi : 7 6 3 1 5 21 2 4 14 18
последовательность рангов будет иметь вид:
Ri : 1 2 3 4 5 6 7 8 9 10
*
7 6 3 1 5 10
Ri : 2 4 8 9
Используя аппроксимацию
95
ìæ 3 ö
0,14
æ 3 ö ü
0,14
ïïç i - ÷ ç i- ÷ ï
a10 (i) = 4,91 × íç 8 ÷ - ç1 - 8 ÷ ï,
ý
ïçç 10 + 1 ÷÷ çç 10 + 1 ÷÷ ï
ïîè 4ø è 4 ø ïþ
*
Вычисляем значения a10 ( Ri ) и a10 ( Ri ) . Результаты сводим в таблицу:
* * * *
i Ri Ri a10 ( Ri ) a10 ( Ri ) i Ri Ri a10 ( Ri ) a10 ( Ri )
1 1 7 –1,547980 0,373926 6 6 10 0,122033 1,547980
2 2 6 –0,998750 0,122033 7 7 2 0,373926 –0,998750
3 3 3 –0,653292 –0,653292 8 8 4 0,653292 0,373926
4 4 1 –0,373926 –1,547980 9 9 8 0,998750 0,653292
5 5 5 –0,122033 –0,122033 10 10 9 1,547980 0,998750
Вычисляем
10
* *
S = å a10 ( Ri ) ×a10 ( Ri ) = (-1,54798) × 0,373926 + ... +
i =1
96
~ n
При n ³ 10 распределение S = å u Ri u Ri* стремится к нормальному с
i = 1 n +1
n +1
параметрами
2
~ ~ 1 ìï n 2 üï
M ( S ) = 0 ; D( S ) = íå u i ý .
n - 1 îïi = 1 n +1 þï
~ ~ 1 n 2
Отсюда: å u i , то с вероятностью a
S > S (a) = u1+ a
2
n - 1 i = 1 n +1
97
~ ~
Так как S = 1,656 < S (0,95) = 4,051, гипотеза о наличии корреляции
отклоняется с вероятностью 0,95.
98
Таблица 5.12
Критические значения SW (a) для коэффициента
конкордации W
Доверительная
Доверительная вероятность a =0,99
вероятность a =0,95
k
n n
3 4 5 6 7 3 4 5 6 7
3 64,4 103,9 157,3 75,6 122,8 185,6
4 49,5 88,4 143,3 217,0 61,4 109,3 176,2 265,0
5 62,6 112,3 182,4 276,2 80,5 142,8 229,4 343,8
6 75,7 136,1 281,4 335,2 99,5 176,1 282,4 422,6
8 48,1 101,7 183,7 299,0 453,1 66,8 137,4 242,7 388,3 579,9
10 60,0 127,8 231,2 276,7 571,0 85,1 175,3 309,1 494,0 737,0
15 89,8 192,9 349,8 570,5 864,9 131,0 269,8 475,2 758,2 1129,5
20 119,7 258,0 468,5 764,4 1158,7 177,0 364,2 641,2 1022,2 1521,9
При n > 10 ¸ 15 и отсутствии корреляции величина k (n - 1)W
2
распределена приблизительно как c с f = n - 1 степенями свободы. Отсюда
2
ca
следует, что критическое значение равно Wa = .
k ( n - 1)
Если W > Wa , то с вероятностью a корреляция между изучаемыми
последовательностями признается значимой.
Если среди последовательностей рангов есть совпадения, то
коэффициент конкордации следует вычислять по формуле
12 SW
W= k
, где
2 2
k (n - 1) - k å T j
j =1
3
T j = å (t j - t j ) , tj – количество совпавших рангов в j -й
tj
последовательности.
Совпавшим рангам, как и ранее, присваиваются средние ранги.
Пример 5.18. Предположим, что имеются k = 4 последовательности
числовых рядов, объемом n = 10 каждая:
xi : 1 3 7 9 12 14 18 19 21 26;
yi : 7 8 6 1 4 2 7 0 3 1;
zi : 11 12 7 6 5 4 3 1 0 –1;
li : –1 0 1 12 4 5 7 3 2 –4.
99
Необходимо проверить согласованность рядов с помощью
коэффициента конкордации Кендалла–Б. Смита при доверительной
вероятности a= 0,95 .
Имеем совокупность рангов R ji и квадратов вида
2 2
æ k k × ( n + 1) ö æ 4 ö
Å = çç å Rij - ÷÷ = çç å Rij - 22 ÷÷
è j =1 2 ø è j =1 ø
Rij
i j Å
1 2 3 4
1 1 8,5 9 2 2,25
2 2 10 10 3 9
3 3 7 8 4 0
4 4 2,5 7 10 2,25
5 5 6 6 7 4
6 6 4 5 8 1
7 7 8,5 4 9 42,25
8 8 1 3 6 16
9 9 5 2 5 1
10 10 2,5 1 1 56,25
2
ì410 k × (n + 1) ü
Далее SW = å í å R ji - ý = 134 ;
i =1 î j =1 2 þ
12 ×134
W= 2 = 0,101 .
4 × (1000 - 10)
2
Имея ввиду, что c 0,95 (9) = 16,919 (см. табл. 55), получаем
2
c 0,95
16,919
W0,95 = =
= 0,470 .
4×9 36
Так как W = 0,101 < W0,95 = 0,470 , с вероятностью a = 0,95 можно
признать согласованность рангов незначимой.
100
*
ранги, предложенные m экспертами первой группы; через Rij (1 = 1, ..., n ;
j = 1, ..., k ) – ранги, предложенные n экспертами второй группы ( R j = å Rij
* *
и Rj = å Rij ).
k
*
L= å RjRj .
j =1
101
5 2 1 3 4 5
6 5 4 3 2 1
å R1 = 14 R2 = 15 R3 = 18 R4 = 17 R5 = 26
Группа 2
1 1 2 3 4 5
2 3 2 1 5 4
3 4 5 1 2 3
4 1 2 3 4 5
5 5 4 2 3 1
6 1 2 3 4 5
7 3 2 4 5 1
8 1 5 4 3 2
å * * * *
R1 = 19 R2 = 24 R3 = 21 R4 = 30 R5 = 26
*
Вычисляем
5
*
L= å R j × R j = 14 ×19 + 15 × 24 + 18 × 21 + 17 × 30 + 26 × 26 = 2190 .
j =1
6×8×5× 6× 7 6 × 8 × 5 × 6 × 21
Границы изменения L : = 1680 £ L £ 5040 = .
6 6
Далее вычисляем
2
6×8×5× 6
M ( L) = = 2160 ;
4
6 × 8 × 4 × 25 × 36
D( L ) = = 1200 ( D( L ) = 34,64 );
144
~ 2190 - 2160
W= = 0,00729 .
5040 - 2160
~
Так как W = 0,00729 » 0 , согласованность внутри группы экспертов
либо между ними очень низка.
102
x1 - x2 n1n2
rd = ,
S n(n + 1)
где n1 , n2 – объемы двух групп; n = n1 + n2 ; x1 , x2 – средние значения первой
характеристики в двух группах, образованных в соответствии со второй
характеристикой;
2 2
2 n1 S1 + n2 S 2 2 1 n1 2
S = ; S1 = å ( xi - x1 ) ;
n n1 - 1 i = 1
2 1 n2 2
S2 = å ( xi - x 2 ) .
n2 - 1 i = 1
Значимость корреляции определяется так же, как и для обычного
коэффициента корреляции (см. раздел 5.1). Если rd > ra , то корреляция
признается значимой.
Рассмотрим теперь аналогичную задачу для ранговой корреляции,
применительно к коэффициенту ранговой корреляции t Кендалла (см. раздел
5.3.1).
Напомним, что в случае отсутствия дихотомии
2S
t= .
n( n - 1)
Предположим, что дихотомия реализуется в разделении данных по
двум признакам в группы объемов n1 и n2 ( n1 + n2 = n ).
В этом случае коэффициент точечно-бисериальной корреляции
Кендалла равен
1
ì1 ü2
rd = S í n(n - 1)[n( n - 1) - n1 ( n1 - 1) - n2 (n2 - 1)]ý .
î4 þ
Проверка значимости t d проводится аналогично проверке значимости
t (см. раздел 5.3.1).
Пример 5.20. В нашем распоряжении имеются следующие данные ( xi –
количественный признак, y – качественный признак, обозначаемый символом
+ или –):
xi : 1 2 3 4 5 6 7 8 9 10;
y : + + – – – + – + – –.
Необходимо оценить наличие зависимости между x и y при
достоверности a = 0,95 .
103
Используя коэффициент точечно-бисериальной корреляции t d . Имеем
n1 = 4 , n2 = 6 (n1 + n2 = n = 10) Находим далее
1+ 2 + 6 + 8 3 + 4 + 5 + 7 + 9 + 10
x1 = = 4,25 ; x2 = = 6,33 ;
4 6
2 1 4 2 2 1 6 2
S1 = å ( xi - x1 ) = 10,916 ; S 2 = å ( xi - x2 ) = 9,085 ;
3 i =1 5 i =1
S = 3,014 ;
4,25 - 6,33 4 × 6
rd = = -0,322 .
3,014 110
Для a = 0,95 и n = 10 из табл. 5.1 имеем r0,95 = 0,632 .
Так как rd = 0,322 < r0,95 = 0,632 , корреляция признается незначимой.
Теперь вычислим точечно-бисериальный коэффициент корреляции
Кендалла (см. раздел 5.3.1). Имеем последовательность рангов
Rj : 1 2 3 4 5 6 7 8 9 10
*
Rj : 2,5 2,5 7,5 7,5 7,5 2,5 7,5 2,5 7,5 7,5
*
Поясним подсчет рангов R j . Имеем последовательность членов
+ + – – – + – + – –,
что эквивалентно наличию n1 = 4 и n 2 = 6 равных элементов, которым
приписываем равные средние ранги. Элементы +, имеющие (условно) номера
1+ 2 + 3 + 4
1, 2, 3 и 4, получают равный средний ранг = 2,5 . Аналогично и
4
5 + 6 + 7 + 8 + 9 + 10
элементы – получают равные ранги = 7,5 . Теперь
6
подсчитаем сумму Q по алгоритму, изложенному в разделе 5.2.2.2.1.(т.е.
* *
число инверсий, когда R j < Rv ): Q = 6 + 6 + 3 + 2 = 17 .
Далее вычисляем
n × (n - 1) 10 × 9
S= - 34 = - 34 = 11;
2 2
11
td = = 0,335 ;
1
×10 × 9 × (10 × 9 - 4 × 3 - 6 × 5)
4
2 × ( 2n + 5) 2 × 25
t 0,95 = u0,95 × = 1,645 × = 0,409 .
9n × ( n - 1) 90 × 9
104
Так как t d = 0,335 < t 0,95 = 0,409 , точечно-бисериальная корреляция
незначима.
a b
c d
105
Если признаки A и B независимы, то Q = 0 . В случае полной связи
между признаками Q = ±1. Дисперсия Q равна
1 2 æ1 1 1 1ö
D(Q) = (1 - Q )ç + + + ÷ .
4 èa b c d ø
Сравнение Q с полученным значением дисперсии (с учетом масштаба
D(Q) ) позволяет получить хотя бы первое приближение по оценке связи.
106
( D( K ) = 0,082 ).
Из анализа полученных оценок можно сделать оценочный вывод о том,
что по вероятности существует связь между технологией изготовления и
качеством продукции, так как коэффициенты Q = 0,567 и K = 0,311
достаточно велики по сравнению со своими среднеквадратическими
отклонениями (превышают их более, чем в три раза).
107
5.5.5. Точный критерий Фишера
2 2
Критерий c = nV применим при n ³ 40 и a , b, c, d ³ 5 . Если эти
условия не выполняются, то следует воспользоваться точным критерием
Фишера, основанном на статистике
( a + b)!(c + d )!( a + c)!(b + d )! a 1
p= å
( a + b + c + d )! i = 0 ( a + b - i )!(a + c - i )!( a + d - i )!
108
Если ~z > u a , то связь признаков признается значимой.
Пример 5.24. Для таблицы сопряженности
∑
14 28 42
6 36 42
∑ 20 64 84
проверить гипотезу о согласованности признаков при доверительной
вероятности a = 0,95 .
Имеем a = 14 , b = 28 , c = 6 , d = 36 . Так как a + b = 42 = c + d ,
используем критерий
(14 + 36) - (28 + 6)
z= = 1,745 .
84
Так как z = 1,745 > u 0,95 = 1,645 , связь признаков следует признать
значимой. Следует помнить, что всегда при z берется знак + (это не меняет
результат).
Пример 5.25. Для таблицы сопряженности
∑
15 4 19
85 77 162
∑ 100 81 181
проверить гипотезу о согласованности признаков при доверительной
вероятности a = 0,95 .
В нашем случае a + b = 19 << c + d = 162 , поэтому используем
критерий
(15 + 85 - 4 - 77) × (15 + 4)
15 - 4 +
~
z= 15 + 4 + 85 + 77 = 1,97 .
15 + 4
Так как ~ z = 1,97 > u 0,95 = 1,645 , связь признаков в таблице следует
признать значимой.
109
Опыт 1
Опыт 2
+ –
+ a b
– c d
Из нее следует, что значения a и d соответствуют неизменным условиям
опыта (a – когда и опыт 1 и опыт 2 действуют на объект, d – когда ни один из
опытов не действует на объект). Значения b и c соответствуют условиям,
когда действует только один из опытов. Если b » c , то, следовательно, опыты
не оказывают влияния на объект.
Для проверки равенства b = c Мак-Нимар предложил критерий
2 (b - c)
2
2 ( b - c - 1) 2
c = , а при b + c < 30 : c = .
b + c +1 b + c +1
2 2 2
Если c > c a (1) , разница между b и c признается значимой ( c a (1) –
a -квантиль распределения хи-квадрат с f = 1 степенью свободы).
Пример 5.26. Предположим, 30 пациентов начали применять два
препарата. При этом 8 пациентов признали сильным действие как перврго ,
так и второго препаратов; 11 – слабым действие обоих препаратов; 16
признали действие первого препарата сильным, а второго слабым; 5
пациентов – наоборот. Необходимо проверить критерием Мак-Нимара при
достоверности a = 0,95 гипотезу о различии в действии препарата.
Имеем таблицу:
Препарат 1 Препарат 2
сильное слабое
+ (a) 8 16 (b)
– (c) 5 11 (d)
Разница между препаратами проявляется в разнице частот (b) с (c), так
как именно они фиксируют впечатления пациентов, связанные с различием
воздействия исследуемых препаратов. Имеем
110
Критерий строится следующим образом. В таблице
a b
c d
1 1
a+ b-
2 2
1 1
c- d+
2 2
95 - 1 / 2 15 + 1 / 2 110
70 + 1 / 2 40 - 1 / 2 110
165 55 220
Вычисляем
G= 2 × {94,5 × ln 94,5 + 15,5 × ln 15,5 + 70 × ln 70 + 39,5 × ln 39,5 -
- 110 × ln 110 - 110 × ln 110 - 165 × ln 165 - 55 × ln 55 + 220 × ln 220}= 14,337.
111
2 2
Из таблиц имеем c 0,95 (1) = 3,85 . Так как G = 14,337 > c 0,95 (1) = 3,85 ,
следует признать связь частот в таблице значимой.
a1 b1 a2 b2
c1 d1 c2 d2
112
R = (15 + 48 + 21 + 74 + 27 + 94 + 112 + 456) ´
ìï 1 æ 27 2 94
2
112
2
456 ö÷
2
´í × ç + + + +
ïî 27 + 94 + 112 + 456 çè 15 + 27 48 + 94 21 + 112 74 + 456 ÷ø
1 æ 152 48
2
21
2
74
2
ö üï
+ × ç + + + ÷ - 1ý = 37,938.
15 + 48 + 21 + 74 è 15 + 27 48 + 94 21 + 112 74 + 456 ÷ø ïþ
ç
2
Так как R = 37,938 > c 0,90 (3) = 6,251 , следует признать, что таблицы
статистически различимы.
113
Таким образом, необходимо иметь 98 наблюдений. Проверка разницы в
2
таких таблицах обеспечивает мощность критерия c , равную 1 - b = 0,90 .
2
зависимость между изучаемыми признаками. Однако статистика c неудобна
при оценке связи признаков, так как ее значения не нормированы и при
2
n®¥ c ® ¥ (в отличие от рассмотренных ранее коэффициентов
корреляции, значения которых при любых n заключены между –1 и +1).
Поэтому для оценки связей в таблицах r ´ c используются специальные
коэффициенты сопряженности, предложенные Пирсоном и Чупровым.
1
æ c 2
ö2
Пирсон предложил коэффициент сопряженности в виде K P = ç ÷ .
ç n + c2 ÷
è ø
Значения K P зависят от числа изучаемых признаков, что не позволяет
использовать его для сравнения связей в таблицах с различными значениями
r и c . Этого недостатка лишен коэффициент сопряженности Чупрова
114
1
æ 2 ö2
ç c ÷
KR = ç ÷÷ .
ç n[( r - 1)(c - 1)]12
è ø
Коэффициент K R становится равным ± 1 в случае полной связи
признаков только при r = c . Так, как коэффициенты сопряженности
2
выражаются через c , то проверка их значимости может быть осуществлена с
2
помощью критических значений c -распределения.
Если K P > K P (a) или K R > K R (a) , то связь признаков признается
существенной.
Пример 5.30. Предположим, что в результате проверки партии
электронных ламп трех типов (по 100 шт. каждого типа), изготовленных на
пяти заводах, получены следующие количества годных ламп:
Завод–изготовитель ∑
Тип лампы 1 2 3 4 5
1 70 60 20 40 30 220
2 80 90 100 90 70 430
3 30 40 30 20 50 170
∑ 180 190 150 150 150 820
Необходимо проверить гипотезу о наличии связи между качеством
ламп различного типа и заводом изготовителем при доверительной
вероятности a = 0,95 .
Имеем r = 3 , c = 5 , ( r - 1) × (c - 1) = 8 . Тогда
æ 3 5 nij2 ö æ 70 2 60
2
2 ç
c = 820 å å ÷
- 1 = 820 × ç + +
ç i =1 j =1 n × n* ÷ ç 180 × 220 190 × 220
è i j ø è
90
2
20
2
50
2
ö
+ + ... + + - 1÷ = 51,244 .
150 × 220 150 ×170 150 ×170 ÷ø
2
Имеем из таблиц: c 0,95=
(8) 15,507 . Так как
2 2
=
c 51,244 > c 0,95=
(8) 15,507 , гипотеза о наличии связи между признаками
подтверждается.
Вычислим теперь коэффициенты сопряженности
51,244 51,244
KP = = 0,242 ; KR = = 0,149 .
820 + 51,244 820 × 2 × 4
115
6. Вопросы и упражнения к модулю 1. Современные
проблемы обработки экспериментальных данных
На вооружении современных специалистов (ученых, инженеров,
экономистов и т.д.) оказались многочисленные пакеты прикладных программ
(например, Statistica, Mathcad, MatLab, Matematica и др.), средствами которых
решаются практически все возникающие в практической деятельности
задачи. Однако крайне важно, чтобы пользователи этих пакетов понимали,
что и как они анализируют.
В большинстве случаев обработка и анализ различных данных
обусловлены необходимостью принять то или иное управленческое решение
в некоторой области деятельности. Управленческое решение, как правило,
опирается на анализ эмпирических сведений, почерпнутых и представленных
тем или иным образом и содержащих в себе информацию, необходимую для
его принятия.
Более полные теоретические сведения и ряд разобранных примеров
приведены в первом модуле основного учебного пособия.
116
13. Найдите с помощью поисковых систем в интернете несколько
сайтов, посвященных различным математическим пакетам. Ознакомитесь с
презентационными материалами, представленными на этих сайтах.
6.2. Упражнения
6.1. . Найдите в сети Internet два различных набора двумерных данных.
В каждом случае определите характер зависимости между двумя факторами и
установите, можно ли и полезно ли иметь возможность предсказывать один
фактор на основании другого.
117
М 29 500 Школа 2
Ж 58 100 Высшее 15
Ж 36 000 Техникум 7
118
б) Эти порядковая, номинальная или какая-либо другая переменная?
119
7. Вопросы и упражнения к модулю 2. Классификация в
распознавании образов
120
7.2. Примеры решения задач
Пример 7.1. Имеются два класса. Заданы два ряда распределения
вероятностей (при истинном первом и втором классах) и априорные
вероятности классов.
xi -1 0 1 P( j)
p xi |1
p xi |2
Считаем, что измерение признака дало следующий результат: X = 0 .
Вычисляем апостериорные вероятности классов:
p0|1P(1) 0.8 × 0.5 0.4
P(1 | X = 0) = = = = 0.8 ,
p0|1P(1) + p0|2 P( 2) 0.8 × 0.5 + 0.2 × 0.5 0.5
p0|2 P(2) 0.2 × 0.5 0.1
P ( 2 | X = 0) = = = = 0.2 .
p0|1P (1) + p0|2 P( 2) 0.8 × 0.5 + 0.2 × 0.5 0.5
Наибольшей среди них является P (1 | X = 0)= 0.8 . Решающее
устройство принимает решение об истинности первого класса.
Предполагаем, что измерение дискретного признака дало значение
X = 1 . Теперь
p1|1P(1) 0.15 × 0.5 0.075
P(1 | X = 1) = = = = 0.176 ,
p1|1P(1) + p1|2 P( 2) 0.15 × 0.5 + 0.7 × 0.5 0.425
p1|2 P( 2) 0.7 × 0.5 0.35
P( 2 | X = 1) = = = = 0.824 .
p1|1P (1) + p1|2 P(2) 0.15 × 0.5 + 0.7 × 0.5 0.425
Решающее устройство принимает решение об истинности второго
класса.
Если в результате измерения информативный признак принял значение
X = -1 (вероятность этого события достаточно мала и равна 0.1), то
апостериорные вероятности принимают значения:
p-1|1P(1) 0.05 × 0.5 0.025
P(1 | X = -1) = = = = 0.333,
p-1|1P(1) + p-1|2 P(2) 0.05 × 0.5 + 0.1 × 0.5 0.075
p-1|2 P(2) 0.1 × 0.5 0.05
P(2 | X = -1) = = = = 0.667 ,
p-1|1P(1) + p-1|2 P(2) 0.05 × 0.5 + 0.1 × 0.5 0.075
и решающее устройство выносит решение об истинности второго
класса.
Пример 7.2. Имеются два класса. Заданы два распределения
вероятностей дискретных признаков. В верхней части каждой клетки таблицы
стоит соответствующая вероятность p xi , y j |1 при истинном первом классе, а
121
нижней части – p xi , y j | 2 при истинном втором классе. Рядом с таблицей
указаны априорные вероятности классов.
yj
xi
P (1) = 0.4
P( 2) = 0.6
122
Пример 7.3. При наличии двух классов условные
плотности вероятности приведены ниже и 1 f (x | 1)
представлены на рис. 7.1 и 7.2.
x
1 - | x |, | x | £ 1,
f ( x | 1) = ìí -1 0 1
î 0, 1 £ | x |; Рис. 7.1
1 - | x - 1 |, | x - 1 | £ 1,
f ( x | 2) = ìí f (x | 2)
î 0, 1 £ | x -1| . 1
7.3. Упражнения
7.1 – 7.4. Имеются два класса. Заданы два ряда распределения
вероятностей (при истинном первом и втором классах) и априорные
вероятности классов:
123
7.1 7.2
xi x1 x2 P( j) xi x1 x2 x3 x4 P( j )
p xi |1 0.1 0.9 0.4 p xi |1 0.01 0.09 0.7 0.2 0.8
xi x1 x2 x3 P( j ) xi x1 x2 x3 P( j )
p xi |1 0.1 0.2 0.7 0.7 p xi |1 0.1 0.3 0.6 0.5
p xi | 2 0.5 0.3 0.2 0.3 p xi | 2 0.6 0.2 0.2 0.5
, .
7.5 7.6
xi x1 x2 P( j ) xi x1 x2 x3 x4 P( j )
p xi |1 0.1 0.9 0.1 p xi |1 0.01 0.09 0.7 0.2 0.3
p xi | 2 0.8 0.2 0.6 p xi | 2 0.07 0.6 0.3 0.03 0.3
p xi |3 0.3 0.7 0.3 p xi |3 0.8 0.1 0.07 0.03 0.4
, ,
124
7.7 7.8
xi x1 x2 x3 P( j ) xi x1 x2 x3 P( j )
p xi |1 0.1 0.2 0.7 0.5 p xi |1 0.1 0.3 0.6 0.2
p xi | 2 0.5 0.3 0.2 0.3 p xi | 2 0.2 0.6 0.2 0.1
p xi |3 0.1 0.6 0.3 0.2 p xi |3 0.7 0.2 0.1 0.7
, .
7.11. P (1) = 0.5; P (2) = 0.5 . 7.12. P (1) = 0.7; P (2) = 0.3 .
125
найти вероятность ошибки классификации. Информативный признак (при
истинности первого и второго класса) распределен по равномерному закону:
Варианты:
а) интервалы [a1, b1 ], [a 2 , b 2 ] не перекрываются;
б) интервалы [a1, b1 ], [a 2 , b 2 ] перекрываются, а взвешенные условные
плотности f ( x | 1) P (1) , f ( x | 2) P (2) равны;
в) интервалы [a1 , b1 ],[a 2 , b 2 ] перекрываются, а взвешенные условные
плотности f ( x | 1) P (1) , f ( x | 2) P (2) не равны;
г) интервал [a1 , b1 ] включает в себя интервал [a 2 , b 2 ] .
Решение сопровождайте графическими пояснениями.
Варианты:
а) P (1) = 0.1, P ( 2) = 0.9 ; б) P (1) = 0.4, P ( 2) = 0.6 ;
в) P (1) =P ( 2) = 0.5 ; г) P (1) = 0.8, P (2) = 0.2 .
126
7.16. На основе байесовской теории принятия решений вычислите
разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид:
1 ìï ( x - mi ) 2 üï
f ( x | i) = exp í- 2 ý, i = 1, 2 .
2 p si ïî 2si ïþ
Варианты:
2 2
а) m1 ¹ m2 , s1 = s 2 , P(1) = P (2) ;
2 2
б) m1 ¹ m2 , s1 = s 2 , P(1) ¹ P (2) ;
2 2
в) m1 ¹ m2 , s1 ¹ s 2 , P(1) ¹ P (2) ;
2 2
г) m1 = m2 , s1 ¹ s 2 , P(1) ¹ P (2) ;
д) m1 = 1, m2 = 3; s1 = 1, s2 = 2; P (1) = P ( 2) ;
е) m1 = 3, m2 = 9; s1 = 3, s 2 = 4; P (1) = 1 / 3, P (2) = 2 / 3 ;
ё) m1 = 1, m2 = 1; s1 = 1, s2 = 2; P (1) = P (2) ;
ж) m1 = 0, m2 = 1; s1 = 1, s2 = 3; P (1) = 0.25, P (2) = 0.75 .
Решение сопровождайте графическими пояснениями.
1 ì | x - mi | ü
f ( x | i) = expí- ý, i = 1, 2 .
2g i î g i þ
127
Варианты:
а) m1 ¹ m2 , g1 = g 2 , P (1) = P (2) ;
б) m1 ¹ m2 , g1 ¹ g 2 , P (1) = P (2) ;
в) m1 ¹ m2 , g1 ¹ g 2 , P (1) ¹ P (2) ;
г) m1 = m2 , g1 ¹ g 2 , P (1) ¹ P (2) ;
д) m1 = 0, m2 = 2, g1 = 1, g 2 = 2, P (1) = P ( 2) .
Варианты:
а) P(1) = P (2) ; б) P (1) = 0.2, P ( 2) = 0.8 ;
в) P (1) = 0.9, P ( 2) = 0.1 ; г) P (1) = 0.7, P ( 2) = 0.3 .
ì1- | x |, | x |£ 1,
f ( x | 1) = í f ( x | 2) = 0.5 exp{- | x - 2 |} .
î0, 1 £ | x |;
Варианты:
а) P (1) = 1 / 3, P ( 2) = 2 / 3 ;
б) P (1) = P (2 ) ; в) P (1) = 2 / 3, P (2 ) = 1 / 3 .
ì x exp{- x 2 / 2}, x ³ 0,
f ( x | 1) = 0.5 exp{- | x |}, f ( x | 2) = í
î0, x < 0.
Варианты:
а) P (1) = 0.2, P ( 2) = 0.8 ; б) P(1) = P (2) ; в) P (1) = 0.8, P ( 2) = 0.2 .
128
7.22. На основе байесовской теории принятия решений вычислите
разделяющие пороги, выпишите решающее правило и найдите вероятность
ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид
ì 2
f ( x | 1) = 0.5 exp{- | x - 1 |}, f ( x | 2) = í x exp{- x / 2}, x ³ 0,
î0, x < 0.
Варианты:
а) P (1) = 1 / 4, P (2 ) = 3 / 4 ; б) P (1) = P (2 ) ; в) P (1) = 3 / 4, P (2 ) = 1 / 4 .
ìe- x , x ³ 0,
f ( x | 1) = 0.5 exp{- | x |}, f ( x | 2) = í
î0, x < 0.
Варианты:
а) P(1) = 1 / 3, P(2) = 2 / 3 ; б) P(1) = P(2) ; в) P(1) = 2 / 3, P(2) = 1 / 3 .
ì -x
f ( x | 1) = 0.5 exp{- | x |}; f ( x | 2) = íe , x ³ 0,
î0, x < 0;
Варианты:
а) P (1) = P (2 ) = P (3) = 1 / 3 ;
б) P (1) = 1 / 4, P (2) = 1 / 2, P (3) = 1 / 4 ;
в) P (1) = 1 / 6, P (2 ) = 1 / 2, P (3) = 1 / 3 ;
г) P (1) = 1 / 2, P (2) = 3 / 8, P (3) = 1 / 8 .
129
вычислить разделяющие пороги, записать решающее правило и найти
вероятность ошибки классификации. Условные плотности вероятности для
информативного признака имеют вид
1 ìï x 2 üï
f ( x | 1) = exp í- ý; f ( x | 2) = 0.5 exp{- | x |} .
2p ïî 2 ïþ
Варианты:
а) P(1) = P(2) ; б) P(1) = 1 / 4, P(2) = 3 / 4 ; в) P(1) = 3 / 4, P(2) = 1 / 4 .
ì0.5, | x |£ 1, ì0.75 × (1 - x 2 ), | x |£ 1,
f ( x | 1) = í f ( x | 2) = í
î0, 1 <| x |; î0, 1 <| x | .
Варианты:
а) P (1) = 3 / 4, P (2 ) = 1 / 4 ; б) P (1) = 3 / 5, P (2 ) = 2 / 5 ;
в) P (1) = P ( 2) = 1 / 2 ; г) P (1) = 1 / 4, P (2 ) = 3 / 4 .
ìli e- l i x , x ³ 0,
f ( x | i) = í
î0, x < 0; i = 1, 2.
Варианты:
а) l1 ¹ l 2 , P (1) = P (2) ; б) l1 ¹ l 2 , P (1) ¹ P ( 2) ;
в) l1 = l 2 , P (1) ¹ P ( 2) .
130
ì x ìï x 2 üï
ï exp í- 2 ý, x ³ 0,
f ( x | i ) = í si2 ïî 2si ïþ
ï
î0, x < 0; i = 1, 2.
Варианты:
2 2 2 2
а) s1 ¹ s2 , P (1) = P ( 2) ; б) s1 ¹ s2 , P (1) ¹ P ( 2) ;
2 2
в) s1 = s2 , P (1) ¹ P ( 2) .
r 1 ì 1 r r T -1 r r ü
f ( x | j) = 1/ 2
exp í- ( x - m( j )) K ( j )( x - m( j ))ý ,
2p | K ( j ) | î 2 þ
r æ x1 ö r æ m1 ( j ) ö æ s12 ( j ) k12 ( j ) ö
j = 1, 2, x = ç ÷, m( j ) = ç ÷, K ( j ) = ç ÷,
è x2 ø è m2 ( j ) ø ç 2 ÷
è k21 ( j ) s2 ( j ) ø
k12 ( j ) = k21 ( j ), j = 1, 2 .
131
минимума вероятности ошибки классификации необходимо построить
разделяющие функции, выписать решающее правило и найти вероятности
ошибок классификации. Условные плотности вероятности для
информативных признаков имеют равномерные законы распределения;
признаки некоррелированные, априорные вероятности для всех классов
одинаковые.
Варианты:
а) два класса; области ненулевых значений плотностей (т. е. области
существования признаков) не пересекаются;
б) два класса; области ненулевых значений плотностей частично
пересекаются;
в) три класса; области ненулевых значений плотностей не
пересекаются;
г) три класса; области ненулевых значений плотностей частично
пересекаются.
Процесс поиска решения желательно сопровождать графиками в
пространстве двух информативных признаков.
132
8. Вопросы и упражнения к модулю 3. Планирование
эксперимента
8.2. Примеры
Пример 8.1. Найти коэффициенты линейной модели для следующего
плана эксперимента:
n x0 x1 x2 x1 x2 yi
1 + + + + y1
133
2 + – + – y2
3 + + – – y3
4 + – – + y4
y1 + y 2 + y3 + y 4 y - y 2 + y3 - y 4
b0 = , b1 = 1 ,
4 4
y1 + y 2 - y3 - y 4 y - y 2 - y3 - y 4
b2 = , b12 = 1 ,
4 4
2
2 2 2 2 sy
Дисперсия выхода модели: s b0 = sb1 = sb 2 = sb12 = .
4
Пример 8.2. Упорядочить факторы по значимости для следующего
эксперимента:
n x1 x2 x1 x2 y y1
1 + + + 24 27
2 – + – 27 27
3 + – – 26 29
4 – – + 29 29
24 - 27 + 26 - 29
D1= 2b1= -3; b1= = -1.5
4
D 2= 2 b 2 , D12= 2 b12 .
Наиболее значимым фактором будет тот, у которого наибольшая по
модулю дельта.
Исключим этот фактор из дальнейшего рассмотрения, введя
корректировку в результаты измерения выхода. Для корректировки следует
"стабилизировать" x j , например, на нижнем уровне "–". Для этого в тех
строках таблице эксперимента, где x j имеет уровень "+", значения y
уменьшаются на величину D j (с учетом знака). Скорректированные данные
приведены в дополнительном столбце y 1 .
Повторить процедуру для оставшихся факторов.
8.3. Упражнения
134
точках плана); сравните результаты вышеуказанного взвешивания с
результатами обычного поочередного взвешивания тел.
Указание. Матрицы планирования проще всего построить как дробные
реплики 2 7 - 4 , 215 - 11 .
Таблица 8.У.4
n x1 x2 x3 y 8.2. Постройте ортогональный полный
1 + + + 13.6 факторный план 2 m при m = 2, 3, 4, 5, 6.
2 – + + 10.4
3 + – + 7.4 8.3. Вычислите коэффициенты
4 – – + 4.6 линейной модели на основе результатов,
5 + + – 4.6 приведенных в табл.
8.У.1. Таблица 8.У.1
6 – + – 3.4
7 + – – 2.4 n x1 x2 y
8 – – – 1.6 8.4. Вычислите
1 + + 5
параметры линейной
2 – + 3
модели, обрабатывая результаты полного факторного
эксперимента (табл. 8.У.2). На основе этих же 3 + – –1
4 – – –3
результатов определите коэффициенты b12 , b13 , b 23 ,
b123 , стоящие в модели перед факторами взаимодействия.
8.5. Вычислите коэффициенты линейной модели по экспериментальным
Таблица 8.У.2 Таблица 8.У.3
n x1 x2 x3 y y
n x1 x2 x3 x4
1 + + + 12 1 + + + + 26
2 – + + 10 2 – + + – 20
3 + – + 8 3 + – + – 5
4 – – + 6 4 – – + + 14
5 + + – 6 5 + + – – 10
6 – + – 4 6 – + – + 25
7 + – – 2 7 + – – + 15
8 – – – 0 8 – – – – 9
данным, приведенным в табл. 8.У.3.
Найдите определяющий контраст этой дробной реплики.
135
б) - 1 = x1 x2 x3 x4 ; в) 1 = x1 x2 x4 ;
г) - 1 = x1 x2 x4 ; д) 1 = x2 x3 x4 .
136
а) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 ;
б) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 , x4 , x5 ;
в) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 , x1 x 3 , x1 x4 , x1 x5 ;
г) x0 , x1 , x2 , x3 , x4 , x5 , x1 x2 , x 2 x 4 , x4 x5 , x1 x2 x3 ?
137
полученной модели гипотезу адекватности. При решении вышеуказанных
задач уровень значимости a = 0.05.
Таблица 8.У.6
8.23. На объекте реализован
n x1 x2 x3 x4 y план, представленный в табл. 8.У.6.
1 + + + + 26 Постройте линейную модель,
2 – + + – 20 проверьте значимость
коэффициентов, а затем убедитесь в
3 + – + – 5
адекватности модели, если
4 – – + + 14 )2
5 + + – – 10 =
s 3.06=
, a 0.05 .
6 – + – + 25
7 + – – + 15 8.24. На объекте реализован
8 – – – – 9
полный факторный эксперимент 2 2 с
повторными опытами (табл. 3.У.7).
Проверьте гипотезу о
Таблица 8.У.7
равноточности измерений. Если эта
n x1 x2 y (1) y ( 2) y ( 3) гипотеза оказывается принятой, то
1 + + 0.5 1.5 1.0 вычислите оценку дисперсии для
2 – + 2.0 2.0 2.1 выходной координаты объекта. Затем
постройте линейную модель и
3 + – 3.0 2.9 3.1
проверьте ее на адекватность. Уровень
4 – – 4.5 5.5 5.0
значимости примите равным 0.05.
138
8.27. Выделите главные факторы с использованием диаграмм
рассеяния. Результаты планирования приведены в табл. 8.У.9.
139
Таблица 8.У.12 Таблица 8.У.13
n x1 x2 x3 x4 x5 y n x1 x2 x3 x4 y
1 + + + + + 30 1 + + – – 10
2 + – + – – 12 2 – – – – 9
3 – – + – + 24 3 + – – + 15
4 – + + + – 59 4 – + – + 25
5 + + – – – 23 5 + + + + 26
6 + – – + + 29 6 – – + + 14
7 – – – + – 54 7 + – + – 5
8 – + – – + 38 8 – + + – 20
140
Таблица 8.У.16 Таблица 8.У.17
n x1 x2 x3 y n x1 x2 x3 x4 y
1 + + + 18 1 + + + + 19
2 – + + 16 2 – – + – 17
3 + – + 12 3 + + – – 29
4 – – + 10 4 – – – + 27
5 + + – 8 5 + – – + 16
6 – + – 6 6 – + – – 32
7 + – – 2 7 + – + – 0
8 – – – 0 8 – + + + 20
141
9. Вопросы и упражнения к модулю 4. Методы
непараметрической обработки информации
142
14. Можно ли на основе тех же экспериментальных данных построить
оценку инверсной регрессии?
15. Как осуществляется расчёт оптимального коэффициента размытости
оценки регрессии в одномерном случае.
16. Рекуррентный расчет оценки регрессии.
17. Робастные оценки регрессии.
18. Постановка задачи адаптивного управления при априорной
неопределенности.
19. Основная идея построения алгоритмов адаптивного управления при
априорной неопределенности.
20. Алгоритм адаптивного управления экстремальным объектом.
21. Распространение алгоритма адаптивного управления
экстремальным объектом на решение задачи минимизации функций многих
переменных.
22. Основные особенности применение непараметрического
сглаживания при классификации в распознавании образов.
9.2. Примеры
Пример 9.1. Необходимо по выборке xi , i = 1, n , найти оценку
математического ожидания от функции j( X ) случайной величины:
¥
M {j( X )} = ò j( x ) f ( x )dx .
-¥
Берем интегральное выражение и вместо плотности f ( x) ставим ее
оценку f n ( x ) . Получаем для d -функции:
¥
) 1 n
M {j( X )} = ò j( x ) n å
i =1
d ( x - xi )dx =
-¥
n ¥
1 1 n
= å ò j( x )d ( x - xi )dx = å j ( xi ) .
n i =1 - ¥ n i =1
Отсюда при j( X ) = X получаем оценку
) 1 n )
M { X } = å xi º m
n i =1
143
) o ¥
æ ¥
ö
M {j( X )} = ò j ç x - ò xf n ( x )dx )÷ f n ( x ) dx =
-¥ è -¥ ø
¥
æ ¥
1 n ö1 n
= ò j ç x - ò x å d ( x - xi )dx÷ å d ( x - xi ) dx =
-¥ è - ¥ n i =1 ø n i =1
1 n ¥ ) 1 n ) ) 1 n
= å ò j( x - m ) d ( x - xi ) dx = å j( xi - m ); m = å xi .
n i =1 - ¥ n i =1 n i =1
) ¥ 1 n 1 æ x - xi ö 1 n 1 ¥ æ x - xi ö
m = ò x å Kç ÷dx = å ò xK ç ÷ dx =
-¥ n i =1 h è h ø n i =1 h -¥ è h ø
ì x - xi ü
í = z, x = xi + hz, dx = hdz ý
î h þ
1 n 1 1 n 1 1
= å ò ( xi + hz )K ( z )dz = å[ xi ò K ( z )dz + h ò z K ( z ) dz ] =
n i =1 -1 n i =1 -1 -1
1 n 1 n
= å [ xi + h × 0]= å xi .
n i =1 n i =1
144
9.2. На основе использования простейшей оценки для плотности
распределения вероятности вычислите оценку математического ожидания от
аналитической функции центрированной случайной величины.
o ¥
M {j( X )} = ò j( x - m) f ( x) dx .
-¥
145
9.12. Постройте модифицированную оценку Розенблатта – Парзена и
придайте ей рекуррентный вид.
146
9.24. Для объекта с двумя входами и одним выходом постройте
непараметрическую оценку прямой и инверсных регрессии.
147
10. Вопросы и упражнения к модулю 5. Дисперсионный
анализ
148
18. Как построить оценки дисперсионных характеристик?
19. Почему некоторые модели называют субоптимальными?
10.2. Примеры
Пример 10.1. Провести дисперсионный анализ данных, представленных
таблицей, при уровне значимости a = 0.05 :
Уровни фактора Ai
i
A1 A2 A3 A4 A5
1 3.2 2.6 2.9 3.6 3.0
2 3.1 3.1 2.6 3.4 3.4
3 3.1 2.7 3.0 3.2 3.2
4 2.8 2.9 3.1 3.3 3.5
5 3.3 2.7 3.0 3.5 2.9
6 3.0 2.8 2.8 3.3 3.1
S 18.5 16.8 17.4 20.3 19.1
Вычисляем
5 6
2
Q1= å å xij= 284.8 ;
=i 1=j 1
1 5 2 1 2 2 2
Q2= å X i= × (18.5 + 16.8 + ... + 19.1 =) 284.025 ;
6=i 1 6
2
1 æ5 ö 1 2
Q3= ×çå Xi ÷ = × (18.5 + 16.8 + 17.4 + 20.3 + 19.1) = 282.747 .
5× 6 =
èi 1 ø 30
Далее вычисляем дисперсии
2 284.87 - 284.025 2 284.025 - 282.747
S0 = = 0.0338 ; SA = = 0.319 ;
5 × (6 - 1) 5 -1
2
SA 0.319
2
= = 9.45 .
S0 0.0338
149
Пример 10.2. Проведём двухфакторный дисперсионный анализ данных,
представленных следующей таблицей, при уровне значимости a = 0.05 :
A
B A1 A2 A3
B1 3.6 3.8 4.1 2.9 3.1 3.0 2.6 2.5 2.9
B2 4.2 4.0 4.1 3.3 2.9 3.2 3.7 3.5 3.6
B3 3.8 3.5 3.6 3.6 3.7 3.5 3.2 3.0 3.4
B4 3.4 3.2 3.2 3.4 3.6 3.5 3.6 3.8 3.7
150
2 Q5 - n × Q1 430.79 - 3 × 143.3745
S AB = = = 0.02777 ;
mk × ( n - 1) 4 × 3× 2
2 2
SA 0.223675 S B 0.10739
2
= = 1. 41 ; 2
= = 0.679 ;
S0 0.1582 S0 0.1582
2
n × S0 3 × 0.1582
2
= = 17.09 .
S AB 0.02777
Из таблицы П4 приложения имеем
F0.05 [ k - 1; ( k - 1) × ( m - 1)] = F0.05 ( 2; 6) = 5.1
F0.05 [m - 1; ( k - 1) × ( m - 1)] = 4.8 ;
F0.05 [( k - 1) × ( m - 1); mk × ( n - 1) ] = F0.05 (6; 24) = 2.5 .
Сравнивая, получаем
2 2
SA SB
2
= 1.41 < F0.05 ( 2; 6) = 5.1; 2
= 0.679 < F0.05 (3; 6) = 4.8;
S0 S0
2
n × S0
2
= 17.09 > F0.05 (6; 24) = 2.5.
S AB
Следовательно, влияние факторов A и B должно быть признано
незначимым. Однако, существенно значимым является взаимодействие
факторов A и B .
10.3. Упражнения
10.1. На основе дисперсионного анализа выявить влияние фактора A на
случайную величину с использованием экспериментальных данных,
представленных в таблице, при уровнях значимости: а) a = 0.05 ; б)
a = 0.025 :
Уровни Ai фактора A
i A1 A2 A3 A4 A5
1 0.2 -0.4 -0.2 0.7 0.0
2 0.3 -0.1 -0.5 0.5 0.4
3 0.1 -0.4 -0.1 0.4 0.2
4 0.5 -0.1 0.1 0.3 0.5
5 0.3 -0.5 0.0 0.6 -0.2
6 0.0 -0.2 -0.3 0.3 0.3
S 1.4 -1.7 -1.0 2.8 1.2
151
10.2. Дисперсионным анализом выявить влияние фактора A на
случайную величину на основе экспериментальных данных, представленных
в таблице, при уровнях значимости: а) a = 0.05 ; б) a = 0.025 :
Уровни Ai фактора A
i
A1 A2 A3 A4 A5
1 1.3 0.6 1.2 1.6 1.0
2 1.1 1.1 0.7 1.4 1.3
3 1.2 0.7 1.0 1.2 1.2
4 0.7 0.9 1.1 1.3 1.5
5 1.4 0.7 1.3 1.6 1.0
6 1.0 0.8 0.9 1.4 1.1
S 6.7 4.8 6.2 8.5 7.1
Уровни Ai фактора A
i
A1 A2 A3 A4 A5
1 2.2 1.6 1.9 2.6 2.0
2 2.1 2.1 1.6 2.4 2.4
3 2.1 1.7 2.0 2.2 2.2
4 1.8 1.9 2.1 2.3 2.5
5 2.3 1.7 2.0 2.5 1.9
6 2.0 1.8 1.8 2.3 2.1
S 12.5 10.8 11.4 14.3 13.1
Уровни Ai фактора A
i
A1 A2 A3 A4 A5
152
1 4.2 3.6 3.7 4.7 4.1
2 4.1 4.1 3.6 4.5 4.4
3 4.3 3.7 4.0 4.3 4.2
4 3.8 3.9 4.1 4.4 4.6
5 4.4 3.7 4.0 4.6 4.0
6 4.0 3.8 3.9 4.3 4.3
S 24.8 22.8 23.3 26.8 25.6
A
B A1 A2 A3
B1 0.6 0.8 1.1 -0.1 0.1 0.0 -0.4 -0.5 -0.1
B2 1.2 1.0 1.1 0.3 -0.1 0.2 0.7 0.5 0.6
B3 0.8 0.5 0.6 0.6 0.7 0.5 0.2 0.0 0.4
B4 0.4 0.2 0.2 0.4 0.6 0.5 0.6 0.8 0.7
A
B A1 A2 A3
B1 1.7 1.8 2.1 0.9 1.0 1.1 0.6 0.5 0.9
153
B2 2.2 2.0 2.3 1.3 0.9 1.2 1.7 1.5 1.4
B3 1.8 1.4 1.6 1.6 1.4 1.5 1.1 1.2 1.3
B4 1.5 1.2 1.3 1.5 1.6 1.3 1.6 1.8 1.7
A
B A1 A2 A3
B1 2.6 2.8 3.1 1.9 2.1 2.0 1.6 1.5 1.9
B2 3.2 3.0 3.0 2.3 1.9 2.2 2.7 2.5 2.8
B3 2.7 2.5 2.6 2.8 2.7 2.6 2.2 2.0 2.3
B4 2.4 2.2 2.3 2.4 2.6 2.5 2.6 2.8 2.7
A
B A1 A2 A3
B1 4.6 4.8 5.1 3.7 4.1 4.0 3.6 3.5 3.9
B2 5.2 5.3 5.0 4.3 3.9 4.2 4.7 4.5 4.6
B3 4.8 4.5 4.6 4.6 4.7 4.3 4.2 4.0 4.3
B4 4.4 4.2 4.2 4.4 4.6 4.5 4.6 4.8 4.7
154
11. Вопросы и упражнения к модулю 6. Анализ трендов и
временных рядов
Временные ряды отличаются от данных об одном временном срезе в
том отношении, что в случае временных рядов сама последовательность
наблюдений несет в себе важную информацию. В частности, чтобы
охарактеризовать какую-либо совокупность данных в целом, вам уже
недостаточно знать лишь типичное значение этих данных (например, среднее
значение) или даже изменчивость этой совокупности данных (описываемую,
например, стандартным отклонением). В этом случае желательно знать, что,
скорее всего, произойдет дальше. Подобный прогноз должен по возможности
точнее экстраполировать ближайшее поведение системы с точки зрения
моделей поведения этой системы в прошлом.
Все необходимые теоретические сведения и ряд разобранных примеров
приведены в шестом модуле учебного пособия.
155
15. Как внести сезонную поправку в значение временного ряда? Как вы
интерпретируете полученный результат?
16. Как оценивается линейный тренд в анализе трендов и сезонных
колебаний?
17. Какой вид прогноза представляет линейный тренд?
18. Как получить прогноз на основе линейного тренда?
19. Какие компоненты будут представлены в этом прогнозе? Какие
будут отсутствовать?
20. Каким образом гибкость ARIMA-процессов Бокса-Дженкинса
помогает в анализе временных рядов?
21. Что такое "экономная модель"?
22. Как соотносится прогноз с фактическим будущим поведением
оцениваемого процесса?
23. Как соотносятся границы прогноза с фактическим будущим
поведением оцениваемого процесса?
24. Дайте определение процесса случайного шума с точки зрения
взаимосвязи между последовательными наблюдениями.
25. Прокомментируйте следующее утверждение: если мы имеем дело с
процессом случайного шума, то для его анализа не требуется применять
специальные методы исследования временных рядов.
26. Что представляют собой прогноз и границы прогноза для процесса
случайного шума?
27. Дайте определение процесса авторегрессии первого порядка с точки
зрения взаимосвязи между последовательными наблюдениями.
28. Что представляют собой переменные Х и Y в регрессионной модели
для прогнозирования следующего наблюдения в процессе авторегрессии
первого порядка?
29. Опишите прогнозы процесса авторегрессии в терминах последнего
наблюдения и долгосрочного среднего значения для оцениваемой модели.
30. Дайте определение процесса скользящего среднего в терминах
взаимосвязи между последовательными наблюдениями.
31. Какое скользящее среднее (скользящее среднее чего именно) мы
имеем в виду, когда говорим о "процессе скользящего среднего"?
32. Для процесса скользящего среднего первого порядка опишите в
терминах долгосрочного среднего значения для оцениваемой модели
прогнозы на два или больше периодов времени в будущее.
33. Дайте определение ARMA-процесса первого порядка в терминах
взаимосвязи между последовательными наблюдениями.
34. Значение какого параметра АRМА-процесса нужно установить
равным нулю, чтобы получить процесс авторегрессии?
35. Значение какого параметра АRМА-процесса нужно установить
равным нулю, чтобы получить процесс скользящего среднего?
156
36. Опишите прогнозы на отдаленное будущее исходя из ARMA-
процесса.
37. Дайте определение случайного блуждания в терминах взаимосвязи
между последовательными наблюдениями.
38. Подробно опишите различия между процессом случайного шума и
случайным блужданием.
39. Прокомментируйте следующее утверждение: если мы имеем дело со
случайным блужданием, то для его анализа не требуется применять
специальные методы исследования временных рядов.
40. Каково влияние составляющей дрейфа в случайном блуждании?
41. Опишите прогнозы для процесса случайного блуждания.
42. Чем различается поведение стационарных и нестационарных
временных рядов?
43. Для каждого из перечисленных ниже видов процессов укажите,
является ли он стационарным или нестационарным.
а) Процесс авторегрессии.
б) Случайное блуждание.
в) Процесс скользящего среднего.
г) ARMA-процесс.
44. Дайте определение ARIMA-процесса первого порядка в терминах
взаимосвязи между последовательными наблюдениями.
45. Значение какого параметра ARIMA-процесса нужно установить
равным нулю, чтобы получить случайное блуждание?
46. Как получить ARMA-процесс из ARIMA-процесса?
47. Опишите прогнозы на отдаленное будущее исходя из ARIMA-
процесса.
48. Какие потребуются дополнительные члены уравнений, чтобы
включить сезонное поведение в усовершенствованные ARIMA-модели?
11.2. Упражнения
11.1. Для каждого из перечисленных ниже случаев укажите,
присутствует ли в нем значительный сезонный компонент. Поясните свой
ответ.
а) Продажа цветной оберточной бумаги (объемы продаж фиксируются
помесячно).
б) Количество авиапассажиров, направляющихся из Красноярска в
Сочи (количество пассажиров фиксируется помесячно).
в) Биржевой индекс (фиксируется ежедневно). Предполагается, что
биржа работает эффективно, в результате чего любые прогнозируемые
тенденции уже устранены действиями крупных инвесторов, пытающихся
извлечь из них для себя выгоду.
157
11.2. Некоторое время вас терзают подозрения, что проблемы с
производством обостряются, как правило, именно в зимние месяцы в первом
квартале каждого года. Анализ трендов и сезонных колебаний процента
производственного брака позволил установить следующие значения сезонных
индексов: 1,00 – 1-й квартал; 1,01 – 2-й квартал; 1,03 – 3-й квартал и 0,97 – 4-й
квартал. Подтверждает ли этот анализ ваши подозрения о том, что
наивысший процент производственного брака приходится именно на первый
квартал? Если да, обоснуйте свой ответ. Если нет, тогда может быть, следует
обратить внимание на какой-то другой квартал?
11.3. В январе у одного из банков зафиксировано 38 091 операции в
сети автоматических кассовых аппаратов, а в феврале 43 182.
Соответствующий сезонный индекс для января равен 0.925, а для февраля —
0.986.
а) На какой процент увеличилось количество операций в сети
автоматических кассовых аппаратов с января но февраль?
б) На какой процент должно было бы, по вашему мнению, увеличиться
количество операций в сети автоматических кассовых аппаратов с января по
февраль? (Подсказка: воспользуйтесь сезонными индексами.)
в) Определите, учитывал сезонную поправку, количество операции в
сети автоматических кассовых аппаратов дли каждого из этих двух месяцев.
г) На какой процент увеличилось (или уменьшилось) количество
операций в сети автоматических кассовых аппаратов с января по февраль с
учетом сезонной поправки?
158
в) Найдите сезонный индекс для каждого квартала. Кажутся ли
полученные вами значения обоснованными, если исходить из построенного
графика временного ряда?
г) Какой из кварталов (1, 2, 3 или 4) оказывается для компании самым
неблагоприятным? Насколько ниже (в среднем) оказывается объем продажи в
это квартале по сравнению с типичным кварталом в течение года?
д) Определите значения объемов продажи с поправкой на сезон,
соответствующие каждому из исходных величин объемов продаж.
е) С третьего по четвертый квартал 2005 г. объемы продажи
увеличились с 2673 до 2718. Как выглядит картина с учетом сезонной
поправки?
ж) Со второго по третий квартал 2007 г. объемы продажи компании
снизились с 3521 до 3430. Как выглядит картина с учетом сезонной поправки?
з) Найдите уравнение регрессии для прогнозирования долгосрочного
тренда изменения объемов продажи (с учетом сезонной поправки) для
каждого периода времени, используя в качестве значений переменной X
числа 1, 2, ....
и) Вычислите прогноз (с поправкой на сезон) на второй квартал 2008 г.
к) Вычислите прогноз па первый квартал 2009 г.
Таблица 11.1
Год Продажи, Год Продажи, млн.
млн. руб. руб.
2005 2088 2006 2905
2005 2812 2006 2917
2005 2673 2007 2396
2005 2718 2007 3512
2006 2318 2007 3430
2006 3089 2007 3444
159
в) Опишите циклическое поведение (если оно наблюдается)
скользящего среднего.
г) Найдите сезонный индекс для каждого квартала. Кажутся ли
полученные вами значения обоснованными, если исходить из построенного
графика временного ряда?
д) Какой из кварталов (1, 2, 3 или 4) оказывается для компании самым
благоприятным? Насколько в среднем выше объем продажи в этом квартале
по сравнению с типичным кварталом в течение года?
е) Какой из кварталов (1, 2, 3 или 4) окалывается для компании самым
неблагоприятным? Насколько в среднем ниже оказывается объем продажи и
этом квартале по сравнению с типичным кварталом в течение года?
ж) Определите значения объемов продажи с учетом сезонной поправки
соответствующие каждой из исходных величин объема продажи. Постройте
график для этого временного ряда с поправкой на сезон.
з) Опишите поведение этого временного ряда с поправкой на сезон. В
частности, выявите любые: изменения непостоянства продаж за этот период
времени.
Таблица 11.2
Год Продажи, Год Продажи, млн.
млн. руб. руб.
2002 453 491 2004 343 167
2002 343 669 2004 468 195
2002 387 988 2005 460 398
2002 435 645 2005 324 155
2003 352 004 2005 386 082
2003 284 030 2005 429 918
2003 404 634 2006 381 080
2003 402 120 2006 487 473
2004 404 643 2006 492 266
2004 306 606 2006 377 072
160
г) Было объявлено, что объем продажи в декабре составил 430 106 млн.
руб. Оказался, ли этот показатель выше или ниже, чем ожидалось, если
исходить из объема продажи в ноябре?
д) Найдите объем продажи в декабре с поправкой па сезон.
е) Объемы продажи с ноября по декабрь – с учетом поправки на сезон –
выросли или, наоборот, снизились? О чем это свидетельствует?
ж) Пользуясь тем же методом, что и в п. "в", найдите ожидаемый объем
продаж в январе исходя из объема продажи в декабре.
161
а) Цена, одной акции компании IBM, фиксируемая ежедневно.
б) Прайм-рейт, фиксируемый еженедельно и представляющий собой
публикуемую байками процентную старку по кредитам для наилучших
заемщиков.
в) Толщина бумаги измеряемая пять раз в минуту в процессе
производства бумаги и ее намотки на рулоны. (Предполагается, что этот
процесс находится под контролем,)
г) Цена одной страницы рекламного объявления в журнале TV Guide;
изменяется раз в год.
162
12. Вопросы и упражнения к модулю 7. Идентификация
статических моделей объектов
163
16. Адаптивные алгоритмы метода наименьших квадратов при
линейной параметризации модели и забывании информации.
17. Адаптивные алгоритмы метода наименьших квадратов при
нелинейной параметризации модели и некоррелированных измерениях
выхода объекта.
18 Адаптивные алгоритмы при подстройке нестационарных параметров
моделей.
19. Адаптивные алгоритмы подстройки робастных оценок параметров
моделей.
20. В чём принципиальное отличие адаптивных алгоритмов
наименьших квадратов от простейшего адаптивного алгоритма?
21. Простейший адаптивный алгоритм подстройки линейных
параметров моделей.
22. Простейший адаптивный алгоритм подстройки линейных
параметров многомерных моделей.
23. Простейший адаптивный алгоритм подстройки нелинейных
параметров моделей.
24. Многоэтапный метод селекции при построении моделей сложных
объектов.
12.2. Примеры
Пример 12.1. Для объекта с одним входом и одним выходом по
критерию наименьших квадратов (для случая некоррелированных
равноточных измерений) необходимо вычислить параметры линейной модели
n
h(u, a) = a1 + a 2 (u - u ),u = n -1
å ui .
i =1
Базисными функциями являются: j1 = 1, j 2 = u - u . Система линейных
алгебраических уравнений
æ n * ö
æ n 0 ö ç å hi ÷
1ç n ÷ æ a1 ö 1 ç i =1 ÷
2ç 2÷çç ÷÷ = 2 n
s ç 0 å ( ui - u ) ÷ è a 2 ø s ç ÷
çå i - h*
è i =1 ø ( u u ) i ÷
è i =1 ø
распадается на 2 независимых уравнения, из которых вычисляются
параметры модели:
n n n
a1 = n -1
åh , *
i a 2 = å ( ui - u ) h *
i å ( ui - u ) 2 .
i =1 i =1 i =1
Корреляционная матрица для параметров a диагональная и
диагональные элементы (дисперсии параметров) равны величинам:
n
s 2
a1 = s n,
2
s 2
a1 =s 2
å ( ui - u ) 2 .
i =1
164
Нетрудно рассчитать дисперсию выхода модели:
æ s 2a1 0 öæ 1 ö
Dh( u ,a ) =(1; (u - u ))ç ÷ç ÷ = s 2a1 + s 2a2 ( u - u ) 2 .
ç 0 s a ÷è u - u ø
2
è 2 ø
i =1
*
i -u al
i
al
- [u ln ui ]Da
i
l +1
) = min .
2
Da l +1
12.3. Упражнения
165
12.2. Для объекта с двумя входами u1 , u2 и одним выходом h*
эксперимент спланирован так, что выход измерен ( h*ij , i = 1, n, j = 1, m) для
всех пар (u1i , u2 j ) , i = 1, n, j = 1, m значений входов, а измерения выхода
некоррелированные равноточные (см. пример 6.3.3). Записать критерий
наименьших квадратов и уравнения расчёта параметров линейной модели:
1 n 1 m
h(u1 , u2 ) = a0 + a1 (u1 - u1 ) + a 2 (u2 - u2 ) , u1= å u1i , u2 = å u2 j .
n i =1 m j =1
1
а) h(u, a) = a0 + a1u + a 2 , б) h(u, a) = a0 + a1 sin w1u + a 2 cos w2u ,
u
в) h(u, a) = a0 + a1u + a 2u 2 , г) h(u, a) = a0 + a1u1 + a2 u2 + a3u3 ,
1
д) h(u, a) = a0 + a1 2 , е) h(u, a) = a0 + a1u + a 2 e - u .
u
166
а) h(u, a) = a , б) h(u, a) = a0 + a1u ; в) h(u, a) = a1u1 + a 2u2 ,
г) h(u, a) = a1u a2 , д) h(u, a) = a1 sin( a1u + a 2 ) , е) h(u, a) = a1e a2u .
1
г) a1 + a2 , д) a0 + a1 sin w1u1 + a 2 sin w2 u2 , е) a1u1 + a2 u2 ,
ub
é (u - a 2 )2 ù
ж) a0 + a1u1 + a 2u2 + a 3u3 , з) a1 sin( a2 u + a 3 ) , и) a1 exp ê ú,
ë 2 a 3 û
a1 a1 + a2 u
к) a1u a 2 + a 3e a4u , л) , м) .
a 2 + a 3u a 3 + a 4 u + a5 u 2
167
13. Вопросы и упражнения к модулю 8. Идентификация и
адаптивное управление динамическими объектами
168
9. Какова идея построения модели с перестраиваемыми параметрами
при применении функций чувствительности?
10. Что такое функции чувствительности?
11. Объясните принцип построения уравнений чувствительности.
12. На некотором простом примере продемонстрируйте применение
простейшего адаптивного алгоритма для перестройки параметров модели с
функциями чувствительности.
13. Как оцениваются параметры моделей, если неизвестные параметры
стохастических объектов являются нестационарными?
14. На некотором примере продемонстрируйте применение
простейшего адаптивного алгоритма для перестройки параметров
итеративной модели.
15. Поставьте задачу адаптивного управления стохастическими
динамическими объектами.
16. Что такое адаптивные системы с идентификатором?
17. Какова основная идея построения алгоритмов адаптивного
управления с идентификатором?
18. Что такое локальный критерий оптимальности?
19. Приведите примеры синтеза устройств управления для простейших
линейных систем.
20. Причины дополнительного прогнозирования параметров моделей
при синтезе алгоритмов адаптивного управления с идентификатором?
21. Какова общая схема синтеза алгоритмов адаптивного управления
для обычных линейных систем?
22. Как синтезируются алгоритмы адаптивного управления для
обычных нелинейных систем?
23. Чем отличается процесс синтеза алгоритмов адаптивного
управления для динамических систем с чистыми запаздываниями?
24. Приведите пример синтеза устройства управления для простейшей
линейной динамической системы с чистым запаздыванием.
13.2. Примеры
Пример 13.1. Рассматриваем модель без обратной связи
n m )
)
y ( t ) = å a i x (t - i ) + å b j u (t - j ) .
i =1 j =1
Функциями чувствительности выхода модели к ее параметрам являются
измеренные значения выхода и входа объекта:
wa)i ( t ) = x (t - i ), i = 1, n, wb) (t ) = u(t - j ), j = 1, m .
j
169
) ) x (t ) - y (t | a(t - 1))
ai (t ) = ai (t - 1) + n m
x (t - i ); i = 1, n ;
2 2
å wa)i (t ) + å wb) (t )
j
i =1 j =1
) ) x (t ) - y ( t | a(t - 1))
b j (t ) = b j (t - 1) + n m
u(t - j ); j = 1, m ;
2 2
å wa)i (t ) + å wb) (t )
j
i =1 j =1
n m )
)
y (t | a(t - 1) = å ai ( t - 1)x (t - i ) + å b j (t - 1)u(t - j ) .
i =1 j =1
13.3. Упражнения
13.1. x (t ) = bu (t - 1) + e(t ) ,
13.4. x (t ) = bu (t - 2) + e(t ) ,
170
13.6. x (t ) = ax (t - 1) + bu (t - 2) + ce(t - 1) + e(t ) ,
13.8. x (t ) = ax (t - 1) / u (t - 1) + e(t ) ,
171
Библиографический список
172
ПРИЛОЖЕНИЕ
f (x)
a
x
0 xa
2 2
f (c ) f (c )
a
2 a 2
c c
0 c2 0 2
c n ,a
n ,a
Вероятность a
n 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01
1 0.00016 0.00098 0.0039 0.016 2.7 3.8 5.0 6.6
2 0.020 0.051 0.103 0.211 4.6 6.0 7.4 9.2
3 0.115 0.216 0.352 0.584 6.3 7.8 9.3 11.3
4 0.30 0.48 0.71 1.06 7.8 9.5 11.1 13.3
5 0.55 0.83 1.14 1.61 9.2 11.1 12.8 15.1
6 0.87 1.24 1.63 2.20 10.6 12.6 14.4 16.8
173
Вероятность a
n 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01
7 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5
8 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1
9 2.09 2.70 3.32 4.17 14.7 16.9 19.0 21.7
10 2.56 3.25 3.94 4.86 16.0 18.3 20.5 23.2
11 3.1 3.8 4.6 5.6 17.3 19.7 21.9 24.7
12 3.6 4.4 5.2 6.3 18.5 21.0 23.3 26.2
13 4.1 5.0 5.9 7.0 19.8 22.4 24.7 27.7
14 4.7 5.6 6.6 7.8 21.1 23.7 26.1 29.1
15 5.2 6.3 7.3 8.5 22.3 25.0 27.5 30.6
16 5.8 6.9 8.0 9.3 23.5 26.3 28.8 32.0
17 6.4 7.6 8.7 10.1 24.8 27.6 30.2 33.4
18 7.0 8.2 9.4 10.9 26.0 28.9 31.5 34.8
19 7.6 8.9 10.1 11.7 27.2 30.1 32.9 36.2
20 8.3 9.6 10.9 12.4 28.4 31.4 34.2 37.6
21 8.9 10.3 11.6 13.2 29.6 32.7 35.5 38.9
22 9.5 11.0 12.3 14.0 30.8 33.9 36.8 40.3
23 10.2 11.7 13.1 14.8 32.0 35.2 38.1 41.6
24 10.9 12.4 13.8 15.7 33.2 36.4 39.4 43.0
25 11.5 13.1 14.6 16.5 34.4 37.7 40.6 44.3
26 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6
27 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0
28 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3
29 14.3 16.0 17.7 19.8 39.1 42.6 45.7 49.6
30 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9
174
Таблица П3. T – распределение Стьюдента. Значения tn,a в
зависимости от числа степеней свободы n и вероятности a : P{t n,a < T } = a
f (t )
a
t
0 tn,a
Вероятность a
n 0.20 0.10 0.05 0.025 0.01 0.005 0.001 0.0005
1 1.38 3.08 6.31 12.71 31.82 63.66 318.31 636.62
2 1.06 1.89 2.92 4.30 6.97 9.93 22.33 31.60
3 0.98 1.64 2.35 3.18 4.54 5.84 10.21 12.94
4 0.94 1.53 2.13 2.78 3.75 4.60 7.17 8.61
5 0.92 1.48 2.02 2.57 3.37 4.03 5.89 6.86
6 0.91 1.44 1.94 2.45 3.14 3.71 5.21 5.96
7 0.90 1.42 1.90 2.37 3.00 3.50 4.78 5.41
8 0.89 1.40 1.86 2.31 2.90 3.36 4.50 5.04
9 0.88 1.38 1.83 2.26 2.82 3.25 4.30 4.78
10 0.88 1.37 1.81 2.23 2.76 3.17 4.14 4.59
11 0.88 1.36 1.80 2.20 2.72 3.11 4.02 4.44
12 0.87 1.36 1.78 2.18 2.68 3.06 3.93 4.32
13 0.87 1.35 1.77 2.16 2.65 3.01 3.85 4.22
14 0.87 1.34 1.76 2.15 2.62 2.98 3.79 4.14
15 0.87 1.34 1.75 2.13 2.60 2.95 3.73 4.07
16 0.86 1.34 1.75 2.12 2.58 2.92 3.69 4.02
17 0.86 1.33 1.74 2.11 2.57 2.90 3.65 3.97
18 0.86 1.33 1.73 2.10 2.55 2.88 3.61 3.92
19 0.86 1.33 1.73 2.09 2.54 2.86 3.58 3.88
20 0.86 1.33 1.73 2.09 2.53 2.85 3.55 3.85
21 0.86 1.32 1.72 2.08 2.52 2.83 3.53 3.82
22 0.86 1.32 1.72 2.07 2.51 2.82 3.50 3.79
23 0.86 1.32 1.71 2.07 2.50 2.81 3.48 3.77
24 0.86 1.32 1.71 2.06 2.49 2.80 3.47 3.75
25 0.86 1.32 1.71 2.06 2.48 2.79 3.45 3.73
30 0.85 1.31 1.70 2.04 2.46 2.75 3.39 3.65
40 0.85 1.30 1.68 2.02 2.42 2.70 3.31 3.55
60 0.85 1.30 1.67 2.00 2.39 2.66 3.23 3.46
120 0.84 1.29 1.66 1.98 2.36 2.62 3.16 3.37
¥ 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.29
175
f (F )
Таблица П4. F – распределение Фишера.
Значения Fn1 ,n 2 ,a в зависимости от числа степеней
свободы n1 , n 2 и фиксированной вероятности a : a
F
0 F n 1 , n 2 ,a
P{Fn1 ,n 2 ,a < F} = a
a = 0.05
¯ n 2 n1 ® 1 2 3 4 5 6 7 8 9
1 161 200 216 225 230 234 237 239 241
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90
12 4.75 3.88 3.49 3.26 3.11 3.00 2.91 2.85 2.80
13 4.67 3.80 3.41 3.18 3.03 2.92 2.83 2.77 2.71
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30
25 4.24 3.38 2.99 2.76 2.60 2.49 2.40 2.34 2.28
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96
¥ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88
176
Продолжение табл. П4
a = 0.05
¯ n 2 n1 ® 10 12 15 20 24 30 40 60 120 ¥
1 242 244 246 248 249 250 251 252 253 254
2 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5
3 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
¥ 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
177
Продолжение табл. П4
a = 0.025
¯ n 2 n1 ® 1 2 3 4 5 6 7 8 9
1 648 800 864 900 922 937 948 957 963
2 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4
3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5
4 12.2 10.6 9.98 9.60 9.36 9.20 9.07 8.98 8.90
5 10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78
11 5.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22
¥ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11
178
Окончание табл. П4
a = 0.025
¯ n 2 n1 ® 10 12 15 20 24 30 40 60 120 ¥
1 969 977 985 993 997 1001 1006 1010 1014 1018
2 39.4 39.4 39.4 39.4 39.5 39.5 39.5 39.5 39.5 39.5
3 14.4 14.3 14.3 14.2 14.1 14.1 14.0 14.0 13.9 13.9
4 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02
6 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14
8 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08
11 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
13 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
16 2.99 2.89 2.79 2.68 2.62 2.57 2.51 2.45 2.38 2.32
17 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09
21 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94
25 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91
26 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88
27 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85
28 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83
29 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81
30 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64
60 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48
120 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
¥ 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
179
Таблица П5. G – распределение Кочрена. Значения Gk , n,a в
зависимости от числа степеней свободы n , числа выборок k и
фиксированной вероятности a : P{Gk ,n,a < G} = a
f (G )
a
G
0 Gk ,n,a
a = 0.05
k /n 1 2 3 4 5 6 7
2 0.9985 0.9750 0.9392 0.9057 0.8772 0.8534 0.8332
3 0.9669 0.8709 0.7977 0.7457 0.7071 0.6771 0.6530
4 0.9065 0.7679 0.6841 0.6287 0.5895 0.5598 0.5365
5 0.8412 0.6838 0.5981 0.5440 0.5063 0.4783 0.4564
6 0.7808 0.6161 0.5321 0.4803 0.4447 0.4184 0.3980
7 0.7271 0.5612 0.4800 0.4307 0.3974 0.3726 0.3535
8 0.6798 0.5157 0.4377 0.3910 0.3595 0.3362 0.3185
9 0.6385 0.4775 0.4027 0.3584 0.3286 0.3067 0.2901
10 0.6020 0.4450 0.3733 0.3311 0.3029 0.2823 0.2666
12 0.5410 0.3924 0.3264 0.2880 0.2624 0.2439 0.2299
15 0.4709 0.3346 0.2758 0.2419 0.2195 0.2034 0.1911
20 0.3894 0.2705 0.2205 0.1921 0.1735 0.1602 0.1501
24 0.3434 0.2354 0.1907 0.1656 0.1493 0.1374 0.1286
30 0.2929 0.1980 0.1593 0.1377 0.1237 0.1137 0.1061
40 0.2370 0.1576 0.1259 0.1082 0.0968 0.0887 0.0827
60 0.1737 0.1131 0.0895 0.0766 0.0682 0.0623 0.0583
120 0.0998 0.0632 0.0495 0.0419 0.0371 0.0337 0.0312
180
Продолжение табл. П5
a = 0.05
k /n 8 9 10 16 36 144 ¥
2 0.8159 0.8010 0.7880 0.7341 0.6602 0.5813 0.5000
181
Продолжение табл. П5
a = 0.01
k /n 1 2 3 4 5 6 7
182
Окончание табл. П5
a = 0.01
k /n 8 9 10 16 36 144 ¥
2 0.8823 0.8674 0.8539 0.7949 0.7067 0.6062 0.5000
183
Оглавление
Введение.......................................................................................................3
1. Современные методы анализа данных на компьютере .........................5
1.1. Общие приемы работы с данными в пакете «STATISTICA 6.0». ...5
1.2. Командный язык STATISTICA (SCL) ............................................10
1.3. Язык программирования STATISTICA VISUAL BASIC ..............12
2. Элементарные понятия анализа данных...............................................14
2.1. Что такое переменная ......................................................................14
2.2. Шкалы измерений ...........................................................................15
2.3. Связи между переменными .............................................................16
2.4. Статистическая значимость ............................................................17
2.5. Общая конструкция большинства статистических критериев...... 22
2.6. Почему важно нормальное распределение ....................................23
3. Визуальный анализ данных...................................................................25
3.1. Категоризованные графики.............................................................25
3.2. Методы категоризации ....................................................................28
3.3. Гистограммы....................................................................................30
3.4. Диаграммы рассеяния .....................................................................32
3.5. Вероятностные графики ..................................................................34
3.6. Графики квантиль-квантиль ...........................................................35
3.7. Графики вероятность-вероятность .................................................35
3.8. Линейные графики ..........................................................................36
3.9. Диаграммы размаха .........................................................................37
3.10. Круговые диаграммы.....................................................................38
3.11. Графики пропущенных значений и данных вне диапазона ........ 40
3.12. Трехмерные (3М) графики ............................................................40
3.13. Тернарные графики .......................................................................41
3.14. Проекции трехмерных наборов данных .......................................43
3.15. Пиктографики ................................................................................44
4. Статистический вывод...........................................................................48
4.1. Генеральные совокупности и выборки. .........................................48
4.2. Что такое репрезентативная выборка .............................................49
4.3. Параметры выборки и параметры генеральной совокупности .....51
4.4. Случайная выборка .........................................................................52
4.5. Доверительный интервал ................................................................53
5. Корреляционный анализ........................................................................57
5.1. Классический корреляционный анализ нормально
распределенных случайных величин ..............................................................58
5.1.1. Оценка коэффициента корреляции .......................................... 58
5.1.2 Оценка корреляционного отношения ....................................... 61
5.1.3. Частная и множественная корреляция ..................................... 64
184
5.2. Непараметрический корреляционный анализ. Оценивая
корреляции с помощью порядковых статистик .............................................69
5.2.1. Оценка корреляции с помощью тренда ................................... 69
5.2.2. Критерий Кенуя ........................................................................ 69
5.2.3 Критерий Кокс–Стюарта ........................................................... 70
5.2.4. Знаковый корреляционный критерий Нелсона ....................... 72
5.2.5. Квадрантный критерий ............................................................. 73
5.2.6. Угловой критерий Олмстеда–Тьюки ....................................... 77
5.2.7. Приближенный критерий Шахани ........................................... 79
5.2.8. Сериальный критерий Шведа–Эйзенхарта.............................. 79
5.2.9. Критерий автокорреляции Кенуя ............................................. 81
5.2.10. Критерий Блума–Кифера–Розенблатта .................................. 82
5.3. Ранговая корреляция ....................................................................... 83
5.3.1. Коэффициент ранговой корреляции t Кендалла.................... 83
5.3.2. Коэффициент корреляции r Спирмена .................................. 87
5.3.3. Критерий Гёфтинга ................................................................... 90
5.3.4. Критерий Ширахатэ .................................................................. 92
5.3.5. Критерий корреляции Фишера–Йэйтса ................................... 94
5.3.6. Коэффициент корреляции Ван дер Вардена ............................ 96
5.3.7. Коэффициент конкордации Кендалла–Бэбингтона Смита ..... 98
5.3.8. Коэффициент конкордации Шукени-Фроли ......................... 100
5.4. Точечно-бисериальная корреляцмя .............................................. 102
5.5. Статистическая оценка связи между качественными признаками
(таблицы сопряженности признаков)............................................................ 105
5.5.1. Оценка связи признаков в таблицах сопряженности 2 ´ 2 ... 105
5.5.2. Коэффициент ассоциации....................................................... 105
5.5.3. Коэффициент коллигации Юла .............................................. 106
5.5.4. Коэффициент контингенции (сходства) ................................ 107
5.5.5. Точный критерий Фишера ...................................................... 108
5.5.6. Быстрые критерии оценки связи в таблицах
сопряженности 2 ´ 2 ................................................................................. 108
5.5.7. Модифицированный критерий знаков Мак-Нимара ............. 109
5.5.8. G -критерий Вульфа ............................................................... 110
5.5.9. Критерий Ле Роя для сравнения двух таблиц
сопряженности 2 ´ 2 ................................................................................. 112
5.5.10. Выбор числа наблюдений для анализа таблиц
сопряженности 2 ´ 2 ................................................................................. 113
5.5.11. Оценить связи признаков в многоклеточных таблицах
сопряженности r ´ c ................................................................................ 114
6. Вопросы и упражнения к модулю 1. Современные проблемы
обработки экспериментальных данных ........................................................... 116
6.1. Вопросы для самопроверки .......................................................... 116
185
6.2. Упражнения ................................................................................... 117
7. Вопросы и упражнения к модулю 2. Классификация в распознавании
образов ............................................................................................................... 120
7.1. Вопросы для самопроверки .......................................................... 120
7.2. Примеры решения задач ............................................................... 121
7.3. Упражнения ................................................................................... 123
8. Вопросы и упражнения к модулю 3. Планирование эксперимента .. 133
8.1 Вопросы для самопроверки ........................................................... 133
8.2. Примеры ......................................................................................... 133
8.3. Упражнения ................................................................................... 134
9. Вопросы и упражнения к модулю 4. Методы непараметрической
обработки информации ..................................................................................... 142
9.1. Вопросы для самопроверки .......................................................... 142
9.2. Примеры ......................................................................................... 143
9.3. Упражнения ................................................................................... 144
10. Вопросы и упражнения к модулю 5. Дисперсионный анализ ......... 148
10.1. Вопросы для самопроверки ........................................................ 148
10.2. Примеры ....................................................................................... 149
10.3. Упражнения ................................................................................. 151
11. Вопросы и упражнения к модулю 6. Анализ трендов и временных
рядов ................................................................................................................... 155
11.1. Вопросы для самопроверки ........................................................ 155
11.2. Упражнения ................................................................................. 157
12. Вопросы и упражнения к модулю 7. Идентификация статических
моделей объектов .............................................................................................. 163
12.1. Вопросы для самопроверки ........................................................ 163
12.2. Примеры ....................................................................................... 164
12.3. Упражнения ................................................................................. 165
13. Вопросы и упражнения к модулю 8. Идентификация и адаптивное
управление динамическими объектами ........................................................... 168
13.1. Вопросы для самопроверки ........................................................ 168
13.2. Примеры ....................................................................................... 169
13.3. Упражнения ................................................................................. 170
Библиографический список ................................................................. 172
Оглавление ............................................................................................... 184
186