Вы находитесь на странице: 1из 136

 

 
 
 
 
 
 
 
 
 
 
Интернет-курс
по дисциплине
«Методы количественного анализа»
 
 
 
 
 
 
 
 
 
 
 
 
Москва

 
Содержание
 
Раздел I. Методы описания и представления количественной информации
 
Тема 1. Введение в количественные методы
Введение.
Вопрос 1. Преимущества количественного анализа данных.
Вопрос 2. Цели и задачи курса.
Вопрос 3. Обзор содержания курса.
Вопрос 4. Программное обеспечение.

Тема 2. Описание данных: графики и таблицы


Введение.
Вопрос 1. Таблицы частот и гистограммы.
Вопрос 2. Анализ взаимозависимостей с помощью диаграмм рассеивания.
Вопрос 3. Временные ряды.
Вопрос 4. Исследование данных с помощью сводных таблиц.

Тема 3. Описание данных: обобщающие показатели


Кейс к разделу:
Литература:

Раздел II. Количественные методы оценки вероятности


 
Тема 4. Вероятность и распределения вероятностей
 
Тема 5. Нормальные, биномиальные и Пуассоновские распределения
Вопрос 1. Нормальное распределение.
Вопрос 2. Применение нормального распределения.
Вопрос 3. Биномиальное распределение.
Вопрос 4. Применение биномиального распределения.
Вопрос 5. Распределение Пуассона.
Вопрос 6. Подбор закона распределения по имеющимся данным.
 
Тема 6. Многошаговые процедуры принятия решений в условиях неопределенности
Вопрос 1. Оценка стратегий.
Вопрос 2. Дерево решений.
Вопрос 3. Замечания к материалу темы.
Кейс к разделу:
Литература:
 
Раздел III. Методы статистического анализа данных
 
Тема 7. Выборки и распределения выборок
Вопрос 1. Терминология теории выборок.
Вопрос 2. Методы построения случайных выборок.
Вопрос 3. Введение в теорию оценок.
 
Тема 8. Оценка доверительных интервалов
 
Тема 9. Проверка статистических гипотез
Вопрос 1. Основные понятия теории проверки гипотез.
Вопрос 2. Проверка гипотез для математического ожидания.
Вопрос 3. Проверка гипотез для остальных параметров.
Литература:
 

 
Раздел I. Методы описания и представления количественной информации
 
Тема 1. Введение в количественные методы
 
Цели обучения:
В данной теме представлены:
1. Характеристика дисциплины «Количественные методы».
2. Причины, способствующие возрастающему интересу со стороны бизнеса к
количественным подходам и информационным системам.
3. Преимущества, которые получает компания, развивающая количественные
подходы анализа данных на базе информационных технологий.
4. Краткий перечень, некоторых программных продуктов анализа данных,
сопряженных с курсом.
 
Содержание темы:
1. Введение.
2. Преимущества количественного анализа данных.
3. Цели и задачи курса.
4. Обзор содержания курса.
5. Программное обеспечение.
 
Введение.
 
Мы живем в эпоху высоких технологий. Это ведет к двум важным следствием
для тех, кто занимается бизнесом. Во-первых, эти технологии позволяют собирать
огромное количество данных. Продавцы имеют возможность фиксировать время
каждой покупки, характеристики товара и покупателя; кредитные заведения
располагают данными обо всех, кто взял кредит или хочет его получить;
инвестиционные компании располагают обширной предысторией  по курсам акций,
облигаций и других ценных бумаг; государственные учреждения располагают
данными об экономических тенденциях, состоянии окружающей среды, уровне жизни,
уровне обеспеченности теми или иными предметами потребления и так далее. Стало
сравнительно легко собирать данные.
Во-вторых, новые технологии дали средства, возможности, а также привели к
необходимости для значительно более широкого круга лиц анализировать эти данные
и принимать решения с помощью конкретных количественных методов бизнес -
анализа. Таким образом, люди входящие в мир бизнеса  больше не могут
перебрасывать работу с количественными методами  техническим специалистам,
которые традиционно занимались тем, что "грызли числа". Практически каждый
сегодня, имея в своем распоряжении персональный компьютер или ноутбук,
располагает доступом к важным данным и обладает необходимыми практическими
навыками.
Поток данных постоянно возрастает. Количественные методы призваны
извлекать из них полезную информацию. Несколько примеров:
    Директор по маркетингу анализирует обширную статистику по потребителям.
Он хочет понять, какие группы потребителей и как реагируют на различные виды
товаров и типы рекламных акций. Информация позволит эффективнее проводить
рекламу, выявить наиболее востребуемые товары и, как следствие, максимизировать
доход.
    Отели и авиакомпании также анализируют огромное количество данных по
клиентам, чтобы понять, за что их клиенты готовы платить, и на основе этого
выстраивают оптимальные ценовые стратегии.
    Службы финансового планирования, находясь в условиях жесткой
конкуренции, вынуждены анализировать большие объемы данных, чтобы предлагать
своим клиентам наиболее выгодные им варианты инвестиций.
    Международная промышленная конкуренция заставила американские
производственные компании в последние два десятилетия радикально изменить
способы производства и маркетинга. Во многом достигнутые успехи основывались на
анализе огромного количества данных, собираемых на всех уровнях, и принятии
эффективных решений.
 
Не компании анализируют данные, а конкретные люди. Очень скоро вам в той
или иной мере потребуются те инструменты, с которыми мы будем знакомиться.
Постараемся их освоить практически на реальных примерах из разных сфер бизнеса.
Наш курс – это не только рассказ о том, как хорошо применяют количественные
методы какие-то другие люди, а это курс, который призван научить Вас это делать
практически уже сегодня. Основной акцент в этом обучении делается на рассмотрение
конкретных практических примеров. Еще Ньютон справедливо отмечал, что «примеры
полезнее правил».
 
Вопрос 1. Преимущества количественного анализа данных.
 
Мы живём в век информации. С помощью компьютера и глобальной сети
достаточно просто получить доступ информации о  различных объектах –
организациях, и отдельных людях. В бизнесе вообще информация начинает играть
ключевую роль: без четкого понимания своего места в рынке, потребностей клиентов,
действий конкурентов и много другого невозможно построить эффективную
организацию.
Однако чем больше собирается информации, тем становится сложнее увидеть в
ней сходу тенденции и закономерности, скрытые от поверхностного взгляда, чтобы
принять на её основе какое либо управленческое решение. Отсюда можно сделать
вывод, что сегодня руководителю, мало иметь возможность, собрать большие массивы
рабочих данных, необходимо владеть определёнными навыками работы с ними, при
помощи которых их  можно  перевести в  достаточно наглядную форму для принятия
управленческого решения.  Для этого существуют специальные методы работы с
информацией - Количественные методы. Они позволяют пользователю информации
принимать обоснованные решения, основываясь на логике.
Ранее до появления современных мощных компьютеров, практическое
применение количественных (статистических) методов было достаточно сложным,
требующим больших интеллектуальных усилий и временных затрат, делом.
Теперь благодаря развитию современных технологий и программных
приложений открылись пути, максимально сокращающие рутинные процедуры. Если
раньше каждый шаг исследований, начиная от представления данных, перевода их в
нужный формат, проверки, группировки, сортировки, сжатия, графической
интерпретации, подготовки программ обработки, задания параметров анализа,
просмотра результатов, был трудной задачей, то теперь достаточно двух-трёх щелчков
компьютерной мыши, чтобы огромные объёмы данных чрезвычайно быстро
преобразовались, обработались и появились на экране в виде графиков, диаграмм и
таблиц.
Количественные методы становятся с каждым годом все более необходимым и
незаменимым  инструментом, и позволяют снизить вероятность  ошибки при анализе
различных массивов статистической информации. Как использовать достижения
технического прогресса в бизнесе? Одним из ответов, несомненно, является -
организовать бизнеса на основе информационных технологий. Эта точка зрения
полностью соответствует мнению современных аналитиков, что ключевая концепция
нынешнего тысячелетия – скорость. Мы уже лет тридцать живем в информационную
эру, однако далеко не все компании продвинулись по пути освоения информационных
технологий.
Основа всех изменений поразительно проста – это поток цифровой информации.
Почти никто в бизнесе не обращается с информацией так, как она того заслуживает.
До  сих пор многие высшие руководители компаний считают, что отсутствие
своевременной информации – это данность. И это, не смотря на то, что сегодня, в 21
веке, мы располагаем новыми программными средствами и средствами доступа,
обеспечивающими получение информации, коллективную работу с ней и принятие
решений на ее основе.
Что дает внедрение информационных технологий и аналитических систем
количественного анализа данных:
    При хорошо организованных информационных потоках намного легче
организовать бизнес – процессы.
    Обеспечивает быструю адаптацию в условиях постоянно изменяющейся
среды.
    Позволяет изучать данные о сбыте в оперативном режиме – так легче
обнаруживать закономерности и обеспечивать к каждому клиенту индивидуальный
подход.
    Позволяет применять для анализа бизнеса ПК и тем самым избавлять своих
интеллектуальных работников от рутины.
 
Как отмечал Билл Гейтс в книге «Бизнес со скоростью мысли» «успеха в
ближайшем десятилетии добьются те компании, которые сумеют реорганизовать свою
работу с помощью электронного инструментария. Самый надежный способ выделить
свою компанию среди конкурентов – это хорошо организовать работу с информацией.
Разработанная в компании аналитическая система позволяет:
    Постоянно оценивать ситуацию заново.
    Знать фактические данные о своем бизнесе и осмысленно учитывать все
мелкие детали его ведения.
    Конкретному дилеру оценить собственную эффективность, и сопоставить ее
со средними показателями.
    Реализовать принцип управления на основе фактов – один из
основополагающих принципов ведения бизнеса.
    Использовать компьютеры не только для вычислительных задач, но и для
моделирования проблем бизнеса.
    Открывает менеджерам среднего звена и рядовым сотрудникам доступ к
данным.
    Расширить аналитические способности сотрудников компании.
    Обеспечить простой доступ к данным, так как иначе невозможно просто
выдвигать и проверять различные гипотезы.
    Использовать удобные инструменты, позволяющие произвольно
комбинировать данные из различных источников.
 
Именно менеджеры среднего звена любой компании должны  хорошо понимать,
какие сферы их деятельности приносят прибыль, а какие – убытки, какие
маркетинговые программы работают, а какие нет, какие расходы себя оправдывают, а
какие делаются впустую. Это как раз те люди, которым нужны точные, побуждающие
к действиям данные, поскольку действовать – их прямая обязанность. Политика
доступа к информации должна быть максимально открытой.
Людей воодушевляет использование технологий, позволяющих им исследовать
различные теории о том, что происходит на рынках, за которые они отвечают. Им
доставляет удовольствие прогон сценариев «что, если». Люди высоко ценят
информацию, так, что она является мощным стимулятором.
Если выразить кратко суть аналитической системы анализа данных, то можно
сказать, что электронные инструменты позволяют получать данные оперативно,
аккумулируя их из разных источников (хранилище данных), и обеспечивают
возможность их разностороннего анализа. Программные инструменты позволяют
превращать пассивные данные в активную информацию. Коэффициент интеллекта
компании определяется тем, насколько хорошо ее ИТ – инфраструктура обеспечивает
доступ к информации, ее совместное использование и структурирование.
Извлечение данных из рабочих процессов и использование их для решения
содержательных задач остается одной из самых трудноразрешимых проблем бизнеса.
Слишком часто важную информацию о клиентах и продажах сводят воедино только в
специальных случаях – когда в компанию приглашаются консультанты. Одна из целей
проекта внедрения системы -  дать возможность менеджерам компании, приходя
каждый день на работу, видеть самые свежие данные и анализировать их самыми
разнообразными способами.
Хорошо налаженные информационные потоки и мощные аналитические
инструменты позволяют обнаружить совершенно неожиданные возможности
увеличения оборота, извлекая их из огромной массы сырых данных, которые в
отсутствие описанной выше системы были бы абсолютно бесполезны.
 
Вопрос 2. Цели и задачи курса.
 
Курс "Методы количественного анализа и информационные системы в
бизнесе" является базовой дисциплиной при подготовке специалистов по программе
МВА, связанной с изучением теоретических основ статистики, оптимизации и
получением комплексных знаний по практическому использованию методов
обработки и анализа информации в бизнес - среде.
В результате изучения курса слушатели получают основы теоретических знаний
и практический опыт для статистического анализа данных, математического
моделирования в бизнес - среде и принятия управленческих решений в условиях
неопределенности.
Необходимо также знакомство с программным инструментарием для
практического применения теории к анализу данных и принятию эффективных
управленческих решений.
Изучение курса позволяет использовать полученные знания на практике при
обработке первичных данных, представлении полученных результатов в виде таблиц,
графиков, диаграмм, построении обобщающих показателей. На их основе
обеспечивается возможность использования наиболее эффективных статистических и
количественных методов и моделей в экономическом анализе, включая построение
распределений, количественные методы  оценки вероятностей, методы принятия
решений в условиях неопределенности, методы построения доверительных
интервалов, методы построения и оценки статистических гипотез, методы построения
оптимизационных моделей, методы построения и оценки регрессионных
зависимостей, элементы имитационного моделирования, методы экономического
прогнозирования.
Целью данной дисциплины является изложение теоретических и
методологических основ статистики и количественных методов анализа информации в
бизнес - среде, методологии применения этих методов для принятия конкретных
управленческих решений в условиях рыночной экономики.
Дисциплина также имеет целью дать необходимые знания и навыки и для
овладения современным программным инструментарием, позволяющим эффективно
применять широко используемые  в настоящее время в бизнес - среде методы
количественного анализа деловой информации. В этой связи книга содержит
многочисленные примеры решения конкретных задач на основе реальных
экономических данных. Тематика примеров охватывает разнообразные социально-
экономические сферы деятельности: учет, финансы, управление персоналом,
маркетинг, операционный менеджмент и так далее.
В целях обеспечения качественного усвоения материала предусматривается
значительный объем самостоятельной работы. В этой связи в  каждой части курса
предлагается самостоятельно выполнить ряд практических заданий, которые имеют
целью научить слушателей самостоятельно анализировать различные ситуации,
возникающие в бизнес – среде, выявлять и формулировать проблемы, а также
самостоятельно определять адекватные методы и программные средства для их
решения.
В целях эффективного освоения материала учебник содержит файлы с 
шаблонами и решениями задач, разбираемых в книге. Данные шаблоны помогут
самостоятельно построить и проанализировать практические задачи, обсуждаемые в
курсе. В случае затруднений можно ознакомиться с решениями.
В заключение выражаем надежду, что курс окажется полезным для решения
практических задач в сферах деятельности ваших компаний и организаций, а также
поможет вам сформировать «количественный оптимизационный образ мышления»,
который, как нам представляется, является неотъемлемым атрибутом современного
менеджера.
 
Вопрос 3. Обзор содержания курса.
 
Краткий обзор по разделам:
Раздел I посвящен способам обработки количественной информации. Эти темы
элементарны в математическом плане, но имеют большое практическое значение.
Удивительно, что сложные исследования можно проводить элементарными
средствами Excel (Анализ данных) и его расширений, например, StatPro.
Поскольку неопределенность является ключевым аспектом большинства
проблем бизнеса, необходимы первоначальные представления о вероятности. Тема
1 дает основные представления о вероятности и плотности распределения
вероятностей. Тема 2 посвящена наиболее важным распределениям. Для выбора
закона распределения, наиболее соответствующего статистической выборке, может
использоваться программный инструмент BestFit. В Теме 3 рассматриваются
процедуры принятия решений в условиях неопределенности, которые предполагают,
как правило, вычисления некоторых вероятностных характеристик. Удобным
инструментом для подобных задач является Precision Tree.
Раздел III посвящен выборкам и методам их статистического анализа. Выборки
возникают, когда невозможно или неэффективно обрабатывать весь набор данных.
Например, аудиторские проверки крупных компаний на предмет соответствия их
учета определенным стандартам. В Теме 1 рассматриваются технические аспекты
получения случайных выборок. В Теме 2 описывается техника построения
доверительных интервалов для статистических оценок различных параметров. В Теме
3 описываются основные подходы к оценке статистических гипотез.
 
Вопрос 4. Программное обеспечение.
 
Для решения реальных задач необходимо программное обеспечение.
Предлагаемое в нашем курсе программное обеспечение используется в ведущих
компаниях. Основа -Microsoft Excel – наиболее распространенная среда. По данным
еженедельника Computer Week, еще в конце 1995 г. Excel использовали в своей
деятельности  60% московских организаций. За последние годы популярность Excel
еще более возросла, что объясняется его органичной интеграцией в пакет Microsoft
Office. Наряду со встроенными средствамиExcel в курсе используются некоторые
надстройки. Список встроенных средств и надстроек приведен ниже в таблице 1.
Демоверсии некоторых из них включены в состав диска.
 
Таблица 1.
Встроенные средства и надстройки Excel
 
№ Название Компания разработчик Назначение
1 Библиотека функций Microsoft Широкий спектр вычислений (см. описание
функций)
2 Поиск  решения Frontline Systems, Inc. Решение оптимизационных задач, поиск
http://www.frontsys.com допустимых решений при заданных
http://www.solver.com ограничениях
3 Подбор параметра Microsoft Получение определенного значения функции
путем изменения одного из аргументов
4 Таблица подстановки Microsoft Средство для расчета текущего и будущих
значений, позволяющее просматривать
значения функций при различных значениях
переменной
5 Анализ данных Microsoft Пакет средств статистической обработки 
данных, имитационного моделирования и
регрессионного анализа
6 StatPro Spreadsheet Solutions Corp. Мощный, легкий в освоении инструмент,
http://www.indiana.edu/ который расширяет статистические
возможности встроенного пакета анализа
7 StatTools Palisade Corporation Новый инструмент статистического анализа,
реализованный как надстройка Excel.
Содержит все основные статистические
процедуры анализа данных.
8 RandFns Spreadsheet Solutions Corp. Набор функций необходимый для 
имитационного моделирования.
9 Solver Table Spreadsheet Solutions Corp. Анализ чувствительности оптимального
решения к изменению входных параметров
задачи
10 @Risk Palisade Corporation Инструмент для имитационного
  моделирования, табличные и графические
http://www.palisade.com средства, средства анализа чувствительности
имитационных моделей
11 Precision Tree Palisade Corporation Инструменты для решения задач принятия
решений в условиях неопределенности.
Представляет графическую интерпретацию
задачи в виде дерева решений. Имеет
встроенную графику и возможности анализа
чувствительности модели
12 TopRank Palisade Corporation Анализ чувствительности входов и выходов
модели. Определение параметров наиболее
влияющих на результат.
13 BestFit Palisade Corporation Подбор наиболее близкого закона
распределения по имеющейся выборке
значений случайной величины
14 RiskView Palisade Corporation Отдельное графическое дополнение для
  @Risk.
 
В качестве дополнительного материала на диске размещена демонстрационная
версия аналитической платформы Deductor Professional (компания BaseGroup
Labs) – это пакет приложений, предназначенный для быстрого и эффективного
анализа информации. В нем сосредоточены самые современные методы извлечения,
очистки, манипулирования и визуализации данных. С применением
пакета Deductor становятся доступны моделирование, прогнозирование,
кластеризация, поиск закономерностей, и многие другие технологии обнаружения
знаний (Knowledge Discovery in Databases) и добычи данных (Data Mining).
Основные компоненты пакета Deductor приведены в таблице 2.
 
Таблица 2.
Компоненты пакета Deductor для анализа данных
 
№ Название Компания разработчик Назначение
1 Cube Analyzer BaseGroup Система анализа информации на базе
Labshttp://www.basegroup.ru технологии OLAP. Она позволит по-новому
взглянуть на хранящуюся в ваших базах
данных информацию. Получив средства,
позволяющие легко и быстро извлекать
практически любые данные,
манипулировать ими произвольным
образом и строить диаграммы, можно
обеспечить себе возможность принимать
правильные бизнес решения.
2 RawData Analyzer BaseGroup Labs Система, ориентированная на
предварительную обработку и
трансформацию данных для последующего
анализа при помощи других программ,
входящих в пакет Deductor. Если данные, на
основе которых производится анализ,
плохого качества, то их предобработка
становится необходимым шагом для
обеспечения хорошего качества получаемых
результатов.
3 Tree  Analyzer BaseGroup Labs Система анализа данных на основе дерева
решений. Сочетание мощного
аналитического аппарата вместе с
простотой использования технологии
позволяют широко применять Tree Analyzer
в системах анализа данных и поддержки
принятия решений.
4 SOMap Analyzer BaseGroup Labs Система анализа информации на основе
мощного алгоритма кластеризации -
самоорганизующихся карт Кохонена. Вы
получите возможность легко обнаруживать
целевые аудитории, позиционировать вашу
продукцию, находить скрытые
закономерности и многое другое.
5 Neural Analyzer BaseGroup Labs Система анализа данных на основе
многослойных нейронных сетей. Мощный,
гибкий и простой в использовании
инструмент, позволяющий делать
качественные прогнозы, обнаруживать
закономерности, оптимизировать процессы,
что обеспечит вам конкурентное
преимущество в бизнесе.
 
Для того чтобы стать квалифицированным пользователем этих программных
средств, необходима хорошая практика. Все вышеперечисленные программные
средства доступны в виде демоверсий, представленных на сайтах разработчиков.
 
Тема 2. Описание данных: графики и таблицы
 
Цели обучения:
В теме представлено описание нескольких программных инструментов
визуализации и анализа данных. Цель темы показать область применения каждого из
рассматриваемых инструментов и научить слушателей интерпретировать результаты.
Приведены практические примеры, на которых слушатели должны освоить
практические аспекты использования программных инструментов количественного
анализа.
 
Содержание темы:
1. Введение.
2. Таблицы частот и гистограммы.
3. Анализ взаимозависимостей с помощью диаграмм рассеивания.
4. Временные ряды.
5. Исследование данных с помощью сводных таблиц.
 
Введение.
 
Приведем пример, основанный на реальных данных. 28 января 1986 г. стартовал
американский космический корабль многоразового использования «Челенджер».
Спустя несколько минут после взлета корабль взорвался, погибли семь членов
экипажа. Причиной аварии, как потом установили эксперты, был выход из строя
одного из так называемых О - колец. Аналогичные повреждения происходили и во
время предварительных испытаний.
Представим себе, что мы анализируем информацию о сбоях в О – кольцах,
полученную во время предварительных испытаний. А, именно, мы пытаемся
выяснить, нет ли связи между количеством дефектов (центры эрозии), возникающих в
О – кольцах и температурой воздуха. Вполне логичным на первый взгляд было бы
запросить соответствующую информацию обо всех полетах, в которых фиксировались
сбои. Соответствующие данные приведены в файле ЧЕЛЕНДЖЕР.XLS.(шаблон,
решение). А соответствующая диаграмма рассеивания представлена на рис. 1.
 

 
Рис. 1. Диаграмма рассеивания по всем испытаниям
 
Визуальный анализ диаграммы приводит нас к выводу об отсутствии явной
зависимости между количеством возникающих дефектов в О – кольцах и
температурой воздуха. Это же подтверждает выборочный коэффициент корреляции,
практически равный 0 (0,024).
Рассмотрим однако вопрос о той же зависимости, но уже на данных о всех
предварительных полетах, то есть и о тех, в которых не фиксировалось наличие каких-
либо дефектов в О – кольцах. Соответствующие данные также приведены в
файле  ЧЕЛЕНДЖЕР.XLS .(шаблон, решение), а соответствующая диаграмма
рассеивания построена на рис. 2.
 

 
Рис. 2. Диаграмма рассеивания только по испытаниям со сбоями
 
Однако теперь вопрос о зависимости температуры и количестве сбоев
представляется совершенно по-иному. Просматривается весьма ощутимая
отрицательная зависимость, что подтверждается соответствующим значением
выборочного коэффициента корреляции  (-0,511).
Этот пример показывает, насколько важным может оказаться правильный выбор
способа представления и анализа информации. Даже первичная обработка данных о
предыдущих запусках  путем построения нужной диаграммы рассеивания могла бы
дать предостерегающую информацию.
Цель данного раздела научиться извлекать из данных первоначальную,
полезную информацию путем вычисления определенных характеристик, построения
сводных таблиц, графиков и диаграмм. Еще раз подчеркнем, что речь идет о быстром
извлечении первоначальной информации, а, следовательно, мы рассматриваем
наиболее простые, однако весьма полезные на практике программные инструменты.
Следует также отметить, что основное внимание следует уделить основной идеи
каждого инструмента и интерпретации результатов, поскольку  данные инструменты
анализа данных допускают различные программные реализации.
 
Вопрос 1. Таблицы частот и гистограммы.
 
Методы описания данных начнем с построения таблиц частот и их графического
аналога – гистограмм (столбчатых диаграмм). Какую задачу решает данный
инструмент количественного анализа данных?
В качестве исходных данных мы имеем некоторую числовую выборку.
Возникает желание понять, как устроена данная совокупность, то есть понять, как
распределены значения данной совокупности по величине. Естественным шагом в
этом направлении, по-видимому, могло бы быть отображение всех значений
совокупности на числовой оси. Однако даже при сравнительно небольших размерах
выборки такой рисунок был бы по-видимому трудно воспринимаем визуально из-за
слияния точек. Тогда возникает идея некоторого агрегирования. Не будем отображать
положение каждой точки. Вместо этого числовую ось разобьем на некоторое
количество диапазонов (категорий) равной длины, дополнив их двумя бесконечными
диапазонами (слева и справа от конечных диапазонов). Далее подсчитаем количество
значений совокупности, которые попадают в тот или иной диапазон. Результаты
подсчетов запишем в некоторую таблицу, которую назовем таблицей частот.
Таким образом, таблица частот показывает, сколько объектов попадает в ту или
иную категорию. Гистограмма отображает эту же информацию графически: высота
каждого столбца, соответствующего каждой категории, пропорциональна количеству
точек в данной категории.
Чем выше высота столбца, тем больше точек попало в соответствующий
диапазон. Поскольку диапазоны имеют равные длины, то можно сказать и так: чем
выше столбец, тем больше плотность точек в соответствующем диапазоне. Таким
образом, можно интерпретировать рельеф, задаваемый столбцами, как рельеф,
отображающий распределение плотности попадания значений выборки на числовой
оси.
 
Пример.
Файл АКТЕРЫ.XLS (шаблон, решение) содержит информацию о 66
кинозвездах Голливуда, а именно имя каждого актера или актрисы и значения
следующих четырех переменных:
    Пол – мужчина или женщина;
    Отечественные сборы - средние сборы по нескольким последним фильмам с
участием данного актера (млн. дол.);
    Зарубежные сборы - средние сборы за рубежом по нескольким последним
фильмам с участием данного актера (млн. дол.);
    Гонорар - сумма, которую в настоящее время запрашивает актер за съемку
(млн. дол.).
 
Нас интересует формирование таблицы распределения частот и построение
гистограммы по величине запрашиваемых гонораров.
 
Решение:
Для того чтобы получить распределение частот по какой-нибудь непрерывной
переменной, например, Гонорар, необходимо сначала определить параметры
гистограммы. Основных параметров три – количество диапазонов, ширина диапазона
и точка, откуда начинаются диапазоны (точка привязки). Нет четких правил для
определения значений данных параметров. Однако есть некоторые разумные
соображения, которыми можно руководствоваться. Например, с одной стороны, мы
хотим иметь достаточное количество категорий, для того чтобы просматривалось
распределение, с другой, мы не хотим, чтобы категории содержали всего несколько
наблюдений. Как правило, выбирают 10 – 15 категорий. В данном случае определим
категории: «не более 2», 2-4, 4-6, 6-8, 8-10, 10-12, 12-14, 14-16, 16-18, 18-20, «более 20»
- всего 11 категорий.
Для решения используем  надстройку статистического анализа StatPro. В
данной конкретной программной реализации категории включают свои правые
границы и не включают левые. Основные шаги построения гистограммы следующие:
    поместить курсор куда-нибудь в поле данных;
    выбрать StatPro/Charts/Histogram;
    в списке отображаемых числовых переменных выбрать нужную переменную.
В данном случае Гонорар;
    ввести имя новой страницы для размещения гистограммы;
    в диалоговом окне ввести необходимые для построения гистограммы
параметры, например (2, 11, 2), 2 - правая граница первого интервала (или левая
граница первого конечного интервала), 11 - обще количество интервалов, 2 - ширина
интервалов. В этом случае программа рассмотрит 9 конечных интервалов длины 2 и
два бесконечных – «все значения не большие, чем 2» и «все значения большие, чем
20»;
    проанализировать построенную гистограмму и таблицу частот.
 
Замечание. Таблица частот формируется в скрытом режиме, для ее просмотра
необходимо выполнить следующие шаги: Формат - Лист - Отобразить. В этом
случае появляется список скрытых листов. Таблица частот дает точное количество
объектов, соответствующих каждой конкретной категории.
Ниже приведены таблица распределения частот (табл. 3.) и гистограмма (рис.
3.)  для значений переменной Гонорары.
 
Таблица 3.
Таблица частот для гонораров
 
Верхний Категория Частота   Верхний Категория Частота
предел предел
2 <=2 2   12 10- 12 3
4 2- 4 15   14 12- 14 3
6 4- 6 11   16 14- 16 2
8 6- 8 12   18 16- 18 3
 
Рис. 3. Гистограмма распределения гонораров
 
В случае, если требуется анализ распределения по другим категориям, то
процедура легко повторяется с другими значениями параметров.
Существует еще два альтернативных способа построения таблиц частот в
среде Excel:
    через специальную статистическую функцию ЧАСТОТА(), которая
подсчитывает количество элементов массива, попадающих в различные диапазоны
(карманы). Однако в данном случае, во-первых, необходимо самостоятельно вводить
список границ диапазонов, а во вторых, отдельно использовать Мастер диаграмм для
построения гистограммы;
    через Сервис/Анализ данных/Гистограмма. В этом случае  массив карманов
также должен быть подготовлен предварительно.
 
Таким образом, оба эти способа являются менее удобными, чем
возможности StatPro. Однако с другой стороны они допускают возможность задавать
произвольные системы карманов, что в отдельных случаях может быть полезным.
 
Замечание: Полученные таблицы частот и соответственно, построенные на них
гистограммы   имеют динамическую связь с исходными данными (как в Excel, так и
в StatPro), то есть при изменении исходных данных таблица частот и гистограмма 
меняются. Данное свойство имеет принципиально важное значение, так как в
противном случае необходимо хранить всю предысторию применения данного
инструмента и при изменении данных, следуя ей, еще раз применять инструмент к
измененным данным.
 
Формы гистограмм.
Далее рассмотрим несколько примеров, в которых гистограммы принимают
различные формы. В каждом из этих примеров наиболее важным является не
техническое воспроизведение данной гистограммы, а ее содержательная
интерпретация.
 
Симметричные гистограммы.
Гистограммы данного типа имеют один пик и примерно одинаковое
расположение столбцов слева и справа от пика. Чаще всего это столбцы
уменьшающейся высоты по мере их удаления от центра. Как мы увидим в части 2
такие гистограммы, например, соответствуют выборкам случайных величин,
имеющих нормальное распределение.
 
Пример.
В файле ИЗМЕРЕНИЯ_1.XLS (шаблон, решение) представлены результаты
измерений диаметров 400 лифтовых рельсов. Результаты оказались от 449 до 548 (в
сотых долях см). Проверьте, что распределение диаметров удовлетворяет
симметричному закону.
 
Решение:
Разбиваем данные на категории "не более 455", "455 - 465" и так далее до
категории "более 545". Результат построения гистограммы представлен на рисунке 4.
 

 
Рис. 4. Гистограмма по диаметрам
 
Гистограммы  со скосом направо  (положительный скос).
Гистограммы данного типа имеют пик, и значения рассматриваемой переменной
распространяются вправо от пика намного дальше, чем влево.
 
Пример.
В файле ПОЧТА.XLS (шаблон, решение) представлены интервалы между
моментами прихода клиентов на почту в течение одного дня (в секундах). Имеет ли
распределение этих данных положительный скос?
 
Решение:
Разбиваем данные на категории: "не более 25", "25 - 50" и так далее до категории
"более 275". Результат представлен на нижеследующем рис. 5.

 
Рис. 5. Гистограмма по временным интервалам
 
Гистограммы со скосом влево (отрицательный скос).
Гистограммы данного типа имеют пик, и значения рассматриваемой переменной
распространяются влево от пика намного дальше, чем вправо.
 
Пример.
В файле ОЦЕНКИ.XLS  (шаблон, решение) приведены результаты
промежуточной оценки группы студентов по 100 бальной системе. Имеет
распределение этих данных отрицательный скос?
 
Решение:
Разбиваем данные на категории "не более 45", "45 - 50", и так далее до категории
"более 95". Результат представлен на рис. 6.
 
 
Рис. 6. Гистограмма по оценкам в баллах
 
Гистограммы с несколькими пиками.
Гистограммы данного типа часто возникают, когда данные объединяют в себе
выборки из различных генеральных совокупностей. Например, это могут быть данные,
относящиеся к мужчинам и женщинам, или результаты опросов, проведенных в
разных регионах. Гистограммы, содержащие два пика, называют бимодульными.
 
Пример.
В файле ИЗМЕРЕНИЯ_2.XLS (шаблон, решение) имеются данные о диаметрах
всех лифтовых рельсов, произведенных на заводе в течение дня. Работа проводилась
на двух станках. Какова гистограмма приведенных данных?
 
Решение:
Результат построения гистограммы с параметрами (4950, 25, 50) приведен на
рисунке 7. Видно, что распределение по каждому из станков близко к симметричному
распределению.
 
 
Рис. 7. Гистограмма по всем диаметрам
 
Полученное распределение можно отнести к бимодульным.
Удобнее построить гистограммы для каждого из станков по отдельности,
уменьшив при этом ширину диапазона гистограммы, то есть, уточнив гистограмму
(рис. 8 – параметры (4900, 11, 25) и рис. 9. -  параметры (5900, 11, 25)).

Рис. 8. Гистограмма по диаметрам (Станок 1)


 
 
Рис. 9. Гистограмма по диаметрам (Станок 2)
 
Вопрос 2. Анализ взаимозависимостей с помощью диаграмм рассеивания.
 
Часто интерес представляет вопрос о наличии взаимосвязи между двумя
величинами. В этом случае целесообразно их значения интерпретировать как
координаты, что позволяет изобразить некоторую совокупность точек на
координатной плоскости. Эта совокупность и называется диаграммой рассеивания.
Анализируя расположение точек совокупности, можно сделать вывод о наличии (или
отсутствии) взаимосвязи между величинами, а также о силе и характере этой
зависимости. Кроме того, представление данных двух выборок в виде диаграммы
рассеивания может выявить некоторые взаимосвязи (или их отсутствие) в отдельных
подмножествах данных выборок.
 
Пример.
Обратимся вновь к файлу АКТЕРЫ.XLS. (шаблон, решения). Мы подозреваем,
что звезды, чьи фильмы делают хорошие кассовые сборы, запрашивают большие
гонорары. Подтверждают ли это приведенные данные?
 
Решение:
Построим диаграмму рассеивания с помощью надстройки StatPro. Для этого
используем путь StatPro/Charts/Scatterplot. Выберем Гонорары в качестве
переменной Y, аОтечественные сборы в качестве переменной X. Диаграмма
изображена на  рис. 10.
 
Рис. 10. Диаграмма рассеивания Гонорары – Отечественные сборы
 
Из диаграммы видно, что точки, находящиеся правее, как правило, находятся и
выше. Это и подтверждает сделанное нами предположение.
Обратите внимание на коэффициент корреляции равный 0,61 (в правом верхнем
углу диаграммы), указывающий на наличие некоторой положительной линейной
зависимостимежду переменными, что также подтверждает сделанное нами
предположение. Подробнее о коэффициенте корреляции см. в части 2. Пока лишь
отметим, что близость этого коэффициента к 0 означает отсутствие
взаимозависимости между выборками.
Альтернативный способ построения диаграммы рассеивания основывается на
встроенных средствах Excel, а именно, если в Мастере диаграмм выбрать
тип Точечная.
Диаграммы рассеивания позволяют также визуализировать тип зависимости, в
частности нелинейной, как, например, в следующем примере
 
Пример.
Допустим, нас интересует  зависимость между продуктивностью продаж и
количеством лет, которые торговый агент проработал на данной территории.
Соответствующие данные приведены в файле ПРОДАЖИ.XLS (шаблон,
решение) (табл. 4.). Какова зависимость между объемами продажам и стажем
работающего?
 
Таблица 4.
Результаты продаж и стаж работы
 
Стаж Продажи (тыс. дол.)   Стаж Продажи (тыс. дол.)
24 54   10 60
8 57   11 60
2 45   16 62
12 61   14 62
8 57   10 60
4 50   18 61
6 54   22 57
6 54   20 60
11 60      
 
Решение:
Используя надстройку StatPro, построим диаграмму рассеивания. Смотрите 
рис. 11.
 

 
Рис. 11. Зависимость между объемами продажам и стажем работающего
 
Достаточно четко просматривается нелинейный характер зависимости  между
переменными. После 14 лет работы результаты торгового агента ухудшаются. О том,
как конкретно построить и оценить нелинейные зависимости рассказано в дисциплине
«Моделирование и количественный анализ в менеджменте»
 
Вопрос 3. Временные ряды.
 
Временные ряды часто возникают в задачах прогнозирования. Временной ряд
можно рассматривать, как частный случай диаграммы рассеивания, если в качестве
переменной по оси X выбрать время, например дни, недели, годы и так далее. Два
типичных вопроса, которые ставятся при анализе временных рядов:
    Наблюдается ли какая - либо устойчивая зависимость от времени в поведении
рассматриваемой величины (временной тренд)?
    Наблюдается ли сезонная компонента?
 
Пример.
В файле ПОДАРКИ.XLS (шаблон, решение) приведены данные магазина
«Подарки» о доходах от продаж поквартально за период 1992-1995. Изобразите эти
данные в виде графического временного ряда и ответьте на вопросы поставленные
выше.
 
Решение:
Для построения временного ряда используем StatPro/Charts/Time Series Plot.
Построим временной ряд для единственной переменной Доход. Смотрите рис. 12.
 

 
Рис. 12. Временной ряд по полю Доход
 
На полученном графике просматривается явная сезонная зависимость
(предновогодний всплеск покупок подарков в четвертом квартале) и растущий тренд,
то есть растущий от года в год доход магазина.
Следует заметить, что в реальных данных, как правило, тренд и сезонные
компоненты не просматриваются столь явно. Их выявление является весьма сложной
математической задачей. О некоторых методах ее решения (регрессионный анализ,
фиктивные переменные) будет рассказано дисциплине "Моделирование и
количественный анализ в менеджменте".
Часто возникает необходимость рассмотреть поведение во времени двух
величин на одном графике, например, с целью выявления каких-либо закономерностей
в их поведении. Средства StatPro позволяют это сделать. Однако, если эти величины
имеют существенно отличающиеся масштабы измерений, то просмотр их временных
рядов на одном графике может оказаться затруднительным. В этом случае
средства StatPro позволяют реализовывать два различных масштаба (подбираются
автоматически) на одной вертикальной оси.
 
Пример.
Рассмотрим компанию, которая реализует два вида продукции. Продукт 1 дает
существенно большие доходы, чем продукт 2 (см. файл ДВА ПРОДУКТА.XLS
(шаблон, решение)). Доходы от  реализации продукта 1 составляют порядка 100 000
руб., а продукта 2 – около 5000 руб. ежемесячно. Как отобразить временное изменение
этих доходов на одном графике сопоставимым образом?
 
Решение:
Первоначально изобразим временные ряды доходов по обоим продуктам в
едином масштабе. Результаты изображены на рис. 13.
 

 
Рис. 13. Временные ряды доходов от реализации Продукта 1 и Продукта 2
 
Как мы видим, подобное изображение не обладает достаточной наглядностью
для анализа.
Построим теперь временные ряды доходов от реализации обоих продуктов,
пользуясь упомянутыми выше средствами реализации двух различных масштабов на
одном графике. Для этого не будем указывать требования единой шкалы измерений
для обоих продуктов. Результаты изображены на рисунке 14.
 
 
Рис. 14. Временные ряды доходов от реализации Продукта 1 и Продукта 2
 
Левая вертикальная шкала соответствует доходам от реализации продукта 1, а
правая – продукта 2. К сожалению, для случая более двух величин данная
возможность представления не применима.
Таким образом, данный инструмент позволяет быстро производить
визуализацию динамики одного или нескольких процессов.
 
Вопрос 4. Исследование данных с помощью сводных таблиц.
 
Сводные таблицы являются  одним из самых мощных и удобных
средств Excel. Образно говоря, они позволяют резать данные «вдоль и поперек».
Задумаемся, в чем состоит построение любой таблицы. Сначала мы определяем
содержание строк таблицы, или чему соответствует (каким объектам) каждая строка.
Далее аналогичным образом мы определяемся со столбцами, определяя, чему
соответствуют (каким объектам) столбцы. После этого структура таблицы определена.
Каждой ячейке (пересечение некоторой строки и столбца) соответствуют некоторые
объекты, а именно объекты, удовлетворяющие одновременно заявленному
содержанию строки и столбца. Далее мы определяем, какая информация (какое поле
исходных данных) об этих объектах нам интересна. Последнее, с чем необходимо
определиться – это, какое конкретное числовое значение будет отображать в таблице
интересующую нас информацию о группе объектов (среднее значение, сумма,
количество значений, доля и так далее).
Инструмент сводных таблиц удобным образом реализует логику
конструирования таблиц, приведенную выше.
Следует отметить, что инструмент прост в освоении и открывает удобные
возможности для творчества в анализе данных.
 
Пример:
Обратимся вновь к файлу АКТЕРЫ.XLS.(шаблон, решение). Женщины-
актрисы утверждают, что им платят меньше, чем мужчинам. Подтверждается ли это
приведенными данными?
 
Решение:
Приведем ниже один из вариантов количественного анализа. Сначала найдем
количество мужчин и женщин в нашей совокупности. Это можно сделать различными
способами, однако мы воспользуемся инструментом Сводная таблица.  Выполним
следующее:
    поместим курсор в область данных;
    выберем Данные/Сводная таблица. Это выводит нас на Мастер сводных
таблиц;
    нажмем  Далее;
    определим области данных: если курсор первоначально находился в области
данных, то область определяется программой автоматически; в противном случае она
задается обычным выделением;
    определим переменные (список формируется автоматически), которые будут
соответствовать 4 полям основной таблицы Мастера сводных таблиц, а
именно: Поля строк, Поля столбцов, Элементы данных, Поля страниц.
Переменные перетаскиваются курсором (удерживая левую клавишу мыши) из списка
в соответствующие поля основной таблицы. Аналогично с помощью мыши они могут
быть и удалены из своих полей размещения. Переменную Пол перетащим в
область Поля столбцов и в область Элементы данных. ОбластиПоля
столбцов и Поля страниц оставим незаполненными;
    определим место размещение результата – новая страница, или область на
текущей странице. В результате получим следующую сводную таблицу (см. рис. 15.).
 
Кол-во значений по полю Пол  
Пол Всего
M 48
Ж 18
Общий итог 66
 
Рис. 15. Сводная таблица по количеству мужчин и женщин
 
Далее выразим процентное соотношение категорий  с отображением его в виде
круговой диаграммы. Для этого воспользуемся тем, что данные сводной таблицы
могут быть представлены различными способами. Щелкнув дважды на переменной,
размещенной в области Элементы данных, мы вызовем диалоговое
окно Вычисление поля сводных таблиц, позволяющее выбрать формат
представления данных, в частности в нашем случае (см. рис. 16).
 
Рис. 16. Окно вычисления поля сводной таблицы
 
Проследовав по опциям Дополнительно>> - Дополнительные вычисления -
Доля от суммы по столбцам, мы получим следующую сводную таблицу.
Соответствующая ей диаграмма строится через Мастер построения диаграмм путем
выбора типа Круговая (см. рис. 17.).
 
Кол-во значений по полю Пол  
Пол Всего
M 72,73%
Ж 27,27%
Общий итог 100,00%
 
 
Рис. 17. Распределение актеров по признаку пола
 
Исследуем далее распределение гонораров отдельно среди мужчин и женщин.
Для этого совершим следующие действия:
1. поместим курсор куда-либо в область данных;
2. вызовем Мастер сводных таблиц (Данные/Сводная таблица) и пройдем два
шага его работы, нажимая  Далее;
3. поместим переменную Гонорары в область Поля строк, переменную Пол в
область Поля столбцов, переменную Пол в область Элементы данных. (Когда в
область данных помещается переменная  типа категория, то подсчитывается
количество);
4. нажмем Готово.
 
Полученная сводная таблица приведена на рис. 18. Как мы видим, в ней собрана
информация по всем возможным значениям гонораров. Как уже видно из этой
таблицы, гонорары мужчин в целом превосходят гонорары женщин.
 
Кол-во значений по полю Пол Пол    
Гонорар M Ж Общий итог
2 1 1 2
2,5 1 4 5
3 2 2 4
3,5 1   1
4 3 2 5
4,5 1 1 2
5,2 1   1
5,5 3   3
6 4 1 5
7 4   4
7,5 5   5
8 3   3
8,5   1 1
9   1 1
10 5 2 7
11   1 1
12   2 2
12,5 1   1
13 2   2
15 2   2
16,5 1   1
17,5 1   1
18 1   1
19 1   1
19,8 1   1
20 4   4
Общий итог 48 18 66
 
Рис. 18. Распределение мужчин и женщин по значениям гонораров
 
Однако информация, собранная в сводной таблице представляется излишне
детализированной. Представьте себе, например, вид этой таблицы, если у всех актеров
разные гонорары. Мастер сводных таблиц позволяет группировать данные. Для
этого сделаем следующее:
1) щелкнем мышкой где-нибудь в столбце Гонорары полученной таблицы;
2) на панели инструментов Мастера сводных таблиц вызовем правую стрелку
(группировка), левая стрелка представляет обратную операцию (разгруппировка). Если
панельМастера сводных таблиц отсутствует, то воспользуйтесь опциями Вид /
Панели инструментов / Сводные таблицы. В более поздних
версиях Excel аналогичный результат получается использованием опций Данные /
Группа и структура / Группирование….
3) диалоговое окно предлагает свои параметры группировки, автоматически
определяя минимальное и максимальное значение. Внеся свои коррективы в размер
шага, поставим 3 (см. рис. 19.).
 

 
Рис. 19. Параметры группировки
 
1) Полученная сгруппированная сводная таблица приведена на рис. 20.
 
Кол-во значений по полю Пол Пол    
Гонорар M Ж Общий итог
2-5 9 10 19
5-8 17 1 18
8-11 8 4 12
11-14 3 3 6
14-17 3   3
17-20 8   8
Общий итог 48 18 66
 
Рис. 20. Сгруппированная сводная таблица по размерам гонораров
 
Для большей информативности представим данные из полученной сводной
таблицы в процентном формате. Это можно сделать через диалоговое
окно Вычисление поля сводных таблиц (см. рис. 16.). Процентное распределение
мужчин и женщин по категориям гонораров представлено на рис. 21.
 
Кол-во значений по полю Пол Пол    
Гонорар M Ж Общий итог
2-5 18,75% 55,56% 28,79%
5-8 35,42% 5,56% 27,27%
8-11 16,67% 22,22% 18,18%
11-14 6,25% 16,67% 9,09%
14-17 6,25% 0,00% 4,55%
17-20 16,67% 0,00% 12,12%
Общий итог 100,00% 100,00% 100,00%
 
Рис. 21. Процентное распределение мужчин  и женщин по категориям
 
Используя возможности графического представления данных в Excel, изобразим
распределение зарплат по категориям в виде столбчатых диаграмм, выбирая
соответствующий тип диаграммы в Мастере построения диаграмм. Результат
приведен на рис. 22.
 

 
Рис. 22. Диаграмма распределения мужчин и женщин по категориям
 
Как мы видим, больше половины женщин находится по своим гонорарам в
низшей категории, в то время как, мужчин там находится только 19%. Кроме того, в
двух наиболее  оплачиваемых категориях женщин вообще нет.
Конечно, мы могли бы просто вычислить и сравнить средние значения
гонораров у мужчин и у женщин, однако этот упрощенный подход анализа имеет
недостатки (например, зависимость от отдельно сильно отклоняющегося значения при
небольших выборках). Тем не менее, проведем общее сравнение средних гонораров
для мужчин и женщин, используя соответствующую сводную таблицу. Для этого
осуществим следующие процедуры:
1. вернемся в исходные данные и выйдем на Мастера сводных таблиц;
2. поместим переменную Пол в область Поля строк и переменную Гонорар в
область Элементы данных. Так как переменная Гонорар числовая, то в качестве
результата автоматически выводится «Сумма значений». Так как нас интересуют
средние значения, требуется следующий шаг;
3. щелкнув дважды на опции «Сумма значений» в области Элементы данных,
мы вызовем диалоговое окно Вычисление поля сводных таблиц, позволяющее
выбрать формат представления данных, в частности в нашем случае «Среднее
значение».
 
Результаты сводной таблицы и соответствующая столбчатая диаграмма
представлены на рис. 23.
 

 
Рис. 23. Средние размеры гонораров для мужчин и женщин
 
Таким образом, проведенный нами анализ показал, что женщины получают
меньшие гонорары, чем мужчины. Почему? Возможно, это происходит вовсе не из-за
дискриминации по признаку пола, а, например, потому, что кассовые сборы от показа
фильмов в США с их участием в главной роли приносят меньшие кассовые сборы. Как
проверить это предположение, опираясь на имеющиеся у нас данные? Для этого
поместим переменную Отечественные сборы в область Поля строк,
переменную Пол в область Поля столбцов, а переменную Гонорар в
область Элементы данных. В качестве формата данных выберем Среднее значение,
а далее значения переменной Отечественные сборы сгруппируем с шагом 20 (см.
рис. 24.).

 
Рис. 24. Параметры группировки
 
Результаты группировки приведены на рис. 25.
 
Среднее по полю Гонорар Пол    
Отечественные сборы M Ж Общий итог
16-35 6,15 4,36 5,46
36-55 8,99 4,40 8,07
56-75 9,50 9,42 9,46
76-95 9,70   9,70
96-115 20,00   20,00
116-135 15,00   15,00
156-175 17,50   17,50
Общий итог 9,48 6,06 8,55
 
Рис. 25. Средние гонорары мужчин и женщин по  категориям
 
Полученные данные дают веские основания предположить, что определенная
дискриминация в отношении женщин в киноиндустрии США существует. Это следует
из того, что, будучи в одних и тех же категориях по отечественным кассовым сборам,
женщины и мужчины получают разные гонорары – средние гонорары женщин всегда
меньше, чем мужчин.
 
Дополнительные замечания:
1. Данные для сводных таблиц могут размещаться как в файлах Excel, так и во
внешней базе данных Microsoft Access.
2. Существует еще одна область Поля страниц, которая позволяет
просматривать (пролистывать) имеющуюся сводную таблицу по значениям
переменной, размещенной в этом поле. То есть в сводную таблицу будут включены
только те наблюдения, в которых переменная области Поля страниц будет иметь
какое-либо конкретное выбранное значение. Меняя выбранные значения того поля,
которое указано в области Поля страниц, мы получаем разные сводные таблицы, то
есть, как бы листаем  страницы книги.
3. Можно размещать несколько переменных в областях сводной таблицы (Поля
строк, Поля столбцов, Элементы данных, Поля страниц), а также перемещать их из
области в область, при этом результаты будут автоматически пересчитываться.
4. Если два раза щелкнуть мышью на каком-либо из результатов сводной
таблицы, то можно увидеть те данные, из которых получен этот результат.
5. Сводная таблица поддерживает динамическую связь с данными, то есть при
изменении исходных данных результаты сводной таблицы обновляются. Однако это
происходит не автоматически, а по нажатию опции Обновить данные на панели
инструментов мастера сводных таблиц.
6. Существует возможность визуализации содержания сводной таблицы в
виде Сводной диаграммы.
 
Рассмотренные нами в данной теме инструменты Excel и надстройки для
статистического анализа данных StatPro - гистограммы (диаграммы), диаграммы
рассеивания, временные ряды, сводные таблицы и сводные диаграммы, являются
очень удобными средствами  для отображения и исследования данных.
Гистограммы позволяют быстро увидеть распределение значений
величины. Диаграммы рассеивания  показывают, как соотносятся две величины,
существует ли между ними или их подвыборками какая-либо зависимость и насколько
она сильная.
Временные ряды показывают изменение величины во времени.
Сводные таблицы позволяют быстро и гибко разбивать данные на определенные
подмножества, группировать их по какой-либо из переменных, представлять
полученные данные в различных форматах, а также выявлять определенные
зависимости в данных, невидимые «невооруженным глазом».
Сводные диаграммы визуализируют результаты анализа данных с помощью
сводных таблиц.
 
Тема 3. Описание данных: обобщающие показатели
 
Цели обучения:
Понять смысл каждой из обобщающих характеристик числовой совокупности.
Уметь вычислять обобщающие характеристики, как с помощью функций Excel, так и с
помощью средств надстройки Анализ данных. Уметь использовать обобщающие
характеристики для проверки различных гипотез.
 
Содержание темы:
Введение.
Вопрос 1. Среднее значение.
Вопрос 2. Медиана.
Вопрос 3. Мода.
Вопрос 4. Вычисление границ процентных и долевых сегментов.
Вопрос 5. Минимум, максимум и разброс.
Вопрос 6. Измерение степени разброса: дисперсия и стандартное отклонение.
Вопрос 7. Вычисление обобщающих показателей с помощью StatPro.
Вопрос 8. Меры взаимосвязи: ковариация и корреляция.
Вопрос 9. Описание наборов данных с помощью прямоугольных диаграмм.
Вопрос 10. Использование инструментов количественного анализа данных.
 
Введение.
 
Основная идея всех инструментов анализа данных, представленных в теме 2,
была концентрация данных. Мы  тем или иным способом группировали данные, а
затем отображали их в виде таблиц, графиков или диаграмм. Иногда нужно обобщить
их еще больше, до конкретных значений, которые называются обобщающими
характеристиками.
В данной теме мы рассмотрим основные обобщающие характеристики  одной
переменной и обобщающие показатели, характеризующие взаимосвязь между двумя
переменными.
 
Вопрос 1. Среднее значение.
 
Среднее значение – это усредненное значение по всем имеющимся данным.
В Excel имеется специальная функция для вычисления среднего значения СРЗНАЧ
(AVERAGE).Вычислительная формула для выборки из n значений приведена ниже.
 

 
Среднее значение является оценкой для математического ожидания случайной
величины, определение которого будет рассмотрено в разделе 2. Там же будет дано
пояснение понятию статистической оценки.
 
Пример.
В файле ЗАРПЛАТЫ.XLS.(шаблон, решение) имеются данные о зарплатах 190
выпускников некоторой бизнес - школы. Вычислим среднее значение.
 
Решение:
Применяем функцию СРЗНАЧ (AVERAGE), вызывая ее через Мастер
функций. В таблице 5 приведены результаты вычисления и других обобщающих
характеристик, которые будут рассмотрены далее.
 
Таблица 5.
Некоторые обобщающие характеристики выборки зарплат
 
Количество 190,000
Среднее значение 29762,105
Медиана 29850,000
Стандартное отклонение 3707,212
Минимальное значение 17100,000
Максимальное значение 38200,000
Разброс 21100,000
Дисперсия 13743424,116
Первый квартиль 27325,000
Третий квартиль 32300,000
5% - й квартиль 23690,000
95% - й квартиль 35810,000
 
Вопрос 2. Медиана.
 
Медиана – это среднее значение среди совокупности значений упорядоченных в
порядке возрастания. Медиана делит совокупность значений на две части таким
образом, что слева и справа от медианы находится одинаковое количество значений.
Если количество значений нечетное, то медиана совпадает со средним по количеству
значением (сколько слева, столько и справа), а если четное, то медиана является
серединой между двумя средними по количеству значениями.
 
Пример.
Вычислить медиану в предыдущем примере о зарплатах выпускников (см.
файл ЗАРПЛАТЫ.XLS.(шаблон, решение).
 
Решение:
Используем функцию МЕДИАНА (MEDIAN). Результат можно увидеть в
таблице 5.
 
Замечание. Важно понимать разницу между средним значением и медианой.
Обе характеристики являются своего рода серединами совокупности значений, однако
первая из них является серединой по значениям, а вторая серединой по количеству
значений.
 
Вопрос 3. Мода.
 
Мода – это наиболее вероятное значение. Это характеристика имеет смысл для
дискретных распределений, то есть распределений случайной величины,
принимающей конечное число возможных значений.
 
Пример.
Файл РАЗМЕРЫ.XLS (шаблон, решение) содержит данные о размерах мужских
костюмов, приобретаемых в универмаге. Какой размер пользуется наибольшей
популярностью?
 
Решение:
Используем функцию МОДА (MODE). Наиболее распространенными
размерами костюмов являются 50 и 51. Аналогичный результат можно было бы
получить и с помощью гистограммы, приведенной на рис. 26 (подумайте как?).
 
 
Рис. 26. Распределение размеров покупаемых мужских костюмов
 
Вопрос 4. Вычисление границ процентных и долевых сегментов.
 
Медиана определяет середину (по количеству точек) совокупности. Однако
часто возникает необходимость найти другие разбиения, например, такое, что левее
границы разбиения находится 90%-ов значений, а правее 10%-ов. Подобные задачи
можно решать с помощью функций ПЕРСЕНТИЛЬ (PERSENTILE) и КВАРТИЛЬ
(QUARTILE), которые располагаются в разделе «статистические» мастера
функций Excel.
 
Пример.
Необходимо вычислить уровень зарплаты (см. файл ЗАРПЛАТЫ.XLS.(шаблон,
решение), ниже которого получают только 5% выпускников и уровень зарплаты, ниже
которого получают 95% выпускников.
 
Решение:
Используем функцию  ПЕРСЕНТИЛЬ, а именно вычислим значения
функций =ПЕРСЕНТИЛЬ (Зарплата; 0,05)  и =ПЕРСЕНТИЛЬ (Зарплата; 0,95),
которые равны соответственно 23690 и 35810. Следовательно, справедливы
следующие утверждения:
- 5% выпускников получают зарплату менее 23690 долл. в год;
- 5% выпускников получают зарплату выше 35810 долл. в год.
 
Пример.
Необходимо вычислить уровень зарплаты (см. файл ЗАРПЛАТЫ.XLS.(шаблон,
решение), ниже которого получают только (?) выпускников и уровень зарплаты, ниже
которого получают (?)  выпускников.
 
Решение:
Используем функцию  КВАРТИЛЬ, а именно вычислим  значения
функций =КВАРТИЛЬ (Зарплата; 1) и =КВАРТИЛЬ (Зарплата; 3), которые равны
соответственно 27325 и 32300. Следовательно, справедливы следующие утверждения:
- 25% выпускников получают зарплату менее 27325 долл. в год;
- 25% выпускников получают зарплату выше 32300 долл. в год.
 
Замечание. Разница между значениями предыдущей задачи, а именно
суммарная ширина двух средних квартилей, в которых находится половина значений,
называетсямежквартильным расстоянием и часто
обозначается IQR (interquartile range).
 
Вопрос 5. Минимум, максимум и разброс.
 
Эти величины находятся с помощью встроенных функций МИН (MIN), МАКС
(MAX)  и разности  их  значений.
 
Пример.
Необходимо вычислить максимальный и минимальный уровень зарплаты (см.
файл ЗАРПЛАТЫ.XLS.(шаблон, решение) выпускников.
 
Решение:
Используем функции  МАКС и МИН, а именно
вычислим =МАКС(Зарплата)  и =МИН(Зарплата), где Зарплата - имя области
данных, содержащей значения зарплат. Соответствующие значения функций будут
38200 и 17100 долл. в год.
 
Разбросом значений называется разница между максимальным и минимальным
значениями. В данном примере он равен 38200 – 17100 = 21100.
 
Вопрос 6. Измерение степени разброса: дисперсия и стандартное
отклонение.
 
Очень важно знать не только положение «центра» совокупности значений, но и
меру их разброса вокруг этого «центра». Мерой такого разброса в статистике являются
дисперсия и стандартное отклонение. Дисперсия есть среднеожидаемый квадрат
отклонения случайной величины от своего среднего значения (математического
ожидания). Стандартное отклонение определяется как корень квадратный из
дисперсии.
Ниже приведены две основные формулы для выборочной дисперсии:
 
, или 
 
Существование нескольких формул для определения дисперсии связано с
существованием нескольких оценок для дисперсии. Это обстоятельство объясняет
наличие нескольких функций для вычисления дисперсии в библиотеке функций Excel.
Понятие оценки нами будет раскрыто в Разделе II.
 
Пример.
Предположим, что некоторая фирма приняла решение прекратить выпуск
подъемных рельсов, а приобретать их у поставщиков. Фирме требуются рельсы
диаметром в 1 дм. Компания получила образцы в количестве 10 штук от двух
поставщиков. Результаты их замеров приведены в файле ИЗМЕРЕНИЯ 4.XLS.
(шаблон, решение). Кого из поставщиков следует предпочесть?
 
Решение:
 

 
Рис. 27. Обобщающие характеристики по поставщикам
 
Заметим, что все три характеристики – среднее значение, медиана и мода для
обоих поставщиков одинаковы и равны 1 дм. Однако кроме этого, необходимо
вычислить меру разброса значений. Для этого необходимо вычислить такие
статистические характеристики, как дисперсию и стандартное отклонение, а точнее,
их выборочные аналоги. Это можно сделать с помощью функций ДИСП (VAR) и
СТАНДОТКЛОН (STDEV). Результаты применения статистических функций
приведены на рис. 27.
 
Интерпретация стандартного отклонения: правила областей.
Многие распределения имеют симметричную форму, а  графики их функций
плотности распределения имеют колоколообразную форму (нормальное
распределение). Тогда стандартное отклонение можно интерпретировать следующим
образом (правила областей):
    примерно 68% наблюдений находятся в радиусе одного стандартного
отклонения от среднего значения;
    примерно 95% наблюдений находятся в радиусе двух стандартных
отклонений от среднего значения;
    примерно 99,7% (то есть почти все) наблюдений находятся в радиусе трех
стандартных отклонений от среднего значения.
 
Эти правила на следующем примере.
 
Пример.
В файле ИНДЕКС.XLS (шаблон, решение) приведены значения индекса Доу
Джонса по завершению каждого месяца за период с 1947 по 1993, а также
ежемесячные изменения индекса, выраженное в процентах. Насколько соответствуют
этим данным правила областей, приведенные выше?
 
Решение:
Построим графики временных рядов для ежемесячных значений индекса (см.
рис. 28.) и его ежемесячных  процентных изменений (см. рис. 29.).
 

 
Рис. 28. Временной ряд индекса Доу Джонса
 
 
Рис. 29. Временной ряд доходностей
 
Далее осуществим следующие процедуры:
    вычислим среднее значение и стандартное отклонение для величин
доходностей;
    вычислим границы интересующих нас интервалов;
    вычислим распределение частот по этим интервалам с помощью
функции ЧАСТОТА (FREQUENCY).
 
Замечание: при использовании данной функции выход из мастера функций
осуществляется одновременным нажатием клавиш Ctrl – Shift – Enter:
 
   Выразим эти частоты в процентах и сравним с частотами, указанными в
правилах областей (см. рис. 30).
 
 
Рис. 30. Вычисление частот попадания по выборке
 
Как мы видим, полученные результаты хорошо согласуются с показателями
правил  областей.
 
Вопрос 7. Вычисление обобщающих показателей с помощью StatPro.
 
Помимо встроенных функций СРЗНАЧ (AVERAGE), ДИСП (VAR),
СТАНДОТКЛОН (STDEV), МАКС (MAX), МИН (MIN) и так далее можно
использовать так же базовое средство Excel "Анализ данных" и расширение StatPro.
Приведем пример использования расширения StatPro.
 
Пример.
Обратимся вновь к данным файла ЗАРПЛАТА.XLS. (шаблон,
решение). Вычислим основные характеристики выборки.
 
Решение:
Проведем следующие процедуры:
    поместим курсор в область данных;
    выберем StatPro/Summary Stats/One -Variables Summary Stats;
    выберем интересующие нас переменные (обобщающие показатели будут
вычисляться для каждой из них);
    выберем интересующие нас обобщающие показатели в специальном
диалоговом окне (некоторые вычисляются по умолчанию) (см. рис. 31);
    определим область отображения результатов.
 
 
Рис. 31. Диалоговое окно выбора обобщающих показателей
 
Ниже приведены результаты, представляемые StatPro (см. табл. 6.).
 
Таблица 6.
Некоторые обобщающие показатели по выборке зарплат
 
Количество 190,000
Среднее значение 29762,105
Медиана 29850,000
Стандартное отклонение 3707,212
Минимальное значение 17100,000
максимальное значение 38200,000
Разброс 21100,000
Дисперсия 13743424,116
Первый квартиль 27325,000
Третий квартиль 32300,000
Межквартильное расстояние 4975,000
Средняя абсолютная ошибка 2967,767
5% - квартиль 23690,000
95% - квартиль 35810,000
 
Аналогичные возможности получения совокупности обобщающих показателей
имеются и в Пакете анализа Excel – Сервис/Анализ данных…/Описательная
статистика.
 
Вопрос 8. Меры взаимосвязи: ковариация и корреляция.
 
До этого мы рассматривали характеристики одной случайной
величины. Ковариация и корреляция - величины, которые оценивают меру наличия
линейной взаимосвязи двух случайных величин. Для вычисления выборочных
значений этих величин необходимо иметь некоторый набор спаренных данных.
Выражение для выборочной ковариации:
 
 
В Excel существует специальная функция, реализующая данную формулу
- КОВАР (COVAR). Знак этой величины показывает характер зависимости, а именно
если рост одной из величин, как правило, влечет за собой рост другой, то знак
ковариации положительный, если же с ростом одной из величин другая уменьшается,
то знак ковариации отрицательный.
Недостатком является то, что ковариация зависит от единиц измерения величин.
В отличие от ковариации коэффициент корреляции не зависит от единиц измерения
величин. Выражение для выборочного коэффициента корреляции выражается
формулой:
 

 
В Excel существует специальная функция, реализующая данную формулу
- КОРЕЛ (CORREL). Знак этой величины имеет тот же смысл, что и в случае
ковариации. Коэффициент корреляции всегда изменяется в границах от –1 до 1. Для
независимых случайных величин коэффициент равен 0. Коэффициент корреляции
равен 1 тогда и только тогда, когда переменные связаны строго линейной
зависимостью с положительным коэффициентом и равен -1, если коэффициент
линейной зависимости отрицательный.
 
Пример.
В файле ЗАРПЛАТА.XLS. (шаблон, решение) приведены данные опросов 100
семей по поводу структуры их финансовых затрат, а именно, имеются данные об их
зарплатах, затратах на культурные мероприятия, спортивные мероприятия, питание в
общественных местах за прошедший год. Наблюдается ли между этими
характеристиками какая-либо линейная зависимость?
 
Решение:
Можно построить диаграммы рассеивания для каждой пары (потребуется 6
графиков). Быстрее получить таблицу парных корреляций с помощью StatPro, а
именноStatPro/Summary Stats/Correlations (Covariances) (см. табл. 7.).
 
Таблица 7.
Таблица парных корреляций между различными видами затрат
 
  Доход Досуг Спорт Рестораны
Доход 1,000      
Досуг 0,506 1,000    
Спорт -0,081 -0,520 1,000  
Рестораны 0,558 0,170 0,266 1,000
 
Построим диаграммы рассеивания для тех пар переменных, для которых
коэффициент корреляции существенно отличается от 0, а именно: Рестораны – Доход
(см. рис. 32) и Досуг – Спорт (см. рис. 33).
 

 
Рис. 32. Диаграмма рассеивание по переменным Рестораны и Доход
 

 
Рис. 33. Диаграмма рассеивания по переменным Досуг и Спорт
 
Вопрос 9. Описание наборов данных с помощью прямоугольных диаграмм.
 
Это средство может использоваться как для графического отображения
распределения одной переменной, так и для сравнения распределения двух и более
переменных.
 
Пример.
Обратимся вновь к файлу ИНДЕКС.XLS, (шаблон, решение), в котором
собранны данные об изменении индекса Доу – Джонса за период с февраля 1947 г. по
январь 1993 г. Используйте прямоугольную диаграмму для  отображения
распределения изменений индекса.
 
Решение:
Эта возможность имеется в расширении StatPro. Диаграмма может быть
построена с использованием StatPro/Charts/Boxplot. Основные моменты для
понимания диаграммы следующие:
    справа и слева от квадрата находятся третий и первый квартили. Таким
образом, квадрат заключает в себе средние 50% наблюдений, а его ширина равна IQR;
    вертикальная линия внутри квадрата показывает положение медианы;
    точка внутри квадрата показывает положение среднего значения;
    горизонтальные линии слева и справа от квадрата достигают крайних
наблюдений, которые отстоят от границ квадрата не более чем на 1,5 ширины
квадрата (IQR). Они показывают степень разброса значений, а также направление
скоса;
    остальные наблюдения показаны точками. Если они находятся на удалении от
1,5IQR до 3IQR, то называются средними выбросами и не закрашиваются, иначе они
называютсяэкстремальными выбросами и закрашиваются.
 
Графическое изображение прямоугольной диаграммы, а также численные
значения, связанные с ней, приведены на рис. 34.
 

 
Рис. 34. Прямоугольная диаграмма для доходностей
 
Сопутствующая количественная информация отображается в специальной
таблице (см. табл. 8.). Таким образом, инструмент прямоугольные диаграммы сочетает
в себе, как визуальный образ выборки значений, так и набор количественных
характеристик.
 
Таблица 8.
Количественные характеристики прямоугольной диаграммы
 
Среднее значение 0,00588
Медиана 0,007417
Первый квартиль -0,01257
Третий квартиль 0,02836
Межквартильное расстояние 0,040926
   
Нижняя граница 3IQR левее -0,13534
Верхняя граница 3IQR правее 0,151137
   
Нижняя граница 1,5IQR левее -0,07395
Верхняя граница 1,5IQR правее 0,089748
   
Минимальное значение не выброс -0,07112
Максимальное значение не выброс 0,089421
   
Количество экстремальных выбросов 0
Количество средних выбросов 16
   
Количество выбросов слева 10
Количество выбросов справа 6
 
Пример.
Обратимся вновь к файлу АКТЕРЫ.XLS. (шаблон, решение).  Используем
совместно построенные прямоугольные диаграммы для  отображения распределения
зарплат мужчин и женщин и их сравнения.
 
Решение:
Поскольку данные по мужчинам и женщинам приведены в едином массиве,
необходимо использовать опцию stacked (состыкованы). Если бы мы имели два
отдельные массива для гонораров мужчин и гонораров женщин, то использовалась бы
опция unstacked (расстыкованы). Таким образом, строим прямоугольную диаграмму с
помощьюStatPro/Charts/Boxplot, используя переменную Пол, как кодовую, а
переменную Гонорары, как измеряемую. На рис. 35 приведена соответствующая пара
прямоугольных диаграмм.
 

 
Рис. 35. Прямоугольная диаграмма  гонораров мужчин и женщин
 
Видно, что прямоугольник диаграммы, построенной для женщин, находится
левее, чем построенный для мужчин, хотя они имеют примерно одинаковую ширину
(IQR). Это означает, что наиболее близкие к среднему гонорары женщин меньше
средних гонораров мужчин. Аналогичное соотношение хорошо видно для средних
значений и медиан. Выбросы отсутствуют, что говорит о том, что соотношение
средних гонораров не результат отдельных низких гонораров женщин или отдельных
очень больших гонораров мужчин, а скорее общее правило.
 
Вопрос 10. Использование инструментов количественного анализа данных.
 
В этом разделе мы опробуем инструменты на некоторых более сложных и
объемных данных, хотя и эти данные, по крайней мере, по своим объемам, далеки от
реальных. Пока цель наших действий извлечь информацию из имеющихся данных –
это первый шаг на пути бизнес–анализа и принятия решений. Необходимо ясно
понимать, что приведенные ниже способы анализа данных являются не жестко
предопределенными, а всего лишь возможными. Желательно в каждом случае
самостоятельно провести какие-либо уточняющие исследования.
 
Пример.
Компания «Промкомплект» производит и реализует широкий ассортимент
производственных товаров. Благодаря их разнообразию имеется большое количество
потребителей. Их можно разделить на мелких, средних и крупных в зависимости от
объемов совместного с компанией «Промкомплект» бизнеса. В последнее время
наметилась проблема с оплатой счетов. Это естественно приводит к финансовым
потерям. Если, например, компания-потребитель не оплачивает задолженность в
размере 300 руб. в течение 20 дней, то «Промкомплект» теряет недополученный
процент с капитала. Компания располагает данными по 280 счетам, в которых указана
категория потребителя, размер долга, количество дней просрочки оплаты (см.
файл СЧЕТА.XLS (шаблон, решение). Какую информацию можно извлечь из
имеющихся данных?
 
Решение:
Для того чтобы составить первоначальное представление о данных, рассчитаем
основные обобщающие характеристики переменных (см. табл. 9.), далее построим
гистограмму распределения по суммам задолженности (см. рис. 36.) и двумерную
диаграмму рассеивания по дням и суммам (см. рис. 37.).
 
Таблица 9.
Обобщающие показатели для полей Дни и Сумма
 
  Дни Сумма
Количество 280,00 280,00
Сумма 4102,00 130000,00
Среднее значение 14,65 464,29
Медиана 13,00 320,00
Стандартное отклонение 7,22 378,05
Минимум 2,00 140,00
Максимум 39,00 2220,00
 

 
Рис. 36. Гистограмма задолженностей по всем счетам
 

 
Рис. 37. Диаграмма рассеивания по Суммам и Дням
 
Обратите внимание на две группы точек на диаграмме рассеивания. Одна из них
не имеет видимого порядка, другая же имеет более ярко выраженную положительную
тенденцию. Природа наблюдаемого явления будет выяснена нами в ходе дальнейших
исследований.
Следующим логическим шагом было бы использовать разбиение клиентов по
категориям и провести исследования данных по каждой категории с использованием
известных программных инструментов, а именно для каждой категории отдельно:
   вычислить основные статистические характеристики (см. табл. 10.);
   построить гистограммы по суммам задолженностей (см. рис. 38-40);
   построить сравнительные (по категориям) прямоугольные диаграммы по
количеству дней просрочки (см. рис. 41);
   построить сравнительные (по категориям) прямоугольные диаграммы по
суммам задолженностей (см. рис. 42);
   построить диаграммы рассеивания по "дням" и "суммам" (см. рис. 43 – 45).
 
Разбиение (расстыковка) данных для дальнейшего анализа можно осуществить,
например, с помощью StatPro/Data Utilities/Unstack Variables…, указав в качестве
кодовой переменной поле Категория.
 
Таблица 10.
Основные статистические характеристики по категориям
 
  Дни_1 Сумма_1 Дни_2 Сумма_2 Дни_3 Сумма_3
Количество 150,00 150,00 100,00 100,00 30,00 30,00
Сумма 1470,00 38180,00 2055,00 48190,00 577,00 43630,00
Среднее значение 9,80 254,53 20,55 481,90 19,23 1454,33
Медиана 10,00 250,00 20,00 470,00 19,00 1395,00
Стандартное отклонение 3,13 49,28 6,62 99,15 6,19 293,88
Минимум 2,00 140,00 8,00 280,00 3,00 930,00
Максимум 17,00 410,00 39,00 750,00 32,00 2220,00
 

 
Рис. 38. Гистограмма по задолженностям мелких клиентов
 

 
Рис. 39. Гистограмма по задолженностям средних клиентов
 

 
Рис. 40. Гистограмма по задолженностям крупных клиентов
 

 
Рис. 41. Прямоугольные диаграммы по полю Дни (по категориям)
 

 
Рис. 42. Прямоугольные диаграммы по полю Сумма (по категориям)
 
 
Рис. 43. Диаграмма рассеивания по Дням и Суммам для мелких клиентов
 

 
Рис. 44. Диаграмма рассеивания по Дням и Суммам для средних клиентов
 

 
Рис. 45. Диаграмма рассеивания по Дням и Суммам для крупных клиентов
 
На данном этапе мы уже можем сделать некоторые выводы, а именно:
    крупных потребителей намного меньше, чем средних и мелких;
    суммы долгов крупных клиентов значительно больше чем мелких;
    мелкие потребители, как правило, не настолько задерживают выплаты как
средние и крупные;
    не наблюдается зависимости между суммой долга и количеством дней
просрочки для мелких потребителей, в то время как для средних и крупных
просматривается положительная зависимость.
 
Далее допустим, что компания хочет отделить покупателей, которые должны
менее 500 долл.  Результаты можно получить, введя некоторую новую
категорию Размер, которая есть 0, если клиент имеет задолженность менее 500 долл. и
1, в противном случае. Для построения можно использовать условный оператор. В
данном случае выражение = ЕСЛИ (C6>=$B$3;1;0) помещается в ячейку D6 и далее
копируется вниз по столбцу.
Используя возможности сводных таблиц, исследуем распределение «больших» и
«малых» задолженностей по категориям клиентов. С этой целью ниже приведены три
сводные таблицы - для распределения по количеству счетов (см. табл. 11.), процентное
распределение по столбцам (см. табл. 12.) и по строкам (см. табл. 13.).
 
Таблица 11.
Количества счетов по категориям клиентов и размерам счетов
 
Количество значений по полю Размер Размер  
Категория 0 1 Общий итог
1 150   150
2 55 45 100
3   30 30
Общий итог 205 75 280
 
Таблица 12.
Процентное распределение счетов каждого размера по категориям клиентов
 
Количество значений по полю Размер  
Размер
Категория 0 1 Общий итог
1 73,17% 0,00% 53,57%
2 26,83% 60,00% 35,71%
3 0,00% 40,00% 10,71%
Общий итог 100,00% 100,00% 100,00%
 
Таблица 13.
Процентное распределение счетов каждой категории клиентов по размерам
 
Количество значений по полю Размер  
Размер
Категория 0 1 Общий итог
1 100,00% 0,00% 100,00%
2 55,00% 45,00% 100,00%
3 0,00% 100,00% 100,00%
Общий итог 73,21% 26,79% 100,00%
 
Данные таблицы характеризуют распределение мелких и крупных счетов по
категориям клиентов с точки зрения их количества. Интересным представляется
исследовать распределение суммарных задолженностей по мелким и крупным счетам
и по категориям клиентов. Результаты такого анализа представляют следующие три
сводные таблицы (см. табл. 14 –16).
 
Таблица 14.
Суммарная задолженность по категориям клиентов и размерам счетов
 
Сумма по полю Сумма    
Размер
Категория 0 1 Общий итог
1 38180   38180
2 22330 25860 48190
3   43630 43630
Общий итог 60510 69490 130000
 
Таблица 15.
Процентное распределение по категориям клиентов суммарных задолженностей
по счетам каждого размера
 
Сумма по полю Сумма Размер  
Категория 0 1 Общий итог
1 63,10% 0,00% 29,37%
2 36,90% 37,21% 37,07%
3 0,00% 62,79% 33,56%
Общий итог 100,00% 100,00% 100,00%
 
Таблица 16.
Процентное распределение по размерам счетов суммарных задолженностей по
счетам каждой категории клиентов
 
Сумма по полю Сумма Размер  
Категория 0 1 Общий итог
1 100,00% 0,00% 100,00%
2 46,34% 53,66% 100,00%
3 0,00% 100,00% 100,00%
Общий итог 46,55% 53,45% 100,00%
 
И, наконец, мы хотели бы исследовать вопрос об оценке финансовых потерь,
возникающих из-за задержек платежей. Исходим из 12% ставки годового дохода,
которая является параметром м размещается в ячейке D7. Вычислим потери по каждой
из категорий, введя переменные – потери по просроченным счетам для категорий
– Потери1, Потери2, Потери3. Ниже приведен фрагмент расчетной таблицы потерь.
Типичной формулой расчета, например, формулой из
ячейки C10 является =В10*A10*$D$7/365.
 
Далее подсчитываются суммарные потери по всем трем категориям (см. рис. 46).
 

 
Рис. 46. Расчет потерь от просрочки оплаты счетов по категориям клиентов
 
В заключение отобразим полученные результаты по суммарным потерям в
категориях в виде круговой диаграммы (см. рис. 47).
 

 
Рис. 47. Диаграмма распределения суммарных финансовых потерь по категориям
клиентов
 
Полученная информация дает определенную картину того, как реально в
компании обстоит дело с задолженностями клиентов и является основой для принятия
последующих решений. Используя функцию текущей даты, можно сделать
вышеприведенную расчетную модель динамической и построить систему
мониторинга суммарной задолженности, распределения задолженностей, потерь от
просроченных платежей и других параметров.
 
Рассмотрим еще один пример анализа данных.
 
Пример.
Супермаркет «Москва» открыт 24 ч. в сутки, 7 дн. в неделю. В последнее время
увеличилось количество нареканий со стороны посетителей в связи с долгим
ожиданием кассового обслуживания. Компания «Москва» приняла решение
разобраться с данной ситуацией, предварительно собрав данные о времени прибытия
клиентов к кассовым очередям, завершения их обслуживания и длинам очередей к
кассам. Данные собирались с интервалом в 30 мин. в течение всей недели, начиная с 8
утра понедельника до 8 утра понедельника следующей недели – всего 336
наблюдений. В ходе обследования собирались данные четырех типов, а именно:
    количество покупателей, находящихся в кассовых очередях в начале данного
периода (Ожидавшие первоначально);
    количество покупателей подошедших к кассам в данный период
(Прибывшие);
    количество покупателей, завершивших процесс обслуживания в данный
период (Обслуженные);
    количество касс, работающих в течение данного периода (Кассы).
 
Данные собраны в файле ОБСЛУЖИВАНИЕ.XLS. (шаблон, решение). Данные
также содержат временные характеристики, а именно:
    день недели (День);
    время начала каждого периода (Начальное время);
    названия определенных периодов дня (Период): Утренний пик (6.00 –
9.00), Утро (9.00 – 11.30), Предобеденый пик (11.30 – 13.30), День (13.30 –
16.30), Дневной пик (16.30 – 18.30, Вечер (18.30 – 23.00), Ночь (23.00 – 6.00).
 
Кроме этого, в данных содержится некоторая вычисляемая переменная, а
именно  количество покупателей, находящихся в очереди на конец данного периода
(Оставшиеся). Как нетрудно заметить, Оставшиеся = Ожидавшие первоначально +
Прибывшие – Обслуженные. Фрагмент данных приведен на рис. 48.
 

 
Рис. 48. Фрагмент данных собранных в супермаркете
 
Менеджер компании намеревается проанализировать имеющиеся данные и
выявить определенные тенденции наблюдаемых показателей в зависимости от
времени дня и дня недели. Кроме этого, он планирует оценить обоснованность
алгоритма, по которым открываются и закрываются кассы супермаркета в течение
дня. Конечно, ему хотелось бы найти «наилучший» алгоритм открытия и закрытия
касс, но эта задача в данный момент нами не рассматривается.
 
Решение:
Поскольку в данной ситуации время является весьма существенным фактором,
имеет смысл начать исследование с построения временных рядов некоторых
показателей. На рис. 50 изображены временные ряды для переменных Ожидавшие
первоначально (нижняя линия) и переменной Прибывшие (верхняя линия),
построенные за недельный период. На экране монитора они выделены различными
цветами. Анализируя данные временные ряды можно прийти к следующим выводам:
    наиболее загруженными днями являются пятница и суббота (наиболее
высокие участки графика по переменной Прибывшие;
    графики переменой Прибывшие в будние дни и в выходные несколько
различаются, во втором случае он более широкий;
    в будние дни довольно четко выделяются пиковые периоды прихода
покупателей, а в выходные дни приход более равномерный в течение дня.
 

 
Рис. 49. Временные ряды для переменных Ожидавшие первоначально и Прибывшие
 
На  рис. 50. изображены временные ряды для
переменных Прибывшие и Обслуженные. Трудно различить графики данных
временных рядов. Это означает, что в основном магазин обслуживает столько
покупателей, сколько их приходит.
 
 
Рис. 50. Временные ряды для переменных  Прибывшие и Обслуженные
 
Для дальнейших исследований целесообразно использовать сводные таблицы,
сочетая их для наглядности с графическим изображением. Фрагмент одной из таких
сводных таблиц с соответствующим графическим изображением представлен на рис.
51.
 

 
Рис. 51. Распределение переменной Ожидавшие первоначально в течение дня
(понедельник)
 
Для создания данной сводной таблицы, мы размещаем переменную Ожидавшие
первоначально в области Элементы данных, выбирая при этом опцию
представления данныхСреднее значение, переменную Начальное время размещаем
в области  Поля строк, а переменную День указываем в области Поля страниц.
Используя возможность группировки, мы могли бы рассмотреть более агрегированные
временные интервалы (попробуйте самостоятельно). Кроме этого, используя
информацию из сводной таблицы, мы строим временной ряд, показывающий среднюю
длину кассовых очередей в течение суток. Используя опцию Поля страниц, мы имеем
возможность просмотреть данный временной ряд для каждого дня недели и сравнить
их.
Аналогичным образом создаем сводную таблицу для исследования среднего
количества покупателей, прибывающих в течение получаса в различные временные
периоды суток. Для этого переменную Прибывшие помещаем а область Элементы
данных, выбирая при этом опцию представления данных Среднее значение,
переменную Период размещаем в области  Поля строк, а переменную Дни указываем
в области Поля страниц.   Используя данные из сводной таблицы, строится
соответствующая гистограмма для каждого дня недели. Как и в предыдущем случае,
используя опцию Поля страниц, мы получаем возможность просмотреть данный
временной ряд для каждого дня недели и сравнить их. Результаты сводной таблицы и
гистограмма для пятницы приведены на рис. 52 и 53 соответственно.
 

 
Рис. 52. Распределение клиентов по периодам дня (пятница)
 
 
Рис. 53. Гистограмма распределения клиентов по периодам дня (пятница)
 
Для того, чтобы периоды в сводной таблице следовали в хронологическом
порядке необходимо предварительно сформировать соответствующий список в
программе Excel, используя Сервис/Параметры/Список.
Можно заметить, что гистограмма для пятницы несколько отличается от
гистограмм для других рабочих дней недели
Менеджер компании хочет оценить "правильность" того количества касс,
которые работают в магазине в течение суток в различные дни недели. Для
прояснения данного вопроса  построим диаграмму рассеивания между количеством
касс (Кассы) и переменной Всего = Ожидавшие первоначально  + Прибывшие. Эта
переменная показывает объем имеющейся работы для касс в каждые полчаса. Данная
диаграмма рассеивания показана на рис. 54. Как мы видим, между этими величинами
просматривается сильная положительная зависимость. Это говорит о том, что
менеджер действует в целом правильно, когда увеличивается нагрузка на кассы,
менеджер увеличивает их количество.
 
Рис. 54. Диаграмма рассеивания для переменных Кассы и Всего
 
Далее рассмотрим диаграмму рассеивания для
переменных Кассы и Оставшиеся. Данная диаграмма изображена на рис. 55.
 

 
Рис. 55. Диаграмма рассеивания для переменных Кассы и Оставшиеся
 
Как и в предыдущем случае, просматривается явная положительная
зависимость, то есть периоды, на начало  которых в очередях остается много людей,
как правило, имеют большое количество работающих касс. Однако в этом случае мы
видим, что хотя менеджер в целом, верно, реагирует на рост очередей, однако эта
реакция недостаточная.
Возникает желание, внося изменения в количество открытых касс, добиться
лучшей их связи с рассмотренными показателями. Однако здесь необходимо
учитывать, по крайней мере, два обстоятельства.
Во-первых, изменение параметра Кассы повлечет изменение
параметров Обслуженные, Ожидавшие первоначально, Оставшиеся. Эти
изменения достаточно сложны для оценки (математическая теория очередей).
Во-вторых, увеличение количества открытых касс влечет за собой
дополнительные расходы кассиров, а следовательно, менеджер должен решать задачу
выбора между дополнительными расходами на оплату работы кассиров и потерями,
которые вызывают длинные очереди. Эта задача весьма сложная.
Рассмотренный нами инструментарий, состоящий из встроенных
функций Excel и возможностей расширения StatPro, позволяет извлекать первичную
информацию, «спрятанную» в данных за считанные минуты.
 
Кейс к разделу:
 
«Сбережения, затраты и восхождение по социальной лестнице»
 
Бестселлер "Миллионер за соседней дверью" Томаса Стенли и Вильяма Данко,
вышедший в 1996 году, приводит интересные данные о некоторых характеристиках
миллионеров. Мы имеем обыкновение считать, что люди имеющие дорогие дома,
дорогие машины, дорогую одежду, членство в загородных клубах и другие внешние
признаки благосостояния   являются миллионерами. Авторы, однако, определяют
благосостояние с точки зрения сбережений и инвестиций, а не с точки зрения
потребления. С этой точки зрения они утверждают, что люди, имеющие много
дорогих вещей и даже зачастую большие доходы, очень часто имеют очень низкий
уровень благосостояния.  Эти люди имеют обыкновение расходовать большую часть
своих доходов на предметы потребления, стараясь не отстать или произвести
впечатление на свое окружение. Напротив, настоящие  миллионеры, с точки зрения
сбережений и инвестиций, часто происходящие из людей не престижных профессий
(особенно учителя), имеют не претенциозные дома и машины, носят недорогую 
одежду, и напротив ведут довольно обычную жизнь.
Исследуйте данные в файле ЗАДАНИЕ_7.XLS (шаблон, решение). Для
нескольких сотен пар приведены данные об их уровне образования, из совместном
годовом доходе, о рыночной стоимости их дома и автомобиля, собранных ими
сбережениях (суммы на счетах, акции, пенсионные накопления и так далее), а также
лично объявляемый "социальный индекс" от 1 до 10, где 1 означает крайнее
безразличие к социальному статусу и материальным позициям, а 10 означает наоборот
придание этому крайне большого значения. Подготовьте сообщение на основе
приведенных данных, подкрепленное соответствующими диаграммами и таблицами.
Ваши выводы могут, как совпадать с мнением авторов, так и противоречить их
позиции.
 
Литература:
1. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ
статистических данных и восстановление скрытых закономерностей, -СПб.: ООО
"ДиаСофтЮП", 2002. – 608 с.
2. Дюк В., Самойленко А. Data Mining: Учебный курс. - Питер, 2001. - 367с.
3. Clare Morris. Quantitative Approach in Business Studies, Pitman.
4. Сигел Эндрю. Практическая бизнес-статистика. - М. Издательский дом
"Вильямс", 2002. - 1056 с.
5. Символоков Л.В. Решение бизнес-задач в Microsoft Office. - М.: "Изд.
БИНОМ", 2001 г. - 512 с.
 
Раздел II. Количественные методы оценки вероятности
 
Тема 4. Вероятность и распределения вероятностей
 
Цели обучения:
Практически все экономические переменные связаны с неопределенностью,
например, объемы спроса, время между приходом покупателей в супермаркет,
рыночные стоимости акций, котировки валют  и так далее. В математической
статистике и теории вероятностей такие величины называются случайными
переменными. Полный набор вероятностей всех значений называется  распределением
вероятностей.
Цель данной темы представить все основные понятия, связанные с
вероятностью, а также инструменты для работы с распределениями вероятностей и их
обобщающими показателями, к которым относятся: математическое ожидание,
дисперсия, стандартное отклонение, ковариация, корреляция. В предыдущем разделе
мы приводили их выборочные аналоги.
 
Содержание темы:
Вопрос 1. Понятие о вероятности.
Вопрос 2. Распределение одной случайной величины.
Вопрос 3. Субъективные и объективные вероятности.
Вопрос 4. Производные вероятностные распределения.
Вопрос 5. Распределение двух случайных величин по сценарному типу.
Вопрос 6. Общий случай распределение двух случайных величин.
Вопрос 7. Независимые случайные величины.
Вопрос 8. Взвешенные суммы случайных величин.
 
Вопрос 1. Понятие о вероятности.
 
Вероятность некоторого события имеет значение от 0 до 1 и означает степень
ожидания данного события. "0" - событие точно не произойдет, "1" - событие точно
произойдет.
 
Правило дополнения.
Пусть  некоторое событие,  - событие, состоящее в том, что событие  не
произойдет. Тогда правило дополнения состоит в том, что:
 

 
Аддитивное правило вероятности.
Назовем события взаимно исключающими, если одновременно может состояться
не более одного из этих событий. Назовем набор взаимно исключающих
событий полным, если одно из них обязательно должно произойти. Если
события   взаимно исключающие, то справедливо следующее правило, которое и
называется аддитивным правилом или правилом сложения:
 

 
Если набор событий является полным, то эта вероятность равна 1.
 
Условная вероятность и мультипликативное правило.
Вероятность зависит от имеющейся информации. Условная вероятность -
формальный способ отображение этой зависимости. Пусть Р(А) и Р(В) вероятности
событий А и В. Если нам уже известно, что событие В произошло, тогда логично
предположить, что вероятность события А в этом случае может измениться. Эта
измененная вероятность называетсяусловной вероятностью и обозначается как Р (А|
В). Тогда правило условной вероятности записывается в виде:
 

 
Иногда удобно использовать производное правило, которое
называется мультипликативным правилом, или правилом умножения:
 
Р (А и В)=Р(А|В) Р(В)
 
Пример.
Компания «Строймонтаж» занимается поставками стройматериалов. Компания
имеет контракт с одним из клиентов со сроком до конца июля. Однако выполнение
этого срока зависит от того, получит ли компания необходимые материалы от одного
из своих поставщиков до середины июля. Сейчас 1-е июля. Как можно количественно
оценить неопределенность в данной ситуации?
 
Решение:
Пусть событие А состоит в том, что компания «Строймонтаж» выполняет
контракт к концу июля, а событие В состоит в том, что она получает материалы от
поставщика к середине июля. В начале июля компания оценивает вероятность
события В как 2/3, то есть Р(В)=2/3. Кроме этого, компания оценивает вероятность Р
(А|В)=3/4.
 
Р (А и В) = Р(А|В)Р(В) = (3/4)(2/3) = 0,5.
 
Вычислим некоторые другие вероятности в этой задаче.
 
Р( ) = 1 – Р(В) = 1/3.
 
Пусть компания «Строймонтаж» оценивает вероятность Р(А| ) = 1/5, тогда:
 
Р(А и  ) = Р(А| ) Р( )= (1/5)(1/3) = 0,0667.
 
Далее вычислим итоговую вероятность того, что контракт будет выполнен в
срок.
 
Р(А) = Р(А и В) + Р(А и  ) = 1/2 +1/15 = 0,5667.
 
Вероятностная независимость.
С понятием условной вероятности тесно связано понятие вероятностной
независимости. Это означает, что вероятность одного события никак не связано с
вероятностью другого. В этом случае выполняется соотношение:
 
Р(А и В) = Р(А) Р( В)
 
Часто независимость событий определяется исходя из эмпирических данных.
Пример с событиями: "первым в семье рождается мальчик" и "вторым в семье
рождается мальчик".
 
Равновероятные события.
Часто понятия теории вероятности демонстрируются на
примере равновероятных событий: бросание монеты, игральные кости, рулетка, урны
с шарами. Однако реальные случайные исходы редко бывают равновероятными,
например, различные сценарии развития компании.
 
Вопрос 2. Распределение одной случайной величины.
 
Существуют два типа случайных величин: дискретные (конечное число
значений) и непрерывные (бесконечное число значений). Вычисление обобщающих
характеристик для непрерывных случайных величин требует определенной
математической техники. Пусть дискретная случайная величина может принимать k
значений  с вероятностями  . Тогда требования к вероятностям
можно выразить как:
 

 
Вычисляются следующие обобщающие показатели.
 
Математическое ожидание, которое часто обозначают как  :
 

 
Для определения меры разброса значений вычисляют дисперсию и стандартное
отклонение:
 
 
Пример.
Инвестор вкладывает деньги в некоторый финансовый инструмент сроком на
один год и ожидает некоторый процент дохода (или убытков) в предстоящем году от
данного вложения. Он полагает, что возможны пять общих сценариев развития
национальной экономики в предстоящем году: быстрый рост, умеренный рост,
отсутствие роста, умеренный спад и резкий спад. Далее из всей имеющейся
информации удалось сделать предположение, что ожидаемые уровни доходов
соответственно равны 0,23; 0,18; 0,15; 0,09 и 0,03, то есть доход колеблется от 23 до
3%. Кроме этого удалось оценить вероятности этих сценариев: 0,12; 0,40; 0,25; 0,15 и
0,08. Используя данную информацию, вычислим математическое ожидание и
стандартное отклонение для ожидаемого дохода инвестора в предстоящем году.
 
Решение:
Обозначим случайную величину "уровень доходов предстоящего года"
как X. Каждое значение этой случайной величины соответствует определенному
сценарию. Так,  и  (см. файл ДОХОД.XLS (шаблон, решение).
Основной рабочий лист модели представлен на рис. 56.
 

 
Рис. 56. Вычисление характеристик для доходности
 
Далее построим вычисления по следующему плану.
   Среднеожидаемый доход (=СУММПРОИЗВ (Доходности; Вероятности));
   Квадраты отклонений (=(С4-МатОжидание)^2);
   Дисперсия (=СУММПРОИЗВ (КвОтклонений; Вероятности));
   Стандартное отклонение (=КОРЕНЬ (Дисперсия)).
 
Математическое ожидание в данном случае подразумевает усредненную
величину, как если бы ситуация повторялась бы много раз.
 
Вопрос 3. Субъективные и объективные вероятности.
 
Откуда появляются вероятности событий? В частности, вероятности из
предыдущего примера. Можно говорить об объективных и субъективных
вероятностях.
Так, вероятности, связанные с бросанием монеты, игральных костей или
вращением рулетки можно отнести к категории объективных. Они либо вычисляются
(если монеты, кости, рулетка идеальные), или получаются многократным повтором
ситуации и усреднением результата.
Напротив вероятности, связанные с экономическими явлениями, не допускают
использования данной методики (оцениваемая ситуация может быть уникальной). В
этом случае опираются на ожидания экспертов или на некоторые аналогии из
прошлого опыта. Такие вероятности принято относить к категории субъективных.
Поскольку мнения экспертов могут сильно расходиться, могут расходиться и
конечные результаты. Именно поэтому отдельно исследуют вопрос о зависимости
результатов от начальных данных (анализ чувствительности). Примеры анализа
чувствительности будут рассмотрены в части 3.
 
Вопрос 4. Производные вероятностные распределения.
 
Довольно часто возникает ситуация, когда необходимо, зная распределение
некоторой случайной величины X, построить распределение или вычислить
обобщающие характеристики некоторой случайной величины Y,
являющейся функцией от X. Рассмотрим конкретный пример.
 
Пример.
Книжный магазин планирует заказать партию Рождественских календарей.
Планируется их продажа по цене 15 руб. за экземпляр. Есть возможность сделать
только один заказ. Если спрос окажется меньше, чем заказанное количество, остаток
партии придется сдать во вторичную переработку (так как она уже практически не
реализуема). Если наоборот, то часть потенциальных покупателей будет безвозвратно
потеряна. Магазин оценивает спрос в пределах от 250 до 400 экземпляров. Опираясь
на мнения ряда экспертов и опыт аналогичных рождественских акций предыдущих
лет, магазин оценивает распределение спроса следующим образом (B10:C16) (см.
файл КАЛЕНДАРИ.XLS (шаблон, решение). Если магазин закажет 350 экземпляров,
какова вероятность, что они будут распроданы? Каков в этом случае
среднеожидаемый доход?
 
Решение:
 
 
Рис. 57. Расчетная модель
 
Пусть D - спрос, S - количество проданных календарей, R - доход. План решения
задачи следующий:
    определим количество проданных календарей с помощью
функции =МИН(B10; Имеется), поместив ее в ячейках В20-В26;
    вычислим доход по формуле =Цена*B20, поместив ее в ячейках С20-С26;
    определим вероятности по формуле =С10, поместив ее в ячейке D20 и
скопировав ее в  D20 - D26;
    вычислим средние ожидаемые значения для спроса, количества проданных
календарей и дохода по формуле (для дохода) =СУММПРОИЗВ(Выручка;
Вероятности);
    вычислим дисперсии и стандартные отклонения для спроса, количества
проданных календарей и дохода.
 
Результаты вычислений представлены на рис. 57.
 
Замечание. Вероятность продажи 350 есть сумма 0,25+0,15+0,10=0,50.
 
Логическим продолжением исследования данной модели является рассмотрение
значений выходных характеристик при различных объемах заказа. Такой анализ
можно сделать с помощью таблицы подстановки, которая описывается в следующем
примере. Рассматривая две основные характеристики - ожидаемый доход и
стандартное отклонение дохода, можно построить следующие зависимости от размера
заказа (рис. 58.).
 
 
Рис. 58. Зависимость ожидаемого дохода и стандартного отклонения от размера
заказа
 
Однако данная модель не учитывает ряд важных обстоятельств. Так, например,
не учитывается возможный эффект уменьшения цены с ростом размера заказа, затраты
связанные со стоимостью транспортировки, хранения, замораживания определенных
финансовых вложений в товаре и так далее.
В заключение данного параграфа рассмотрим случай, когда производная
случайная величина задается линейной функцией от заданной. Приведем явные
формулы вычисления обобщающих показателей для линейной функции.
Пусть  , тогда:
 

 
Вопрос 5. Распределение двух случайных величин по сценарному типу.
 
Под сценарным типом распределения двух случайных величин будем понимать
ситуацию, когда значения, принимаемые случайными величинами, жестко связаны
(соответствуют некоторым сценариям).
Рассмотрим два обобщающих показателя - ковариацию и корреляцию, которые
отражают степень линейной зависимости двух случайных величин. Ранее приводили
формулы для выборочной ковариации и корреляции. Ниже приведены точные
формулы для сценарного подхода:
 

 
          где  - совместная вероятность. Обратите внимание, что именно в силу
сценарного типа распределения в формулах присутствует только один индекс,
соответствующий номеру сценария.
 
Как мы уже отмечали в части 1 коэффициент корреляции всегда заключен в
пределах от –1 до 1, то есть:
 
.
 
Следующий пример демонстрирует сценарный тип распределения.
 
Пример.
Инвестор планирует сделать инвестиции в акции некоторой компании и в
золото. Он полагает, что доходности этих инвестиций в предстоящем году зависят от
общего состояния экономики. Для упрощения ситуации он рассматривает четыре
возможных сценария: депрессия, легкий спад, нормальное состояние и бум.
Анализируя имеющуюся информацию, он полагает вероятности этих сценариев
равными 0,05; 0,30; 0,50; 0,15. Для каждого состояния экономики он оценивает
доходность по акциям и по золоту (см. файл АКЦИИ-ЗОЛОТО.XLS (шаблон,
решение). Например, в случае состояния депрессии инвестор прогнозирует падение
курса акций на 20% и рост цены на золото на 5%.Инвестор хочет исследовать
совместное распределение доходности по этим двум видам инвестиций. Он также
хочет проанализировать распределение в портфеле по этим видам инвестиций.
 
Решение:
Возможны только четыре сочетания доходностей по акциям и золоту, которые
определяются четырьмя сценариями развития экономики. Далее отдельно вычисляем
средние значение, дисперсию и стандартное отклонение для доходов по акциям и
золоту с помощью известной функции. Например, среднеожидаемое значение дохода
от 1 рубля, вложенного в акции, вычисляется
как: =СУММПРОИЗВ(АкцДоходн;Вероятности).
Общий вид модели представлен на рис. 59.
 
 
Рис. 59. Вычисление параметров доходностей по акциям и золоту
 
Далее выполним следующие шаги:
    вычислим ожидаемые отклонения от среднего по формуле С5-АкцСредн и
разместим результаты в ячейках В15 - В18, используя копирование ячеек;
    вычислим ковариацию для доходностей по акциям и золоту, используя
функцию СУММПРОИЗВ(АкцОткл; ЗлОткл; Вероятности);
    вычислим коэффициент корреляции по
формуле Ковар/(АкцСтОткл*ЗлСтОткл).
 
Отрицательный знак коэффициента корреляции означает, что доходности по
акциям и золоту имеют, в некоторой мере, противоположные тенденции.
Далее нам необходимо исследовать распределение средств между акциями и
золотом. Предположим, что инвестируется 10 000 руб. Предположим, что часть
средств (ячейка В6) инвестируется в акции, а остальная в золото (см. рис. 60.).
Поскольку сценариев только 4, возможных доходностей тоже 4, например:
 
Доходность для легкого спада = 0,6*0,10 + 0,4*0,20 = 0,14.
 
Таким образом, мы можем вычислить распределение доходностей портфеля (см.
файл АКЦИИ-ЗОЛОТО.XLS (шаблон, решение).
 
 
Рис. 60. Зависимость параметров портфеля  от долей вложений
 
Интересно проследить зависимость между доходностью портфеля и
стандартным отклонением этой доходности от доли вложений в акции. Для этого
разместим формулы =С18 и=С20 в ячейки В24 и С24, сформируем массив значений
параметра, например, с шагом 0,1, выделим массив А24:С35, выберем
команду Данные / Таблица подстановки … и  введем ячейку В6, как ячейку
заполнения Подставлять значение по строкам. В результате мы получим таблицу
соответствующих значений ожидаемых доходностей портфеля и их стандартные
отклонения (см. рис. 60).
Далее воспользовавшись Мастером диаграмм, отобразим, полученные
результаты графически (см. рис. 61.).
 

 
Рис. 61. Зависимость ожидаемого дохода портфеля и стандартного отклонения
дохода от доли вложения в акции
 
График полученной зависимости показывает, что доходность портфеля
постоянно растет с ростом доли акций в портфеле, однако, стандартное отклонение
(которое часто используется в качестве меры риска) первоначально убывает, а потом
(после доли 0,4)  возрастает. Следовательно, можно утверждать, что, по крайней мере,
40% акций иметь в портфеле целесообразно. Вопрос о целесообразности большей
доли решается более сложными методами, выходящими за рамки данной темы. Как
мы видим из полученных результатов, существует баланс между доходностью и
риском.
 
Вопрос 6. Общий случай распределение двух случайных величин.
 
В предыдущем разделе рассматривали две случайные величины,
распределенные по сценарному типу. В данном случае рассматриваем всевозможные
пары (x, y) значений двух случайных величин X и Y. Фиксируя какое-либо
значение x или y, можем строить распределение условной вероятности для другой
случайной величины.
Приведем точные формулы для теоретической ковариации и корреляции в
общем случае:
 

 
          где  - совместная вероятность, то есть вероятность события, что
случайные величины примут одновременно свое i-ое и j-ое значение соответственно.
 
Пример.
Компания реализует два вида продукции, являющиеся взаимозаменяемыми.
Некоторые покупатели предпочитают продукт первого вида, а некоторые второго.
Компания располагает данными по вероятностям спроса товарам обоих видов (см.
файл СОВМЕСТНЫЙ СПРОС.XLS (шаблон, решение). Используя данную
информацию, представим более полную вероятностную информацию о спросе на оба
вида продукции.
 
Решение:
Таблица исходных совместных вероятностей представлена на рис. 62.
Обозначим величины спросов на данные виды продукции как
Сначала вычислим маргинальные вероятности по каждому из продуктов, то есть
вероятности значений каждого из спросов. Для этого просуммируем столбцы и строки
(см. рис. 62.)
 
 
Рис. 62. Вычисление маргинальных вероятностей
 
Однако полученные маргинальные распределения никак не отражают
взаимосвязь между спросами на эти два вида продукции. Эта взаимосвязь в принципе
видна из таблицы совместных вероятностей, но ее не достаточно удобно
интерпретировать. Поэтому вычислим таблицы условных вероятностей по каждому
виду продукции.
Сначала вычислим условные вероятности для спросов на первый продукт при
фиксированных спросах на второй (строки 15 – 19) (см. рис. 63.). Приведем пример
расчета:
 

 
Эти условные вероятности вычисляются одновременно по формуле =С5/$G5,
которая помещается в ячейку С15 и распространяется на массив С15:F19.
Аналогично вычислим условные вероятности для спросов на второй продукт
при фиксированных спросах на первый (строки 21 – 29) (см. рис. 63.). Эти условные
вероятности вычисляются одновременно по формуле =С5/С$10, которая помещается в
ячейку С24 и распространяется на массив С24:F28.
 
 
Рис. 63. Условные вероятности по каждому виду продукции
 
Кроме этого, может быть вычислен ряд обобщающих характеристик (см. рис.
64.).
Математические ожидания по каждому из спросов вычисляются по
маргинальным распределениям в ячейках В32 и С32 с помощью
формул=СУММПРОИЗВ(Спрос1;Вероятн1), 
=СУММПРОИЗВ(Спрос2;Вероятн2).
Дисперсии и стандартные отклонения спросов вычислим следующим образом.
Например, для нахождения характеристик по продукту 1 сделаем следующее: введем
формулу =(С4-СреднСп1)^2 в ячейку С36 и скопируем ее до ячейки F36. Далее введем
в ячейку В44 формулу =СУММРОИЗВ(КвОтклСп1;Вероятн1) и извлечем из нее
квадратный корень в ячейке В45.
Ковариации и корреляции спросов. Сначала рассчитаем отклонения от среднего.
Для этого в ячейку С37 введем формулу =(С$4-СреднСп1)*($B5-СреднСп2) и
скопируем ее в массив С37:F41. Затем  вычислим ковариацию в ячейке В47 с
помощью формулы =СУММПРОИЗВ(ПроизвОтклСп;СовмВер).
Далее рассчитаем коэффициент корреляции в ячейке В48 по
формуле =КоварСп/(СтандСп1*СтандСп2).
 
 
Рис. 64. Вычисления обобщающих характеристик для спросов
 
Если нас интересуют зависимости между спросами на эти два вида продукции,
то имеет смысл  отобразить эти зависимости графически, используя
возможности Мастера диаграмм (см. рис. 65 и 66).

 
Рис. 65. Графики вероятностей  для различных значений спроса на продукт 1 при
различных фиксированных спросах на продукт 2

 
Рис. 66. Графики вероятностей для различных значений спроса на продукт  2 при
различных фиксированных спросах на продукт 1
 
Вопрос 7. Независимые случайные величины.
 
Важным частным случаем совместных распределений случайных величин
является случай, когда случайные величины являются независимыми. Как правило, на
практике хотя бы слабая зависимость есть, но иногда мы можем сделать
предположение о независимости с целью облегчения анализа. В этом случае
выполняется соотношение Р(X=x и Y=y) =P(X=x)*P(Y=y).
 
Пример.
Дистрибьютер запасных частей постоянно следит за уровнем запасов по каждой
позиции в конце каждой недели. Если количество деталей определенного вида
опускается до или ниже определенного уровня, называемого уровнем дозаказа, то
дистрибьютер включает данную позицию в заказ. Заказываемое количество является
постоянной величиной, называемойколичеством дозаказа. Мы делаем несколько
предположений:
1) если товар заказан в конце недели, то он поступает в начале следующей;
2) если потребительский спрос в течение недели превышает запасы на начало
недели, то происходит потери возможных продаж из-за того, что не отслеживается
постоянно потребительский спрос;
3) потребительский спрос на определенную деталь в различные недели 
являются независимыми случайными переменными;
4) маргинальное распределение недельного спроса на запчасть определенного
вида одинаково в каждую неделю.
 
Менеджер предприятия оценил возможные значения недельного спроса на
запчасть и вероятности этих значений  (см. файл ЗАПАС.XLS (шаблон, решение). Он
хочет оценить ожидаемые доходы за первые две недели по определенному виду
деталей,  предполагая, что в начале первой недели их было 250. Значения уровня
дозаказа и количества дозаказа предполагаются заданными (см. рис. 67.).
 
Решение:
 
Исходные данные задачи представлены на рис. 67.
 
 
Рис. 67. Предположения и входные параметры
 
Построим совместное распределение спроса по первой и второй недели. Для
этого помещаем  в ячейку С21 формулу = ПРОСМОТР(C$20;РаспрТабл)*
ПРОСМОТР($B21;РаспрТабл) и копируем ее в массив С21:G25. Для проверки
находим суммы по столбцам и строкам (маргинальные распределения). Совпадают
с Е12:Е16.
Далее вычислим ожидаемый доход в первую неделю. Для этого поместим в
ячейку С30 формулу =Цена*МИН(C29;НачЗап) и скопируем ее по ряду 30.
Для вычисления ожидаемого дохода разместим в
ячейке В32 формулу =СУММПРОИЗВ(Доход1;Вероятн1).
Основной лист модели представлен на рисунке 68.
Теперь вычислим ожидаемый доход второй недели. Очевидно, что он зависит от
результатов первой недели. Введем дополнительные обозначения:
I - запас на начало первой недели;
D - спрос первой недели;
RP - уровень дозаказа.
 
 
Рис. 68. Вычисление ожидаемых доходов по неделям
 
Тогда возможен в точности один из случаев:
    если I – D  0, то запас на конец недели равен 0 и на начало следующей
поступает стандартный дозаказ в размере 400;
    eсли 0 < I – D  RP, то на начало следующей недели будет I – D + 400;
    если I – D > RP, то на начало следующей недели будет I – D.
 
Исходя из этих соображений, вычислим доход второй недели для всех
возможных вариантов. Для этого разместим в
ячейке С37 формулу =Цена*МИН($B37; ЕСЛИ(НачЗап-C$36<=0; КолДозак;
ЕСЛИ(НачЗап-C$36<=УровДозак; НачЗап-C$36+КолДозак; НачЗап-C$36))) и
скопируем ее в массив С37:G41. Для вычисления ожидаемого дохода второй недели
разместим в ячейке В43 формулу =СУММПРОИЗВ(Доход2;СовмВер).
Теперь мы можем исследовать зависимость ожидаемых доходов от входных
параметров (а не назначать их вслепую)! Для этого используем инструмент Таблица
подстановки…, описанный в примере из параграфа 3.5. Однако в отличие от
предыдущего примера мы используем этот инструмент для анализа зависимости
доходов сразу от двух параметров - уровня дозаказа и количества дозаказа. Значения
этих параметров мы размещаем в
ячейках А53:А57 и B52:H52 соответственно. Полученная таблица подстановки
представлена на рис. 69.
 
2519 100 150 200 250 300 350 400
0 1573 1719 1865 1971 2076 2141 2206
50 1691 1894 2081 2227 2358 2448 2519
100 1691 1894 2081 2227 2358 2448 2519
150 1730 1949 2146 2302 2435 2528 2599
200 1730 1949 2146 2302 2435 2528 2599
 
Рис. 69. Таблица подстановки по двум параметрам
 
Далее, используя Мастер диаграмм, можно построить трехмерную диаграмму
полученных зависимостей (см. рис. 70.).
 

 
Рис. 70. Диаграмма ожидаемого дохода за две недели
 
Следует отметить, что данный пример, как и большинство наших примеров не
являются реальными моделями бизнеса, а являются лишь упрощенными прообразами
таких моделей. Совершенно очевидно, что данная модель не учитывает ряд важных
обстоятельств. Так, например, не учитывается возможный эффект уменьшения цены с
ростом размера заказа, затраты связанные со стоимостью транспортировки, хранения,
замораживания определенных финансовых вложений в товаре, динамическое
изменение спроса, более продолжительные периоды функционирования, риски,
связанные с недопоставками или отклонениями в сроках поставок и так далее.
Попытка рассмотрения моделей с учетом вышеперечисленных факторов потребовал
бы привлечения дополнительного математического и программного инструментария и
вывела бы нас за рамки данного учебника. Несколько более усложненные модели
управления запасами будут рассмотрены в дисциплине "Моделирование и
количественный анализ в менеджменте".
 
Вопрос 8. Взвешенные суммы случайных величин.
 
Под взвешенной суммой случайных величин понимается сумма данных величин
умноженных на числовые множители (веса). Такие взвешенные суммы, например,
часто встречаются в задачах из сферы финансов. Определим некоторые понятия.
Пусть  случайные величины (зависимые или независимые), а 
константы. Тогда новая случайная величина Y записывается следующим образом:
 

 
Математическое ожидание вычисляется как:
 

 
Дисперсия в случае независимых случайных величин определяется из
соотношения:
 

=
 
Дисперсия в случае зависимых случайных величин определяется как:
 

= +
 
Пример.
Инвестор предполагает инвестировать 100 000 руб. в портфель из восьми акций.
Имеется накопленная информация о значениях обобщающих характеристик -
математические ожидания доходностей, стандартные отклонения и матрица парных
корреляций отдельно по всем видам акций (см. файл ПОРТФЕЛЬ
ИНВЕСТОРА.XLS (шаблон, решение). Рассчитаем обобщающие характеристики
портфеля, указанного в строке 9 (см. рис. 71.).
 
Решение:
В данной задаче в качестве весов берутся количества денег, инвестируемые в
акции данного вида, а в качестве случайной величины рассматривается доход с одного
доллара, вложенного в акции данного вида.
 

 
Рис. 71. Исходные данные по акциям
 
Рассчитываем математическое ожидание доходности портфеля в
ячейке В49 по формуле =СУММПРОИЗВ(Веса; Средние) (см. рис. 71).
Для расчета дисперсии необходимо учесть, что:
 
,
.
 
Удобно первоначально создать колонку стандартных отклонений, используя
функцию ТРАНСП (TRANSPOSE). Для этого выделим ячейки H49:H56, введем
формулу=ТРАНСП(СтОткл) и одновременно нажмем клавиши Ctrl-Shift-Enter.
Далее построим таблицу вариаций и ковариаций. Для этого введем в
ячейку В28 формулу =$H49*B$13*B17 и скопируем ее в массив В28:I35. По
диагонали массива стоят вариации.
И, наконец, вычислим дисперсию доходности портфеля в ячейке В50. Выполним
ряд шагов.
Сформируем ряд весов. В ячейку В38 поместим формулу =Веса, выделим
массив В38:I38 и нажмем одновременно комбинацию клавиш Ctrl-Shift-Enter.
Сформируем колонку весов. В ячейку А39 поместим
формулу =ТРАНСП(Веса) и нажмем одновременно комбинацию клавиш Ctrl-Shift-
Enter.
Сформируем таблицу элементов. В ячейку В39 введем
формулу =$A39*B28*B$38 и скопируем ее по массиву В39:I46.
Вычислим дисперсию и стандартное отклонение. Введем в
ячейку В50 формулу =СУММ(Элементы), а в ячейку В51 введем корень квадратный
из этой величины.
Результаты вычислений представлены на рис. 72.
 

 
Рис. 72. Расчет параметров портфеля
 
Можно вводить различные структуры портфеля и исследовать зависимость
между уровнем доходности и риском. В частности, используя методы оптимизации,
которые будут представлены в части 3, можно решать следующие задачи.
Задача 1. Определить структуру портфеля, обеспечивающую максимально
возможную ожидаемую доходность, при заданном ограничении на степень риска
(ограничение сверху на стандартное отклонение ожидаемой доходности).
 
Задача 2. Определить структуру портфеля, обладающего минимальной
степенью риска (минимальное значение стандартного отклонения ожидаемой
доходности) и обеспечивающую  ожидаемую доходность не ниже заданной.
 
В данной теме мы познакомились с основными понятиями теории вероятностей
(вероятностная независимость, условная вероятность, совместная вероятность,
аддитивное и мультипликативное правило теории вероятностей) и  обобщенными
характеристиками случайных величин (математическое ожидание, дисперсия,
стандартное отклонение). Мы также рассмотрели примеры простейших вероятностных
моделей, охватывающие наиболее часто встречаемые случаи – распределение
сценарного типа, совместная вероятность, независимые случайные величины. Как
было показано в вышеприведенных примерах, данные модели, построенные на основе
вероятностной информации, позволяют производить количественный анализ
эффективности принимаемых решений.
 
Тема 5. Нормальные, биномиальные и Пуассоновские распределения
 
Цели обучения:
В предыдущей главе мы рассматривали только  дискретные случайные
величины. В данной главе рассматривается понятие непрерывной случайной
величины, а также несколько конкретных распределений. Нормальное – непрерывное
распределение и два дискретных – биномиальное и распределение Пуассона. Приведем
некоторые свойства и примеры применения.  В результате освоения материала данной
темы вы сможете:
    понимать технику работы с непрерывными случайными величинами;
    идентифицировать ситуации, адекватно моделируемые данными тремя
распределениями или их комбинациями;
    познакомитесь с возможностями Excel для работы с этими распределениями.
 
Содержание темы:
1. Нормальное распределение.
2. Применение нормального распределения.
3. Биномиальное распределение.
4. Применение биномиального распределения.
5. Распределение Пуассона.
6. Подбор закона распределения по имеющимся данным.
 
Вопрос 1. Нормальное распределение.
 
Это непрерывное симметричное распределение, которое определяется двумя
параметрами – математическим ожиданием (положение вершины) и дисперсией
(высота пика).
 
Непрерывные распределения и функции плотности распределения
вероятностей.
Для непрерывных распределений вводится понятие функции плотности
распределения вероятностей, которое основывается на той же идеи, что и
гистограмма, а именно чем выше проходит функция, тем плотнее распределяются
значения случайной величины на данном участке.
 
 
Рис. 73. Пример функции плотности распределения
 
Теперь мы не можем приписать положительную вероятность каждой точке (их
континуум), а можем говорить лишь о вероятности того, что случайная величина
принимает значение из некоторого диапазона. Пример функции плотности
распределения приведен на рис.73. Наиболее вероятны значения в районе 70. Высота
функции отображает относительную вероятность. Вероятность попадания в интервал
– площадь под графиком. Для вычисления вероятности попадания в интервал
необходимо вычислять определенный интеграл, однако для многих распределений
есть специальные таблицы и вычислительные возможности Excel. Смысл
понятий математического ожидания и дисперсии для непрерывных случайных
величин такой же, как и для дискретных, однако, для их вычислений необходимо
использование понятия определенного интеграла.
 
Функция плотности распределения вероятностей для нормального
распределения.
Для случайной величины, имеющей нормальное распределение, возможны все
значения. Приведем вид функции плотности распределения.
 

 
Обычно нормальное распределение с заданными параметрами 
обозначается как N( ). Примеры приведены на рисунке 74.
 

Рис. 74. Примеры нормальных распределений


 
Стандартизация: Z-значения.
Стандартным нормальным распределением называют распределение
N(0;1). Если мы имеем случайную величину X, нормально распределенную с
параметрами  , то построим новую случайную величину Z:
 

Z=
 
Эта операция называется стандартизацией (нормализацией). Иногда эта
операция играет роль приведения величин к одному масштабу измерения. Смысл
величины Z – это удаленность значения от среднеожидаемого, выраженная в
стандартных отклонениях. Существует специальная функция для проведения
операции стандартизации –НОРМАЛИЗАЦИЯ (STANDARDIZE).
 
Пример.
Годовые доходности для 30 фондов приведены в файле ФОНДЫ.XLS.(шаблон,
решение). Вычислите Z-значения для этих доходностей и дайте им интерпретацию.
 
Решение:
Результаты представлены на рис. 75. Оценки математического ожидания и
стандартного отклонения вычисляются в ячейках С4 и С5 с помощью
функций СРЗНАЧ иСТАНДОТКЛОН. Соответствующие Z – значения вычисляются
в столбце С путем введения в ячейку С8 формулы =(В8-$C$4)/$C$5 и копированием
ее в колонке С.
 

 
Рис. 75. Нормализация доходностей фондов
 
Альтернативным является способ ввести в
ячейку D8 формулу =НОРМАЛИЗАЦИЯ(B8;$C$4;$C$5) и скопировать ее по
столбцу D.
Хотя мы знаем, что Z имеет распределение N(0,1), мы проверим это в
ячейках D4 и D5 с помощью функций СРЗНАЧ  и СТАНДОТКЛОН, применив их к
полученным результатам.
 
Таблицы нормального распределения и Z-значения.
Практически во всех учебниках по статистике имеются специальные таблицы
для стандартизованного нормального распределения. Ниже приводится фрагмент
такой таблицы (см. рис. 76). Каждый элемент данной таблицы показывает вероятность
того, что стандартизованная случайная величина не будет превосходить
соответствующего значения (элементу в строке «1,3» и столбце «0,05» соответствует
значение 1,35 = 1,3 + 0,05).
Например, пользуясь таблицей, можно найти вероятность того, что
стандартизованная случайная величина имеет значение меньшее, чем 1,35. Согласно
таблице данная вероятность равна 0,9115.
Можно решать и обратную задачу – по заданному значению вероятности
попадания находить границы соответствующего интервала. Эта таблица позволяет
решать подобные задачи и для не стандартизованных нормальных распределений,
поскольку границы вероятностных интервалов легко вычисляются исходя из формулы
стандартизации.
 

 
Рис. 76. Фрагмент таблицы стандартизованного нормального распределения
 
Недостаток таблиц в том, что они имеют шаг, а значит, требуют экстраполяции.
Таблицы могут несколько отличаться по структуре.
 
Вычисления с нормальным распределением в Excel.
Как правило, решается две задачи – поиск вероятностей по заданным границам и
поиск границ вероятностных интервалов по заданным вероятностям. Первая задача
решается с помощью функций НОРМРАСП (NORMDIST) (для произвольных
нормальных распределений) и НОРМСТРАСП (NORMSDIST) (для
стандартизованного нормального распределения). Вторая (обратная) задача решается с
помощью функций НОРМОБР (NORMINV) и НОРМСТОБР (NORMNSINV).
Функции =НОРМРАСП(x;  и=НОРМСТРАСП(x) возвращают вероятности того,
что значение меньше x. Функции =НОРМОБР(p;  и =НОРМСТОБР(p),
где р заданная вероятность, возвращают правые границы бесконечных (от  )
интервалов, вероятность попадания в которые равна р.
 
Пример.
Используя функции Excel, вычислим следующие вероятности и границы сначала
для стандартизованного, а потом для общего нормального распределения.
Для N(0,1) (стандартизованное нормальное распределение) вычислим
    Р(Z < -2);
    P(Z > 1);
    P(-0,4 < Z <1,6);
    5%-ю границу;
    75%-ю границу;
    99%-ю границу.
 
Для N(75,8) вычислим
    P( X < 70);
    P(X > 73);
    P( 75 < X < 85);
    5%-ю границу;
    60%-ю границу;
    97%-ю границу.
 
Решение:
 
См. файл НОРМАЛЬНОЕ.XLS  (шаблон, решение) и рис. 77.
 

 
Рис. 77. Примеры вычислений для нормального распределения
 
Замечания:
    Для вычисления вероятностей «более чем» используется вычитание из 1.
    Для вычисления вероятностей «между» используется вычитание значений,
выдаваемых функциями.
    Для вычислений границ с вероятностями попадания «справа» используется
дополнительная вероятность до единицы.
 
Вероятности стандартизованных диапазонов.
Мы уже сталкивались в нашем курсе с диапазонами, построенными на
стандартном отклонении (в примере с индексом Доу-Джонса из части 1). Теперь
становится понятным, что они связаны с нормальным распределением.
Вероятности Р ) можно вычислить с помощью
функций =НОРМСТРАСП(k) – НОРМСТРАСП(-k).
Подставляя вместо k последовательно 1, 2 и 3, получим P(-1 < Z < 1) = 0,6827;
P(-2 < Z < 2) = 0,9545; P(-3 < Z < 3) = 0,9973.
Для нормального распределения практически все значения лежат в радиусе трех
стандартных отклонений от математического ожидания (см. рис. 78.).
 

 
Рис.78. Диапазон радиуса 2 стандартных отклонений
 
Вопрос 2. Применение нормального распределения.
 
Пример.
Отдел по работе с персоналом крупной коммуникационной компании
«Ростелеком» пересматривает свою стратегию найма. Каждый кандидат проходит
экзамен, результаты которого учитываются при решении вопроса о найме. Обработка
результатов показала, что количество баллов имеет приблизительно нормальное
распределение с математическим ожиданием 525 и стандартным отклонением 55.
На первом шаге всех делят на три категории: автоматически зачисляемые (более
600 баллов), автоматически не зачисляемые (менее 425 баллов) и те, с кем  проводится
второй тур. Менеджер по персоналу хочет оценить процент по категориям. Он также
хочет вычислить новые границы, при которых автоматически отсекалось бы 10% и
принималось бы 15%.
 
Решение:
См. файл ПЕРСОНАЛ.XLS (шаблон, решение) и рис. 79. Вероятность
автоматического приема вычисляется в В10 по формуле =1-
НОРМРАСП(B7;Среднее;СтОткл;1).
Вероятность автоматического отклонения вычисляется в В11 по
формуле =НОРМРАСП(B8;Среднее;СтОткл;1).
 
 
Рис. 79. Вычисление границ и вероятностей приема
 
Новые границы отсечений находим в ячейках В17 и В18 с помощью формул =
НОРМОБР(1-B14;Среднее;СтОткл),  = НОРМОБР(B15;Среднее;СтОткл).
 
Пример.
Клиент инвестирует 10000 р. в определенные акции. Исследуя предысторию
этих акций и посоветовавшись со своим брокером, он приходит к выводу, что
доходность удовлетворяет нормальному закону с математическим ожиданием 10% и
стандартным отклонением 4%. Доходы от акций будут обложены налогом по ставке
33%. Вычислим вероятность того, что в качестве налогов будет уплачено, по крайней
мере, 400 р. Вычислим 90%-ю верхнюю границу для чистого дохода.
 
Решение:
Вид модели представлен на рис. 80.
 
 
Рис. 80. Вычисление вероятности уплаты и границы дохода
 
См. файл НАЛОГИ.XLS (шаблон, решение). Налоги составляют
0,33(10000X)=3300X > 400 или X > 4/33, где Х – величина доходности.
Для вычисления вероятности данного события в ячейку D8 введем формулу =1 –
НОРМРАСП(400/(Сумма*Ставка);Среднее;СтОткл;1).
Для ответа на второй вопрос необходимо найти x (чистый доход) из уравнения
Р(X < x/6700) = 0,90, где   6700 = 10000*(1 – 0,33).
 
Вопрос 3. Биномиальное распределение.
 
Это второе (после нормального) по важности распределение в статистике. Оно
представляет собой дискретное распределение  и возникает, по крайней мере, в
ситуациях двух типов:
    делается выборка из совокупности, состоящей из элементов двух типов
(например, мужчины и женщины);
    рассматривается цепочка экспериментов, имеющие только два исхода.
 
Представим серию испытаний, каждое из которых имеет два возможных исхода
(успех, неуспех). Вероятность успеха р, а вероятность неуспеха (1 –
р) соответственно. Число испытаний – n. Пусть X – случайная величина равная
количеству успешных испытаний в серии из n испытаний. Тогда X имеет
биномиальное распределение с параметрами n и p.
Нас интересует вероятность каждого возможного значения случайной
величины Х, то есть P(X = k). Эту вероятность можно вычислить с помощью
функции БИНОМРАСП (BINOMDIST). Рассмотрим параметры функции =
БИНОМРАСП(k;n;p;cum).
Если параметр cum равен 1, то получаем вероятность «не более k успехов», а
если cum равен 0, то получаем вероятность «ровно k успехов».
Используется также функция КРИТБИНОМ, которая возвращает наименьшее
значение «количества успехов», для  которого вероятность события «не более данного
количества успехов» больше или равна заданному значению.
 
Пример.
Предположим, что 100 батареек вставлены в 100 фонариков по одной в каждый.
После 8 ч. работы мы предполагаем, что батарейка работает с вероятностью 0,6 и не
работает с вероятностью 0,4. Успех в данном случае - это работа батарейки после 8 ч.
Найдем  вероятности следующих событий:
1) успехов ровно 58;
2) не более 65 успехов;
3) менее 70 успехов;
4) по крайней мере, 59 успехов;
5) более 65 успехов;
6) между 55 и 65 успехов (включительно);
7) ровно 40 неуспехов;
8) по крайней мере, 35 неуспехов;
9) менее 42 неуспехов.
 
Найдем также наименьшее значение «количества успехов», для  которого
вероятность события «не более данного количества успехов» больше или равна 0,95.
 
Решение:
Смотрите файл БИНОМИАЛЬНОЕ.XLS (шаблон, решение) и рис. 81.
 

 
Рис. 81. Расчет вероятностей биномиального распределения
 
Первые шесть вопрос решаются с использованием следующих вероятностей:
1. Р(X = 58);
2. P(X <= 65);
3. P(X < 70) = P( X <= 69);
4. P(X >=59) = 1 – P(X < 59) = 1 – P(X <= 58);
5. P(X > 65) = 1 – P(X <= 65);
6. P(55 <= X <=65) = P(X <= 65) – P(X <= 54).
 
Расчеты по этим формулам делаются в ячейках В7 – В12 с помощью
функции БИНОМРАСП (см. рис. 81.).
Для ответа на вопросы 7-9 достаточно иметь в виду, что количество «неудач»
также имеет биномиальное распределение с параметрами n и (1-р).
Нахождение наименьшего значения «количества успехов» можно провести
двумя способами – методом подбора (ячейки B21:B26), или с помощью
функции КРИТБИНОМ(ячейка В28).
 
Математическое ожидание и стандартное отклонение для биномиального
распределения.
Математическое ожидание биномиального распределения вычисляется по
формуле:
 
E(X) = np
 
Стандартное отклонение биномиального распределения вычисляется по
формуле:
 
Stdev(X) = 
 
Биномиальное распределение в контексте выборок.
Имеется некоторая совокупность, состоящая из N элементов двух типов,
например, женщины и мужчины. Пусть А - количество мужчин, а В - количество
женщин. Тогда А + В = N. Производится случайная выборка размера n. Будет ли
количество выбранных мужчин подчиняться биномиальному закону распределения с
параметрами n и p=A/N.
Ответ на этот вопрос зависит от способа проведения выборки.
Если выбираемый объект снова возвращается в совокупность и может быть
выбран повторно, то такой способ организации выборки назовем выборка с
возвратами. В этом случае распределение будет биномиальным.
Если же выбираемый объект не возвращается в совокупность и не может быть
выбран повторно, то такой способ организации выборки назовем выборка без
возвратов. В этом случае распределение не будет биномиальным. Такое
распределение носит название гипергеометрического.
При малых значениях n по отношению к N (например, не более 10%)
гипергеометрическое распределение близко к биномиальному.
 
Приближение биномиального распределения с помощью нормального.
Если значение n достаточно велико, а значение р не очень близко к 0 или 1, то
график плотности распределения биномиального распределения напоминает график
для нормального. См. рис. 82 для значений n=30 и p=0,4.
 
Рис. 82. Графическое изображение вероятностей для биномиального распределения
 
Может быть предложено следующее правило. Если np > 5 и n(1-p) > 5, то
биномиальное распределение можно приблизить нормальным с математическим
ожиданием np и стандартным отклонением  .
Практически это полезно с той точки зрения, что можно применять правила
областей.
 
Вопрос 4. Применение биномиального распределения.
 
Биномиальное распределение часто применяется в бизнес - расчетах.
 
Пример.
Покупатели супермаркета  «Перекресток»  тратят на покупки различные суммы.
Анализ данных показал, что суммы покупок распределены по нормальному закону с
математическим ожиданием 85 р. и стандартным отклонением 30 р. Если
предположить, что в некоторый день магазин посещает 500 покупателей, то вычислите
математическое ожидание и стандартное отклонение для количества покупателей,
потративших, по крайней мере, 100 р. Вычислите также вероятность, что, по крайней
мере, 30% покупателей потратили не менее 100 р.
 
Решение:
Поскольку сумма покупки имеет нормальное распределение, вероятность того,
что эта сумма будет не меньше 100 р., вычисляется с помощью формулы =1-
НОРМРАСП (100;НормСреднее;НормСтОткл;1), размещенной в ячейке В8. (См.
файл ПЕРЕКРЕСТОК.XLS (шаблон, решение) и рис. 83.).
 
 
Рис. 83. Расчет параметров (нормальное и биномиальное) распределения
 
Эта вероятность р используется далее, как параметр, в биномиальной  модели.
Математическое ожидание и стандартное отклонение вычисляются по известным
формулам в ячейках В16 и В19.
Для ответа на второй вопрос заметим, что 30% от 500 составляет 150. Тогда
искомая величина есть вероятность, что биномиальная величина с параметрами n =
500 и p = 0,309 принимает значение не меньшее 150. Эта вероятность вычисляется с
помощью формулы =1-БИНОМРАСП (0,3*КолПокуп-
1;КолПокуп;ВерНеМен100;1) в ячейке В23.
 
Пример.
Этот пример в некотором упрощенном варианте показывает расчет стратегии
продажи авиабилетов применяемый авиакомпаниями. Понимая, что определенный
процент пассажиров в последний момент откажется от полета, и, стремясь избежать в
этом случае пустых мест, авиакомпании продают несколько большее количество
билетов. Мы предположим, что средняя доля отказавшихся от полета пассажиров
составляет 5%. Другими словами каждый пассажир независимо от других летит с
вероятностью 0,95 и не летит с вероятностью 0,05. Предположим, что  число
посадочных мест составляет 200. Компания хочет исследовать, как зависят от числа
проданных билетов некоторые вероятности. В частности, вероятность того, что
полетят более 205 человек; вероятность того, что полетят более 200 человек;
вероятность того, что, по крайней мере, 195 мест будет заполнено; вероятность того,
что по крайней мере 190 мест будет заполнено и так далее.
 
Решение:
Для решения данной задачи воспользуемся специальной встроенной функцией
биномиального распределения БИНОМРАСП (см. файл СВЕРХПРОДАЖА.XLS
(шаблон, решение). Построим таблицу с одним входным параметром - количеством
проданных билетов (ячейка В6), в которой будут вычисляться все четыре искомые
вероятности (рис. 84.).
Вычислим искомые вероятности в ячейках ряда 10 с помощью формулы (для
ячейки В10) =1-БИНОМРАСП (205;КолБилет;1-ВерНеявки;1).
Для того, чтобы видеть вероятности для различных количеств проданных
билетов, создадим  таблицу для выбранных значений, например 206, 209, 212 и так
далее.
 

 
Рис. 84. Вычисление вероятностей биномиального распределения
 
Естественно, что с ростом количества проданных билетов растет вероятность
отказа некоторым пассажирам, а с уменьшением - вероятность иметь пустые места.
Для принятия конкретных решений необходимо привлекать дополнительные
финансовые соображения. Можно было бы оценить положительный финансовый
эффект от уменьшения числа среднеожидаемых свободных мест и отрицательный
финансовый и нефинансовый эффект от возрастания числа пассажиров, оставшихся
без места. Далее возможно рассмотрение модели нахождения оптимального баланса.
 
Вопрос 5. Распределение Пуассона.
 
Во многих управленческих задачах распределение Пуассона играет важную
роль. Например, вероятностные модели управления запасами, моделирование
очередей, вероятностные модели надежности и так далее.
Распределение Пуассона - это дискретное распределение, принимающее
значение 0, 1, 2, …и так далее.
Распределение задается одним положительным параметром  , который является
одновременно и математическим ожиданием и дисперсией. Примерный вид
распределения показан на рис. 85.
 
Рис. 85. Распределение Пуассона (параметр 5)
 
В основном это распределение возникает при оценке количества событий,
происходящих за определенный промежуток времени. Вот серия типичных примеров.
1. Менеджер банка изучает времена прихода клиентов. Количество клиентов
пришедших в течение час имеет распределение Пуассона, где  - среднее ожидаемое
количество клиентов в час.
2. Устройство использует батарейки. Если батарейка выходит из строя, ее сразу
заменяют другой (устройство работает непрерывно). Количество батареек, вышедших
из строя за месяц, имеет распределение Пуассона, где  - среднее ожидаемое
количество батареек, вышедших из строя за месяц.
3. Мастера интересует количество запчастей определенного типа, потребляемых
в течение недели. Количество запросов на эту деталь имеет распределение Пуассона,
где  - среднее ожидаемое количество запрашиваемых деталей.
4. Распределение Пуассона часто используется для описания количества
дефектов на некоторой площади. Например, количество дефектов покраски на капоте
автомобиля
 
Для расчета вероятностей распределения Пуассона в Excel используется
функция ПУАССОН (POISSON). Рассмотрим параметры функции =ПУАССОН(k;
;cum).
Если последний параметр данной функции равен 0, то вычисляется Р(Х = k), а
если он равен 1, то вычисляется Р(Х k).
 
Пример.
Компания «ТВ-СБЫТ» является региональной базой по продаже телевизоров
различных марок. Одна из самых сложных менеджерских задач - это определить
величину запаса по каждому типу. С одной стороны хочется иметь много, чтобы
удовлетворить запрос любого покупателя. С другой, излишние запасы - это
замороженные деньги и занимаемые складские площади.
Основная трудность возникает из-за неопределенности спроса, который
меняется случайным образом из месяца в месяц. Известен только среднемесячный
спрос – 17 телевизоров. Приглашенный консультант предполагает использовать
вероятностную модель. Как он мог бы действовать?
 
Решение:
Исходные данные и решение задачи представлены на рис. 86.
Пусть Х - это спрос за месяц. Консультант, анализируя данные, построил
гистограмму спроса за предыдущие месяцы. Она выглядела приблизительно так, как
на рис. 85 в начале данного параграфа. Консультант предполагает использовать
распределение Пуассона с  = 17. Далее нужно сравнить вероятности, полученные из
реальных данных и вероятности, полученные из распределения Пуассона (см.
файл ТВ-СБЫТ.XLS (шаблон, решение). Если нет хорошего соответствия, то нужно
подбирать другой параметр или другое распределение.
 

 
Рис. 86. Вычисление параметров распределения Пуассона
 
Вопрос 6. Подбор закона распределения по имеющимся данным.
 
Нормальное, биномиальное и распределение Пуассона являются наиболее
важными в статистических методах обработки данных, однако существует много
других: экспоненциальное, Эрланга, логарифмическинормальное, логистическое и так
далее. Как выбрать наиболее подходящее?
В общем случае строим гистограмму и выбираем теоретическое распределение,
функция плотности распределения вероятностей которого наиболее приближается к
данной гистограмме. Для этого применяем, например, программный
инструмент BestFit (Decision Tools).
 
Пример:
Супермаркет собрал времена обслуживания более 100 покупателей (см.
файл ВРЕМЯ ОБСЛУЖИВАНИЯ.XLS (шаблон, решение). Это время изменяется от
40 сек. до 279 сек., со средним значением и медианой около 2,5 мин.
Менеджер хочет определить, соответствуют ли эти данные нормальному
распределению, или есть более подходящие распределения?
 
Решение:
Войдем в расширение BestFit через панель Пуск. Далее зайдем в Excel, в
файл ВРЕМЯ ОБСЛУЖИВАНИЯ.XLS (шаблон, решение) и загрузим в буфер
массив, содержащий время обслуживания. В табл. 17 представлен фрагмент данных, а
также описательная статистика данной выборки.
 
Таблица 17.
Время обслуживания и обобщающие характеристики
 
Пос-ль Время    
1 131    
2 101    
3 178   Время
4 246    
5 207 Среднее 159,24
6 155 Стан-ая ошибка 4,95
7 95 Медиана 155,00
8 105 Мода 155,00
9 168 Стан-ое отклонение 52,61
10 92 Дисперсия выборки 2767,67
11 112 Эксцесс -0,67
12 163 Асимметричность 0,09
13 197 Интервал 239,00
14 97 Минимум 40,00
15 144 Максимум 279,00
16 100 Сумма 17994,00
17 233 Счет 113,00
18 146    
19 220    
20 214    
21 138    
22 40    
 
Далее загрузим с помощью команды Edit/Paste этот массив в окно расширения.
 

 
Рис. 87. Окно выбор типа распределения
 
Количество категорий изменим с 10 до 15. Вызовем BestFit's Wizard (Мастер
приближений). Выберем опцию Continuous, что означает поиск в классе непрерывных
распределений.
Далее программа производит ранжирование распределений в порядке качества
приближения. Если мы выбрали опцию "открытой границы", то наилучшим
приближением будет нормальное распределение. Выделив нормальное распределение
и нажав на Graph, получим график приближения (см. рис. 88.).
 

 
Рис. 88. Диаграмма приближения нормальным распределением
 
Если же в качестве нижней границы выбрать 0 (все времена обслуживания
действительно неотрицательные), то наилучшим будет приближение Вейбула.
Смотрите рисунок 89.
 

 
Рис. 89. Диаграмма приближения распределением Вейбула
 
Через клавишу Stats на панели мастера приближений можно посмотреть
количественные характеристики приближения (см. рис. 90.).
 
 
Рис. 90. Количественные характеристики приближения
 
Мы рассмотрели три основные распределения - нормальное,
биномиальное и распределение Пуассона, а также примеры конкретных задач,
связанных с данными распределениями. Мы также познакомились с инструментами
работы в Excel с данными распределениями.
Кроме того, мы познакомились с техникой подбора наиболее адекватного закона
распределения с помощью инструмента BestFit.
 
Тема 6. Многошаговые процедуры принятия решений в условиях
неопределенности
 
Цели обучения:
Освоив материал данной темы, вы сможете понять основные принципы
принятия решений (оценки стратегий) в условиях неопределенности. Вы сможете,
анализируя практические ситуации:
    выделять множество вариантов решений (стратегий) для лица, принимающего
решение;
    строить множество возможных исходов и вычислять вероятности этих
исходов;
    производить оценку результатов (обычно в денежной форме) при различных
вариантах принятых решений и исходов.
 
Содержание темы:
1. Оценка стратегий.
2. Дерево решений.
3. Замечания к материалу темы.
 
Вопрос 1. Оценка стратегий.
 
Хотя ситуации принятия решений существенно отличаются друг от друга, тем не
менее, они имеют три общие составляющие:
    Множество вариантов решений (стратегий) для лица, принимающего
решение;
    Множество возможных исходов и вероятностей этих исходов;
    Оценка результатов (обычно в денежной форме) при различных вариантах
принятых решений и исходов.
 
В том случае, если эти составляющие описаны корректно, лицо, принимающее
решение, может рассчитывать найти оптимальную стратегию с точки зрения
некоторого критерия.
 
Пример.
Некая компания, специализирующаяся на программных разработках, планирует
принять участие в тендере на получение некоторого госзаказа на разработку
информационной системы. Тендер проводится закрытым способом, то есть
предложения подаются участниками в запечатанных конвертах и неизвестны другим
участникам. По оценкам компании, участие в тендере обойдется в 5000 млн. руб., а
выполнение заказа в 95000 млн. руб. Из опыта предыдущих тендеров известно, что с
вероятностью 30% конкуренции вообще не будет. Кроме того, известно, что цена
подобного тендера имеет следующие условные вероятности (см. табл. 18.).
 
Таблица 18.
Цена тендера (млн. руб.) Вероятность
Менее 115000 0,2
От 115000 до 120000 0,4
От 120000 до 125000 0,3
Более 125000 0,1
 
Необходимо принять решение, участвовать ли в тендере, и, если да, то с какой
ценой. Необходимо выбрать решение, которое максимизирует ожидаемую прибыль.
 
Решение:
Рассмотрим на примере данной задачи те три составляющие для ситуации
принятия решений в условиях неопределенности, которые упоминались выше.
1. Компания должна принять решение, участвовать в тендере или нет. Если она
все же принимает решение участвовать, то возникает вопрос, с какой ценой. Ясно, что
минимальные затраты в этом случае составят 5000 + 95000 = 100000. Отсюда следует,
что цена менее 100000 лишена смысла (отсутствие прибыли). К сожалению,
отсутствие полной вероятностной информации о возможных ценах аукциона приводит
к тому, что мы имеем возможность рассмотреть лишь стратегии участия с ценами
115000, 120000 и 125000.
2. Далее нам необходимо описать исходы и их вероятности. Поскольку компания
точно знает расходы на участие в тендере (5000) и стоимость выполнения работы
(95000), то вся неопределенность заключается в стратегиях, которые изберут
конкуренты. Мы предполагаем, что поведение других игроков подчиняется тем же
закономерностям, что и раньше, поэтому мы используем вероятностные данные по
ценам предыдущих тендеров.
3. Теперь необходимо количественно оценить (вычислить стоимостную оценку)
ситуации для компании при различных выборах стратегии и различных вариантах
разрешения неопределенности в поведении других участников. Если компания
принимает решение не участвовать в тендере, то нет ни затрат ни прибыли, то есть
оценка ситуации равна 0. Если компания участвует в тендере и не проходит по цене,
то она теряет 5000. Если компания участвует в тендере с ценой В и проходит по цене,
то ее ожидаемая прибыль составит В - 100000, где, как отмечалось ранее, 100000 =
95000 + 5000.
 
Оценки ситуации иногда удобно записать в виде платежной матрицы, где строки
соответствуют стратегиям, которые выбирает сторона, принимающая решение, а
столбцы соответствуют стратегиям конкурентов. Элементы данной матрицы 
отражают стоимостную оценку ситуаций при различных сочетаниях стратегий
участников тендера (см. табл. 19.).
 
Таблица 19.
Стоимостная оценка возможных ситуаций (платежная матрица игры)
 
  Нет конку- Не более 115 От 115 до 120 От 120 до 125 Более 125
рентов
Неучастие 0 0 0 0 0
115000 15000 -5000 15000 15000 15000
120000 20000 -5000 -5000 20000 20000
125000 25000 -5000 -5000 -5000 25000
Вер-ти 0,3 0,14 = 0,7*0,2 0,28 = 0,7*0,4 0,21 = 0,7*0,3 0,07 = 0,7*0,1
 
Наиболее универсальным подходом для выбора оптимальной стратегии является
подход, при котором выбирается стратегия, обеспечивающая максимальную
ожидаемую оценку. Оценку стратегии часто обозначают EMV (expected monetary
value), и вычисляют как:
 

.
 
Смысл данной оценки состоит в вычислении математического ожидания
выигрыша первого игрока (компании-участницы) при применении им стратегии i.
Опираясь на данные платежной матрицы, вычислим оценки для всех стратегий
первого игрока (см. табл. 20).
Необходимо отметить, что значение EMV не есть значение реальных
выигрышей, а есть среднеожидаемое значение выигрышей при различных стратегиях
других участников. Таким образом, наиболее эффективной представляется стратегия
участия в аукционе с ценой 115000, так как именно этой стратегии соответствует
максимальное значение EMV (12200).
 
Таблица 20.
Оценка стратегий (математическое ожидание выигрышей)
 
Стратегии Расчет EMV EMV
Неучастие 0(1) 0
115000 15000(0,3+0,28+0,21+0,07) - 5000(0,14) 12200
120000 20000(0,3+0,21+0,07) – 5000(0,14+0,28) 9500
125000 25000(0,3+0,07) - 5000(0,14+0,28+0,21) 6100
 
Вопрос 2. Дерево решений.
 
Дерево решений представляет собой некий графический инструмент, который
помогает производить действия, рассмотренные в вышеизложенном примере, а
именно: описание возможных стратегий игрока, принимающего решение; описание
неопределенных исходов (неизвестные стратегии второй стороны) и их вероятностей;
вычисление EMV по стратегиям первого игрока; выбор стратегии с максимальным
значением EMV. Как правило, использование  этого графического средства
предполагает использование следующих соглашений.
Деревья решений состоят из вершин (круги, квадраты и треугольники) и ветвей
(линии).
Вершины соответствуют определенным моментам времени. Вершины - решения
(квадраты) соответствуют моментам времени, когда ЛПР (лицо, принимающее
решение) принимает решение. Вершины - вероятности (круги) соответствуют
моментам времени, когда разрешается одна из неопределенностей. Оконечные
вершины (треугольники)соответствуют окончанию задачи, когда все решения
приняты, все неопределенности разрешились и все платежи произошли.
Развитие ситуации во времени происходит согласно данной графической схемы
слева направо.
Ветви, идущие из вершин - решений, соответствуют различным возможным
решениям. Ветви, идущие из вершин - вероятностей, соответствуют различным
возможным вариантам разрешения неопределенности и не являются объектом чьего-
либо управления.
Вероятности соответствуют ветвям, исходящим из вершин - вероятностей. Эти
вероятности являются условными вероятностями при условии свершения события,
соответствующего вершине, из которой они исходят. Поэтому сумма вероятностей по
все ветвям, исходящим из одной вершины, равна 1.
Каждой оконечной вершине соответствуют два числовых значения. Первое - это
вероятность прихода в данную оконечную вершину (произведение вероятностей вдоль
пути) и второе - значение выигрыша, соответствующее данному сценарию развития
событий (сумма платежей вдоль пути).
На рис. 91 изображено дерево решений соответствующее  вышерассмотренной
задаче о проведении тендера.
 
 
Рис. 91. Дерево решений для задачи о тендере
 
Процедура принятия оптимального решения после построения дерева решений
производится методом обратного хода и заключается в следующем.
1. Для каждой вероятностной вершины (круги) вычислим среднеожидаемое
значение выигрыша по всем альтернативам, исходящим из данной вершины.
Например,
 
0,8(15000) + 0.2(-5000) = 11000.
 
Далее для другой вершины:
 
0,3(15000) + 0.7(11000) = 12200.
 
2. Каждой вершине-решению мы приписываем максимальное значение из
ожидаемых значений выигрыша, соответствующих различным вариантам решения,
исходящим из данной вершины. То решение, на котором достигается максимум,
помечается пометкой "истина", иначе помечаем решение как "ложь".  После данной
процедуры расстановки пометок на вершинах-решениях оптимальная стратегия
определяется путем следования слева направо по вершинам, помеченным как
"истина".
 
Рассмотренный нами пример относится к так называемым одношаговым играм,
в которых на первом шаге принимаются все решения, а далее разрешаются все
неопределенности. В более сложных случаях принятие решений чередуется с
разрешением некоторых неопределенностей, причем решения, принятые на очередном
шаге, порождают, вообще говоря, свое множество неопределенностей
(неопределенных факторов), которые далее разрешаются. Такие ситуации принятия
решений называются многошаговыми (позиционными) играми.Пример подобной
ситуации рассматривается ниже.
 
Пример.
Некоторая компания решает вопрос о представлении некоторого нового
продукта на общенациональный рынок. Неопределенность заключается в том, как
отреагирует рынок на этот новый продукт. Рассматривается вопрос об апробации
нового продукта первоначально на некотором региональном рынке. Таким образом,
первоначальное решение, которое необходимо принять компании, - это проводить ли
первоначальный маркетинг продукта  на региональном уровне. Компания
предполагает, что выход на региональный уровень потребует затрат на 3 млн. руб., а
выход на общенациональный рынок потребует вложения 90 млн. рублей. Если не
проводить первоначальных пробных продаж на региональном уровне, то решение о
выходе на общенациональный рынок можно принять незамедлительно.
Компания  рассматривает результаты продаж как успешные, средние или
отрицательные в зависимости от объемов продаж. Для регионального уровня этим
градациям соответствуют объемы в 200, 100 и 30 тыс. экземпляров, а для
общенационального - 6000, 3000 и 900 тыс. экземпляров соответственно. Исходя из
данных по результатам региональных тестирований аналогичных видов продукции,
компания оценивает вероятности вышеуказанных трех исходов как 0,3, 0,6 и 0,1.
Кроме того, исследуя данные о соотношении результатов региональных продаж с
последующими продажами на общенациональном рынке, компания сумела оценить
следующие условные вероятности (см. табл. 21).
 
Таблица 21.
Условные вероятности продаж на общенациональном рынке
 
  Результаты на общенациональном рынке
  Успешные Средние Отр-ые
0,3 Результаты Успешные 0,8 0,15 0,05
0,6 продаж на Средние 0,3 0,5 0,2
0,1 региональном рынке Отр-ые 0,05 0,25 0,7
 
Кроме этого, известно, что каждая продажа приносит прибыль в 18 руб. как на
региональном рынке, так и на общенациональном.
Задача состоит в принятии обоснованной стратегии выхода (или не выхода)  на
рынок с новой товарной позицией.
 
Решение:
Как  и в предыдущей задаче, рассмотрим три основные составляющие для
ситуаций подобного типа:
    возможные стратегии;
    возможные исходы и их вероятности;
    стоимостная модель.
 
Возможные стратегии. Компании сначала необходимо решить два вопроса:
1) тестировать ли продукт на региональном рынке;
2) представлять ли продукт на национальном рынке. Если компания решит
вопрос 1 положительно, она может обосновать решение вопроса 2, основываясь на
результатах решения вопроса 1. В таком случае ее конечная стратегия – ситуационный
план (см. рис. 92.).
 

 
Рис. 92. Ситуационный план компании
 
Учитывая случайный характер исходов,  отметим данные в примере
вероятности:
    вероятности исходов тестирования рынка и
    условные вероятности исходов национального рынка, задаваемые
результатами тестирования рынка.
 
Эти вероятности необходимы для построения дерева решений. Исход события А
будет известен до наступления события В.
Однако допустимо и другое решение: компания не проводит тестирование и
сразу выдвигает продукт на национальный рынок. В таком случае новые вероятности
исходов вычисляются с помощью имеющихся вероятностей по правилам условной
вероятности. Обозначим результаты тестирования рынка T1, T2 и Т3, N – любой из
результатов выхода на национальный рынок, далее по правилу сложения вероятностей
и формуле условной вероятности:
 
Р(N)=Р(N и T1) + Р(N и T2)+ Р(N и Т3)=Р(N|T1) Р(T1) + Р(N|T2) Р(T2) + Р(N|Т3) Р (Т3)
 
(закон полной вероятности)
 
Вычислим вероятности для случая, если тестирования рынка не будет.
 
Р (N1) = (0,8)(0,3)+(0,3)(0,6)+(0,05)(0,1) = 0,425;
 
Р (N2) = (0,15)(0,3) + (0,5)(0,6)+(0,25)(0,1) = 0,37;
 
Р (N3) = (0,05)(0,3) + (0,2)(0,6)+(0,7)(0,1) = 0,205.
 
Таким образом, вероятности результатов выхода на национальный рынок без
проведения тестирования следующие (см. табл. 22.):
 
Таблица 22.
Вероятности результатов без регионального тестирования
 
Хорошие Слабые Неприемлемые
0,425 0,370 0,205
 
Стоимостные оценки отражены в дереве решений. Дерево содержит
фиксированные расходы на тестирование рынка и национальный рынок. Расходы
последуют при принятии соответствующих решений. Мы исследуем объемы продаж и
умножаем их на выручку за единицу продукции для получения данных о доходах (см.
табл. 23.).
 
Таблица 23.
Возможный доход от реализации продукции (млн. руб./тыс.шт.)
 
Региональный рынок Национальный рынок
3600 108000
1800 54000
540 16200
 
Далее построим дерево решений для данной задачи (см. рис. 93.), приведя
подробно все сопутствующие вычисления.
 
(0,8)(0,3) + (0,3)(0,6) + (0,05)(0,1) = 0,425;
 
(0,15)(0,3) + (0,5)(0,6) + (0,25)(0,1) = 0,37;
 
(0,05)(0,3) + (0,2)(0,6) + (0,7)(0,1) = 0,205;
 
6000*18 = 108000.
 
 
Рис. 93. Дерево решений для примера о выходе на региональный рынок
 
3000*18 = 54000;
900* 18 = 16200;
108000 - 90000 = 18000;
54000 - 90000 = -72000;
16200 - 90000 = -73800;
0,425*108000 + 0,37*54000 + 0,205*16200 - 90000 = -20799;
200*18 = 3600;
100*18 = 1800;
30*18 = 540;
0,8*108000 + 0,15*54000 + 0,05*16200 - 90000 + 3600 - 3000 = 5910;
3600 - 3000 = 600;
108000 - 90000 + 3600 - 3000 = 18600;
54000 - 90000 + 3600 - 3000 = -35400;
16200 - 90000 + 3600 - 3000 = -73200;
0,8*0,3 = 0,24;
0,15*0,3 = 0,045;
0,05*0,3 = 0,015;
0,3*108000 + 0,5*54000 + 0,2*16200 -90000 + 1800 -3000 =  -28560;
1800 - 3000 = -1200;
108000 - 90000 + 1800 - 3000 = 16800;
54000 - 90000 + 1800 - 3000 = -37200;
16200 - 90000 + 1800 - 3000 = -75000;
0,05*108000 + 0,25*54000 + 0,7*16200 -90000 + 540 -3000 =  -62220;
540 - 3000 = -2460;
108000 - 90000 + 540 - 3000 = 15540;
54000 - 90000 + 540 - 3000 = -38460;
16200 - 90000 + 540 - 3000 = -76260.
 
Таким образом, анализируя дерево решений, можно сформулировать
оптимальную стратегию компании, а именно: следует произвести предварительную
продажу на региональном рынке и развернуть продажи на общенациональном уровне,
только если результаты на региональном уровне оказались успешными.
Существует специальное программное средство, разработанное 
компанией "Palisade Corporation" (США) (http://www.palisade.com) - Precision Tree,
которое является расширением программы Excel. Это средство позволяет строить не
только деревья решений, но и диаграммы влияния, отображающие взаимосвязи между
различными частями задачи, а также диаграммы рисков и производить анализ
чувствительности, оценивая значимость отдельных факторов задачи.
 
Вопрос 3. Замечания к материалу темы.
 
В данном теме мы рассмотрели количественные подходы к принятию решений в
ситуациях, которые характеризуются неопределенностью в будущем. Мы описали
технологическую процедуру такого подхода и продемонстрировали специальное
программное средство, поддерживающее такую процедуру - Precision Tree.
Описанный выше подход к принятию решений с точки зрения EMV не является
единственным. Он не учитывает, в частности, отношения к риску лица принимающего
решение (ЛПР). Понятие отношения к риску можно продемонстрировать на таком
примере. Пусть предлагается сыграть в следующую игру. Бросается монета. Если
«орел», то ничего не выигрывается и не проигрывается, а если «решка», то выигрыш
составит 1000 руб. Легко вычислить EMV для данной игры:
 
EMV = 0,5 * 0 + 0,5 * 1000 = 500
 
Теперь представим себе, что предлагается некоторая альтернатива – либо играть
в эту игру, либо получить сразу некоторую сумму и не играть. Ясно, что для каждого
человека есть свой рубеж предлагаемой суммы, при котором он откажется от игры.
Хотя теоретически этот рубеж должен равняться 500 руб. Это и показывает, что при
принятии решения существует реальная индивидуальная составляющая – отношение к
риску.
Порой данный подход может приводить даже к парадоксальным ситуациям.
Рассмотрим некоторую новую игру. Бросается монета до тех пор, пока выпадает
«орел». Как только выпала «решка» игра останавливается. Пусть «орел» выпал подряд
N раз. Если сразу выпала «решка», то N=0. По окончанию игры вы получаете 2 N коп. в
качестве выигрыша. Вам предлагается альтернатива, либо играть в игру, либо сразу
получить гарантированную сумму в 1 000 000 000 руб.
Трудно представить себе человека, который выберет игру, поскольку даже при
крайне благоприятном стечении обстоятельств, например, выпадение орла 5 раз
подряд (вероятность ?5 = 0,031), выигрыш составит 0,32 руб. Тем не менее, подсчитаем
EMV игры
 
EMV = 2 * (1/2) + 22 * (1/22) + … + 2N * (1/2N) + … = 1 + 1 + … + 1 + … = 
 
Следовательно, если исходить из принципа EMV, то следует выбирать игру при
любом предлагаемом гарантированном выигрыше.
Тем не менее, в большинстве случаев критерий EMV является вполне логически
оправданным.
 
Кейс к разделу:
 
«Парадокс Симпсона»
 
Результаты, получаемые при работе с условной вероятностью, могут быть
далеко не очевидными, а порой даже парадоксальными. Данная ситуация может быть
отнесена к так называемым «парадоксам Симпсона». Суть «парадокса Симпсона»
состоит в том, что хотя некоторое «средство» лучше, чем другие проявляет себя в
каждой из подгрупп, однако уже для всей совокупности это становится неверно.
Предположим, что совокупностью в данном случае являются менеджеры
крупной компании. Рассмотрим категории менеджеров, имеющих степень МВА (В) и
не имеющих степень МВА ( ). Это именно те подгруппы, о которых речь идет в
парадоксе Симпсона. Рассмотрим также категорию менеджеров, которые были
приняты в компанию сразу по окончанию ими периода обучения (С) и тех, которые
имели до этого опыт работы в других компаниях ( ). Далее, рассмотрим тех
менеджеров, которые получили повышения за последний год (А).
Предположим, что уже определены следующие условные вероятности:
P(A|B и C) = 0.10 P(A|  и C) = 0.05 (1)
P(A|B и  ) = 0.35 P(A|  и  )=0.20 (2)
P(C|B)=0.90 P(C| )=0.30 (3)
 
Каждая из этих вероятностей может быть интерпретирована как доля. Например,
условная вероятность Р(А|В и С) означает, что 10% всех менеджеров, которые имеют
степень МВА и были приняты в компанию сразу после окончания периода обучения,
были повышены за последний год.
Joan Seymour, начальница отдела по работе с персоналом, пытается осмыслить
эти данные. Из результатов строки (1) она видит, что среди категории нанятых сразу
после окончания периода обучения те, кто имеет диплом МВА, имеют шансы вдвое
более высокие быть повышенными. Аналогично, из результатов строки (2) она видит,
что среди категории тех, кто был принят в компанию после опыта работы в других
компаниях, те, кто имеет диплом МВА также имеют шансы почти вдвое большие быть
повышенными. Из информации строки (3) она видит, что те, кто имеет диплом МВА,
имеют шансы в три раза большие быть принятыми в компанию сразу после окончания
периода обучения.
Joan с трудом может поверить результатом, которые получил аналитик, опираясь
на вышеприведенные результаты. А именно:
 
Р(А|B) = 0.125, Р(А| ) = 0.155 (4).
 
Другими словами получается, что менеджеры без степени МВА имеют больше
шансов быть продвинутыми по работе. Это противоречит тому, что мы видим из
информации в строках (1) и (2), а именно, что менеджеры с дипломами МВА имеют
больше шансов получить повышения.
1. Можете ли вы сами получить вероятности из строки (4)? (10 баллов)
2. Можете ли вы дать объяснение данному «парадоксу»? (6 баллов)
 
Литература:
1. Гмурман В.Е. Теория вероятностей и математическая статистика. Учебн.
Пособие для вузов. – М.: Высш. Шк., 2000. 479 с.
2. Лапо В.Ф. Теория вероятностей, математическая статистика и эконометрика,
-1999. -329 с.
3. Ниворожкина Л.И., Морозова З.А., Герасимова И.А., Житников И.В. Основы
статистики с элементами теории вероятностей для экономистов - Ростов н/Д: Феникс,
1999.
4. S. Christian Albright, Wayne L. Winston, Christopher Zappe. Data Analysis and
decision making with Microsoft Excel, 1999.
 
Раздел III. Методы статистического анализа данных
 
Тема 7. Выборки и распределения выборок
 
Цели обучения:
На практике часто возникает необходимость определить некоторые
характеристики больших совокупностей. Например, процент людей использующих
определенную пасту для чистки зубов. Однако невозможно опросить всех. Возникает
понятие случайной выборки. Освоив материал данной теме вы узнаете:
    каковы методы построения таких случайных выборок?
    как по свойствам выборок можно делать утверждение относительно
характеристик всей совокупности?
 
Содержание темы:
1. Терминология теории выборок.
2. Методы построения случайных выборок.
3. Введение в теорию оценок.
 
Вопрос 1. Терминология теории выборок.
 
Генеральная совокупность - множество всех элементов рассматриваемой
совокупности. Элемент выборки – элемент совокупности, отобранный в
выборку. Размер выборки - количество элементов выборки. Вероятностные выборки
- построенные на основе некоторого случайного механизма. Субъективные выборки -
построенные по субъективным правилам лица, строящего выборку.
Будем заниматься вероятностными выборками, так как иные не подчиняются
статистическим законам, и точность полученных на их основе результатов слабо
поддается количественной оценке.
 
Вопрос 2. Методы построения случайных выборок.
 
В этой теме обсуждаются конкретные методы построения выборок,
применяемые на практике. Часто существует некоторый баланс, между сложностью
построения и качеством выборки.
 
Простейший подход.
Главный принцип простейшего подхода - это равновероятность всех возможных 
выборок. Пусть N - количество элементов во всей совокупности, а n - размер выборки.
Если эти значения малы и количество этих выборок невелико, то теоретически можно
разбить интервал от 0 до1 на N равных подынтервалов, каждый из которых
соответствовал бы одному из элементов исходной совокупности, и воспользоваться
случайной функцией СЛЧИС (RAND), которая генерирует значения случайной
величины, равномерно распределенной на интервале (0; 1). Обращаясь к данной
функции n раз, мы бы выбирали элементы, соответствующие тем подынтервалам, куда
попадали бы случайные числа. Однако существует и другой более рациональный
подход. Рассмотрим пример.
 
Пример.
Рассмотрим файл СЛУЧАЙНАЯ ВЫБОРКА.XLS, (шаблон, решение) который
содержит данные о доходах 40 семей. Мы хотим построить случайную выборку
размера 10. Как это сделать? Как соотносятся обобщающие характеристики выборки и
всей совокупности?
 
Решение:
Можно применить наиболее простой способ - метод простых случайных
выборок. Сгенерируем вспомогательный столбец, содержащий случайные числа,
которые можно получить с помощью функции СЛЧИС(). Далее произведем 
сортировку рядов в соответствии с величиной полученных случайных чисел. В
качестве искомой выборки возьмем первые десять клиентов после сортировки (см.
рис. 94.). Конкретнее выполним следующие процедуры:
   введем функцию =СЛЧИС() в ячейку С10 и скопируем ее по столбцу;
   далее "зафиксируем" массив случайных чисел, выделив его с помощью
команд Правка/Копировать и Правка/Специальная вставка с опцией "значения";
   скопируем массив А10:С49 в массив E10:G49;
   выберем массив E10:G49 и произведем сортировку с помощью
меню Данные/Сортировка по полю Случайное Число;
   в качестве случайной выборки выберем 10 верхних значений в
ячейках F10:F19;
   далее в рядах 5 и 6 с помощью функций СРЗНАЧ (AVERAGE), МЕДИАНА
(MEDIAN) и СТАНДОТКЛОН (STDEV) вычислим эти характеристики по всей
совокупности и по выборке.
 

 
Рис. 94. Метод простых случайных выборок
 
Для того чтобы повторить эту процедуру многократно с различными выборками,
может быть написан макрос. Смотрите следующий лист в файле СЛУЧАЙНАЯ
ВЫБОРКА.XLS, (шаблон, решение),  где создана специальная кнопка для повторных
генераций выборок.
 
Использование StatPro для построения простых случайных выборок.
Средства, реализованные в StatPro, позволяют строить выборки заданного
размера указанное количество раз.
Смотрите StatPro/Statistical Inference/Generate Random Samples.
 
Пример.
Имеются данные о 280 счетах, выставленных клиентам компании 
«Промкомплект» (cм. файл СЧЕТА.XLS  (шаблон, решение), которые содержат
следующую информацию:
    категория клиента (крупный, средний, мелкий);
    количество дней с момента выставления счета;
    размер счета.
 
Необходимо сгенерировать 50 случайных выборок размера 15 только из мелких
покупателей, вычислить средний размер их счетов и построить гистограмму
полученных 50 результатов.
 
Решение:
Можно применить возможности, содержащиеся в надстройке StatPro.
Сначала добавим новый столбец А, в котором введем нумерацию всех элементов
совокупности от 1 до 280. Отделим данные о мелких клиентах, вставив пустую строку.
Далее пройдем по следующим позициям
меню  StatPro/Statistical Inference/Generate Random Samples... Зададим в качестве
параметров 50 и 15, а в качестве места размещения результатов новый лист Выборки.
Эта процедура выдает индексы тех элементов множества, которые включаются в
выборку.
Для того, чтобы получить  величины задолженностей для выбранных счетов
введем функцию =ПРОСМОТР(Выборки!B3;Данные!$A$4:$A$153;Данные!
$D$4:$D$153) в ячейку В20 и скопируем ее в массив В20:AY34.
 

 
Рис. 95. Общий вид модели для задачи о счетах
 
Далее можно воспользоваться специальной функцией вычисление
средних СРЗНАЧ в ряде 37.
Преобразуем 37 строку в столбец, выделив ячейки ВА3:ВА52, введя
формулу =ТРАНСП (B37:AY3) и нажав одновременно клавиши Ctrl-Shift-Enter (см.
рис. 95.).
Воспользуемся средствами построения гистограмм, содержащимися
в StatPro, для отображения средних значений, полученных по 50 выборкам (см. рис.
95.).
 
Рис. 96. Гистограмма средних сумм счетов по выборкам
 
Систематический метод построения выборок.
Приведем лишь общую идею метода. Делим общее количество элементов в
совокупности на размер выборки. Получаем размер блока. Далее случайным образом
получаем позицию в этом блоке. От нее с интервалом, равным размеру блока,
выбираем элементы. Иногда этот метод может приводить к непредставительным
выборкам (пример с днями недели).
 
Метод стратификации.
Рассмотрим данный метод, который также иногда называют
методом пропорциональных частичных выборок. Предположим, что все множество
исходных данных, состоящее из Nэлементов, разбито на I непересекающихся
подмножеств, состоящих из  элементов, так что:
 

 
Для того чтобы получить выборку размера n, нам необходимо выбрать 
представителей из каждой i-й подгруппы так, чтобы:
 
.
 
Количества   вычисляют, округляя величины  .  После того как
величины   определены, мы можем применить метод простых случайных выборок,
описанный в примере для выбора представителей в каждой подгруппе.
Данный способ определения количества выбираемых элементов в каждом
подмножестве имеет тот недостаток, что не учитывает разницу в стандартных
отклонениях в различных подмножествах. Существует формула, оптимизирующая эти
размеры в зависимости от величин стандартных отклонений.
 
Пример.
Фирма, занимающаяся обслуживанием кредитных карточек определенного типа,
располагает информацией о 1000 своих клиентах (см.
файл СТРАТИФИКАЦИЯ.XLS (шаблон, решение). Она планирует провести более
тщательные маркетинговые исследования рынка кредитных карт в целом, а именно
оценить средний объем использования кредитных карт других типов. Фирма приняла
решение исследовать круг клиентов исходя из их принадлежности к той или иной
возрастной группе. В качестве размера общей выборки решено взять количество 100.
А далее произвести телефонный опрос этой группы.
 
Решение:
В первую очередь фирма, справедливо полагая, что люди разного возраста
имеют разные склонности и разное отношение к кредитным картам, приняла решение
о выделении возрастных групп. После предварительных исследований, было решено
выделить следующие категории: 18 - 30, 31 - 62, 63 - 80 (среди клиентов не было
никого моложе 18 или старше 80). Далее вся необходимая информация вносится в
таблицу Excel, а именно: размер выборки, верхние и нижние границы возрастных
групп и информация по клиентам.
Используя логические функции Excel, производим разбивку на возрастные
группы. А именно, введем функцию =ЕСЛИ (B11<=$D$6;1;ЕСЛИ (B11<=$D$7;2;3) в
ячейку С11 и скопируем ее в колонке С.
Произведем операцию расстыковки данных (unstuck) по признаку возрастной
категории, используя StatPro/Data Utilities/Unstack Variables. В качестве кодовой
переменной необходимо указать переменную Группа.
Используя функцию СЧЕТ (COUNT), подсчитаем количество клиентов в
каждой возрастной группе. А именно, введем формулу =СЧЕТ (Е11:Е142) в
ячейку F6 и аналогичные в ячейки F7 и F8.
Вычислим количество выбираемых элементов в каждой подгруппе, используя
функцию округления ОКРУГЛ (ROUND). Для этого введем формулу =ОКРУГЛ
(РазмВыборки*F6/1000;0) в ячейку G6 и аналогичные в ячейки G7 и G8 (см. рис.
97.).
 

 
Рис. 97. Вычисление размеров выборок для категорий
 
Зная размеры выборок для каждой категории, применяем метод простых
случайных выборок (см. рис. 98.).
 

 
Рис. 98. Построение выборок по категориям
 
Кластерный подход.
Основная идея подхода состоит в разбиении исходной совокупности на
подмножества, выборе некоторых из этих подмножеств случайным образом и
включении в итоговую выборку всех представителей выбранных подмножеств.
 
Многоступенчатые методы построения выборок.
Схема, описанная выше, называется одношаговой. На практике применяются
также многошаговые схемы, предполагающие разбиение исходного множества на
категории, подкатегории и так далее и проведение случайных выборок на каждом
уровне.
 
Вопрос 3. Введение в теорию оценок.
 
Целью построения выборок является оценка некоторых параметров всей
совокупности. В этом разделе обсудим математические процедуры таких оценок.
Будем исходить из метода простых случайных выборок, хотя общие идеи для других
способов аналогичны.
 
Источники ошибок при оценивании
Ошибки делятся на два основные класса - ошибки выборки и прочие ошибки.
Ошибки выборки происходят в том случае, если случайным образом мы
получили некоторую специфическую выборку (не из-за наших неправильных
действий).
Прочие ошибки могут быть вызваны различными причинами:
   уклонением от ответа: не можем определить, имеет ли группа не ответивших
существенные отличия от группы ответивших;.
   недостоверными ответами: часто вызывается поставленными вопросами (на
некоторые из них человек всегда хочет сказать "нет");
   ошибками измерения: например, несовпадением ответа и того, что хотел
узнать спрашивающий.
 
Ошибки такого рода плохо поддаются количественному оцениванию.
 
Закон распределения выборочного математического ожидания.
Ошибку измерения математического ожидания можно выразить как:
 
Ошибка измерения = 
 
Можно ли каким-то образом оценивать величину этой ошибки? Ответ на этот
вопрос основывается на знании закона распределения выборочного математического
ожидания. Справедливы следующие соотношения:
 
;

.
 
Поскольку стандартное отклонение всей совокупности нам не известно ( ),
вместо него используется его оценка s.

Приближение Stdev(  ) = 
 
Пример.
Аудитор хочет оценить среднюю сумму счета, выписываемого компанией её
клиентам. Поскольку компания располагает 10000 счетами, аудитор делает выборку
размером 100 (см. файл АУДИТ.XLS (шаблон, решение). Какой вывод можно сделать
из этой информации?
 
Решение:
Вычисляем выборочное математическое ожидание и выборочное стандартное
отклонение в ячейках В7 и В8 по
формулам =СРЗНАЧ(Суммы) и =СТАНДОТКЛОН(Суммы).
Далее вычисляем оценку для стандартного отклонения среднего (см. формулу
выше) =СтОткл/КОРЕНЬ(РазмерВыб) (см. рис. 99.).
 
 
Рис. 99. Оценка средней суммы счета
 
Таким образом, вспомнив правила интервалов можно утверждать, что с
вероятностью 95% истинное среднее значение суммы счета находится в диапазоне от
279 р. - 2*42 р. = 195 р. до 279 р. + 2*42 р. = 363 р.
 
Центральная предельная теорема.
В предыдущем примере использовали правила областей именно потому, что
справедлива следующая теорема (которая является некоторой модификацией
центральной предельной теоремы теории вероятностей).
 
Теорема: Для любой случайной величины X с математическим ожиданием  и
стандартным отклонением  случайная величина  имеет примерно нормальное

распределение с математическим ожиданием  и стандартным отклонением  . Чем


больше n, тем лучше приближение.
В более общем виде центральная предельная теорема показывает, почему
нормальное распределение имеет особую роль в математической статистике.
Оказывается, что усреднение независимых случайных величин (необязательно
одинаково распределенных!) близко к нормальному распределению.
 
Определения размеров выборки.
Размер выборки может определяться исходя из финансовых и временных
ограничений.
Он также определяется из соображения желаемой точности результата. Если
предполагаемую максимальную абсолютную ошибку обозначить за В, то можно
утверждать следующее: если размер выборки есть
 

,
 
то с вероятностью 95% абсолютная величина ошибки измерения
математического ожидания не превзойдет В.
 
Некоторые ключевые идеи теории простых случайных выборок.
1. Для оценки математического ожидания совокупности используем выборочную
оценку  (среднее значение).
2. Точность оценки определяется стандартным отклонением ее распределения,
которое может быть оценено по формуле  , где s есть стандартное отклонение
выборки.
3. По центральной предельной теореме оценка  имеет примерно нормальное
распределение при больших n, что позволяет использовать правила областей.
4. С ростом n точность оценки возрастает. Есть формула для расчета величины
выборки при заданном уровне точности.
 
В этой главе мы познакомились с методами построения случайных выборок,
методами оценки математического ожидания. Получили некоторые соотношения для
оценки точности выборочного среднего.
 
Тема 8. Оценка доверительных интервалов
 
Цели обучения:
Статистика рассматривает следующие две основные задачи:
1. у нас есть некоторая оценка, построенная на выборочных данных, и мы хотим
сделать некоторое вероятностное утверждение относительно того, где находится
истинное значение оцениваемого параметра;
2. у нас есть конкретная гипотеза, которую необходимо проверить на основе
выборочных данных.
 
В данной теме мы рассматриваем первую задачу. Введем также определение
доверительного интервала.
 
Изучив материал данной темы, Вы:
    узнаете, что такое доверительный интервал оценки;
    научитесь классифицировать статистические задачи;
    освоите технику построения доверительных интервалов, как по
статистическим формулам, так и с помощью программного инструментария;
    научитесь определять необходимые размеры выборок для достижения
определенных параметров точности статистических оценок.
 
Содержание темы:
Вопрос 1. Распределения выборочных характеристик.
Вопрос 2. Доверительный интервал для среднего значения.
Вопрос 3. Доверительный интервал для суммарного значения.
Вопрос 4. Доверительный интервал для пропорции.
Вопрос 5. Доверительный интервал для стандартного отклонения.
Вопрос 6. Доверительный интервал для разности двух средних значений.
Вопрос 7. Доверительный интервал для разности между пропорциями.
Вопрос 8. Управление длиной доверительного интервала.
 
Вопрос 1. Распределения выборочных характеристик.
 
t-распределение.

Как обсуждали выше распределение случайной величины  близко к


стандартизованному нормальному распределению с параметрами 0 и 1. Поскольку нам

не известна величина  , мы заменяем ее на некоторую оценку s. Величина  уже


имеет другое распределение, а именно t - распределение или распределение
Стьюдента, которое определяется параметром n-1 (число степеней свободы). Это
распределение близко к нормальному распределению (чем больше n, тем
распределения ближе).
 

 
Рис. 100. Распределение Стьюдента с 30 степенями свободы
 
На рис. 100 представлено распределение Стьюдента с 30 степенями свободы.
Как видно, оно весьма близко к нормальному распределению.
Аналогично функциям для работы с нормальным
распределением НОРМРАСП и НОРМОБР  имеются функции для работы с t -
распределением – СТЬЮДРАСП (TDIST) иСТЬЮДРАСПОБР (TINV). Пример
использования этих функций можно посмотреть в
файле СТЬЮДРАСП.XLS (шаблон, решение) и на рис. 101.
 
 
Рис. 101. Примеры расчетов с распределением Стьюдента
 
Распределения других характеристик
Как мы уже знаем, для определения точности оценивания математического
ожидания нам необходимо t - распределение. Для оценивания других параметров,
например, дисперсии, требуются другие распределения. Два из них - это F -
распределение и  - распределение.
 
Вопрос 2. Доверительный интервал для среднего значения.
 
Доверительный интервал – это интервал, который строится вокруг оценочного
значения параметра и показывает, где находится истинное значение оцениваемого
параметра с априори заданной вероятностью.
Построение доверительного интервала для среднего значения происходит
следующим образом:
    выбирается некоторый вероятностный уровень достоверности - 90, 95, 99%
или любой другой;
    определяется некоторый параметр  , который получается вычитанием из 1
уровня достоверности, записанного в десятичном виде;
    определяются значения  , которые являются границами отсечения "хвостов"
с вероятностями  для t - распределения с n-1 степенью свободы;
    вычисляются границы доверительного интервала по формуле:
 
.
 
Пример.
В ресторане быстрого обслуживания планируется расширить ассортимент
новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным
образом планирует выбрать 40 посетителей из тех, кто уже попробовал его и
предложить им оценить их отношение к новому продукту в баллах от 1 до 10.
Менеджер хочет оценить ожидаемое количество баллов, которое получит новый
продукт и построить 95%-й доверительный интервал этой оценки. Как это
осуществить? (см. файл СЭНДВИЧ1.XLS (шаблон, решение).
 
Решение:
Для решения данной задачи можно воспользоваться StatPro/Statistical
Inference/One-Sample Analysis. Результаты представлены на рис. 102.
 

 
Рис. 102. Доверительный интервал для  среднего значения
 
Вопрос 3. Доверительный интервал для суммарного значения.
 
Иногда по выборочным данным требуется оценить не математическое ожидание,
а общую сумму значений. Например, в ситуации с аудитором интерес может
представлять оценка не средней величины счета, а суммы всех счетов.
Пусть N - общее количество элементов, n - размер выборки,  - сумма значений

в выборке,  - оценка для суммы по всей совокупности, тогда  , а

доверительный интервал вычисляется по формуле  , где s – оценка


стандартного отклонения для выборки,  - оценка среднего для выборки.
 
Пример.
Допустим, некоторая налоговая служба хочет оценить размер суммарных
налоговых возвратов для 10000 налогоплательщиков. Налогоплательщик либо
получает возврат, либо доплачивает налоги. Найдите 95%-й доверительный интервал
для суммы возврата при условии, что размер выборки составляет 500 человек (см.
файл СУММА ВОЗВРАТОВ.XLS(шаблон, решение).
 
Решение:
 
 
Рис. 103. Доверительный интервал для среднего значения
 
В StatPro нет специальной процедуры для этого случая, однако можно заметить,
что границы можно получить из границ для среднего исходя из вышеприведенных
формул (см. рис. 103.).
 
Вопрос 4. Доверительный интервал для пропорции.
 

Пусть  - математическое ожидание доли клиентов, а  - оценка этой доли,


полученная по выборке размера  . Можно показать, что для достаточно

больших   распределение оценки будет близко к нормальному с

математическим ожиданием  и стандартным отклонением  .

Стандартная ошибка оценки в данном случае выражается как  , а

доверительный интервал как  .


 
Пример.
В ресторане быстрого обслуживания планируется расширить ассортимент
новым видом сэндвича. Для того, чтобы оценить спрос на него менеджер случайным
образом выбрал 40 посетителей из тех, кто уже попробовал его и предложил им
оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет
оценить ожидаемую долю клиентов, которые оценивают новый продукт не менее чем
в 6 баллов (он ожидает, что именно эти клиенты и будут потребителями нового
продукта).
 
Решение:
Первоначально создаем новый столбец по признаку 1, если оценка клиента была
больше 6 баллов и 0 иначе (см. файл СЭНДВИЧ2.XLS (шаблон, решение).
 
Способ 1.
Подсчитывая количество 1, оцениваем долю, а далее используем формулы.
Значение  берется из специальных таблиц нормального распределения
(например, 1,96 для 95%-го доверительного интервала).
Используя данный подход и конкретные данные для построения 95%-го
интервала, получим следующие результаты (см. рис. 104). Критическое значение
параметра  равно 1,96. Стандартная ошибка оценки – 0,077. Нижняя граница
доверительного интервала – 0,475. Верхняя граница доверительного интервала – 0,775.
Таким образом, менеджер вправе полагать с 95% - й долей уверенности, что процент
клиентов, оценивших новый продукт на 6 баллов и выше, будет между 47,5 и 77,5.
 

 
Рис. 104. Доверительный результат для доли
 
Способ 2.
Данная задача допускает решение стандартными средствами StatPro. Для этого
достаточно заметить, что доля в данном случае совпадает со средним значением
столбца тип. Далее применим StatPro/Statistical Inference/One-Sample Analysis для
построения доверительного интервала среднего значения (оценки математического
ожидания) для столбца тип.Полученные в этом случае результат, будут весьма близок
к результату 1-го способа (см. рис. 104.).
 
Вопрос 5. Доверительный интервал для стандартного отклонения.
 
В качестве оценки стандартного отклонения используется s (формула приведена
в части 1). Функцией плотности распределения оценки s является функция хи-
квадрат, которая, как и t – распределение, имеет n-1 степень свободы. Имеются
специальные функции для работы с этим распределением ХИ2РАСП (CHIDIST) 
и ХИ2ОБР (CHIINV).
Доверительный интервал в этом случае уже будет не симметричным. Условная
схема границ представлена на рис. 105.
 

 
Рис. 105. Общий вид несимметричного доверительного интервала
 
Пример.
Станок должен производить детали диаметром 10 см. Однако в силу различных
обстоятельств происходят ошибки. Контролера по качеству волнуют два
обстоятельства: во-первых, среднее значение  должно равняться 10 см; во-вторых,
даже в этом случае, если отклонения будут велики, то многие детали будут
забракованы. Ежедневно он делает выборку из 50 деталей (см. файл КОНТРОЛЬ
КАЧЕСТВА.XLS (шаблон, решение). Какие выводы может дать такая выборка?
 
Решение:
 

 
Рис. 106. Доверительные интервалы среднего и стандартного отклонения
 
Построим 95%-й доверительные интервалы для среднего и для стандартного
отклонения с помощью StatPro/Statistical Inference/ One-Sample
Analysis (см. рис. 106.).
 
 
Рис. 107. Вычисление доли брака
 
Далее, используя предположение о нормальном распределении диаметров,
рассчитаем долю бракованных изделий, задавшись предельным отклонением 0,065.
Используя возможности таблицы подстановки (случай двух параметров), построим
зависимость доли брака от среднего значения и стандартного отклонения.
 
Вопрос 6. Доверительный интервал для разности двух средних значений.
 
Это одно из наиболее важных применений статистических методов. Примеры
ситуаций:
1. Менеджер магазина одежды хотел бы знать, на сколько больше или меньше
тратит в магазине средняя женщина покупатель, чем мужчина.
2. Две авиакомпании летают аналогичными маршрутами. Организация-
потребитель хотела бы сравнить разницу между среднеожидаемыми временами
задержек рейсов по обеим авиакомпаниям.
3. Компания рассылает купоны на отдельные виды товаров в одном городе и не
рассылает в другом. Менеджеры хотят сравнить средние объемы покупок этих товаров
в ближайшие два месяца.
4. Автомобильный дилер часто имеет дело на презентациях с замужними парами.
Чтобы понять их персональную реакцию на презентацию пары часто опрашивают
отдельно. Менеджер хочет оценить разницу в рейтингах указываемых мужчинами и
женщинами.
 
Случай независимых выборок.
Разность средних значений будет иметь t - распределение с  степенями
свободы. Доверительный интервал для   выражается соотношением:
 

 
 
Данная задача допускает решение не только по вышеприведенным формулам, но
и стандартными средствами StatPro. Для этого достаточно
применить StatPro/Statistical Inference/Two-Sample Analysis для построения
доверительного интервала разности двух средних значений.
 
Вопрос 7. Доверительный интервал для разности между пропорциями.
 
Пусть  и  - математическое ожидание долей. Пусть  и  их выборочные
оценки, построенные по  выборкам размера  и  соответственно. Тогда 
является оценкой для разности  . Следовательно, доверительный интервал этой
разности выражается как:
 

 
Здесь  является значением, полученным из нормального распределения по
специальным таблицам (например, 1,96 для 95%-й доверительного интервала).
Стандартная ошибка оценки выражается в данном случае соотношением:
 

.
 
Пример.
Магазин, готовясь к большой распродаже, предпринял следующие
маркетинговые исследования. Были выбраны 300 лучших покупателей, которые в
свою очередь были случайным образом поделены на две группы по 150 членов в
каждой. Всем из отобранных покупателей были разосланы приглашения для участия в
распродаже, но только для членов первой группы был приложен купон, дающий право
на 5%-ю скидку. В ходе распродажи покупки всех 300 отобранных покупателей
фиксировались. Каким образом менеджер может интерпретировать полученные
результаты и сделать заключение об эффективности предоставления купонов? (см.
файл КУПОНЫ.XLS (шаблон, решение).
 
Решение:
 
 
Рис. 108. Оценка эффективности купонной распродажи
 
Для нашего конкретного случая из 150 покупателей, получивших купон на
скидку, 55 сделали покупку на распродаже, а среди 150, не получивших купон,
покупку сделали только 35 (см. рис. 108.). Тогда значения выборочных пропорций
соответственно 0,3667 и 0,2333. А выборочная разность между ними равна
соответственно 0,1333. Полагая доверительный интервал 95%-м, находим по таблице
нормального распределения  = 1,96. Вычисление стандартной ошибки выборочной
разности равно 0,0524. Окончательно получаем, что нижняя граница 95%-го
доверительного интервала равна 0,0307, а верхняя граница 0,2359 соответственно.
Полученные результаты можно интерпретировать таким образом, что на каждых 100
покупателей, получивших купон со скидкой, можно ожидать от 3 до 23 новых
покупателей. Однако надо иметь в виду, что этот вывод сам по себе еще не означает
эффективности применения купонов (поскольку, предоставляя скидку, мы теряем в
прибыли!). Продемонстрируем это на конкретных данных. Предположим, что средний
размер покупки равен 400 руб., из которых 50 руб. есть прибыль магазина. Тогда
ожидаемая прибыль на 100 покупателях, не получивших купон, равна:
 
50 * 0,2333 * 100 = 1166,50 руб.
 
Аналогичные вычисления для 100 покупателей получивших купон, дают:
 
30 * 0,3667 * 100 = 1100,10 руб.
 
Уменьшение средней прибыли до 30 объясняется тем, что, используя скидку,
покупатели, получившие купон, в среднем будут делать покупку на 380 руб.
Таким образом, итоговый вывод говорит о неэффективности использования
таких купонов в данной конкретной ситуации.
 
Замечание: Данная задача допускает решение стандартными средствами StatPro.
Для этого достаточно свести данную задачу к задаче оценки разности двух средних
способом, а далее применить StatPro/Statistical Inference/Two-Sample Analysis для
построения доверительного интервала разности двух средних значений.
 
Вопрос 8. Управление длиной доверительного интервала.
 
Длина доверительного интервала зависит от следующих условий:
    непосредственно данных (стандартное отклонение);
    уровня значимости;
    размера выборки.
 
 

 
Рис. 109. Графическое изображение параметра В.
 
Размер выборки для оценки среднего значения.
Сначала рассмотрим задачу в общем случае. Обозначим данное нам значение
половины длины доверительного интервала за В (см. рис. 109.). Нам известно, что
доверительный интервал для среднего значения некоторой случайной
величины X выражается как  , где  . Полагая:
 

и выражая n, получим  .
 
К сожалению, точное значение дисперсии случайной величины X нам не
известно. Кроме этого, нам неизвестно и значение  , так как оно зависит от n через
количество степеней свободы. В данной ситуации мы можем поступить следующим
образом. Вместо дисперсии s используем какую-либо оценку дисперсии, по каким-
либо имеющимся реализациям исследуемой случайной величины. Вместо значения 
используем значение  для нормального распределения. Это вполне допустимо,
поскольку функции плотности распределений для нормального и t - распределения
очень близки (за исключением случая малых n). Таким образом, искомая формула
принимает вид:
 

.
 
Поскольку формула дает, вообще говоря, нецелочисленные результат, в качестве
искомого размера выборки берется округление с избытком результата.
 
Пример.
В ресторане быстрого обслуживания планируется расширить ассортимент
новым видом сэндвича. Для того чтобы оценить спрос на него менеджер случайным
образом планирует выбрать некоторое количество посетителей из тех, кто уже
попробовал его, и предложить им оценить их отношение к новому продукту в баллах
от 1 до 10. Менеджер хочет оценить ожидаемое количество баллов, которое получит
новый продукт и построить 95%-й доверительный интервал этой оценки. При этом он
хочет, чтобы половина ширины доверительного интервала не превышала 0,3. Какое
количество посетителей ему необходимо опросить?
 
Решение:
В нашем конкретном примере мы можем воспользоваться данными по 40
посетителям из примера (см. файл СЭНДВИЧ1.XLS (шаблон, решение), стандартное
отклонение для которых было оценено как 1,597. В качестве   берем 1,96, а в
качестве В, подставляем 0,3. Получаем по формуле n = 108,86. Следовательно,
искомый размер выборки составляет 109.
 
Размер выборки для оценки других параметров.
1) Формула для размера выборки при оценке доли выглядит следующим
образом:
 

 
Здесь  - оценка доли  , а В есть заданная половина длины доверительного
интервала. Завышенное значение для n можно получить, используя значение  .
В этом случае длина доверительного интервала не будет превосходить заданного
значения В при любом истинном значении  .
 
Пример.
Пусть менеджер из предыдущего примера планирует оценить долю клиентов
отдавших предпочтение новому виду продукции. Он хочет построить 90%-й
доверительный интервал, половина длины которого не превосходила бы 0,05. Сколько
клиентов должно войти в случайную выборку?
 
Решение:
В нашем случае значение  . Поэтому искомое количество вычисляется

как  . Если бы менеджер имел основания полагать, что


искомое значение составляет, например, примерно 0.3, то, подставляя это значение
в вышеприведенную формулу, мы получили бы меньшее значение величины
случайной выборки, а именно 228.
 
2) Формула для определения размеров случайной выборки в случае разности
между двумя средними значениями записывается как:
 

 
Пример.
Некоторая компьютерная компания имеет сервисный центр по обслуживанию
клиентов. В последнее время увеличилось количество жалоб клиентов на плохое
качество обслуживания. В сервисном центре в основном работают сотрудники двух
типов: не имеющие большого опыта, но закончившие специальные подготовительные
курсы, и имеющие большой практический опыт, но не закончившие специальных
курсов. Компания хочет проанализировать нарекания клиентов за последние полгода и
сравнить их средние количества, приходящиеся на каждую из двух групп
сотрудников. Предполагается, что количества в выборках по обеим группам будут
одинаковые. Какое количество сотрудников необходимо включить в выборку, чтобы
получить 95%-й интервал с половиной длины не более 2?
 
Решение:
Здесь  есть оценка стандартного отклонения обеих случайных переменных в
предположении, что они близки. Таким образом, в нашей задаче нам необходимо
каким-то образом получить эту оценку. Это можно сделать, например, следующим
образом. Просмотрев данные по нареканиям клиентов за последние полгода, менеджер
может заметить, что на каждого сотрудника в основном приходится от 6 до 36
нареканий. Зная, что для нормального распределения практически все значения
удалены от среднего значения не более чем на три стандартных отклонения, он может
с определенным основанием полагать, что:
 
, откуда 
 

Подставляя это значение в формулу, получаем  .


 
3) Формула для определения размера случайной выборки в случае оценки
разности между долями имеет вид:
 

 
Пример.
Некоторая компания имеет две фабрики по производству аналогичной
продукции. Менеджер компании хочет сравнить доли бракованной продукции на
обеих фабриках. По имеющейся информации процент брака на обеих фабриках
составляет от 3 до 5%. Предполагается построить 99%-й доверительный интервал с
половиной длины не более 0,005 (или 0,5%). Какое количество изделий необходимо
отобрать с каждой фабрики?
 
Решение:
Здесь  являются оценками двух неизвестных долей брака на 1-й и 2-й
фабрике. Если положить  , то мы получим завышенное значение для n.
Но поскольку в нашем случае мы имеем некоторую априорную информацию об этих
долях, то мы берем верхнюю оценку этих долей, а именно 0,05.

Получаем  .
Когда делается оценка некоторых параметров совокупности по выборочным
данным, полезно дать не только точечную оценку параметра, но и указать
доверительный интервал, который показывает, где может находиться точное значение
оцениваемого параметра.
В данной главе мы также познакомились с количественными соотношениями
позволяющими строить такие интервалы для различных параметров.
Узнали способы управления длинной доверительного интервала.
Отметим также, что задачу оценки размеров выборки (задача планирования
эксперимента) можно решить, используя стандартные средства StatPro, а
именно StatPro/Statistical Inference/Sample Size Selection.
 
Тема 9. Проверка статистических гипотез
 
Цели обучения:
В отличие от задачи, рассмотренной в предыдущей главе, мы имеем гипотезу,
которую хотим апробировать на экспериментальных данных. Примеры некоторых
гипотез:
    новый дизайн упаковки ничем не лучше имеющегося;
    новое лекарство не обладает преимуществами по сравнению с известными;
    курящие люди, не более склонны к сердечным заболеваниям, чем некурящие.
 
Изучив материал данной темы, Вы:
    увидите, что методы проверки гипотез используют те же характеристики, что
и методы построения доверительных интервалов, только с несколько иной точки
зрения;
    научитесь проверять – отвергается ли гипотеза имеющимися статистическими
данными при заданном уровне значимости.
 
Содержание темы:
1. Основные понятия теории проверки гипотез.
2. Проверка гипотез для математического ожидания.
3. Проверка гипотез для остальных параметров.
 
Вопрос 1. Основные понятия теории проверки гипотез.
 
Удобнее обсуждать понятия на конкретном примере.
 
Пример.
Менеджер ресторана недавно начал экспериментировать с новым способом
приготовления пиццы. С его точки зрения, пицца, приготовленная новым способом,
вкуснее, но для принятия окончательного решения о переходе на новый способ он
хочет провести анализ мнения посетителей и планирует следующий эксперимент. Для
100 клиентов, заказавших пиццу на дом, он отправляет ее в двух вариантах
приготовления и просит оценить в баллах свое мнение. Баллы от -10 до 10. Если
клиент имеет сильное предпочтение к старому способу, то -10, к новому 10, если все
равно, то ноль и так далее. После сбора результатов, какова должна быть процедура
обработки?
Менеджер совсем не обязательно должен в данном случае использовать аппарат
проверки гипотез. Но мы покажем, как он мог бы его использовать.
 
Нулевая и альтернативная гипотезы.
Как правило, гипотезу, которую пытаются доказать, называют альтернативной,
а которую опровергнуть - нулевой. Если обозначить в нашем примере среднее
значение баллов как  , то гипотезы могут быть записаны как:
 
(нулевая гипотеза),  (альтернативная).
 
Односторонние и двусторонние тесты.
Форма альтернативной гипотезы может быть односторонней или двусторонней,
в зависимости, что хотят доказать. Если гипотеза может быть отвергнута
результатами, как положительными, так и отрицательными, значит, мы имеем
двусторонний случай, иначе односторонний.
 
Типы ошибок.
В статистической теории проверки гипотез рассматривают ошибки двух типов.
Ошибка первого рода - отвергается истинная гипотеза.
Ошибка второго рода - не отвергается ложная гипотеза.
 
Уровень значимости и область отвержения гипотезы.
Вероятность ошибки первого рода обычно обозначается  , называется уровнем
значимости и принимает типичные значения 0,01 и 0,05. Задаваясь значением уровня
значимости можно построить области, где гипотеза отвергается и не отвергается. Чем
больше уровень значимости, тем больше вероятность ошибки первого рода и меньше
вероятность ошибки второго рода и наоборот. Именно по этой причине выбор уровня
значимости не является однозначным, а диктуется ситуацией и отношениям к
ошибкам лица, принимающего решения (ЛПР).
 
Вопрос 2. Проверка гипотез для математического ожидания.
 
Вычисляем t - статистику.
 

 
Пример.
Продолжим наш пример с менеджером ресторана (см.
файл ПИЦЦА1.XLS (шаблон, решение). Есть ли основание отвергать гипотезу
(склонность к старому способу приготовления)?
 
Решение:
Напомним, что:
 
(нулевая гипотеза),  (альтернативная)
 
В нашем случае  =0. Вычисляем t – статистику: t = 2,816 (табл. 24).
 
Таблица 24.
Проверка гипотезы о предпочтении новому виду пиццы
 
Клиент Рейтинг    
1 -7 Рейтинг
2 7    
3 -2 Среднее 2,1
4 4 Стандартная ошибка 0,745757
5 7 Медиана 2
6 6 Мода 2
7 0 Стандартное отклонение 4,716583
8 2 Дисперсия выборки 22,24615
9 8 Эксцесс -0,84047
10 2 Асимметричность -0,21719
11 3 Интервал 17
12 -4 Минимум -7
13 8 Максимум 10
14 -5 Сумма 84
15 7 Счет 40
16 -5    
 
Использование функции СТЬЮДРАСП(2,816;39;1) показывает, что для
нулевой гипотезы вероятность результата составляет всего 0,4%. А следовательно,
даже при уровне значимости 1% гипотеза должна быть отвергнута, то есть новый вид
пиццы предпочтительнее.
Данная задача может быть решена и средствами StatPro, а именноc
помощью  StatPro/Statistical Inference/One-Sample Analysis. Соответствующее табло
представлено на рис. 110, а результаты на рис. 111.
 
 
Рис. 110. Панель проверки гипотез
 

 
Рис. 111. Результат проверки гипотезы средствами StatPro
 
Результат проверки, как и следовало ожидать, получается эдентичный.
 
Вопрос 3. Проверка гипотез для остальных параметров.
 
Проверка гипотез для различных параметров в своей основе аналогична тому,
как исследовался вопрос о доверительных интервалах для различных параметров, так
как используются те же распределения.
 
Проверка гипотез для доли совокупности.
Выборочная доля имеет распределение, близкое к нормальному, поэтому
вычисляем z -статистику по формуле:
 
 
Проверка гипотез для разности математических ожиданий.
Вычисляется t - статистика по формулам:

,  .
 
Проверка гипотез для разности между долями совокупности.
Пусть  и  значения долей, а  и  их разностные оценки. Стандартное
отклонение вычисляется по формуле:
,
 
          где  - выборочная пропорция, полученная по объединению выборок.

Далее используем функцию НОРМСТРАСП.


 
Литература:
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы  эконометрики:
Учебник для студентов экон.спец.вузов, -М.: ЮНИТИ, 1998. – 1022 с.
2. Макарова Н.В., Трофимец В.Я., Статистика в Excel. - Финансы и статистика,
2002. – 368 с.
3. Ричард Томас, Количественные методы анализа хозяйственной деятельности/
Пер. с англ. - М.: "Дело и сервис", 1999. - 432 с.
4. Карлберг К., Бизнес-анализ с помощью Excel. Пер. с англ. - К: Диалектика,
1997.- 448 с.
5. Орлова И.В., Экономико-математические методы и модели. Выполнение
расчетов в среде Excel: Практикум. - М.: ЗАО "Финстатинформ", 2000. - 136 с.
6. Mik Wisniewski, Quantitative Methods for Decision Makers, Prentice Hall, 2002. -
575 с.