Вы находитесь на странице: 1из 22

Bismillahir-Rəhmanir-Rəhim

ТЕМА1
ВВЕДЕНИЕ В СТАТИСТИКУ
Часто мы видим следующие типы заявлений в газетах и журналах:
• Национальная ассоциация риэлторов сообщила, что средняя цена продажи
дома в Соединенных Штатах составляла 215 000 долларов (The Wall Street
Journal, 16 января 2006 г.).
• Средняя стоимость 30-секундного рекламного ролика во время игры Super
Bowl 2006 года составила 2,5 миллиона долларов (USAToday, 27 января 2006
г.).
• Исследование AJupiter Media показало, что 31% взрослых мужчин смотрят
телевизор 10 или более часов в неделю. Для взрослых женщин это было 26%
(The Wall Street Journal, 26 января 2004 г.).
• General Motors, лидер по денежным скидкам в автомобильной отрасли,
предоставил средний денежный стимул в размере 4300 долларов США за
автомобиль (USAToday, 27 января 2006 г.).
• Более 40% менеджеров Marriott International продвигаются по служебной
лестнице (Fortune, 20 января 2003 г.).
• У янки Нью-Йорка самая высокая зарплата в бейсболе высшей лиги. В 2005
году заработная плата команды составляла 208 306 817 долл. США со
средней стоимостью 5 833 333 долл. США на игрока (USAToday Salary
Database, февраль 2006 г.).
• Промышленный индекс Доу-Джонса закрылся на уровне 11 577 (Barron's, 6
мая 2006 г.).
Числовые факты в предыдущих заявлениях (215 000 долл. США; 2,5 млн.
Долл. США; 31%; 26%; 4300 долл. США; 40%; 5 833 333 долл. США; и 11
577) называются статистикой. В этом использовании термин статистика
относится к числовым фактам, таким как средние значения, медианы,
проценты и индексные числа, которые помогают нам понять различные
деловые и экономические условия. Однако, как вы увидите, поле или
предмет статистики включает в себя гораздо больше, чем числовые факты. В
более широком смысле статистика определяется как искусство и наука
сбора, анализа, представления и интерпретации данных. В частности, в

1
Bismillahir-Rəhmanir-Rəhim

сфере бизнеса и экономики информация, предоставляемая путем сбора,


анализа, представления и интерпретации данных, дает менеджерам и
лицам, принимающим решения, лучшее понимание деловой и
экономической среды и, таким образом, позволяет им принимать более
обоснованные и лучшие решения. В этом тексте мы подчеркиваем
использование статистики для принятия деловых и экономических решений.
Глава 1 начинается с некоторых иллюстраций применения статистики в
бизнесе и экономике. В разделе 1.2 мы определяем термин data и вводим
понятие набора данных. В этом разделе также вводятся ключевые термины,
такие как переменные и наблюдения, обсуждается разница между
количественными и качественными данными, а также иллюстрируется
использование данных поперечного сечения и временных рядов. В разделе
1.3 обсуждается, как данные могут быть получены из существующих
источников или путем обследования и экспериментальных исследований,
предназначенных для получения новых данных. Также подчеркивается
важная роль, которую Интернет играет в получении данных. Использование
данных при разработке описательной статистики и при создании
статистических выводов описано в разделах 1.4 и 1.5.
1.1. Приложения в бизнесе и экономике
В современной глобальной деловой и экономической среде каждый может
получить доступ к огромным объемам статистической информации. Самые
успешные менеджеры и лица, принимающие решения, понимают
информацию и знают, как ее эффективно использовать. В этом разделе мы
приводим примеры, иллюстрирующие использование статистики в бизнесе и
экономике.
Бухгалтерский учет
Государственные бухгалтерские фирмы используют процедуры
статистической выборки при проведении аудитов для своих клиентов.
Например, предположим, что бухгалтерская фирма хочет определить,
соответствует ли сумма дебиторской задолженности, показанная на балансе
клиента, фактической сумме дебиторской задолженности. Обычно большое
количество отдельных дебиторских задолженностей делает проверку и
проверку каждой учетной записи слишком трудоемкой и дорогостоящей. В
качестве обычной практики в таких ситуациях аудиторский персонал
выбирает подмножество счетов, называемых выборкой. После проверки

2
Bismillahir-Rəhmanir-Rəhim

точности выборочных счетов аудиторы делают вывод о приемлемости суммы


дебиторской задолженности, указанной в балансе клиента.
Финансы
Финансовые аналитики используют разнообразную статистическую
информацию для руководства своими инвестиционными рекомендациями. В
случае с акциями аналитики рассматривают различные финансовые данные,
включая соотношение цена / прибыль и дивидендную доходность. Сравнивая
информацию об отдельной акции с информацией о средних показателях на
фондовом рынке, финансовый аналитик может начать делать вывод о том,
завышена ли цена на конкретную акцию. Например, Barron's (12 сентября
2005 г.) сообщил, что среднее соотношение цены и прибыли для 30 акций в
Dow Jones Industrial Average составило 16,5. JPMorgan показал соотношение
цены и прибыли в 11,8. В этом случае статистическая информация о
соотношении цена / прибыль показала более низкую цену по сравнению с
доходами для JPMorgan, чем в среднем по акциям Dow Jones. Таким образом,
финансовый аналитик может заключить, что JPMorgan был недооценен. Эта
и другая информация о JPMorgan поможет аналитику сделать рекомендацию
о покупке, продаже или удержании акций.
Маркетинг
Электронные сканеры в розничных кассе собирают данные для различных
приложений маркетинговых исследований. Например, поставщики данных,
такие как ACNielsen и Information Resources, Inc., покупают данные о
сканерах в точках продаж в продуктовых магазинах, обрабатывают их и
затем продают статистические сводки данных производителям.
Производители тратят сотни тысяч долларов на каждую категорию продукта
для получения данных этого типа. Производители также покупают данные и
статистические сводки о рекламных мероприятиях, таких как специальные
цены и использование витрин в магазине. Брендовые менеджеры могут
просматривать статистику сканера и статистику рекламной активности,
чтобы лучше понять взаимосвязь между рекламной деятельностью и
продажами. Такой анализ часто оказывается полезным для установления
будущих маркетинговых стратегий для различных продуктов.
Производство

3
Bismillahir-Rəhmanir-Rəhim

Сегодняшний акцент на качество делает контроль качества важным


применением статистики в производстве. Различные статистические
диаграммы контроля качества используются для мониторинга результатов
производственного процесса. В частности, x-гистограмма может
использоваться для контроля среднего выхода. Предположим, например, что
машина наполняет контейнеры 12 унциями безалкогольного напитка.
Периодически производственный рабочий выбирает образец контейнеров и
вычисляет среднее количество унций в образце. Это среднее значение или
значение x-bar наносится на график x-bar. Отмеченное значение выше
верхнего контрольного предела диаграммы указывает на переполнение, а
нанесенное на график значение ниже нижнего контрольного предела
диаграммы указывает на недостаточное заполнение. Процесс называется
«под контролем» и может продолжаться до тех пор, пока значения на
графике x попадают между верхним и нижним контрольными пределами
диаграммы. Правильно интерпретированная гистограмма может помочь
определить, когда необходимы корректировки для корректировки
производственного процесса.
Экономика
Экономисты часто дают прогнозы о будущем экономики или ее аспектах.
Они используют разнообразную статистическую информацию при
составлении таких прогнозов. Например, при прогнозировании уровня
инфляции экономисты используют статистическую информацию о таких
показателях, как индекс цен производителей, уровень безработицы и загрузка
производственных мощностей. Часто эти статистические показатели
вводятся в модели компьютерного прогнозирования, которые прогнозируют
темпы инфляции.
Приложения статистики, подобные описанным в этом разделе, являются
неотъемлемой частью этого текста. Такие примеры дают обзор широты
статистических приложений. В дополнение к этим примерам специалисты в
области бизнеса и экономики представили вводные статьи «Статистика на
практике», в которых представлены материалы, описанные в каждой главе.
Приложения «Статистика на практике» показывают важность статистики в
самых разных деловых и экономических ситуациях.
1.2. Данные

4
Bismillahir-Rəhmanir-Rəhim

Данные - это факты и цифры, собранные, проанализированные и


обобщенные для представления и интерпретации. Все данные, собранные в
конкретном исследовании, называются набором данных для исследования.
Таблица 1.1 показывает набор данных, содержащий информацию для 25
компаний, входящих в S & P 500. S & P 500 состоит из 500 компаний,
выбранных Standard & Poor's. На эти компании приходится 76% рыночной
капитализации всех акций США. За акциями S & P500 внимательно следят
инвесторы и аналитики с Уолл-стрит.

Элементы, Переменные, наблюдения

5
Bismillahir-Rəhmanir-Rəhim

Элементы - это объекты, по которым собираются данные. Для набора


данных в таблице 1.1 запас каждой отдельной компании является элементом;
имена элементов появляются в первом столбце. С 25 запасами, набор данных
содержит 25 элементов.
Переменная является характеристикой, представляющей интерес для
элементов. Набор данных в таблице 1.1 включает следующие пять
переменных:
• Биржа: где торгуются акции - N (Нью-Йоркская фондовая биржа) и NQ
(Национальный рынок Nasdaq)
• Символ тикера: аббревиатура, используемая для идентификации акции в
листинге биржи
• Ранг BusinessWeek: от 1 до 500, что является показатель силы компании
• Цена акций ($): цена закрытия (28 февраля 2005 г.)
• Доход на акцию ($): прибыль на акцию за последние 12 месяцев
Измерения, собранные по каждой переменной для каждого элемента в
исследовании, предоставляют данные. Набор измерений, полученных для
определенного элемента, называется наблюдением. Обращаясь к таблице
1.1, мы видим, что набор измерений для первого наблюдения (Abbott
Laboratories) - это N, ABT, 90, 46 и 2.02. Набор измерений для второго
наблюдения (Altria Group) - это N, MO, 148, 66 и 4,57, и так далее. Набор
данных из 25 элементов содержит 25 наблюдений.
Шкалы измерения
Для сбора данных требуется одна из следующих шкал измерения:
номинальная, порядковая, интервальная или относительная. Шкала
измерений определяет объем информации, содержащейся в данных, и
указывает наиболее подходящее обобщение данных и статистический анализ.
Когда данные для переменной состоят из меток или имен, используемых для
идентификации атрибута элемента, шкала измерения считается номинальной
шкалой. Например, ссылаясь на данные в таблице 1.1, мы видим, что шкала
измерения для биржевой переменной является номинальной, поскольку N и
NQ - это метки, используемые для определения того, где торгуются акции
компании. В случаях, когда шкала измерения является номинальной, могут

6
Bismillahir-Rəhmanir-Rəhim

использоваться числовой код, а также нечисловые метки. Например, чтобы


облегчить сбор данных и подготовить данные для ввода в компьютерную
базу данных, мы могли бы использовать числовой код, указав 1 для
обозначения Нью-Йоркской фондовой биржи и 2 для обозначения
национального рынка Nasdaq. В этом случае числовые значения 1 и 2
предоставляют метки, используемые для определения того, где торгуются
акции. Шкала измерения является номинальной, даже если данные
отображаются в виде числовых значений.
Шкала измерения для переменной называется порядковой шкалой, если
данные обладают свойствами номинальных данных, а порядок или ранг
данных имеет смысл. Например, Eastside Automotive отправляет клиентам
вопросник, предназначенный для получения данных о качестве услуг по
ремонту автомобилей. Каждый покупатель оценивает качество обслуживания
как отличное, хорошее или плохое. Поскольку полученные данные
представляют собой метки - отличные, хорошие или плохие - данные
обладают свойствами номинальных данных. Кроме того, данные могут быть
ранжированы или упорядочены в отношении качества обслуживания.
Данные, записанные как отличные, указывают на лучшее обслуживание,
затем на хорошее, а затем на плохое. Таким образом, шкала измерения
является порядковой. Обратите внимание, что порядковые данные также
могут быть записаны с использованием числового кода. Например, рейтинг
BusinessWeek для данных в таблице 1.1 - это порядковые данные. Это дает
рейтинг от 1 до 500 на основе оценки BusinessWeek силы компании.
Шкала измерения для переменной становится интервальной шкалой, если
данные показывают свойства порядковых данных, а интервал между
значениями выражается в виде фиксированной единицы измерения.
Интервальные данные всегда числовые. Оценки Scholastic Aptitude Test
(SAT) являются примером данных с интервальным масштабированием.
Например, три ученика с оценками SATmath 620, 550 и 470 могут быть
ранжированы или упорядочены с точки зрения наилучшей успеваемости и
худшей успеваемости. Кроме того, различия между оценками значимы.
Например, студент 1 набрал 620-550 = 70 баллов больше, чем студент 2, а
студент 2 набрал 550- 470= 80 баллов больше, чем студент 3.
Шкала измерения для переменной является шкалой отношения, если
данные имеют все свойства данных интервала и отношение двух значений
имеет смысл. Переменные, такие как расстояние, рост, вес и время,
7
Bismillahir-Rəhmanir-Rəhim

используют масштабную шкалу измерений. Эта шкала требует включения


нулевого значения, чтобы указать, что для переменной в нулевой точке
ничего не существует. Например, рассмотрим стоимость автомобиля.
Значение Azero для стоимости будет означать, что автомобиль бесплатен и
является бесплатным. Кроме того, если мы сравним стоимость 30 000 долл.
США за один автомобиль со стоимостью 15 000 долл. США за второй
автомобиль, свойство отношения показывает, что стоимость первого
автомобиля составляет 30 000 долл. США / 15 000 долл. США в 2 раза или в
два раза больше стоимости второго автомобиля.
Качественные и количественные данные
Данные также могут быть классифицированы как качественные или
количественные. Качественные данные включают метки или имена,
используемые для идентификации атрибута каждого элемента.
Качественные данные используют либо номинальную, либо порядковую
шкалу измерения и могут быть нечисловыми или числовыми.
Количественные данные требуют числовых значений, которые указывают,
сколько или сколько. Количественные данные получены с использованием
либо интервальной шкалы, либо шкалы отношения. Качественная
переменная - это переменная с качественными данными, а количественная
переменная - это переменная с количественными данными. Статистический
анализ, подходящий для конкретной переменной, зависит от того, является
ли переменная качественной или количественной. Если переменная
качественная, статистический анализ довольно ограничен. Мы можем
суммировать качественные данные путем подсчета количества наблюдений в
каждой качественной категории или путем вычисления доли наблюдений в
каждой качественной категории. Однако даже когда качественные данные
используют числовой код, арифметические операции, такие как сложение,
вычитание, умножение и деление, не дают значимых результатов. В разделе
2.1 обсуждаются способы обобщения качественных данных.
С другой стороны, арифметические операции часто дают значимые
результаты для количественной переменной. Например, для количественной
переменной данные могут быть добавлены и затем разделены на количество
наблюдений для вычисления среднего значения. Это среднее значение
обычно имеет смысл и легко интерпретируется. В целом, возможны
дополнительные альтернативы для статистического анализа, когда данные

8
Bismillahir-Rəhmanir-Rəhim

являются количественными. Раздел 2.2 и глава 3 предоставляют способы


обобщения количественных данных.
Данные поперечного сечения и временного ряда
Для целей статистического анализа важно проводить различие между
данными поперечного сечения и данными временного ряда. Данные
поперечного сечения - это данные, собранные в один и тот же или
приблизительно в один и тот же момент времени. Данные в Таблице 1.1
являются поперечными, потому что они описывают пять переменных для 25
компаний S & P 500 в один и тот же момент времени. Данные временного
ряда - это данные, собранные за несколько периодов времени. Например, на
рисунке 1.1 представлен график средней цены в США за галлон
неэтилированного обычного бензина в США. График показывает цену
бензина в довольно стабильном диапазоне между 1,80 и 2,00 долл. США с
мая 2004 года по февраль 2005 года. После этого цена на бензин стала более
волатильной. Он значительно вырос, кульминацией которого стал резкий
скачок в сентябре 2005 года.
Графики данных временных рядов часто встречаются в деловых и
экономических публикациях. Такие графики помогают аналитикам понять,
что произошло в прошлом, определить любые тенденции во времени и
спроектировать будущие уровни для временных рядов. Графики данных
временных рядов могут принимать различные формы, как показано на
рисунке 1.2. При небольшом изучении эти графики обычно легко понять и
интерпретировать.

9
Bismillahir-Rəhmanir-Rəhim

Например, панель (A) на рисунке 1.2 представляет собой график,


показывающий процентную ставку для студенческих кредитов Стаффорда в
период с 2000 по 2006 год. После 2000 года процентная ставка снизилась и
достигла своего самого низкого уровня в 3,2% в 2004 году. Однако после
2004 года Процентная ставка по студенческим кредитам резко возросла,
достигнув 6,8% в 2006 году. По оценкам Министерства образования США,
что более 50% студентов бакалавриата заканчивают учебу с долгами, эта
повышающаяся процентная ставка возлагает большую финансовую нагрузку
на многих новых выпускников колледжей. На графике в Таблице (B)
показано довольно тревожное увеличение среднего долга по кредитным
картам на домохозяйство за 10-летний период с 1995 по 2005 год. Обратите
внимание, что временной ряд показывает почти устойчивый ежегодный рост
среднего долга по кредитным картам на домохозяйство с 4500 долл. США в
1995 году до 9500 долл. США в 2005 году. В 2005 году средняя
задолженность по кредитным картам в расчете на одну семью составляла 10
000 долл. США. Большинство компаний кредитных карт предлагают
относительно низкие вступительные процентные ставки. Однако после этого
начального периода распространены годовые процентные ставки 18%, 20% и

10
Bismillahir-Rəhmanir-Rəhim

более. Эти ставки делают задолженность по кредитной карте трудной для


домашних хозяйств. Панель (C) показывает график периодов занятости для
гостиниц в Южной Флориде в течение типичного периода в один год.
Отметим, что форма графической панели (C) отличается от графиков на
панелях (A) и (B), причем время в месяцах показано на вертикальной, а не на
горизонтальной оси. Наибольшая заполняемость от 95% до 98% наблюдается
в феврале и марте, когда климат Южной Флориды является привлекательным
для туристов. На самом деле, январь-апрель - типичный сезон высокой
посещаемости отелей Южной Флориды. С другой стороны, обратите
внимание на низкий уровень занятости в августе-октябре; самая низкая
занятость, составляющая 50%, приходится на сентябрь. Более высокие
температуры и сезон ураганов являются основными причинами, по которым
люди занимают жилье в течение этого периода.

11
Bismillahir-Rəhmanir-Rəhim

Будем изучать временные ряды и прогнозирование временных рядов при


рассмотрении методов прогнозирования в главе 16. Кроме главы 16,
статистические методы, представленные в этом тексте, применяются к
данным поперечного сечения, а не к временным рядам.
Источники данных

12
Bismillahir-Rəhmanir-Rəhim

Данные могут быть получены из существующих источников или из опросов


и экспериментальных исследований, предназначенных для сбора новых
данных.
Существующие источники
В некоторых случаях данные, необходимые для конкретного приложения,
уже существуют. Компании поддерживают различные базы данных о своих
сотрудниках, клиентах и бизнес-операциях. Данные о заработной плате,
возрасте и многолетнем опыте сотрудников обычно можно получить из
внутренних кадровых документов. Другие внутренние записи содержат
данные о продажах, расходах на рекламу, распределительных расходах,
уровнях запасов и объемах производства. Большинство компаний также
ведут подробные данные о своих клиентах. Таблица 1.2 показывает
некоторые данные, которые обычно доступны из внутренних записей
компании. Организации, специализирующиеся на сборе и ведении данных,
предоставляют значительные объемы деловых и экономических данных.
Компании получают доступ к этим внешним источникам данных
посредством лизинговых соглашений или путем покупки. Dun & Bradstreet,
Bloomberg и Dow Jones & Company - это три фирмы, которые предоставляют
клиентам обширную базу бизнес-услуг. ACNielsen и Information Resources,
Inc. создали успешные предприятия по сбору и обработке данных, которые
они продают рекламодателям и производителям продукции.

Данные также доступны от различных отраслевых ассоциаций и


организаций, представляющих особые интересы. Американская ассоциация
13
Bismillahir-Rəhmanir-Rəhim

туристической индустрии хранит информацию о поездках, такую как


количество туристов и расходы на поездки по штатам. Такие данные могут
представлять интерес для фирм и частных лиц в сфере туризма. Приемный
совет менеджмента выпускников хранит данные о результатах тестов,
характеристиках студентов и программах обучения менеджеров
выпускников. Большинство данных из этих типов источников доступны для
квалифицированных пользователей по скромной цене. Интернет продолжает
расти как важный источник данных и статистической информации. Почти все
компании поддерживают веб-сайты, которые предоставляют общую
информацию о компании, а также данные о продажах, количестве
сотрудников, количестве продуктов, ценах на продукты и спецификациях
продуктов. Кроме того, ряд компаний в настоящее время специализируются
на предоставлении информации через Интернет. В результате можно
получить доступ к биржевым котировкам, ценам на еду в ресторанах, данным
о заработной плате и почти бесконечному разнообразию информации.
Правительственные учреждения являются еще одним важным источником
существующих данных. Например, министерство труда США располагает
значительными данными о показателях занятости, заработной платы,
численности рабочей силы и членстве в профсоюзах. В таблице 1.3
перечислены отдельные правительственные учреждения и некоторые данные,
которые они предоставляют. Большинство государственных учреждений,
которые собирают и обрабатывают данные, также предоставляют результаты
через веб-сайт. Например, Бюро переписей США располагает большим
объемом данных на своем веб-сайте www.census.gov. На рисунке 1.3
показана домашняя страница Бюро переписей США.
Статистические исследования
Иногда данные, необходимые для конкретного приложения, недоступны из
существующих источников. В таких случаях данные часто можно получить
путем проведения статистического исследования. Статистические
исследования могут быть классифицированы как экспериментальные или
наблюдательные. В экспериментальном исследовании интересующая
переменная сначала идентифицирована. Затем идентифицируются и
контролируются одна или несколько других переменных, чтобы можно было
получить данные о том, как они влияют на интересующую переменную.
Например, фармацевтическая фирма может быть заинтересована в
проведении эксперимента, чтобы узнать, как новый препарат влияет на

14
Bismillahir-Rəhmanir-Rəhim

кровяное давление. Артериальное давление - это переменная,


представляющая интерес для исследования. Уровень дозировки нового
препарата является еще одной переменной, которая, как ожидается, будет
оказывать причинное влияние на артериальное давление. Чтобы получить
данные о влиянии нового препарата, исследователи отбирают выборку лиц.
Уровень дозировки нового препарата контролируется, так как разные группы
людей получают разные уровни дозировки. До и после данные о кровяном
давлении собираются для каждой группы. Статистический анализ
экспериментальных данных может помочь определить, как новый препарат
влияет на кровяное давление.

Неэкспериментальные или наблюдательные статистические исследования не


предпринимают попыток контролировать переменные, представляющие
интерес. A survey, пожалуй, самый распространенный тип наблюдательного
исследования. Например, в ходе личного собеседования сначала
определяются вопросы исследования. Затем вопросник разрабатывается и
проводится для выборки лиц. Некоторые рестораны используют
обсервационные исследования, чтобы получить данные о мнениях своих
клиентов о качестве еды, обслуживания, атмосферы и так далее. Анкета,
используемая рестораном Lobster Pot в Редингтон-Шорс, штат Флорида,
показана на рисунке 1.4. Обратите внимание, что клиенты, заполняющие
анкету, должны предоставить рейтинги по пяти переменным: качество
продуктов питания, удобство обслуживания, быстрота обслуживания,
чистота и управление. Категории ответов «отлично», «хорошо»,

15
Bismillahir-Rəhmanir-Rəhim

«удовлетворительно» и «неудовлетворительно» предоставляют порядковые


данные, которые позволяют менеджерам «Лобстер Пот» оценить качество
работы ресторана. Менеджеры, желающие использовать данные и
статистический анализ в качестве вспомогательного средства для принятия
решений, должны знать о времени и затратах, необходимых для получения
данных. Использование существующих источников данных желательно,
когда данные должны быть получены за относительно короткий период
времени. Если важные данные не всегда доступны из существующего
источника, необходимо учитывать дополнительное время и затраты,
связанные с получением данных. Во всех случаях лицо, принимающее
решения, должно учитывать вклад статистического анализа в процесс
принятия решений. Стоимость сбора данных и последующего
статистического анализа не должна превышать экономию, полученную при
использовании информации для принятия лучшего решения.
Ошибки сбора данных
Менеджеры всегда должны быть осведомлены о возможности ошибок в
данных статистических исследований. Использование ошибочных данных
может быть хуже, чем отсутствие каких-либо данных вообще. Ошибка в
получении данных возникает всякий раз, когда полученное значение данных
не равно истинному или фактическому значению, которое было бы получено
с правильной процедурой. Такие ошибки могут возникать разными
способами.

16
Bismillahir-Rəhmanir-Rəhim

Например, интервьюер может сделать ошибку при записи, например,


переставить в письменном виде возраст 24-летнего человека как 42, или
человек, отвечающий на вопрос интервью, может неверно истолковать
вопрос и дать неправильный ответ. Опытные аналитики данных уделяют
большое внимание сбору и записи данных, чтобы избежать ошибок.
Специальные процедуры могут быть использованы для проверки внутренней
согласованности данных. Например, такие процедуры могут указывать на то,
что аналитик должен проверить точность данных для респондента, которому,
как было показано, 22 года, но сообщил о 20-летнем опыте работы.
Аналитики данных также рассматривают данные с необычно большими и
малыми значениями, которые называются выбросами, которые являются
кандидатами на возможные ошибки данных. В главе 3 мы представляем
некоторые методы, которые статистики используют для определения

17
Bismillahir-Rəhmanir-Rəhim

выбросов. Ошибки часто возникают во время сбора данных. Слепое


использование любых данных, которые оказываются доступными, или
использование данных, полученных без особой осторожности, может
привести к вводящей в заблуждение информации и принятию неверных
решений. Таким образом, принятие мер для получения точных данных может
помочь обеспечить надежную и ценную информацию для принятия решений.
Дескриптивная статистика
Большая часть статистической информации в газетах, журналах, отчетах
компаний и других публикациях состоит из данных, которые обобщены и
представлены в форме, удобной для понимания читателем. Такие сводки
данных, которые могут быть табличными, графическими или числовыми,
называются описательной статистикой.

Снова вернитесь к набору данных в Таблице 1.1, который показывает данные


по 25 компаниям S & P500. Методы описательной статистики могут
использоваться для предоставления сводок информации в этом наборе
данных. Например, табличная сводка данных для качественной переменной
Exchange приведена в таблице 1.4. Графическая сводка тех же данных,
называемая гистограммой, показана на рисунке 1.5. Эти типы табличных и
графических сводок обычно облегчают интерпретацию данных. Ссылаясь на
Таблицу 1.4 и Рисунок 1.5, мы можем легко увидеть, что большинство акций
в наборе данных торгуются на Нью-Йоркской фондовой бирже. В
процентном отношении 80% торгуются на Нью-Йоркской фондовой бирже и
20% торгуются на национальном рынке Nasdaq. Графическая сводка данных
для количественной переменной Цена акций для акций S & P, называемая
гистограммой, представлена на рисунке 1.6. Гистограмма позволяет легко
увидеть, что цены на акции колеблются от 0 до 100 долларов, а самые
высокие концентрации - от 20 до 60 долларов. В дополнение к табличным и
18
Bismillahir-Rəhmanir-Rəhim

графическим дисплеям, числовая описательная статистика используется для


обобщения данных. Наиболее распространенная числовая описательная
статистика - это среднее или среднее значение. Используя данные о
переменной Прибыль на акцию для акций S & P в Таблице 1.1, мы можем
вычислить среднее значение, сложив прибыль на акцию для всех 25 акций и
разделив сумму на 25. Таким образом, средняя прибыль на акцию составит
2,49 долл. США. Это среднее значение измеряет центральную тенденцию или
центральное местоположение данных для этой переменной.
В ряде областей интерес к статистическим методам, которые можно
использовать для разработки и представления описательной статистики,
продолжает расти. В главах 2 и 3 внимание уделяется табличным,
графическим и численным методам описательной статистики.
Статистические выводы
Во многих ситуациях требуется информация о большой группе элементов
(отдельные лица, компании, избиратели, домашние хозяйства, продукты,
клиенты и т. Д.). Но из-за времени, затрат и других соображений данные
могут быть собраны только из небольшой части группы. Большая группа
элементов в конкретном исследовании называется популяцией, а меньшая
группа называется выборкой. Формально мы используем следующие
определения.
НАСЕЛЕНИЕ
Население - это совокупность всех элементов, представляющих интерес
для конкретного исследования.
ОБРАЗЕЦ
Пример - это подгруппа населения.

Процесс проведения опроса для сбора данных для всего населения


называется переписью. Процесс проведения опроса для сбора данных для
выборки называется выборочным опросом. В качестве одного из основных
вкладов в статистику используются данные из выборки для оценки и
проверки гипотез о характеристиках населения в рамках процесса,
называемого статистическим выводом. В качестве примера статистического
вывода, давайте рассмотрим исследование, проведенное Norris Electronics.
Norris производит лампочку высокой интенсивности, используемую в
различных электротехнических изделиях. В попытке увеличить срок службы

19
Bismillahir-Rəhmanir-Rəhim

лампочки группа дизайнеров разработала новую лампочку накаливания. В


этом случае популяция определяется как все лампочки, которые могут быть
произведены с новой нитью. Чтобы оценить преимущества новой нити, было
изготовлено и испытано 200 лампочек с новой нитью. Данные, полученные
из этого образца, показали количество часов, в течение которых каждая
лампочка работала до выгорания нити. Смотрите таблицу 1.5. Предположим,
что Норрис хочет использовать данные выборки, чтобы сделать вывод о
среднем часах полезного использования для всех лампочек, которые могут
быть получены с новой нитью накала. Добавление 200 значений в Таблице
1.5 и деление общего числа на 200 дает среднее время жизни образца для
лампочек: 76 часов. Мы можем использовать этот результат выборки, чтобы
оценить, что средний срок службы лампочек в популяции составляет 76
часов. На рисунке 1.7 представлена графическая сводка процесса
статистического вывода для Norris Electronics. Всякий раз, когда статистики
используют выборку для оценки интересующей характеристики населения,
они обычно предоставляют информацию о качестве или точности, связанной
с оценкой. Для примера Норриса статистик мог бы заявить, что точечная
оценка среднего времени жизни для популяции новых лампочек составляет
76 часов с погрешностью 4 часа. Таким образом, интервальная оценка
среднего срока службы всех лампочек, произведенных с новой нитью накала,
составляет от 72 до 80 часов. Статистик также может заявить, насколько он
уверен, что интервал от 72 часов до 80 часов содержит среднее значение по
населению.

20
Bismillahir-Rəhmanir-Rəhim

Компьютеры и статистический анализ


21
Bismillahir-Rəhmanir-Rəhim

Поскольку статистический анализ обычно включает в себя большие объемы


данных, аналитики часто используют компьютерное программное
обеспечение для этой работы. Например, вычисление среднего срока службы
200 лампочек в примере Norris Electronics (см. Таблицу 1.5) было бы
довольно утомительным без компьютера. Чтобы облегчить использование
компьютера, большие наборы данных в этой книге доступны на компакт-
диске, который сопровождает текст. Логотип в левом поле текста (например,
Norris) идентифицирует каждый из этих наборов данных. Файлы данных
доступны в форматах Minitab и Excel. Кроме того, в приложениях к главам
приведены инструкции по выполнению многих статистических процедур с
использованием Minitab и Excel.

22

Вам также может понравиться