Вы находитесь на странице: 1из 4

Сейчас мы познакомимся с такими понятиями, как выборка и генеральная совокупность.

Под генеральной совокупностью мы будем понимать множество всех тех объектов,


относительно которых мы хотели бы сделать выводы в рамках проводимого нами
исследования.

Например, мы хотим понять, как влияет выход Nonfarm Payrolls на котировки eurusd. В
данной ситуации все котировки этой валютной пары во время выхода новости будут
представлять для нас генеральную совокупность. Если мы, например, исследуем ПАММ-
счета одного из брокеров с целью выявить некие критерии успешности счета, для нас в
этом случае генеральной совокупностью будут все без исключения существующие ПАММ-
счета площадки этого брокера. Если вы начинаете какую-либо исследовательскую работу,
спросите себя, на какое множество объектов вы хотите обобщить результаты вашего
исследования. Это и будет ответом на вопрос, что для вас является генеральной
совокупностью. Логично предположить, что самый простой способ ответить на
интересующие нас в исследовании вопросы – изучить всех представителей генеральной
совокупности. В некоторых ситуациях такой подход действительно оправдан. Например,
когда ПАММ-счетов на площадке не больше пары десятков, не составить особого труда
изучить каждый из счетов отдельно. Но что, если их тысячи? Или, например, что делать,
если у вас данные по Nonfarm Payrolls только с 2015 года и (представим себе такую
гипотетическую ситуацию) найти больше данных не представляется возможным? В
реальных условиях объем генеральной совокупности как правило либо очень велик, как в
первом примере с ПАММами, либо получить его невозможно в принципе, как в случае с
новостями. Для того, чтобы решить эту проблему, можно выбрать только часть
генеральной совокупности, то есть формирует выборку для своего исследования и,
исследуя данную выборку, старается обобщить свои результаты на генеральную
совокупность. Очень важным условием для такого обобщения является
репрезентативность выборки. То есть, мы хотим, чтобы наша выборка была уменьшенной
моделью генеральной совокупности и отражала все свойства этой генеральной
совокупности. Иными словами, нужно, чтобы в нашу выборку не попали, например,
только сливные ПАММ-счета. Как этого добиться? Есть несколько вариантов
формирования репрезентативной выборки.
Простая случайная выборка
Давайте представим, что мы анализируем зависимость времени в сделке от ее
прибыльности. Тогда генеральной совокупностью для нас будет весь объем совершенных
нами сделок. Можно построить точечный график прибыльности сделок в зависимости от
времени в рынке и выглядеть он будет примерно так:

На этом рисунке изображены все наши сделки. Один из самых простых способов
формирования репрезентативной выборки – это простая случайная выборка. Мы
случайным образом начинаем выбирать объекты генеральной совокупности для участия
в нашем исследовании. Мы выбираем только некоторых представителей их всей
генеральной совокупности, и мы можем заметить, что при увеличении объема нашей
случайной выборки, она постепенно начинает напоминать по своим характеристикам
генеральную совокупность.
Стратифицированная выборка
Более изощренный метод формирования репрезентативной выборки называется
стратифицированная выборка (stratified sample):
Ее идея заключается в том, что перед тем, как случайным образом извлекать элементы
генеральной совокупности для нашего исследования, мы разобьем нашу генеральную
совокупность на несколько обособленных и различных по своей природе страт.
Например, если мы хотим, чтобы в нашем исследовании равновероятно приняли участие
и сделки длительностью до часа, и сделки длительностью от часа до двух, и прибыльные,
и убыточные, мы сначала можем нашу генеральную совокупность разделить на четыре
группы исходя из вышеперечисленных признаков, а потом, используя метод случайной
выборки, из каждой страты выбрать набор из одинакового количества элементов для
участия в нашем исследовании.
Групповая выборка
Еще один способ формирования выборки – так называемая групповая выборка (cluster
sample):
По своей сути она напоминает предыдущий способ. Мы также разбиваем генеральную
совокупность на группы, кластеры. Но в этом случае уже все кластеры наоборот будут
очень сильно похожи друг на друга. То есть в каждом кластере будут и прибыльные, и
убыточные сделки, и длительностью до часа, и свыше часа. В данном мной примере
сделать это будет достаточно сложно, но что, если у нас есть данные по торговле одного и
того же долгосрочного советника у пяти разных брокеров? Мы можем взять данные
только, например, двух и быть уверенными, что в принципе торговля у разных брокеров
очень сильно не отличаются друг от друга. Исходя из этого мы можем выбрать только
несколько кластеров для участия в нашем исследовании, а затем, уже пользуясь методом
случайной выборки из выбранных кластеров выбрать набор элементов для участия в
исследовании. Или даже воспользоваться сначала методом стратифицированной
выборки, а затем уже методом простой случайной выборки. Такой способ формирования
выборки имеет смысл использовать для экономии времени и других ресурсов типа
мощностей компьютеров в случае, если генеральная совокупность крайне велика.
Итак, сегодня мы узнали, что такое генеральная совокупность и выборка данных и
научились несколькими способами формировать репрезентативную выборку из
генеральной совокупности.

Вам также может понравиться