Вы находитесь на странице: 1из 26

Билеты составлены на основе концентрата моей горящей жопы в соку билетов прошлых лет с

добавлением щепотки учебного пособия

Предмет математической статистики, ее основные разделы. Понятие о


статистическом распределении. Нормальное распределение, его параметры и
графическое изображение. Как изменится вид нормального распределения
при возрастании дисперсии (и неизменном среднем значении)? В каких
условиях случайная величина распределена нормально?

Математическая статистика - раздел математики, посвященный


математическим методам систематизации, обработки и использования
статистических данных для научных и практических выводов. 
Предмет математической статистики: совокупные массовые явления,
данные, материалы.

Статистическое распределение признака – такое распределение,


которое дает информацию о том, какова частота встречаемости того
или иного признака (=сколько раз встречаются разные значения
признака). Статистическое распределение бывает эмпирическим (то,
как есть) и идеальным (то, как должно быть в соответствии с фантазией
исследователя и порождений данной фантазии e.g. теорий)

Нормальное распределение – такое распределение, на которое влияет


множество факторов, при этом ни один из них не является
определяющим. Нормальное распределение соответствует формуле
(функции Гаусса если че)
2 параметра, определяющих нормальное распределение – среднее
арифметическое (mean) и стандартное отклонение (std. Dev.).
Графическое изображение нормального распределения – колокол (вам
стопроц показывали на семах, если не показывали, или вы не были на
семинарах, то ЗЕМЛЯ ВАМ ПУХОМ БРАТЦЫ)
При возрастании дисперсии (std. dev) он становится более низким и
вытянутым (т.е. центр будет менее выраженным, так как величины
более различны)
Случайная величина распределена нормально, если ее значения
соответствуют формуле (функции Гаусса, ее не спросят, но пусть будет тут -

2. дескриптивная статистика. Средние значения — среднее


арифметическое, медиана, мода. В каких ситуациях эти три меры дают
близкие значения, а в каких они сильно различаются? Какие из этих мер
применимы для количественных признаков? ранговых? номинальных?

Дескриптивная статистика – раздел математической статистики,


посвященный обобщающим количественным показателям, раскрывающим
общие свойства статистической совокупности. Эти показатели дают общую
картину, показывают тенденцию развития процесса или явления, нивелируя
случайные индивидуальные отклонения, а также позволяют сопоставлять
между собой различные совокупности. Статистические характеристики
описывают параметры т.н. эмпирического распределения признака.

Параметры дескриптивной статистики можно разбить на две группы –


меры среднего и меры рассеивания.

Меры среднего:

1) среднее арифметическое (mean) – сумма всех членов ряда/количество


членов в ряду(n)

2)медиана – срединное значение упорядоченного ряда. При четных


значениях – n/2, при нечетных – n+1/2

3)мода – самое часто встречающееся значение

Приведем пример. У нас есть госсовет (прости, Сирожа), в нем 50 рыл. 5


80-летних дедов, 10 70-летних дедов поменбше, и 35 50-летних молодцов.
Мода – 50 лет (ибо самое часто встречающееся), среднее арифметическое –
400+700+1750/50=57 лет, медиана – 50 лет, ибо это чел посередине ряда
(если выстроить тупых мужыков в ряд (а в 19 веке в госсовете не было
женщин!), то посередине будет 50-летний чел)
Как мы видим, здесь значения достаточно близкие друг к другу. Понятно
почему – данные с высокой однородностью, ведь больше двух третей
госсовета 50 лет!

Но изменим ситуацию. Вместо 35 50-летних у нас теперь 5 сорокалетних,


10 35-ти летних, 5 50-ти летних, 5 60-ти летних, 5 65-ти летних и
ВНЕЗАПНО целых 5 школьников по 20 лет (ну сторонники Навального к
власти пришли. Да, в XIX веке)

ПОСЧИТАЕМ. Чаще всего встречаются 35 и 70 лет – у нас две моды

Медиана – выстроим в ряд. Посерединке (от меньшего к большему) т.е. 25


все еще идет 50-ти летний чел – медиана у нас осталась равна 50 годам

А вот среднее арифметическое изменилось, причем сильно –


100+350+200+250+300+325+700+400/50=52,5 года. Наш госсовет
помолодел почти на 5 лет!

Как мы видим, средние значения сильно разнятся, так как данные стали
гораздо менее однородными.

Как мы видим, мы успешно посчитали меры среднего для количественного


признака (возраст) – а можно ли так сделать с качественными признаками?

Для ранговых качественных признаков можно вычислить моду и медиану.

Для номинальных качественных признаков только моду.

3. Показатели вариации — дисперсия, среднее квадратическое


(стандартное) отклонение, коэффициент вариации (привести
соответствующие формулы). В каких единицах измеряются эти
коэффициенты? Имеются ли пределы их значений? Зачем вводится понятие
коэффициента вариации?

Помимо мер среднего, рассмотренных нами ранее (см. предыдущий билет),


в дескриптивной статистике также измеряются меры вариации или меры
рассеяния. Их тоже 3:

1)дисперсия – среднее расстояние до середины ряда. В практической


статистике этот показатель не используется

2)стандартное отклонение (обозначается сигмой или std. dev) – это,


собственно, мера разброса признака около среднего арифметического.
n

Вычисляется по АБСОЛЮТНО ЕБАНУТОЙ ФОРМУЛЕ


s=
√ ∑ ( x i− x̄ )2
i=1
n ,
которая еще и звучит как пиздец какой-то – «корень из суммы квадратов
разниц между элементами выборки и средним, деленной на количество
элементов в выборке». Значения может принимать самые различные, но не
меньше нуля и является показателем неоднородности выборки (чем больше
тем более неоднородная выборка).
Но стандартным отклонением очень неудобно пользоваться, поэтому для
удобства умные математики (не Сирожа и точно не я) заебашили еще один
показатель. Вот он
 3)коэффициент вариации - отношение стандартного отклонения к
среднему арифметическому, выраженное в процентах (обозначается в
s
V = ´ 100 %
статистике буквой V). Коэффициент вычисляется по формуле: x̄ .
Вот эта хуйня оч удобная рил. Более того, он показывает не абсолютные, а
относительные значения (ибо проценты), а значит, этот показатель оч легко
сравнивать у разных выборок, так как нет проблемы разных величин, да и
сами значения не такие ужасающие. Кроме того, у этих значений есть предел
– от 0 до 100 процентов

Окромя этого, также было выяснено до скольких процентов выборка может


считаться однородной – до 30! А после 65 – она уже неоднородная (30-65 –
переходная форма).

Вернемся к нашему несчастному госсовету. Сравним степень однородности


данных в 1 выборке и во второй. В 1 коэффициент вариации у нас оказался
равен 19,5 процентам, а во второй - уже 35,5. И хотя обе эти выборки в
целом скорее однородные, но очевидно, что во второй степень рассеяности
данных выше
Но у мер рассеяния есть важное отличие от мер среднего - их можно
вычислять только для количественных признаков. Все они показывают,
насколько сильно варьируют значения признака (а точнее – их отклонения от
среднего) в данной совокупности. Чем меньше значение меры разброса, тем
ближе значения признака у всех объектов к своему среднему значению, а
значит, и друг к другу. Если величина меры разброса равна нулю, значения
признака у всех объектов одинаковы.

4. Понятие о выборочном методе. Репрезентативная выборка. Пример(ы)


применения выборочного метода историками. Способы формирования
репрезентативной выборочной совокупности. Два вида ошибок выборки.
Доверительная вероятность, ее содержательный смысл.
Выборочный метод - способ определения свойств группы объектов
(генеральной совокупности) на основании статистического исследования её
части (выборки)
Репрезентативная выборка – та, которая достаточно правильно отражает
основные параметры данной генеральной совокупности. Для того, чтобы
добиться репрезентативности выборки, она должна быть случайной, то есть
все объекты генеральной совокупности должны иметь равные шансы попасть
в выборку.
Примеры использования выборки историками – историки в целом
существуют в условиях так называемых естественных выборок, когда
выборка была сформирована историческим процессом и естественным ходом
времени
Способы формирования репрезентативной выборки
 Жеребьевка.
 Таблицы случайных чисел.
 Механический отбор.
 Типический отбор.
 …
 Комбинированный отбор.
Два вида ошибок выборки – случайные и систематические
 Случайные – неизбежны, нивелируются числом наблюдений. величина
случайной ошибки поддается вычислению (оценке).
 Систематические ошибки не носят случайного характера и не являются
неизбежными.
 Они появляются тогда, когда нарушается основное правило случайного
отбора – обеспечение для всех объектов равных шансов попасть в
выборку
Основные источники систематических ошибок:
 неадекватность выборки задачам исследования;
 нарушение в выборке структуры генеральной совокупности;
 сознательный отбор наиболее удобных и выигрышных элементов
генеральной совокупности.
Доверительная вероятность - это степень уверенности в том, что
доверительный интервал действительно будет содержать истинное
(неизвестное) значение параметра в генеральной совокупности. Если по-
русски – это вероятность того, что значения выборки, соответствующие
значениям генеральной совокупности, окажутся в рамках доверительного
интервала
5. Доверительная вероятность. Средняя (стандартная) и предельная ошибки
выборки. Доверительный интервал для оценки среднего значения
в генеральной совокупности. (Привести соответствующие формулы,
объяснить их смысл).
Доверительная вероятность - это степень уверенности в том, что
доверительный интервал действительно будет содержать истинное
(неизвестное) значение параметра в генеральной совокупности. Если по-
русски – это вероятность того, что значения выборки, соответствующие
значениям генеральной совокупности, окажутся в рамках доверительного
интервала. Чем больше доверительная вероятность, тем больше
доверительный интервал
Стандартная ошибка выборки - неизбежный разброс выборочных средних
вокруг
генеральной средней (т.е. стандартное отклонение выборочных средних).
Формула:



,
n
где σ – среднее квадратическое отклонение, n – объем выборки. Стандартная
ошибка
выборки измеряется в тех же единицах, что и среднее квадратическое
отклонение.
Предельная ошибка выборки – значение, которое определяет величину
доверительного
интервала в целом.
Чем больше предельная ошибка, тем меньше точность оценки. Чем меньше
предельная ошибка, тем больше точность.
Параметр t показывает во сколько раз предельная ошибка дельта превышает
среднюю ошибку мю.

Если доверительные интервалы пересеклись, то результат статистически


незначим
Доверительный интервал для среднего -
 В общем виде доверительный интервал можно записать как  t .
 Параметр t выбирается, исходя из требуемого уровня доверительной
вероятности.
 t = 1 -67 процентов
t = 2 – 95 процентов
t = 3 – 99 процентов
 Последовательность действий при построении доверительного
интервала:
 По выборке вычисляется и σ.
 Вычисляется средняя ошибка выборки μ.
 Выбирается доверительная вероятность P и соответствующее ей
значение параметра t.
 Вычисляется предельная ошибка Δ как произведение t и μ.
 Строится интервал  t .
Пример с нашим несчастным госсоветом
Построим доверительный интервал для среднего возраста депутата госсовета
(двух наших «выборок» - представим, что они из 1820 и 1870 соответственно
) при степени уверенности 95 процентов
Для первой выборки вычисляем стандартную ошибку выборки – она равна
11(стандартное отклонение – смотрим предыдущие билеты)/корень из
50=1,5. Умножаем на 2, так как нам нужна степень уверенности в 95
процентов=3
Получается что средний возраст здесь – 57,5 ±3 – от 54,5 до 60,5
теперь сделаем то же самое со второй выборкой - 18 делим на корень из
50=2,5, умножаем на 2=5
Получается, что средний возраст – 52,5 ±5 – от 47,5 до 55,5
Интервалы пересеклись – значит наш результат статистически незначим и за
50 лет статистически значимого изменения в возрасте госсовета не
произошло

6. Доверительная вероятность. Средняя (стандартная) и предельная ошибки


выборки. Доверительный интервал для оценки доли качественного признака
в генеральной совокупности. (Привести соответствующие формулы,
объяснить их смысл).
Про доверительную вероятность и ошибки выборки – смотри предыдущие
билеты, кроме одного важного изменения!
Стандартная ошибка выборки 
для оценки доли качественного признака в генеральной совокупности
вычисляется по формуле:
q(1−q )
μ=
√ n
Доля (обозначается q) вычисляется как отношение числа объектов,
обладающих данным признаком (n0), к числу объектов во всей совокупности:
q=n0 / n .
Доля часто выражается в процентах
Попробуем понять как это работает на примере нашего госсовета
Вычисляем доли для наших двух выборок госсовета для, например,
пятидесятилетних
В первой выборке их 35/50=70 процентов или 0,7
Во второй выборке их 5/50=10 процентов или 0,1
Теперь поищем стандартные ошибки(вычисление было опущено, ибо есть
калькулятор, но они сами по себе несложные) – в первом случае она равна
0,06, во втором – 0,04
Теперь настало время вычислить доверительный интервал для доли, то есть
определить границы доли 35-ти летних со степенью уверенности 95
процентов
 Последовательность действий при построении доверительного
интервала:

1. По выборке вычисляется . q выб .


2. Вычисляется средняя ошибка выборки μ. – мы здесь
3. Выбирается доверительная вероятность P и соответствующее ей
значение параметра t. – нам нужна уверенность 95 процентов и
т=2
4. Вычисляется предельная ошибка Δ как произведение t и μ.
умножаем 0,06 и 0,04 на 2 – 0,12 и 0,08 соответственно
5. Строится интервал
В первом случае эта доля равна 0,7±0,12 (то есть от 58 до 82 процентов)
Во втором случае эта доля равна 0,1±0,08 (то есть от 2 до 18 процентов)

7. Корреляционная связь. Линейный коэффициент корреляции, его


формула, пределы его значений. Дать графическую интерпретацию
положительной и отрицательной связи. Коэффициент детерминации, его
содержательный смысл. Понятие о статистической значимости
коэффициента корреляции.

Корреляционная связь – статистическая взаимосвязь между двумя объектами


Линейный коэффициент корреляции – показатель тесноты этой взаимосвязи
Формула ПИЗДЕЦ

 ( x  x )( y  y )
i 1
i i
r
n n

i 1
( xi  x ) 2 i 1
( yi  y ) 2

Пределы – от -1 до 1
Y

- r=1 – чем больше,


тем больше/ чем меньше, тем меньше
Y

X
- r=-1 – чем
больше, тем меньше/чем меньше тем больше

 Для интерпретации результатов корреляционного анализа обычно


используется коэффициент детерминации d (d = r2, выражается в
%). Принимает значения от 0 до 1 (ибо квадрат в формуле, а
детерминация не может быть отрицательной)
 Коэффициент детерминации показывает, насколько изменения
зависимого признака объясняются изменениями независимого

Чем выше по модулю (по абсолютной величине) значение


коэффициента корреляции, тем сильнее связь между признаками.

Если |r| > 0.7, связь называется сильной;


если 0,5 < |r|  0,7 – средней;
если |r|  0,5 – слабой.
 Если коэффициент корреляции вычислен на основе выборки, то
возможны две гипотезы:
 он отражает связь, которая действительно существует в
генеральной совокупности;
 он объясняется случайным эффектом выборки, а в генеральной
совокупности коэффициент корреляции равен нулю, т.е.
(линейной) связи нет.
 Надо понять, как далеко значение r от нуля.
 Для построения доверительного интервала вычисляется
стандартная ошибка r.
 Затем она умножается на параметр t, зависящий от
доверительной вероятности P, чтобы найти предельную
ошибку.
 Наконец, строится доверительный интервал для возможных
значений r в генеральной совокупности.
 Остается проверить, попадет ли нулевое значение в этот интервал.
 Если ноль не попадет в доверительный интервал, значит с высокой
вероятностью в генеральной совокупности не может быть нулевого
значения коэффициента корреляции, т.е. связь между признаками
существует и в генеральной совокупности. В таком случае
коэффициент корреляции является статистически значимым.

-1 0! 1

Если же он попадает в ноль, то кэф корреляции статистически незначим, так


как в генеральной совокупности может быть нулевая корреляция –
отсутствие связи

8. Парная линейная регрессия. Регрессионное уравнение. Содержательный


смысл коэффициента регрессии. В каких единицах он измеряется, есть ли
пределы его значений? Статистическая значимость коэффициента
регрессии, понятие о t-статистике. Как связаны значения t-
статистики с доверительной вероятностью?

Парная линейная регрессия – взаимосвязь между двумя признаками

Регрессионное уравнение -

Y= bX + а

где Y – результирующий признак, X – факторный признак, а и b –


числовые параметры уравнения.

Коэффициент b называется коэффициентом регрессии


Коэффициент регрессии b показывает, как в среднем изменится
результирующий признак (у), если факторный признак (х) изменится на
единицу при условии если остальные факторные переменные останутся
неизменными

К примеру, если уравнение регрессии выглядит как – у=3000+5х, то это


значит, что увеличение х на единицу приведет к увеличению у на 5

l Коэффициент регрессии принимает любые значения.


l Коэффициент регрессии не симметричен, т.е. изменяется, если X и Y
поменять местами.
l Единицей измерения коэффициента регрессии является отношение
единицы измерения Y к единице измерения X
([Y] / [X]).

Коэффициент регрессии изменяется при изменении единиц измерения X


иY

l Для проверки значимости каждого коэффициента регрессии


вычисляется t-статистика, которая показывает, во сколько раз этот
коэффициент превышает свою стандартную ошибку.
l Вероятность случайно получить большое значение t мала,
т.е. чем больше по абсолютной величине значение t, тем меньше
соответствующая вероятность p.
l Если вероятность p меньше выбранного уровня (по умолчанию 5%
или 0,05), соответствующий коэффициент регрессии является
статистически значимым.
l Если вероятность p больше выбранного уровня, соответствующий
коэффициент регрессии является статистически незначимым.

9. Множественная линейная регрессия. Регрессионное уравнение.


Определение коэффициента регрессии. Могут ли все коэффициенты
уравнения регрессии быть статистически значимыми? Что означает
статистическая значимость коэффициента регрессии? Понятие
о мультиколлинеарности. Коэффициент множественной корреляции.
Содержательный смысл коэффициента детерминации R2.

Множественная линейная регрессия – такой тип регрессии, при котором на


результирующую переменную действуют сразу несколько факторных,
среди которых трудно выделить главную

Уравнение множественной регрессии - Y=a+b1X1+b2X2+…+bkXk, где

X1, X2, … , Xk независимые переменные (факторы);


b1, b2, … , bk соответствующие им коэффициенты
регрессии

l Смысл коэффициента регрессии в уравнении множественной


регрессии состоит в том, что он показывает как в среднем изменится
значение результативного признака, если соответствующий
факторный признак увеличится на единицу при фиксированных
значениях всех остальных факторов.

Не все коэффициенты регрессии являются статистически значимыми - Если


вероятность p больше выбранного уровня, соответствующий коэффициент
регрессии является статистически незначимым (см. предыдущий билет)

Статистическая значимость коэффициента регрессии выражается в том, что


вероятность его ошибки – менее 5 процентов (или же p<0,05)

Коэффициент множественной регрессии «работает» только если мы


считаем, что все факторные переменные независимы. Так бывает далеко не
всегда. Случай когда факторные переменные влияют друг на друга,
называется эффектом мультиколлинеарности

При построении регрессионных моделей влияние мультиколлинеарности


следует минимизировать - например, из каждой группы тесно связанных
факторных признаков оставлять только один

Коэффициент множественной корреляции

l Коэффициент множественной корреляции R измеряет силу связи


между зависимой переменной и всеми независимыми.
l R является величиной безразмерной.
l R не меняется при изменении единиц измерения соответствующих
признаков.
l R принимает значения в интервале [0;1].

l Как и в случае парной зависимости, интерпретируется не


коэффициент корреляции, а коэффициент детерминации.

Коэффициент детерминации является квадратом соответствующего


коэффициента корреляции и выражается в процентах

l Коэффициент детерминации R2 показывает, насколько изменения


зависимого признака (в процентах) объясняются изменениями
совокупности независимых признаков.
10. Методы многомерного статистического анализа. Кластер-анализ, цель
построения кластеров. Понятие об иерарахическом методе и о методе К-
средних, (дать соответствующую графическую интерпретацию). В чем
заключаются основные различия этих методов? Понятие о многомерной
классификации с использованием нечетких множеств.

Блять у меня реально дежавюшки с кмии

l При наличии большого числа объектов и признаков возникают


задачи укрупнения, концентрации исходных данных, т.е. построения
обобщенных характеристик множества признаков и множества
объектов.

Решение этих задач может осуществляться с помощью современных


методов многомерного статистического анализа

l Методы многомерной классификации позволяют группировать


объекты с учетом всех существенных признаков и характера
распределения объектов в пространстве этих признаков.
l Такая классификация производится с целью собрать в одну группу в
некотором смысле схожие объекты,
причем так, чтобы объекты из разных групп были по возможности
несхожими.

Кластер-анализ – объединение (укрупнение) множества сходных


признаков в одну группу в зависимости от расстояния между
соответствующими точками в пространстве. Характер распределения
этих точек в пространстве признаков определяет структуру сходства и
различия объектов в заданной системе показателей. О сходстве объектов
можно судить по расстоянию между соответствующими точками.
Содержательный смысл такого понятия сходства означает, что объекты
тем более близки, похожи, чем меньше различий между значениями
одноименных показателей.

Кластер-анализ может производиться двумя методами

Иерархический метод

Суть этого метода – последовательное объединение группируемых


объектов – сначала самых близких, а затем все более и более удаленных
друг от друга

l Процедура построения классификации состоит из последовательных


шагов, на каждом из которых производится объединение двух
ближайших групп объектов (кластеров, от англ. Cluster).
l В начале работы каждый объект является отдельным кластером.
l На первом шаге процедуры определяется пара объектов, расстояние
между которыми минимально.
l Эти объекты объединяются в один кластер, матрица уменьшается на
одну строку и один столбец, а расстояния от нового кластера до всех
остальных кластеров (объектов) пересчитываются.
l На втором шаге процедуры снова определяется минимальное
расстояние и формируется новый кластер. Он может получиться в
результате объединения либо двух объектов, либо одного объекта с
кластером, построенным на первом шаге.
l В матрице расстояний снова вычеркиваются одна строка и один
столбец, а расстояния до нового кластера пересчитываются и т.д.
l Таким образом, алгоритм иерархического метода кластерного
анализа представляет собой цикл, повторяющийся n – 1 раз.
l При этом после выполнения каждого шага цикла число кластеров
уменьшается на единицу, а матрица расстояний уменьшается на одну
строку и один столбец.
l В конце этой процедуры получится один кластер, объединяющий все
n объектов.
l Результаты метода изображают в виде дендрограммы (дерева
иерархической структуры), содержащего n уровней, каждый из
которых соответствует одному из шагов описанного процесса
последовательного укрупнения кластеров.

Метод к-средних

Основное отличие от иерархического – число кластеров здесь задается


нами самими

l Задачей метода является построение заданного числа кластеров,


которые должны максимально отличаться друг от друга.
l Процедура построения кластеров начинается со случайной
группировки объектов.
l Затем следует итерационный процесс перемещения объектов между
группами с целью:
l минимизировать внутриклассовые различия объектов и
l максимизировать межклассовые различия объектов
l В результате каждый кластер должен состоять из максимально
"похожих" объектов, а сами кластеры должны быть максимально
"непохожими" друг на друга.
l Результаты этого метода позволяют:
l увидеть состав каждой группы объектов,
l вычислить центры всех классов (и другие параметры дескриптивной
статистики) по каждому из исходных признаков,
l получить графическое представление о том, как и по каким
параметрам различаются полученные классы.
Однако все не так просто и очень часто получается так, что типологически
схожие объекты в разной мере обладают присущими им свойствами

Решить задачу классификации в таком случае могут помочь нечеткие


пацанчики множества

l Нечеткое множество – это класс объектов, в котором нет резкой


границы между теми объектами, которые входят в этот класс, и теми,
которые в него не входят.
l Принадлежность каждого объекта нечеткому множеству описывается
с помощью величины, принимающей значения от 0 до 1.
l Эта величина называется степенью принадлежности; чем ближе
она к 1, тем больше степень принадлежности объекта к данному
нечеткому множеству.

При использовании ТНМ (теории нечетких множеств)


неопределенность связана с размытостью границ между классами.
(ядро — наибольшая выраженность свойств типа. Периферия —
наименьшее. Ядро нечеткого — набор объектов, для каждого из
которых степень принадлежности к множеству превышает некоторое
пороговое значение)

11. Типы качественных признаков. Таблица сопряженности. Понятие о Хи-


квадрат. Коэффициент связи номинальных признаков, пределы его
изменения. Приведите пример таблицы сопряженности размером 2х3, для
которой коэффициент связи пары признаков равен нулю.

Качественные признаки у нас бывают номинальные и порядковые


(ранговые). Отличия их в том, что ранговые качественные признаки могут
быть сравнимы по принципу «больше-меньше»

 В статистическом анализе существуют различные методы,


позволяющие изучать взаимосвязи номинальных признаков.
 Наиболее популярным из них является метод построения таблиц
сопряженности (кросс-табуляция).
 Таблицей сопряженности называется прямоугольная таблица, по
строкам которой указываются категории одного признака, а по
столбцам – категории другого. Каждый объект совокупности
"попадает" в какую-либо из клеток этой таблицы в соответствии с
тем, к какой категории он относится по каждому из двух признаков
 В каждой клетке таблицы находится частота совместной
встречаемости соответствующих категорий двух признаков.
 Характер распределения частот внутри таблицы позволяет судить о
том, существует ли связь между признаками.
Изначальная наша точка зрения («нулевая гипотеза») – что такой
связи нет, и все частоты распределяются равномерно

Для проверки гипотезы о независимости признаков надо сравнить


таблицу реальных частот с таблицей ожидаемых частот (т.е.
частот, соответствующих гипотезе, что два изучаемых признака
независимы).

Для этого надо подсчитать суммарное расхождение между


таблицами:
сумму квадратов разностей между реальными и ожидаемыми
частотами по всем клеткам таблиц.

Чем больше суммарное расхождение между таблицами, тем


меньше вероятность гипотезы (нулевой гипотезы) о независимости
признаков.

Суммарное расхождение, или сумма квадратов разностей


реальных и ожидаемых частот по всем клеткам таблицы
обозначается Хи-квадрат (X2).

Для каждого значения Хи-квадрат известна вероятность p того, что


это значение может быть получено случайно в выборке из
генеральной совокупности, в которой признаки независимы.

Если вероятность p, соответствующая величине Хи-квадрат,


достаточно мала
(p < 0,05), это свидетельствует о том, что гипотеза о независимости
признаков отклоняется и связь между ними является
статистически значимой.

Если p больше выбранного уровня (0,05), гипотеза о независимости


признаков
не отклоняется и связь между ними является статистически
незначимой.

Придумаем какую-нибудь ёбнутую таблицу для демонстрации.


Например – есть ли взаимосвязь между временем года рождения
футболиста и его игрой в российской премьер-лиге по футболу в
2021 году? Автор билетов родился в декабре и считает, что не взлетел
как футболист (а в свое время его просматривали в академии
«Чертаново») частично по причине того, что у тех, кто родился в
первой и второй четверти года есть преимущество над родившимися
во второй половине и в конце, так как у них больше времени на
развитие, ибо в футбольные школы берут по году рождения, и в
наборе от, например, 2001 года челик, родившийся в январе, прожил
уже 6 лет и 11 месяцев, а челик, родившийся в декабре – ровно 6 лет
(задумка, как оказалось, полностью совпала с одной статьей на
спортсе от 2018 года, но я дошел до нее сам, честно!)

Пусть в нашей выборке будет 160 футболистов (по 10 из каждой из


16 команд РПЛ)

Наша изначальная гипотеза – «нулевая» - состоит в том, что такой


взаимосвязи нет, а значит, число футболистов распределится по
четвертям года равномерно – по 40 футболистов в каждой четверти.
При этом мы хотим быть уверены на 95 процентов, соответственно,
чтобы опровергнуть эту гипотезу наша p должна быть ниже 0,05

В итоге распределение такое:

1 четверть – 70 человек

2 четверть – 39 человек

3 четверть – 27 человек

4 четверть – 24 человека

Теперь высчитаем разницу между ожидаемым и реальным –


получается соответственно

1 четверть – 30

2 четверть - -1

3 четверть - -13

4 четверть - -16

Высчитываем квадраты для данных разниц

900 1 169 и 256

Теперь делим получившиеся квадраты на ожидаемые вероятности и


получаем соответственно

22,5 0,025 4,225 и 6,4


Складываем их в одно число -33,15 – значение получилось большим,
значит, нулевую гипотезу, скорее всего, можно отвергнуть и от
месяца рождения футболиста таки зависит его попадание в РПЛ

Однако здесь возникла та же проблема, что и со стандартным


отклонением – это величина абсолютная и трудно оценить и сравнить
силу этой связи

Одним из коэффициентов, удовлетворяющих этим требованиям,


является коэффициент Крамера V.

Базируясь на значении Хи-квадрат, коэффициент Крамера позволяет


измерять силу связи между двумя номинальными признаками.

Коэффициент Крамера принимает значения от 0 до 1, т.е. от


полного отсутствия связи до максимально сильной связи.

Вычислим же этот коэффициент для нашего значения

Коэффициент Крамера оказался равен – 0,266, что в целом означает


среднюю по силе связь

12. Типы качественных признаков. Ранговые признаки. Примеры из


исторических источников. В каких пределах находятся значения
коэффициентов ранговой корреляции? Приведите конкретный
(иллюстративный) пример двух ранговых признаков,
соответствующих максимальному значению коэффициента ранговой
корреляции. Как надо изменить эти данные, чтобы коэффициент стал
минимальным? Какие коэффициенты следует использовать для
оценки связи рангового и номинального признаков? рангового и
количественного признаков?

Качественные признаки у нас бывают номинальные и порядковые


(ранговые). Отличия их в том, что ранговые качественные признаки могут
быть сравнимы по принципу «больше-меньше» (то есть они представлены
упорядоченными категориями)

Пример из исторических источников – уровень образования депутатов гос.


Думы (Бородкин, Селунская становление российского парламентаризма),
уровень образования членов госссовета (С.В. Мироненко «Самодержавие и
реформы»)
 Меры взаимосвязи между парой ранговых признаков называются
коэффициентами ранговой корреляции. Значения этого
коэффициента варьируются от -1 до 1

 Эти коэффициенты строятся так, чтобы выполнялись следующие


свойства:
1. Если ранжированные ряды по обоим признакам полностью
совпадают, то коэффициент ранговой корреляции равен +1, что
означает полную положительную корреляцию.
2. Если объекты в обоих рядах расположены в противоположном
порядке, коэффициент равен –1, что означает полную
отрицательную корреляцию.
3. Нулевое значение коэффициента означает отсутствие
соответствия между ранжированными рядами.

сословия Процент по Ранг по Ранг по


уровню сословию образованию
высшего
образования
дворяне 70 1 1
духовенство 50 2 2
Купечество 25 3 3

Здесь у нас полная положительная корреляция между рангом по


сословию и по образованию

Для противоположного результата среди дворян должно было быть


меньше всего грамотных, среди купцов – больше всего

 Наиболее известны коэффициенты ранговой корреляции Спирмена r


и Кендалла t.
 Их значения достаточно близки, но коэффициент Кендалла дает
более осторожную оценку корреляции, чем коэффициент Спирмена
(числовое значение t всегда меньше, чем значение r).

Какие коэффициенты следует использовать для оценки связи


рангового и номинального признаков? рангового и количественного
признаков?

Для этого юзай следующую табличку


13. Определение понятия «модель». Математическая модель.
Математическое моделирование исторических процессов и явлений: цели,
возможности и ограничения. Три типа математических моделей
исторических процессов.

Следующие 2 билета – самые водянистые из всего курса. Enjoy

Моделирование – общенаучный метод исследования, который


широко используется не только в естественных, но и в социально-
гуманитарных науках. Его успешно применяют экономисты,
социологи, политологи, представители других общественных наук.
Этот метод доказал свою эффективность и в исторических
исследованиях.

 Термином модель в философской литературе обозначают

"некоторую реально существующую или мысленно представляемую


систему, которая, замещая и отображая в познавательных
процессах другую систему-оригинал, находится с ней в отношении
сходства (подобия), благодаря чему изучение модели позволяет
получить новую информацию об оригинале".

Модели бывают вербальные(в том числе и письменные т.е. текстовые т.е.


любая реконструкция исторической реальности в форме нарратива),
физические (модель города) и математические

 Математическая модель - Это система математических


соотношений, описывающих изучаемый процесс или явление.
 Проблематика моделирования исторических процессов и явлений
обладает ярко выраженной спецификой.
 Обоснование этой специфики содержится в работах
И.Д. Ковальченко, в которых, в частности, предложена типология
моделей исторических процессов и явлений.
 Эта типология включает отражательно-измерительные и
имитационные (имитационно-прогностические) модели.
 Имитационно-прогностические модели делятся на имитационно-
контрфактические и имитационно-альтернативные модели.
 К середине 1990-х гг. контрфактическое моделирование было
отмечено Нобелевской премией, которую получили известные
американские клиометристы Р.Фогель и Д.Норт.

Измерительное моделирование основано, как правило, на выявлении и


анализе статистических взаимосвязей в системе показателей,
характеризующих изучаемый объект. Здесь речь идет о проверке
содержательной модели с помощью методов математической статистики.
Роль математики сводится в этом случае к статистической обработке
эмпирического материала. Гораздо менее апробированными в практике
отечественных исследований являются математические модели,
применение которых не ограничивается обработкой данных источника.
Целью таких моделей может быть:

- реконструкция отсутствующих данных о динамике изучаемого процесса


на некотором интервале времени;

- анализ альтернатив исторического развития;

- теоретическое исследование возможного поведения изучаемого явления


(или

класса явлений) по построенной математической модели.

Математические модели дедуктивного типа позволяют выводить новое


знание путем анализа построенной модели как математического объекта.
К началу XXI века сформировались три класса математических моделей
исторических процессов: а) статистические б) имитационные в)
аналитические.

Основная цель статистических моделей – выявление и отбор факторов,


влияющих на результат. Критерий верификации – процент объясненной
дисперсии. Модели этого типа носят индуктивный характер. Требования к
данным достаточно высоки: модели строятся из предположений о роли
факторов, с привлечением большого количества статистических данных
высокого качества. Ограничения: - малое число уравнений; - большое
число переменных, сложные связи между ними; - обратные связи трудны
для исследования; - весьма ограниченные формы динамических связей.

Основная цель аналитических моделей – анализ динамики на основе


теоретических предположений о связях между переменными. Верификация
модели возможна только статистическими методами. Модель носит
дедуктивный характер. Требования к данным: для верификации и
подтверждения надежности модели можно использовать данные разного
качества. Ограничения: - малое число уравнений; - малое число
переменных; - обратные связи трудны для исследования; - простые формы
динамических связей.

Основная цель имитационных моделей – анализ динамических процессов


с не поддающимися аналитическому изучению сложными связями между
переменными. Верификация модели: эмпирически можно проводить
сильные тесты модели. Модель носит эмпирико-дедуктивный характер.
Требования к данным: возможны данные низкого качества для
подтверждения надежности модели. Ошибкам измерения особого
внимания не уделяется. Ограничения: - большое число переменных и
уравнений; - сложные связи между ними; - однако полученное решение
всегда носит частный характер, отвечая фиксированным значениям
параметров системы, входной информации и начальных условий
14. Компьютерные модели неустойчивых исторических процессов.
Концепции синергетики. Моделирование альтернатив.

В то время, как изучение эволюционных процессов является достаточно


традиционной областью математического моделирования, подходы к
моделированию процессов, претерпевающих скачкообразные изменения,
стали складываться сравнительно недавно.

Для решения задач в этой области стали использоваться концепции


синергетики

 Синергетика возникла в 1970-х гг. Ее развитие связывают с именами


таких известных ученых как И. Пригожин (лауреат Нобелевской
премии), Г. Хакен,
С.П. Курдюмов и др.
 Математический аппарат синергетики разработан в рамках теории
нелинейных дифференциальных уравнений.
 Иногда вместо термина синергетика используются термины теория
хаоса или теория катастроф, которые появились в математике при
изучении нелинейной динамики.
 Катастрофа (бифуркация) происходит тогда, когда описываемая
соответствующими уравнениями система скачком переходит из
одного состояния равновесия в другое.
 Важнейшими характеристиками динамики системы являются
положения равновесия и т.н. предельные циклы. Они называются
аттракторами (притягивающими множествами).
 Синергетика изучает динамику развития неустойчивых ситуаций, в
которых малые (нередко – случайные) воздействия могут вызвать
большие последствия.
В результате процесс может выйти на новую траекторию,
устремиться к новому аттрактору.
 Эволюция перехода из устойчивого состояния в неустойчивое
включает следующие стадии:
 равновесие,
 возникновение периодических колебаний,
 удвоение периода,
 потеря устойчивости удвоенного цикла
 появление сложных непериодических колебаний, очень
чувствительных к незначительным изменениям начальных условий.
 Переход в этот режим означает, что возникает хаос.

 Методы синергетики нашли применение в задачах моделирования


историко-демографических процессов (С.П. Капица, Г.Г.
Малинецкий), в исследованиях длинных волн экономического
развития (С.Ю. Малков, П. Турчин, С.А. Нефедов), курсовой
динамики на Петербургской бирже начала ХХ в., динамики
стачечной активности
(Л.И. Бородкин и соавторы).

Методы синергетики и предлагаемый ею аппарат дает плодотворные


результаты применительно к изучению исторического процесса,
нелинейного и непредсказуемого

 Непредсказуемость исторического процесса связана с "человеческим


фактором".
 На первом плане в рассмотрении историка оказываются люди в
момент совершения осознанного выбора, их общекультурная и
субъективно-личностная ответственность за него, поведенческий
аспект в единстве с сознанием человека.
 После принятия синергетической парадигмы, "картина мира
неслыханно усложняется, и искусствоведение, культуроведение, да и
наука о человеке в целом, из области научной периферии
превращается в общенаучный методологический полигон...".