Вы находитесь на странице: 1из 64

Программа S P S S .

Лекции
для студентов РГГУ

© к.соц.н., доц.
кафедры прикладной социологии РГГУ
Стрельникова Анна Владимировна
E-mail: professional@post.ru
2011 г
Лекция 1

1 Цель и задачи курса

Ввод и анализ данных


2 как ключевые задачи прикладного
социологического исследования

3 Программа SPSS: основные возможности


1. Цель и задачи курса
 Целью курса является освоение основных методов
анализа количественной социологической информации.
.
Задачи:
 В ходе изучения курса предлагается знакомство с программой
S P S S - мощной системой статистического анализа и
управления данными. При помощи этой программы можно
создавать и редактировать базы данных, считывать данные из
файлов практически любого типа и работать с ними, создавая
табличные отчеты, строя графики и диаграммы различных
распределений и временных рядов, вычислять описательные
статистики и выполнять сложный статистический анализ.
 Освоение техники работы с базами социологических данных,
умения преобразовывать данные, работать с файлами,
синтаксисом и результатами вывода, изучить как простые
методики статистического анализа (частотный анализ, расчет
статистических характеристик, таблицы сопряженности), так
и более сложные методики (кластерный, факторный анализ).
Что на выходе?
 Уметь работать с программным пакетом S P S S на уровне
уверенного пользователя: вводить данные в виде переменных с
. заданными свойствами, редактировать имеющиеся данные,
ориентироваться как в консольном языке S P S S (S y n ta x ), так и на
уровне графического интерфейса (главное и контекстное меню).
 Владеть навыками работы с файлами данных (поиск данных,
конвертация, разбиение и агрегирование, сортировка, отбор,
преобразование).
 Владеть навыками работы с различными методами
статистического анализа: производить расчет одномерных и
двумерных статистик, иметь представление о дисперсионном,
регрессионном, факторном и кластерном анализе.
 Уметь социологически интерпретировать результаты
статистического анализа.
 Уметь выбирать адекватные методы анализа в зависимости от (1)
исследовательских задач, (2) типа доступных данных, (3)
взаимодополняемости методов.
 Ориентироваться в современных программных средствах анализа
социологических данных.
2. Ввод и анализ данных
как ключевые задачи прикладного
социологического исследования
.
Особенности ввода социологических данных в
компьютер: вопросы преобразуются в
переменные.

Переменные - это то, что можно измерять,


контролировать или что можно изменять в
исследованиях. Переменные отличаются
многими аспектами, особенно той ролью,
которую они играют в исследованиях,
шкалой измерения и т.д.
Пример.

Вопрос анкеты:
Сколько времени у вас занимает дорога от
дома до РГГУ?

Переменная: затраты_времени

Значения переменной: диапазон чисел в


формате «время» или интервалы (0-15
минут, 16-30 минут, 31-60 минут, свыше 60
минут)
Формализация и способы контроля.
Работа с пропущенными данными.
.

Ввод данных:
 Удобство
 Понятность
 Полнота

Числа или
текст?
Понятие измерения в социологии.

Измерение: совокупность операций для


определения отношения одной
.

(измеряемой) величины к другой


однородной величине, по определенному
правилу.

Измерить стол и
измерить отношение к
ценности семьи – одно и
то же?
Какие бывают шкалы. Свойства шкал.
Номинальная шкала

.
 В каких городах Вы хотели бы побывать?
 1. Париж
 2. Нью-Йорк
 3. Сингапур
 4. Рим

Хотели бы Вы переехать в другой город?


11.Да.
12.Еще не решил.
13.Нет
Порядковая шкала

 В каких городах Вы хотели бы побывать


. (укажите в порядке предпочтений) ?
1. Париж ________
2. Нью-Йорк ______
3. Сингапур ______
4. Рим ___________

Хотели бы Вы переехать в другой город?


10.Да.
11.Скорее да, чем нет.
12.Скорее нет, чем да.
13.Нет
Метрическая шкала

 Сколько, по-вашему, должен стоить авиабилет


. в эти города (в рублях)?
1. Париж ________
2. Нью-Йорк ______
3. Сингапур ______
4. Рим ___________

Сколько членов семьи, включая вас, проживает


вместе с вами?
10..
11..
12..
 ключевых ошибки

. - тип вопроса и тип шкалы


- вид (знаки) шкалы и тип шкалы
3. Программа S P S S : основные возможности

.  Понятие о базах данных. Различные форматы


данных и проблема их сопоставимости.
 Общая характеристика современных
программных средств анализа
социологических данных. Многозадачные и
специализированные программные пакеты
(N T C S , S ta tis tic a , C lu s te r , D A -s y s te m и др.).
S P S S как многозадачный пакет, его
возможности и ограничения.
 Виды и причины ошибок в данных,
возможности их диагностирования и
исправления. Проблема пропущенных данных. 
Три основных рабочих окна S P S S

S ps s w in.ex e
 Знакомство с пользовательским интерфейсом
программы S P S S .
 Главное меню и диалоговые окна. Панели
инструментов. Окно редактора данных, окно
синтаксиса и окно вывода. Функциональная и
пользовательская настройка (шрифты, стили
вывода результатов и т.д.) Окно описания
переменных.
 Открытие уже существующего файла с данными.
Возможность конвертации (импорта) файлов с
данными, созданных в других программах.
Сохранение файла данных в различных форматах
(экспорт данных). Использование результатов в
приложениях W O R D , EX C E L , вставка и
копирование объектов.
Три основных рабочих окна S P S S
Три основных рабочих окна S P S S
Три основных рабочих окна S P S S
Лекция 2. Вариационный ряд

.
Вариационный ряд (ряд распределения) –
упорядоченное распределение единиц исходной
совокупности по определенному варьирующему
признаку. Виды: дискретный и интервальный.
Пример: Количество пятерок в зачетке
4)Результаты наблюдения
2 5 12 7 7 7 3 0 4 10 0 0
2) Вариационный ряд с абсолютными частотами:
0 1 2 3 4 5 6 7 8 9 10 11 12
3 0 1 1 1 1 0 3 0 0 1 0 1
1. Вариационный ряд.

.
Что можно сделать с вариационным рядом?

 сгруппировать или перегруппировать

 построить наглядный график

рассчитать меры центральной тенденции

 рассчитать показатели вариации


2. Группировка статистических
данных
.
Группировка статистических данных – это
разделение совокупности данных по одному или
нескольким существенным признакам.

Группировочные признаки могут быть


типологические, структурные, аналитические.

Качественный Изучение Изучение


признак для структуры взаимосвязей
получения определенного между
типологии явления определенными
явлениями
2. Группировка статистических
данных
.
Ключевые задачи группировки:
1) определение количества обособленных групп,
2) определение величины интервала между
группами
Интервалы

Открытые и Равные и
закрытые неравные
2. Группировка статистических
данных
.
Величина равного интервала

i = X m a x – X m in
n
3. Графическое отображение
вариационного ряда
.
1) Полигон (простой линейный график)
3. Графическое отображение
вариационного ряда
.
2) Гистограмма
3. Графическое отображение
вариационного ряда
.
3) Кумулята
3. Графическое отображение
вариационного ряда
.
4) Сопоставление с кривой нормального
распределения
Х ср +- s  0,68
Х ср +- 2s  0,95
Х ср +- 3s  0,99
3. Графическое отображение
вариационного ряда
.
Сопоставление с кривой нормального распределения
форма распределения показывает, с какой частотой
значения переменной попадают в определенные интервалы
 Поиск типичных и специфичных объектов

 Расчет доверительных интервалов

{Х ср – Z * S / √n < Х ср < Х ср + Z * S / √n }
или
Х ср ± Z * S / √n
Z (95% )= 1,96
4. Меры центральной тенденции и показатели
вариации

Мода:
.
1) В дискретном ряду: значение, имеющее наибольшую частоту
2) В интервальном ряду:
Мо=х0 + i*((fn –fn-1) / (fn –fn-1) +(fn + fn+1)),
где Х0 – точная нижняя граница модального интервала, i –
протяженность модального интервала, f n - частота модального
интервала, f n -1 – частота интервала, предшествующего модальному,
f n +1 – частота интервала, следующего за модальным.
 
Вычисление моды в дискретном ряду: это значение, имеющее
наибольшую частоту (для двумерной структуры), или
встречающееся чаще всего (для одномерного ряда)

4. Меры центральной тенденции и показатели
вариации

Медиана:
.

1) В дискретном ряду: значение серединного элемента (в


упорядоченном ряду). Элемент: (n + 1 )/2
2) В интервальном ряду:
Ме=х0 + i *((fn\2 –fm e n-1)/ f me
где Х0 – точная нижняя граница медианного интервала, i –
протяженность медианного интервала, fn\2 - абсолютная
частота медианного интервала (всегда 50% или (n +1)/2), fm e
n-1) – кумулятивная частота интервала, предшествующего
медианному, f m e – реальная частота медианного
интервала.
 
4. Меры центральной тенденции и показатели
вариации
.
C реднее:
1) В дискретном ряду: простое среднее.
2) В интервальном ряду:
хср = ∑хifi / ∑fi 

(ср. взвешенное)
4. Меры центральной тенденции и показатели
вариации
.
 Дисперсия – разброс значений признака вокруг
среднего значения.

Д= ∑(хi – хср.)2 * f i / ∑f i или Д= ∑(хi – хср.)2 / n

 Стандартное отклонение = корень из дисперсии

 Коэффициент вариации:

K вар. = Станд.откл. / Х ср.


Лекция 3. Этапы анализа данных

.
Первый шаг первичного анализа данных – расчет
мер центральной тенденции (моды, медианы и
среднего).

Разные меры центральной тенденции пригодны


для разных типов шкал.

Так, мода подходит для всех шкал (номинальных,


порядковых и интервальных), медиана – для
порядковых и интервальных, среднее – только для
интервальных.
2.
 Для двумерных вариационных рядов следует различать
.
сами значения и их частоты. Например, такой ряд
является одномерным:

 Число детей в 7 случайно отобранных семьях


 2 1 1 3 1 1 4

Модой здесь будет 1 ребенок (это количество встретилось


наибольшее число раз), Медианным элементом будет
(n +1)/2 для нечетного числа значений и n /2 для четного. В
нашем примере семь значений, поэтому 7+1/2=8/2 =4
элемент ряда, которому соответствует 3 ребенка.
Среднее (2+1+1+3+1+1+4)/7=1,85.
Число детей 2 1 3 4

2. Количество семей с данным числом детей 20 70 15 5

 В двумерном ряду модой для числа детей будет


.
значение с наибольшей частотой. В данном случае семей
с одним ребенком больше всего (70), поэтому это мода.
Медианный элемент можно найти графически или через
накопленные частоты. Если всего у нас N семей в
выборке (у нас 20+70+15+5=110), то медианным
элементом будет (n /2 =110/2=55 элемент.

 Как теперь найти его значение? С помощью накопленных


частот: в первую группу с 2мя детьми попали 20 семей, а
во вторую 70. Соответственно, в сумме во второй
подгруппе накопилось больше, чем 55 значений
(20+70=90>55). Поэтому медианный элемент
принадлежит второй подгруппе (семьи с одним
ребенком).
3.
 Второй шаг первичного анализа – вычисление
. характеристик разброса данных. Ими являются
дисперсия (сигма в квадрате), стандартное
отклонение (корень из дисперсии, т.е. сигма).
Дисперсия – это мера среднего отклонения от
средних значений. Формула: ∑(х-хсреднее)2 /n , где n –
число значений в выборке или вариационном ряду.
Считается, что в условиях нормального
распределения все значения признака не должны
отклоняться от среднего больше, чем на три корня из
дисперсии – т.е. три стандартных отклонения (т.
называемое правило 3х сигм).
4.
 Третий шаг первичного анализа – поиск
. взаимосвязей двух и более переменных. Для этого
строятся таблицы сопряженности: перекрестные
таблицы для переменных, в которых могут быть
указаны ожидаемые частоты значений,
наблюдаемые (c o u n t), остатки (r e s id u a ls ). Именно по
остаткам (это разница между наблюдаемыми и
ожидаемыми значениями) мы можем судить, в каких
именно ячейках есть отклонение от независимости.
Высокий Средний доход Низкий доход

5. доход в семье в семье в семье

Число детей в семье 1 Count 50 140 10

Residuals 60 1 35

2 Count 80 100 30

Residuals 4 4 5

3 Count 2 100 160

Residuals 10 3 -80

.Как видно из таблицы, максимальные остатки наблюдаются в тех семьях, где


низкий доход и трое детей (-80, т.е. в этой ячейке в условиях независимости
должно было быть на 80 семей меньше) и для семей с высоким доходом и одним
ребенком (60, т.е. их должно было быть на 60 больше). Поэтому можно сделать
предварительный вывод, что переменные «число детей» «уровень дохода»
являются зависимыми, причем эта зависимость сильнее выражена для бедных
семей с тремя детьми и для богатых семей с одним ребенком.
7
 Кроме таблиц сопряженности, для анализа зависимости
. рассчитываются коэффициенты связи (коэфф. корреляции
Пирсона для интервальных данных, хи-квадрат для любых
данных, коэфф. Спирмена и Кендалла для порядковых
данных, и еще десяток других коэффициентов).
 
 Наличие связи определяется 1) по уровню значимости
коэффициента (s ig n ific a n c e , она же – вероятность ошибки
первого рода) – чем ближе этот показатель к нулю, тем лучше,
и 2) по величине самого коэффициента (коэфф. Пирсона
изменяется от -1 до +1, где -1 абс. отрицательная связь, +1 –
абс. положительная, 0- нет связи); Хи-квадрат безразмерный,
от 0 до бесконечности, чем он больше по величине, тем
больше связь, при условии, что число степеней свободы (d f
или ст.с.) невелико. Оценивать любой из коэффициентов
только по одной его величине неправомерно, надо знать
число степеней свободы и уровень значимости.
6
 Работа с синтаксисом. В работе с синтакс-файлом
. важно различать главные команды и подкоманды, или
параметры. Команды идут с самого начала и обычно
прописными буквами. Подкоманды начинаются с новой
строки и предваряются косой чертой /.
  
 Например, такой синтаксис запускает выдачу таблиц
сопряженности (C R O S S T A B S ), с такими параметрами,
как пересечение переменных пол и доход, с расчетом хи-
квадрата (C H IS Q ), с выдачей в ячейках общего числа
наблюдений (C O U N T ) и остатков (R E S ID ).
  
 CROSSTABS
 /T A B L E S =пол B Y доход
 /S T A T IS T IC =C H IS Q
 /C E L L S = C O U N T R E S ID .
Лекция 4. Международные
стандарты оценки качества. Этап
отбора респондентов.

 Принципы отбора: многоступенчатая


стратифицированная выборка

 Этапы: макро-регион, регион,


населённый пункт, район, адрес,
домохозяйство, индивиды в
домохозяйстве
Отбор респондентов
 Макро-регион: Один из вариантов –
соответствие федеральным округам +
саморепрезентирующие страты
 Выбор регионов внутри макро-региона:
пропорциональный отбор.
 Выбор населенных пунктов внутри
региона: отбор типичных объектов.
 Выбор адресов внутри населенных
пунктов: пропорция по типам
микрорайонов или простой случайный
Отбор респондентов в населенном пункте

Адрес

Контакт с человеком, проживающим по


данному адресу

Выбор респондентов, подходящих для


исследования
Отборочная анкета (скринер)
- Ориентация на целевые показатели
(возрастную группу, опыт
приобретения того или иного товара, и
т.д.)
- Отбор среди всех, кто проживает в
домохозяйстве
Интервьюер должен записать всех
проживающих, их имя или родственный
статус. Пример:

 Жена Мария Ж 40
 Дедушка Иван М 7 5
 Я (муж) М 45
 Дочь Саша Ж 10
 Сын Иван М 3
 Няня детей Ж 28
Затем нужно записать имена ТОЛЬКО
ПОДХОДЯЩИХ респондентов (возраст 16-
65) по порядку от самого старшего к
самому младшему:
 Я (муж) М 45
 Жена Мария Ж 40
 Няня детей Ж 28

Таким образом, в этом домохозяйстве три


подходящих респондента, и из них нужно
выбрать ОДНОГО.
Отборочная таблица (например,
таблица Киша) показывает, какого
именно респондента из подходящих в
данной семье нужно взять.
Eligible
people
Отбор респондентов Household
1 2 3 4 5 6 7 8
1 1 1 1 1 1 1 1 1
2 1 2 1 2 1 2 1 2
3 1 2 3 1 2 3 1 2
4 1 2 3 4 1 2 3 4
5 1 2 3 4 5 3 4 5
6 1 2 3 4 5 6 3 6
7 1 2 3 4 5 6 7 4
8 1 2 3 4 5 6 7 8
9 1 2 3 4 5 6 7 8
10 or more 1 2 3 4 5 6 7 8
Отбор респондентов
Отборочная анкета (скринер) завершается
приглашением на опрос подходящих
респондентов.

Если их нет дома, то согласовывается время


следующего визита или звонка для
уточнения.
Контроль качества
 Соблюдение порядка отбора респондентов
 Соблюдение процедур опроса
 Оформление полевых материалов (отборочных
анкет, контактных ведомостей, таблиц с
количеством и результатами визитов и т.д.)
 Заполнение анкет и мини-отчетов с впечатлениями
об исследовании (обратная связь)
 Регулярные контакты с супервайзором по
телефону и электронной почте
Контроль качества
 Количество визитов к потенциальному респонденту – 3, с
обязательным заполнением контактной ведомости (подробно, с
причинами отказа).

 Если человек проходит скрининг при первом же посещении и


соглашается на участие в исследовании, то больше визитов не
требуется. Если человека нет дома, или он просит прийти в другой
день – нужны дополнительные визиты. Если человек резко
отказывается – рекомендуется визит другого интервьюера (более
опытного).
Лекция 5. Двумерный анализ (продолжение)

1. Расчет таблиц сопряженности

В СПСС: Analyse -> Descriptive statisticS ->


Crosstabs

2. Расчет коэффициентов связи

3. Группа методик «сравнение средних и


дисперсионный анализ»
Коэффициент корреляции Пирсона
Корреляция – показатель, отражающий
зависимость переменных, при котором
изменение одной переменной приводит
к изменению другой переменной.
r – диапазон от -1 до +1.
отрицательная корреляция —увеличение
одной переменной связано с
уменьшением другой переменной

положительная корреляция —увеличение


одной переменной связано с
увеличением другой переменной

автокорреляция  — взаимосвязь между


случайными величинами из одного
ряда, но взятых со сдвигом по времени.
Корреляция - это измерение линейной
связи
Команды преобразования
данных
 Перекодировать R E C O D E
 Вычислить C O M P U T E
 Подсчитать C O U N T
 Сделать отбор S E L E C T C A S E S
 Сформировать подвыборку S A M P L E
2. Сравнение средних и дисперсионный анализ

•Сравнение с уже каким-то известным значением


•Сравнения между двумя разными группами
признаков
•Сравнение между несколькими группами
признаков
2. Сравнение средних и дисперсионный анализ

Group Statistics

Age When First Married


Astrological Sign N Mean Std. Deviation Std. Error Mean

Aries 104 22,86 4,862 ,477


Virgo 85 23,16 5,709 ,619

Independent Samples Test


Levene's Test for Equality of Variances t-test for Equality of Means
F Sig. t df Sig. (2-tailed)Mean DifferenceStd. Error Difference
95% Confidence Interval of the Difference
Lower Upper Lower Upper Lower Upper Lower Upper
Lower
Age When First Married Equal variances assumed 1,905 ,169 -,402 187 ,688 -,309
,769 -1,826 1,208
Equal variances not assumed -,395 165,639 ,693 -,309
,781 -1,852 1,234
Independent Samples Test

Levene's Test for Equality of Variances t-test for


Equality of Means
F Sig. t df Sig. (2-tailed)
Mean Difference Std. Error Difference 95% Confidence Interval of
the Difference
Lower Upper Lower Upper Lower Upper
Lower Upper Lower
freq Equal variances assumed ,619 ,432 15,492 1621 ,
000 28,19543 1,81999 24,62564 31,76522
Equal variances not assumed 15,551
1301,567 ,000 28,19543 1,81311 24,63849
31,75237
Двумерный анализ

Позволяет:

- проверить статистические гипотезы о


независимости признаков

- проверить статистические гипотезы о


равенстве средних значений

- проверить статистические гипотезы о


равенстве дисперсий

Оценить