Вы находитесь на странице: 1из 65

INTRODUCCIN AL ANLISIS

DE DATOS CON SPSS

Prof. Dr. Juan Antonio Rodrguez R.

Contenido del Curso


I- Introduccin al Proceso de Datos

Definicin y fases

La estadstica y los diferentes


niveles de anlisis

Seleccin de la prueba estadstica

Variables y tipos

Ejemplo

II- Visin General del Programa SPSS

Funcionamiento general: ventanas y


mens

Creacin de un archivo de datos:


vista de variables y vista de datos
III- Manejo

Edicin de datos

Moverse por el archivo de datos

Compatibilidad con otros programas

Transformacin de datos: clculo de


nuevas variables y recodificacin

Filtrar y segmentar

Fundir archivos

IV- Tabulacin y Grficos

Tablas personalizadas

Principales opciones grficas: sectores,


barras, lneas e histogramas

Grficos interactivos
V- Anlisis Descriptivo

Depuracin y anlisis preliminar

ndices de tendencia central y


variabilidad

ndices de posicin y distribucin


VI- Contraste de Hiptesis

Pruebas paramtricas

Pruebas no paramtricas
VII- Introduccin a las tcnicas
multivariantes

Correlacin

Regresin lineal mltiple


2

Mdulo I. Introduccin al PROCESO DE DATOS


Definicin y fases
El Anlisis de Datos: La estadstica y los diferentes
niveles de anlisis
Seleccin de la prueba estadstica
Variables y tipos
Ejemplo

DEFINICIN y FASES
EL PROCESO DE DATOS

Un continuum que empieza ya en el Diseo de la


investigacin. Los pasos por los que atraviesan los
DATOS:

Diseo de la investigacin
Recogida de datos
Codificacin y grabacin
Anlisis Exploratorio
Anlisis Estadstico
Interpretacin de Resultados
Elaboracin del Informe
4

EL ANLISIS DE DATOS
La ESTADSTICA como un cuadro de
herramientas, con 3 niveles de anlisis:

Nivel 1: UNIVARIADO. Resumir e ilustrar la informacin


contenida en una matriz de datos

Nivel 2: BIVARIADO. Contrastar hiptesis, comparar el


comportamiento de dos o ms grupos o analizar la
relacin entre pares de variables

Nivel 3: MULTIVARIANTE. Elaborar modelos,


ecuaciones o funciones que permitan explicar unas
variables a partir de otras y hacer predicciones

VARIABLES
Toda caracterstica o dimensin de un sujeto (u
objeto) susceptible de adoptar distintos valores o
nombres
Tipos de variables ...teniendo en cuenta:
Su nivel de medida (Stevens, 1951):
Nominales
Ordinales
Intervalo
Razn
Su papel en la investigacin
Independientes (predictores)
Dependientes (criterio)

VARIABLE NOMINAL
Los nmeros no implican cantidad, sino
cualidad, categoras, funcin
identificadora (sexo, estado civil, etc.)
Ejemplo: Cul es su estado civil?
*
*
*
*
*

Soltero
(1)
Casado
(2)
Separado (3)
Divorciado (4)
Viudo
(5)

VARIABLE ORDINAL
Los nmeros reflejan cantidad
Pueden establecerse relaciones de orden (mayor o
menor)
No existe una unidad de medida

Ejemplo: En conjunto dira usted que se


siente actualmente:
* Nada feliz
(1)
* Poco feliz
(2)
* Bastante feliz (3)
* Muy feliz
(4)
* Totalmente feliz

(5)

VARIABLE de ESCALA
VARIABLE de INTERVALO
Unidad de medida pero no cero absoluto o
ausencia de...
Ejemplos: el C.I.

VARIABLE de RAZN
Existencia de un cero absoluto
Ejemplo: INGRESOS ECONMICOS
Niveles de medida dbiles y fuertes (ESCALA)
9

Otras clasificaciones de Variables

Variables Cualitativas (nominales):


Dicotmicas y politmicas (Sexo,
consumidor, etc.)

raza,

tipo

de

Variables Cuantitativas (intervalo y razn): Peso,


nmero de hermanos, ingresos, etc.). Discretas y
continuas.
Variables Cuasi-cuantitativas (ordinales): Clasificacin
en una oposicin, Ordenamiento por preferencias,
Prctica de deportes,etc.

Variables

ordinales)

categricas (codificables: nominales u


10

Codificacin y Datos Missing

Codificar es asignar cdigos numricos o alfabticos a

las diferentes categoras de una variable cualitativa u


ordinal. Permite identificar las distintas categoras de
una variable
Sexo :

Hombre (0) Mujer (1)

Los datos missing representan la falta de respuesta. Es


frecuente tener casos incompletos por diversas razones
El SPSS les asigna una coma

11

Simulacin de una encuesta


1. Sexo:
Hombre ( )
2. Edad: .........
3. Nivel de estudios
Sin estudios
BUP/FP

( )
( )

Mujer ( )

EGB
( )
Universitarios ( )

4. Estados
Zulia ( )
Mrida ( )

Trujillo ( )
Barinas

( )

5. Fumas?
Nunca ( ) Ocasionalmente ( ) Habitualmente ( )

6. Habitualmente bebes alcohol cuando sales?


S ( ) NO ( )

12

Simulacin de una encuesta


7. Cul es tu bebida preferida? ....
8. Con qu frecuencia sales a divertirte?
Varias veces a la semana ( )
Cada quince das
( )
Casi nunca
( )

Fines de semana ( )
Una vez al mes ( )
Nunca
( )

Los amigos
La familia
La pareja

Los estudios
El dinero
La paz en el mundo

9. Para m lo ms importante es:

10. La vida que llevo es:


Poco divertida
Poco responsable
Poco estresante

( )
( )
( )

1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7

( )
( )
( )

Muy divertida
Muy responsable
Muy estresante

11. Mi nivel de satisfaccin actual (de 0 a 10) es:....

13

Mdulo II. Visin general del Programa SPSS

Funcionamiento general: ventanas y mens


Creacin de un archivo de datos: vista de
variables y vista de datos

14

Funcionamiento general: ventanas y mens


Men principal
Barra de herramientas
Barra de estado
Barras de desplazamiento
Tres tipos de ventanas:
Datos (.sav)
Resultados (.spo)
Sintaxis (.spss)

15

Creacin del archivo de datos


Primero se define la plantilla: vista de variables
Despus se teclean los datos

16

Mdulo III. Manejo

Edicin de datos
Moverse por el archivo de datos
Transformacin de datos: clculo de nuevas
variables y recodificacin
Filtrar y segmentar
Fundir archivos

17

EDICIN DE DATOS

Copiar, borrar y mover informacin

Insertar casos y variables (

Bsqueda de casos (

) y valores (

18

MOVERSE POR EL FICHERO DE DATOS

[Ctrl] + [Inicio] Fila 1, columna 1

[Ctrl] + [Fin]

ltima fila, ltima columna

[Ctrl] + []

ltima casilla de esa fila

[Fin]

ltima casilla de esa fila

[Ctrl] + []

Primera casilla de esa fila

[Inicio]

Primera casilla de esa fila

[Ctrl] + []
[Ctrl] + []

Primera casilla de esa columna


ltima casilla de esa columna

[Tab]

Casilla de la derecha

[AvPg]

Pgina abajo (la ltima fila visualizada pasa a ser la primera)

[RePg]

Pgina arriba (la primera fila visualizada pasa a ser la ltima)

[Ctrl] + [AvPg]Pgina a la derecha (la ltima columna visualizada pasa a ser la


primera)

[Ctrl] + [RePg]Pgina a la izquierda (la primera columna visualizada pasa a ser


la ltima)

19

TRANSFORMACIN DE DATOS

Calcular

OJO! Si alguna de las variables que

intervienen en la expresin numrica


cuenta con una ausencia, en la
nueva variable tambin se generar
un valor ausente.

El cuadro de dilogo contiene todas las


opciones para realizar gran cantidad de
transformaciones sobre una o ms
variables y almacenar el resultado en
otra variable. Esa nueva variable, o
variable de destino, debe especificarse
en el recuadro etiquetado Variable de
destino.
El espacio de trabajo cuenta con todas
las
variables
del
archivo.
Esta
informacin se muestra en el recuadro
de la zona izquierda. Marcando una vez
con el ratn cualquiera de los nombres
y utilizando el botn de tringulo,
podremos
pasar
las
variables
seleccionadas al recuadro Expresin
numrica. En ste figura la expresin
de clculo cuyos resultados van a
almacenarse en la nueva variable.

20

TRANSFORMACIN DE DATOS

Recodificar
Recodificar una variable implica analizar los
valores contenidos en la misma y modificarlos en
funcin de algunos criterios que hacen referencia
al orden o cuanta de los valores. Una de las
modificaciones ms comunes de una variable
consiste en sustituir intervalos de valores por
valores concretos. Un ejemplo amplio es la
situacin en la que se categoriza una variable
cuantitativa

21

ORDENAR CASOS

El lugar que ocupan los sujetos en el archivo de datos viene determinado, por defecto, por el orden en que
fueron introducidas en el mismo. No obstante, en ocasiones podemos querer ordenar a los sujetos en base a
algn otro criterio (edad, sexo, etc.). En SPSS, es posible ordenar los sujetos, en orden ascendente o
descendente, en base a los valores obtenidos en una o ms variables.
Si utilizamos una sola variable, los sujetos sern ordenados en funcin de los valores numricos o
alfanumricos obtenidos en la misma, si utilizamos dos o ms variables, aquellos sujetos que obtengan las
misma puntuacin en la primera variable de ordenacin sern ordenados, a su vez, en funcin de los valores
obtenidos en la segunda variable de ordenacin. Si persistiesen los empates, stos seran ordenados en funcin
de una tercera variable de ordenacin, y as sucesivamente.
22

FILTRAR Y SEGMENTAR

Filtrar o Seleccionar casos:

Operador AND (&). Significa y. Sirve para


enlazar condiciones que deben cumplirse
simultneamente
Operador OR (|). Significa o. Sirve para
enlazar condiciones, de las cuales al menos una
debe cumplirse
Operador NOT (). Significa no. Sirve para
negar condiciones. Es cierto cuando no se
cumple la condicin
23

FUNDIR ARCHIVOS

1
2

24

Mdulo IV. Tabulacin y Grficos

Tablas personalizadas
Principales opciones grficas: sectores,
barras, lneas
Grficos interactivos

25

Tabulacin

26

Tabulacin

Estadsticos

2
Damos formato
al estadstico

1
Seleccionamos
el estadstico

3
27

Tabulacin

Formato de las tablas

Modificar el formato de las tablas establecido por defecto:


Edicin/Opciones/Tablas pivote

Modificar el formato de una tabla hecha: Editar la tabla (doble clic)


Formato: Aspectos de tabla

Modificar partes concretas de una tabla:


o Texto

o Casillas Formato/Propiedades de casilla


o Propiedades de tabla Formato / Propiedades de tabla

28

Grficos
PRINCIPALES OPCIONES GRFICAS:
El proceso a seguir para todos los tipos de grficos es siempre el mismo, se selecciona el men Grficos. Dentro
de este men aparecen todos los distintos tipos de grficos disponibles, de los cuales seleccionaremos uno

GRAFICOS DE SECTORES:

Los grficos de sectores son los conocidos


grficos de tarta. En ellos se representa el
reparto de determinado atributo entre
distintas
categoras
(por
ejemplo,
la
proporcin de hombres y mujeres contenidos
en una muestra).

29

Grficos
PRINCIPALES OPCIONES GRFICAS:

GRAFICOS DE BARRAS:
Los
grficos
de
barras
muestran
la
distribucin de los valores de una serie de
categoras dadas. Si seleccionamos la opcin
Grficos/ Barras
el siguiente cuadro de
dilogo:

GRAFICOS DE LNEAS:
Los grficos de lneas muestran la evolucin
de los valores a lo largo de un continuo
determinado. Si seleccionamos la opcin
Grficos/ Lneas el cuadro de dilogo que
aparece es muy similar al que apareca al
crear un grfico de barras

30

Grficos
PRINCIPALES OPCIONES GRFICAS:

FORMATO DE LOS GRFICOS:

Una vez que hemos creado el grfico, podemos editarlo, haciendo doble clic sobre el, y se abrir una nueva
ventana, la del EDITOR DE GRFICOS. En esta ventana podemos hacer las modificaciones que creamos
convenientes. Esta nueva ventana posee sus propias opciones de men y su propia barra de botones para la
edicin de grficos

31

Grficos
PRINCIPALES OPCIONES GRFICAS:

PLANTILLAS GRFICAS:

El editor de grficos nos permite guardar plantillas cuyas especificaciones queremos que se apliquen a
posteriores grficas. De este modo, podemos usar las especificaciones de un grfico como plantilla para los
dems. Archivo/ Guardar plantilla grfica.....

Una vez que hemos creado la plantilla


podemos aplicarla desde el segundo de los
cuadros de dilogo que aparece al crear un
grfico.

32

Grficos Interactivos

33

Mdulo V. Anlisis Descriptivo

Depuracin y anlisis preliminar


ndices de tendencia central y variabilidad
ndices de posicin y distribucin

34

Base de Datos
Partimos de una base de datos con filas y columnas....

Con
Sujetos
Variables

35

ANLISIS DESCRIPTIVO
Anlisis Descriptivo: conjunto de procedimientos
diseados para organizar y resumir la
informacin
contenida
en
un
conjunto
(muestra) de datos empricos

Puede ser que los datos no sean buenos

ANLISIS PRELIMINAR
(VALIDACIN)
36

Depuracin y Anlisis Preliminar


Pasos en el AED (4 tareas)
1)Depuracin
2)Falta de respuesta
3)Casos anmalos
4)Comprobacin de supuestos

37

1. Depuracin
OBJETIVOS

Detectar valores no admisibles e incoherencias


Tablas de frecuencia para todas las variables
Tablas de contingencia

38

2. Los casos MISSING


PROBLEMAS Y RIESGOS:
LAS ESTIMACIONES (La reduccin excesiva del tamao de la muestra condiciona las
estimaciones y las comparaciones)

LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en principio era


una muestra adecuada se convierte en inadecuada y no representativa) Nn

LOS RECHAZOS. Son iguales los que responden a la encuesta que los que no

responden?. Los missing siguen algn patrn?, estn sesgados los resultados?, de
quin estamos informando?

LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES


DE LA NO RESPUESTA

IMPUTACIN/SUSTITUCIN
39

3. Los valores ANMALOS o atpicos


Valores que caen fuera del rango normal de los datos

CRITERIO: distancia respecto al cuerpo central de la distribucin

(50% de los casos, entre el P75 y el P25)

IQR (Recorrido intercuartlico)

OUTLIERS.................... 1.5 - 3 IQR


EXTREMOS...................... 3 IQR
40

Cmo detectarlos?
Grficos de Caja o BOXPLOT
SPSS: ANALIZAR/ESTADSTICOS DESCRIPTIVOS/EXPLORAR

Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetra
Comparar la distribucin de 2 o ms variables
Comparar la distribucin de 2 o ms grupos en una misma variable
*

41

Box-Plot
Variable: Ingresos
Valor mximo tras eliminar
valores extremos*
600000

Percentil 75%

500000
10

400000

Mediana
300000
9

Mediana
200000

100000

Percentil 25%
0
N=

20

INGRESOS

Valor mnimo tras eliminar


valores extremos*

Diagrama de Caja

* Valores extremos: mayores que 1,5 veces el rango intercuartlico (Q75-Q25).


42

DESCRIPTIVOS
Descriptivos
INGRESOS

Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis

Lmite inferior
Lmite superior

Estadstico
141850,00
97450,18

Error tp.
21213,24

186249,82
127888,89
110000,00
9000028947,368
94868,48
60000
475000
415000
65250,00
2,575
7,877

,512
,992

43

Comparar la distribucin de dos o ms variables


600000

500000
10

400000

300000

10
9

19

200000

100000

-100000
N=

20

20

INGRESOS

GASTOS

44

Comparar la distribucin de dos o ms grupos


600000

500000
10

400000

300000

INGRESOS

200000

100000

0
N=

10

10

HOMBRE

MUJER

SEXO
45

La comprobacin de supuestos

Elegir la prueba estadstica adecuada en


cada caso
Pruebas Paramtricas y No Paramtricas

46

Cmo se comprueban?
NORMALIDAD: Prueba K-S de Lilliefors. Cuando n < 40
Shapiro-Wilk (SPSS: ANALIZAR / Estadsticos descriptivos /
Explorar / Grficos).
ALEATORIEDAD: Prueba de las Rachas (SPSS: ANALIZAR /
Pruebas no paramtricas / Rachas)
HOMOCEDASTICIDAD: Prueba de Levene (SPSS: ANALIZAR /
Estadsticos descriptivos / Explorar / Grficos)
Se parte siempre de que se cumplen los supuestos salvo que las
pruebas sean significativas (p< 0.05)

LINEALIDAD: Grfico de dispersin y correlacin

47

ESTADSTICOS DESCRIPTIVOS

Medidas de Tendencia Central: media, mediana, moda, ...


Medidas de Posicin: percentiles, cuartiles...
Medidas de Variabilidad: varianza, desv. tpica, amplitud,
IQR, CV

Medidas Distribucin: asimetra, curtosis...

48

ANLISIS DESCRIPTIVO UNIVARIADO


MEDIDAS DE TENDENCIA CENTRAL
Medidas de Tendencia Central: valor central o medio
de la distribucin de datos. Su centro de gravedad.
Media (aritmtica): suma de las puntuaciones/n de
casos
Mediana: centro geogrfico de la distribucin (P50)
Moda: valor ms frecuente

MEDIDAS DE POSICIN
Cuantiles: nos permiten situar a los distintos valores en la
distribucin
Percentiles: valores que acumulan un determinado
porcentaje de casos bajo ellos.
Cuartiles: P25, P50, P75
49

ANLISIS DESCRIPTIVO UNIVARIADO


MEDIDAS DE VARIABILIDAD
Desviacin tpica: grado en que las
puntuaciones de la variable se alejan de su
media.
El 68% de los casos se encuentra dentro de
1 DT respecto a la media y el 95% dentro de
2 DT.
Varianza: cuadrado de la DT
Amplitud interquartil (IQR): resultado de la
resta entre los valores del P75 y el P25

50

ANLISIS DESCRIPTIVO UNIVARIADO


MEDIDAS DE DISTRIBUCIN
Asimetra: grado en que los datos se reparten
equilibradamente por encima y por debajo de la
tendencia central. La asimetra positiva indica que
los valores ms extremos se encuentran por encima
de la media. La asimetra negativa, lo contrario.
ndices de asimetra prximos a 0 indican simetra.
Tambin se nos ofrece el E.T. del ndice de Asimetra
Asimetra
1,96
Error Tpico

Asimetra significativa

Curtosis: grado en que una distribucin acumula


casos en sus colas
distribucin normal.
Curtosis
1,96
Error Tpico

en

comparacin

con

una

Curtosis significativa
51

ANLISIS DESCRIPTIVO UNIVARIADO


Distribucin de frecuencias

Variables categricas
Grficos: sectores, barras
(SPSS: Analizar/Estadsticos Descripticos/Frecuencias)
(SPSS: Analizar/Estadsticos Descripticos/Descriptivos)

Variables cuantitativas

Medidas de posicin:
Cuantiles
Medidas de Tendencia Central
Medidas de Dispersin

TABLAS

GRFICOS

(SPSS: Analizar/Tablas/Tablas
personalizadas)

(SPSS: Grficos)

Medidas de Distribucin

52

Mdulo VI. Contraste de Hiptesis

Pruebas paramtricas
Pruebas no paramtricas

53

Concepto de Estimacin de parmetros


Informacin
de la
muestra
Estadsticos
x

Estimacin

Caractersticas
de la
poblacin
Parmetros

54

CONTRASTE DE HIPTESIS
Pruebas Estadsticas

Contraste de Hiptesis

Hiptesis nula (Ho):


Aquella que se formula con el nico objetivo de rechazarla.
Es una hiptesis conservadora.
Connotacin: igualdad.
Hiptesis Alternativa (H1):
Complementaria de Ho.
Es la hiptesis objetivo de inters.
Es la hiptesis arriesgada.

55

Pruebas Bsicas con var. Respuesta CUANTI


1 GRUPO

t-Student

Grupos normales

t-Student

Independientes
Grupos NO normales
2 GRUPOS

Grupos normales

Mann-Whitney
t-Student relacionados

relacionados
Grupos NO normales

Grupos normales

Wilcoxon

ANOVA

Independientes
Grupos NO normales
K GRUPOS

Grupos normales

Kruskal-Wallis
ANOVA medidas repetidas

relacionados
Grupos NO normales

Friedman

56

Pruebas bsicas con


Variables CUALI
Binomial
PROPORCIONES

Independientes

Chi-Cuadrado
Tablas de
contingencia
McNemar (2)

Chi-Cuadrado
Corregido
2x2

relacionados

Cochran (K)

57

Mdulo VII: Introduccin a las tcnicas multivariantes

Correlacin
Regresin Lineal Simple
Regresin Lineal Mltiple

58

PUNTO DE PARTIDA
100

80

RLS - Variables implicadas:


Respuesta
Cuantitativa

VAR RESPUESTA

Explicativa (una)
Cuantitativa

60

40

20

Ejemplos

Das de estudio

Calificaciones

Ingresos

Actitud aborto

Extroversin

Nivel de ingls

Edad

Calidad de vida

100

200

300

VAR EXPLICATIVA

Existe correlacin entre


ambas variables.
La regresin lineal simple
cuantifica esa relacin

59

400

La recta de Regresin

100

Cmo se expresa la
relacin entre las
variables?

R2=0,92

80

varresp = a + b varexpl

VAR RESPUESTA

60

40

ordenada

pendiente

20

0
0

100

VAR EXPLICATIVA

200

300

400

lo que vale la
varresp para un
valor nulo de
la varexp

lo que
aumenta la
varresp cuando
la varexp
aumenta una
unidad
60

Contraste de hiptesis de la Recta de Regresin


varresp = a + b varexpl

Resultados
Estimacin
Contraste de hiptesis:
son significativos?
En concreto, es b
significativamente
distinto de cero?

Conclusiones
La explicativa influye
sobre la respuesta
Por cada aumento de
una unidad de la
explicativa, la respuesta
aumenta (o disminuye)
b unidades

61

Validacin del modelo

100

80

Siempre hay una diferencia entre el valor


real de la variable respuesta y la estimacin
a partir de la ecuacin de regresin:
el residuo

Validacin

VAR RESPUESTA

60

Los resultados de la
regresin slo son
fiables si el modelo
cumple ciertas hiptesis
sobre los residuos

40

20

0
0

100

200

300

400

Es preciso realizar una


validacin del modelo

VAR EXPLICATIVA

62

Modelo
Variables implicadas: una variable respuesta y varias explicativas.
Cmo se expresa la relacin entre las variables?
varresp = a + b1 VI1 + b2 VI2 + ... + bp VIp

constante

valor de la var.
Resp. para un
valor nulo de
las VI

pendiente 1

aumento de la var.
Resp. cuando la VI1
aumenta una unidad

pendiente p

aumento de la var.
resp cuando la VIp
aumenta una unidad

63

Calidad del modelo


Calidad del modelo:
Para determinar hasta que punto las variables explicativas
permiten estimar a la variable respuesta seguimos usando el R2
(COEFICIENTE DE DETERMINACIN=VARIANZA EXPLICADA).
Cuanto ms cercano a 1 ms adecuado es el modelo
Cuanto ms cercano a 0 peor resulta el modelo. Es decir, las
variables explicativas no se ajustan linealmente a la variable
respuesta.
R2 aumenta con muchas VI y en muestras pequeas. R2 ajustado
Un R2 bajo no necesariamente indica que las
variables seleccionadas no permiten estimar
adecuadamente la variable respuesta.
Es posible que la relacin no sea lineal.

64

PASOS EN LA MODELIZACIN
1. Especificacin del modelo
2. Estimacin de Parmetros
3. Evaluacin del ajuste
4. Interpretacin de los coeficientes

REESPECIFICACIN?

65

Вам также может понравиться