Академический Документы
Профессиональный Документы
Культура Документы
CUANTITATIVA CON
SPSS 12
UNIVERSITAT DE VALÈNCIA
1. MANEJO DE SPSS
1.1. Introducción de datos
1.2. Datos omitidos
1.3. Selección de datos
1.4. Transformación de variables
1.5. Fusión y segmentado de archivos
1.6. Remodificación de variables
-2-
4.3. Validación cruzada
4.4. Categóricas en regresión
4.5. Interacciones en regresión
6.ANÁLISIS FACTORIAL
6.1. Pasos previos al análisis factorial
6.2. Tipos de análisis factorial
6.3. ¿Cuántos componentes retener?
6.4. Rotaciones
6.5. ¿Qué saturaciones interpretar?
6.6. Ejemplo integrador
-3-
11.. M ANEJO DDE
MANEJO PSS
E SSPSS
B) Desde el propio SPSS. Cuando se introducen los datos desde SPPS hay
que considerar varias cuestiones.
Primero hay que definir las variables. La forma de definirlas, así como la
colocación de etiquetas, longitud de la variable y número de decimales son
autoexplicativas. El nombre de la variable no puede ser más de ocho
caracteres, en tipo se define si es numérica o alfanumérica, y el número de
cifras y decimales, caso de tener. Se pueden colocar etiquetas, para
nombrar la variable con un nombre largo en lugar del acrónimo de ocho
caracteres que hemos elegido antes. Además de esas etiquetas, se puede
colocar etiquetas para cada uno de los valores.
-4-
cuantitativas, aún cuando su escala de medida simplemente alcance las
escalas nominal u ordinal. Aunque ello implica que el investigador ha de
ser cuidadoso en la elección de técnica estadística, le deja libre para un
mayor número de análisis, cuando lo considere necesario. Existen otras
razones para esta elección, como por ejemplo que aunque se distinga entre
nominales y ordinales, el programa, en según qué opciones (por ejemplo en
gráficas) no las distingue, y te impide realizar algunas gráficas de interés.
Por tanto la recomendación es catalogar todas las variables como de escala,
aunque manteniendo nuestro conocimiento sobre su verdadera escala de
medida.
La segunda opción es definir los valores que queremos para los faltantes,
que debe ser un valor (o rango de valores, o varios valores) que no sean
valores potenciales de la variable (por ejemplo, se puede definir como
faltante el 999 para la edad, pero no el 9, porque es posible que tengamos
niños de 9 años ahora o en el futuro en la muestra). La posibilidad de dar
distintos valores perdidos puede ser de utilidad caso de que se quiera
distinguir entre tipos de perdidos, por ejemplo perdidos que vienen de una
persona que apenas contesta nada de la encuesta, y perdidos ocasionales,
que pueden ser despistes.
-5-
1.3. SELECCIÓN DE DATOS
Dentro de la selección de datos hay muchas opciones, casi todas dentro del
menú DATOS. Nosotros nos centraremos en explicar las opciones de
fundir archivos y la de seleccionar casos.
Muestra aleatoria de casos, que puede usarse como una opción previa
a realizar validaciones cruzadas (replicación de los resultados), y puede
realizarse de forma exacta o aproximada.
-6-
1.4. TRANSFORMACIÓN DE VARIABLES
-7-
variables tenga dato válido ya se obtiene puntuación para el caso. Por lo
tanto, ofrece mayor tamaño muestral (da menos faltantes), pero hay que
tener cuidado porque puede dar una puntuación global muy inestable,
basada solamente en unos pocos items, incluso un solo ítem. Por lo
demás ambas funciones, suma y promedio, son transformación lineal
una de la otra, por lo que la mayoría de estadísticos (por ejemplo, la
correlación y cualquier técnica basada en ella) no se ve afectado.
INVERSIÓN DE ESCALA
-8-
TRANSFORMACIONES DE POTENCIA
Para ver qué transformación aplicar, y también para evaluar el efecto que
sobre la variable ha tenido la transformación es adecuado estudiar
sdescriptivamente la variable en todo momento: calcular estadísticos
descriptivos, realizar histogramas, y muy especialmente en este caso
realizar Q-Q plots (gráfico de cuantil-cuantil).
-9-
Ejemplo práctico: la variable autoestima que es asimétrica negativa puede
funcionar mejor realizando una transformación de potencia positiva
(cuadrado, cubo..), para corregir esta asimetría.
FUSIÓN DE ARCHIVOS
-10-
VARIABLES. Se abre una ventana en la que simplemente hay que decir que
quieres leer el segundo de los archivos.
SEGMENTACIÓN DE ARCHIVOS
Todo igual que la opción anterior pero guarda los valores nuevos en una
nueva variable que generamos al efecto.
-11-
Dónde puedo aprender más de esto:
• Todo lo que tiene que ver con manejo de ficheros de SPSS, sin duda en el
propio manual del SPSS. Está disponible en el centro de cálculo de la
Universitat.
-12-
22.. TTÉCNICAS STADÍ
ÉCNICAS EESTAD STICAS BBÁSICAS
DÍÍSTICAS ÁSICAS
-13-
60 400
50
300
40
30 200
20
100
0 N = 535,00 0 N = 567,00
0,0 5,0 10,0 15,0 20,0 25,0
1,
1,
1,
1,
2,
2,
2,
2,
3,
3,
3,
3,
4,
4,
4,
4,
5,
00
25
50
75
00
25
50
75
00
25
50
75
00
25
50
75
00
SMANAG
SUMACC
10
5
4
6
Valor Normal esperado
3 4
2
2
0
1
0 1 2 3 4 5 6 -2
-10 0 10 20 30
Valor observado
Valor observado
-14-
Por último repasaremos un tipo de gráficos que resulta útil para revisar la
simetría, pero especialmente para señalar la presencia de valores atípicos
(outliers). Los diagramas de caja y bigotes, desarrollados por Tukey desde
el análisis exploratorio de datos, se pueden pedir en SPSS en el menú
GRÁFICOS, y dentro de la opción DIAGRAMAS DE CAJA... Existen dos
opciones, una vez pedidos, el defecto es el adecuado, pidiendo diagramas
simples. De todas formas, aún pidiendo simple existen dos opciones a
elegir. Por un lado se puede optar por resúmenes para distintas variables, lo
que nos da para cada variable que seleccionemos un diagrama de cajas, o la
opción de resúmenes para grupos de casos, que sirve para que se ofrezca un
diagrama de caja y bigotes por subgrupos definidos en base a una tercera
variable. Veamos un ejemplo de cada opción.
-15-
6
56
1 250
543
7
0
N= 535
SMANAG
Por su parte, si se opta por los resúmenes para grupos de casos, entonces el
diagrama es exactamente igual pero hay varias, una para cada subgrupo. A
continuación puede verse un ejemplo donde la variable agrupadora es el
sexo, hombre, mujer y omitido, y cada uno de estos grupos tiene su
diagrama correspondiente.
-16-
30
507
290
20
180
182
334
181
445
569
588
460
236
224
165
524
227
214
466
184
10 242
593
353
397
183
281
509
204
337
4
543
453
261
386
27
354 343
179
547
556
117
113
82
62
554
40
506
275
63
58
452
170
391
276
110
0
SUMACC
-10
N= 3 413 151
género
-17-
muestra bajo estudio. Se pueden pedir en estadísticos de esa misma ventana
las medidas más utilizadas de tendencia central, variabilidad, asimetría,
curtosis, y los percentiles que deseemos. Esto último, los percentiles, son
de extraordinaria importancia en la descripción de grupos normativos de
cuestionarios y escalas, por ejemplo. También pinchando en la opción
gráficos pueden obtenerse diagramas de barras e histogramas (con curva
normal), como los que hemos analizado ya en la sección anterior.
Dentro de la ventana de explorar hay, por tanto, dos botones de interés, uno
de estadísticos y otro de gráficos. En la opción de estadísticos por defecto
da los descriptivos más habituales, pero además ofrece estimadores
robustos de tendencia central, valores atípicos y los percentiles más
utilizados. En la opción de gráficos permite calcular los diagramas de caja
y bigotes presentados con anterioridad, diagramas de tallo y hojas e
histogramas con curva normal. Además ofrece en la opción de gráficos con
-18-
prueba de normalidad los Q-Q plots presentados anteriormente junto a una
prueba de normalidad (Kolmogorov-Smirnov con corrección de Lilliefors).
-19-
2.3. RELACIONES BIVARIADAS ENTRE VARUIABLES
CATEGÓRICAS
-20-
A continuación aparecen los resultados de un ejemplo de cruce de variables
categóricas. En este caso es en una muestra de trabajadores en que se ha
estudiado la asociación entre la posición (empleado, supervisor y directivo)
y el tipo de contrato. En la siguiente tabla aparecen las frecuencias y,
además, en este caso hemos pedido los porcentajes por columnas. Ello nos
permite ver que el patrón de contrato varía de forma porcentual en función
de la categoría de posición en que estemos. Así, por ejemplo, podemos
fijarnos en que el mayor porcentaje de contratos temporales se da en los
trabajadores, y el menor en los directivos.
POSICION
1,00 2,00 3,00 Total
tipo de temporal Recuento 79 3 1 83
contrato % de POSICION 18,7% 5,4% 2,0% 15,7%
terminación de tarea Recuento 10 2 12
% de POSICION 2,4% 3,6% 2,3%
indefinido Recuento 256 43 29 328
% de POSICION 60,7% 76,8% 59,2% 62,2%
otros Recuento 77 8 19 104
% de POSICION 18,2% 14,3% 38,8% 19,7%
Total Recuento 422 56 49 527
% de POSICION 100,0% 100,0% 100,0% 100,0%
-21-
que aumenta la muestra. No obstante, en muestras pequeñas funciona mejor
la razón de verosimilitud.
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 26,060a 6 ,000
Razón de verosimilitud 29,783 6 ,000
Asociación lineal por
17,966 1 ,000
lineal
N de casos válidos 527
a. 2 casillas (16,7%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 1,12.
Medidas simétricas
Sig.
Valor aproximada
Nominal por Phi ,222 ,000
nominal V de Cramer ,157 ,000
N de casos válidos 527
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis
nula.
-22-
Dónde puedo aprender más de esto:
• Sobre correlación y regresión lineal simple: Estarelles, R., Oliver, A., Tomás,
J. M. Y Aragón, J. L. (1994). Regresión y correlación bivariada. Valencia:
Promolibro.
-23-
33.. PPRUEBAS T,, AANOVA
R U EB A S T NOVA Y NO
NO
PPARAMÉTR
ARAMÉTRIC CAA: C ONTRASTES
CONTRASTES
D
DEE TTENDENC
ENDENCIA CENTRAL
CENTRAL
Todas las comparaciones entre medias se encuentran dentro del modelo
lineal general, de forma que todas las pruebas estadísticas que comparan
medias se realizarán en este módulo. Esto incluye las pruebas t, cuando se
comparan dos medias, tanto dependientes como dependientes, así como los
análisis de varianza, cuando se comparan tres o más medias, tanto
dependientes como independientes, y tanto en diseños unifactoriales (una
única variable independiente) como factoriales (dos o más variables
independientes). Adicionalmente en modelo lineal general se pueden
realizar Análisis de Covarianza (ANCOVA), donde la lógica es la misma
que en ANOVA, pero se introduce una o más variables covariantes, para
controlar por éstas las diferencias que se buscan entre medias, para igualar
los grupos estadísticamente en las covariables. Si en lugar de tener una
única variable dependiente en cada análisis se tienen dos o más variables
dependientes que se quieren analizar simultáneamente para ver si los
distintos grupos difieren en promedio, nos encontramos ante Análisis de la
Varianza Multivariado (MANOVA) o Análisis de Covarianza Multivariado
(MANCOVA). Todos estos tipos de técnicas son los que revisaremos en
este capítulo.
3.1. Pruebas t
La prueba t permite comparar dos medias muestrales. Por lo tanto está
indicada cuando se quiere estudiar si una variable categórica con dos
-24-
niveles guarda relación con una variable cuantitativa. Existen dos tipos de
pruebas t principales, aquellas para grupos independientes, para muestras
independientes, y aquellas para muestras, grupos, dependientes. El primero
de los casos respondería al genérico de dos grupos de sujetos diferentes,
como la comparación de las medias de hombres y mujeres en un variable
cualquiera. El segundo caso, muestra dependientes, respondería al genérico
de los mismos sujetos medidos en dos ocasiones o en dos aspectos
diferentes, parar saber si las medias son iguales o diferentes. Por ejemplo la
media antes y después de una intervención terapéutica.
-25-
más adecuada. (No obstante parece que la prueba de varianzas iguales
funciona bastante bien con tal de que las varianzas no superen la razón 3 a
1).
Prueba de Levene
ara la igualdad de
varianzas Prueba T para la igualdad de medias
ervalo de confian
DiferenciaError típ depara la diferencia
F Sig. t gl ig. (bilaterade mediasa diferenciaInferior Superior
ACLEV Se han asumid
13,347 ,000 2,859 550 ,004 ,3946 ,1380 ,1235 ,6657
varianzas igua
No se han asu
3,227 343,557 ,001 ,3946 ,1223 ,1541 ,6351
varianzas igua
Como puede verse en la tabla las varianzas son heterogéneas, por lo que
dada la gran desigualdad entre grupos, conviene utilizar la prueba que no
asume varianzas iguales (prueba de Welch-Satterwhite). No obstante hay
que darse cuenta de que ambas pruebas ofrecen la misma conclusión (para
el 5% y el 1%), desigualdad de medias.
Una cuestión importante que aparece en este mismo ejemplo de forma clara
es la de la significatividad de los efectos. En este caso es evidente que las
dos pruebas ofrecen resultados estadísticamente significativos. Sin
embargo resulta posible que, dado el elevado tamaño muestral, la extrema
potencia resulte en una probabilidad muy alta de rechazo de la hipótesis
nula. En este caso convendría un cálculo del tamaño del efecto que nos
pudiera ofrecer no solo una medida de diferencias, sino de cuantía de las
diferencias, lo que finalmente puede devenir en una evaluación de la
significatividad práctica. Una de las medidas más empleadas del tamaño
-26-
del efecto, fácil de calcular a partir de los resultados de SPSS, es la
propuesta por Hedges:
&&& − X
X &&& (n1 − 1) S 12 + (n 2 − 1) S 22
1 2
d= y donde Sx =
Sx n1 + n 2 − 2
Diferencias relacionadas
95% Intervalo de
confianza para la
diferencia
Desviación Error típ. de
Media típ. la media Inferior Superior t gl Sig. (bilateral)
Par 1 AC3DBAJ - ACGRAVE -,1190 ,9140 3,911E-02 -,1959 -4,22E-02 -3,044 545 ,002
-27-
3.2. Análisis de varianza (ANOVA)
Si en lugar de querer comparar las medias de dos grupos se desean
contrastar las diferencias de tres o más grupos, la prueba F de análisis de
varianza (ANOVA) resulta, en principio, la adecuada. La prueba de
ANOVA es muy versátil, ya que permite analizar, compara, medias de
diversos diseños y/o tipos de variables simultáneamente. Los diseños de
mayor simplicidad son el ANOVA unifactorial entre-sujetos (el caso de
tres o más grupos independientes) y el intra-sujetos o de medidas repetidas
(tres o más grupos dependientes o relacionados). Veamos un ejemplo de
cada uno de ellos.
-28-
menos importante. De especial importancia es escoger las pruebas a
posteriori (o post-hoc) adecuadas.
AF
Estadístico
de Levene gl1 gl2 Sig.
,879 2 632 ,416
ANOVA
AF
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos ,435 2 ,218 ,460 ,632
Intra-grupos 299,136 632 ,473
Total 299,571 634
-29-
Comparaciones múltiples
Variable dependiente: AF
Intervalo de confianza al
95%
Diferencia de Límite
(I) edad recodificada (J) edad recodificada medias (I-J) Error típico Sig. Límite inferior superior
HSD de Tukey 1,00 2,00 -2,7955E-02 6,423E-02 ,901 -,1785 ,1226
3,00 -8,5250E-02 9,244E-02 ,626 -,3019 ,1314
2,00 1,00 2,795E-02 6,423E-02 ,901 -,1226 ,1785
3,00 -5,7295E-02 ,1018 ,840 -,2960 ,1814
3,00 1,00 8,525E-02 9,244E-02 ,626 -,1314 ,3019
2,00 5,729E-02 ,1018 ,840 -,1814 ,2960
Games-Howell 1,00 2,00 -2,7955E-02 6,423E-02 ,895 -,1738 ,1179
3,00 -8,5250E-02 9,244E-02 ,595 -,2938 ,1233
2,00 1,00 2,795E-02 6,423E-02 ,895 -,1179 ,1738
3,00 -5,7295E-02 ,1018 ,820 -,2836 ,1690
3,00 1,00 8,525E-02 9,244E-02 ,595 -,1233 ,2938
2,00 5,729E-02 ,1018 ,820 -,1690 ,2836
-30-
medidas repetidas. El ejemplo que vamos a manejar es el siguiente:
tenemos un cuestionario de autoestima, con tres factores, autoestima social,
de desempeño y de apariencia física, aplicado a una muestra de
adolescentes escolarizados. Los tres factores presentan la misma escala de
medida, y queremos saber si existen diferencias en promedio en la
evaluación que hacen los sujetos de estos tres factores de autoestima.
Todos los sujetos han contestado a los tres factores (todos han pasado por
el cuestionario completo) y nos encontramos, por tanto ante un problema a
resolver mediante ANOVA de medidas repetidas.
Para pedir este tipo de análisis hay que acudir al menú ANALIZAR, dentro
de él al submenú MODELO LINEAL GENERAL, y finalmente a la opción
medidas repetidas. SPSS abre una ventana en que debemos informar del
nombre del factor, en nuestro caso autoestima, y del número de niveles que
presenta, en nuestro caso tres: social, de desempeño y física. Se pulsa
añadir, y después a definir, lo que abre una nueva ventana. El
funcionamiento de la nueva ventana es intuitivo, y muy parecido al que
hemos visto para ANOVA entre-sujetos. Simplemente anotar que en esta
ventana no sólo se realizan análisis de varianza de medidas repetidas, sino
también los mixtos, por lo que esa es la razón de que ofrezca la posibilidad
de colocar factores entre-sujetos. De las opciones a pedir en el caso de
Anova intra o de medidas repetidas solamente hay un cambio con respecto
al Anova entre-sujetos: las pruebas a posteriori para este tipo de diseño se
piden en opciones pinchando en la opción comparar efectos principales, y
seleccionando Bonferroni o Sidàk.
Los resultados relevantes para nuestro problema serían los que aparecen en
las siguientes tablas. La primera de las tablas presenta la prueba de
esfericidad de Mauchly. El supuesto de esfericidad es un nuevo supuesto
que rige en el análisis de varianza de medidas repetidas y que, por tanto,
hay que comprobar. En nuestro caso el supuesto puede mantenerse, dado
que la prueba no resulta estadísticamente significativa. Tan importante
como la significatividad de la prueba son las estimaciones de epsilon que,
si no puede mantenerse el supuesto de esfericidad, son necesarias para las
correcciones. En nuestro ejemplo, dado que el supuesto se mantiene no
resultan relevantes. En cualquier caso, si la estimación de Huyhn y Feldt
-31-
del valor de epsilon se encuentra entre 0.7 y 1, entonces no hay que
preocuparse aún cuando el test de esfericidad resulte significativo.
Medida: MEASURE_1
a
Epsilon
Chi-cuadrado Greenhous
Efecto intra-sujetos W de Mauchly aprox. gl Significación e-Geisser Huynh-Feldt Límite-inferior
AUTOESTI ,999 ,856 2 ,651 ,999 1,000 ,500
Contrasta la hipótesis nula de que la matriz de covarianza error de las variables dependientes transformadas es proporcional a una
matriz identidad.
a. Puede usarse para corregir los grados de libertad en las pruebas de significación promediadas. Las pruebas corregidas
se muestran en la tabla Pruebas de los efectos inter-sujetos.
b.
Diseño: Intercept
Diseño intra sujetos: AUTOESTI
Medida: MEASURE_1
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación Eta cuadrado
AUTOESTI Esfericidad asumida 71,817 2 35,908 156,911 ,000 ,198
Greenhouse-Geisser 71,817 1,997 35,957 156,911 ,000 ,198
Huynh-Feldt 71,817 2,000 35,908 156,911 ,000 ,198
Límite-inferior 71,817 1,000 71,817 156,911 ,000 ,198
Error(AUTOESTI) Esfericidad asumida 291,548 1274 ,229
Greenhouse-Geisser 291,548 1272,289 ,229
Huynh-Feldt 291,548 1274,000 ,229
Límite-inferior 291,548 637,000 ,458
-32-
Una vez se presenta un rechazo de la hipótesis nula de igualdad de medias,
resulta normalmente necesario evaluar entre qué grupos se encuentran esas
diferencias. En nuestro caso eso implica observar los valores de las medias
y realizar la prueba de comparación por pares mediante la corrección de
Bonferrroni que hábilmente pedimos con anterioridad. Como puede verse
en las siguientes tablas, los sujetos se auto-evalúan más alto en autoestima
de desempeño (media 2), y en lo que más bajo se auto-evalúan es en
autoestima social (media 1). Por su parte también las siguientes tablas
ofrecen la prueba de Bonferroni por pares, que muestra cómo todas las
comparaciones por pares han resultado estadísticamente significativas.
Estimaciones
Medida: MEASURE_1
Intervalo de confianza al
95%.
Límite
AUTOESTI Media Error típ. Límite inferior superior
1 3,133 ,026 3,082 3,185
2 3,601 ,025 3,552 3,650
3 3,436 ,027 3,383 3,490
Medida: MEASURE_1
Intervalo de confianza al 95
a
% para diferencia
Diferencia
entre Límite
a
(I) AUTOESTI (J) AUTOESTI medias (I-J) Error típ. Significación Límite inferior superior
1 2 -,468* ,027 ,000 -,532 -,403
3 -,303* ,027 ,000 -,368 -,238
2 1 ,468* ,027 ,000 ,403 ,532
3 ,165* ,026 ,000 ,102 ,228
3 1 ,303* ,027 ,000 ,238 ,368
2 -,165* ,026 ,000 -,228 -,102
Basadas en las medias marginales estimadas.
*. La diferencia de las medias es significativa al nivel ,05.
a. Ajuste para comparaciones múltiples: Bonferroni.
-33-
Hemos repasado los dos tipos simples de análisis de varianza: entre-sujetos
y de medidas repetidas. El hecho de añadir más variables independientes o
factores no produce cambios en la manera de proceder, pues se mantienen
las normas y opciones comentadas hasta ahora. Los diseños factoriales son
simples extensiones de los diseños simples.
La medida más simple para la estimación del tamaño del efecto en análisis
de varianza es la eta al cuadrado (η2), que se calcula dividiendo la Suma de
Cuadrados de la variable independiente entre la Suma de Cuadrados Total.
Se puede interpretar como un porcentaje de varianza explicada, y se puede
calcular en cualquier tipo de diseño. Un problema de esta medida es que
suele dar más alto en diseños unifactoriales (simples) que en complejos.
Para corregir este problema hay una modificación consistente en partir la
suma de cuadrados de la variable independiente por la suma de la suma de
cuadrados de error y la propia suma de cuadrados anterior. Esta es la
estimación de eta-cuadrado que calcula SPSS cuando se pide estimación
del tamaño del efecto en opciones. Simplemente hay que tener en cuenta
una cosa, que este cálculo implica que en ocasiones la suma de los
porcentajes de varianza explicados de todas las variables independientes
del diseño (y sus interacciones) puede sumar más de la unidad.
-34-
3.2.4. ANOVA de dos factores entre-sujetos
Supongamos que se quiere ver si el sexo y el nivel de estudios (bajo, medio
superior) afectan a las puntuaciones de PSW. Los datos son los de la base
de datos NuevoIVOC, pero manipulados para que la interacción resulte
significativa, y poder realizar efectos simples de la interacción. El
procedimiento es entrar en Modelo Lineal General, Univariante y colocar
en variable dependiente la escala (PSW) y en factores fijos el sexo y los
estudios. Además puede verse en el siguiente pantallaza que se ha pedido
para nivel de estudios la prueba de Tukey y la de Games-Howell. No se
pide para sexo por tener solamente dos niveles.
También puede verse que hemos colocado que nos muestre las medias para
la interacción, ya que de ésta manera resulta más fácil interpretarla si
resulta significativa.
-35-
Los resultados de este análisis de varianza, centrándonos solamente en lo
que tiene de nuevo con respecto a los anteriormente utilizados empiezan en
la tabla de los efectos, donde puede verse que hay diferencias por tipo de
estudios (efecto principal) y también interacción estadísticamente
significativa (p= 0.000, p< 0.001).
-36-
Pruebas de los efectos inter-sujetos
-37-
Sexo
Hombre
55,00 Mujer
Medias del PSWQ
50,00
45,00
40,00
35,00
primarios o medios superiores o
elementales universitarios
Nivel de estudios
-38-
Sexo
Hombre
70,00
Mujer
60,00
Medias del PSWQ
50,00
40,00
30,00
20,00
10,00
0,00
-39-
hombres y otro en mujeres, o bien los efectos simples de sexo en nivel de
estudios, lo que realizaría tres ANOVAS con VI el sexo, uno en primarios
o elementales, otro en medios y otro en superiores o universitarios.
Cualquiera de las dos opciones nos mostraría el patrón de medias en
función de los niveles de la otra variable, pero para realizar el
procedimiento de forma adecuada habría de hacerse sustituyendo la media
cuadrática del error de los ANOVAS que se realicen por la media
cuadrática del error del ANOVA original (puede consultarse en la tabla de
efectos y vale MCe= 162.242, con grados de libertad 172). En nuestro caso
vamos a realizar los efectos simples de estudios en Sexo, esto es separados
para hombres y mujeres, mediante dos nuevos ANOVAS.
-40-
Aquí solamente nos interesan los resultados de hombres y de mujeres. Para
los hombres los efectos entre-sujetos se muestran en la siguiente tabla. No
obstante hay que recordar que estos efectos no son los estadísticamente
adecuados, pues la estimación del error que es más adecuada es la propia
del ANOVA original. Por tanto, debemos realizar unos pocos cálculos
manuales (con calculadora) y comprobar en la tabla de los valores críticos
de la F si hay o no diferencias entre medias. Simplemente para calcular la F
hay que usar la media cuadrática de estudios y para el error la MCe del
ANOVA original. Los cálculos se muestran tras la tabla de los efectos
inter-sujetos.
Sexo = Hombre
Pruebas de los efectos inter-sujetosb
-41-
Por su parte los efectos inter-sujetos para mujeres se muestran en la
siguiente tabla, y los cálculos de los efectos simples de la interacción se
muestran tras ésta.
Sexo = Mujer
Pruebas de los efectos inter-sujetosb
-42-
resultado un ANOVA mixto. Un ejemplo con datos reales sería una
situación experimental en que se tienen dos variables independientes entre
sujetos y una variable independiente intra-sujetos o de medidas repetidas:
-43-
puede verse es la interacción de segundo orden ya que pone
frecuenc*supresi*inducci que viene de poner frecuencia en el eje
horizontal, supresión en líneas distintas y inducción en gráficos distintos.
-44-
A partir de aquí los resultados más interesantes aparecen como tablas de
SPSS. Se hacen un número de análisis que aparecen en tablas adicionales,
pero, o bien son pruebas de supuestos que ya sabemos interpretar, o bien
son innecesarios para obtener todos los aspectos relevantes de comparación
de medias que nos interesan.
-45-
Pruebas de efectos intra-sujetos.
Medida: MEASURE_1
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
frecuenc Esfericidad asumida 1354,707 2 677,353 38,381 ,000 ,398
Greenhouse-Geisser 1354,707 1,739 778,858 38,381 ,000 ,398
Huynh-Feldt 1354,707 1,881 720,114 38,381 ,000 ,398
Límite-inferior 1354,707 1,000 1354,707 38,381 ,000 ,398
frecuenc * supresi Esfericidad asumida 86,578 2 43,289 2,453 ,091 ,041
Greenhouse-Geisser 86,578 1,739 49,776 2,453 ,099 ,041
Huynh-Feldt 86,578 1,881 46,022 2,453 ,094 ,041
Límite-inferior 86,578 1,000 86,578 2,453 ,123 ,041
frecuenc * inducci Esfericidad asumida 29,849 2 14,924 ,846 ,432 ,014
Greenhouse-Geisser 29,849 1,739 17,161 ,846 ,418 ,014
Huynh-Feldt 29,849 1,881 15,866 ,846 ,426 ,014
Límite-inferior 29,849 1,000 29,849 ,846 ,362 ,014
frecuenc * supresi Esfericidad asumida 192,171 2 96,086 5,444 ,005 ,086
* inducci Greenhouse-Geisser 192,171 1,739 110,484 5,444 ,008 ,086
Huynh-Feldt 192,171 1,881 102,151 5,444 ,007 ,086
Límite-inferior
192,171 1,000 192,171 5,444 ,023 ,086
Medida: MEASURE_1
Variable transformada: Promedio
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
Intersección 19509,389 1 19509,389 99,891 ,000 ,633
supresi 19,002 1 19,002 ,097 ,756 ,002
inducci 130,650 1 130,650 ,669 ,417 ,011
supresi * inducci ,005 1 ,005 ,000 ,996 ,000
Error 11327,746 58 195,306
-46-
Comparaciones por pares
Medida: MEASURE_1
Intervalo de confianza al 95
a
Diferencia % para diferencia
entre Límite
a
(I) frecuenc (J) frecuenc medias (I-J) Error típ. Significación Límite inferior superior
1 2 5,020* ,788 ,000 3,078 6,962
3 6,240* ,855 ,000 4,132 8,347
2 1 -5,020* ,788 ,000 -6,962 -3,078
3 1,220 ,599 ,139 -,257 2,696
3 1 -6,240* ,855 ,000 -8,347 -4,132
2 -1,220 ,599 ,139 -2,696 ,257
Basadas en las medias marginales estimadas.
*. La diferencia de las medias es significativa al nivel ,05.
a. Ajuste para comparaciones múltiples: Bonferroni.
-47-
Grupo de inducción negativa
50
45
40 supresión
Medias de frecuencia
no
35 supresión/control
30
25
20
15
10
1 2 3
frecuenc
-48-
Grupo de no inducción
50
45
supresión
40
no supresión/control
Medias de frecuencia
35
30
25
20
15
10
1 2 3
frecuenc
-49-
Pruebas de efectos intra-sujetos.a
Medida: MEASURE_1
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
frecuenc Esfericidad asumida 630,022 2 315,011 17,674 ,000 ,379
Greenhouse-Geisser 630,022 1,925 327,213 17,674 ,000 ,379
Huynh-Feldt 630,022 2,000 315,011 17,674 ,000 ,379
Límite-inferior 630,022 1,000 630,022 17,674 ,000 ,379
frecuenc * supresi Esfericidad asumida 59,957 2 29,979 1,682 ,195 ,055
Greenhouse-Geisser 59,957 1,925 31,140 1,682 ,196 ,055
Huynh-Feldt 59,957 2,000 29,979 1,682 ,195 ,055
Límite-inferior 59,957 1,000 59,957 1,682 ,205 ,055
Error(frecuenc) Esfericidad asumida 1033,742 58 17,823
Greenhouse-Geisser 1033,742 55,837 18,514
Huynh-Feldt 1033,742 58,000 17,823
Límite-inferior 1033,742 29,000 35,646
a. grupo experimental inducción e.a. negativo/no inducción = inducción negativa
Medida: MEASURE_1
Variable transformada: Promedio
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
Intersección 8223,490 1 8223,490 38,745 ,000 ,572
supresi 9,813 1 9,813 ,046 ,831 ,002
Error 6155,133 29 212,246
a. grupo experimental inducción e.a. negativo/no inducción = inducción negativa
-50-
Pruebas de efectos intra-sujetos.a
Medida: MEASURE_1
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
frecuenc Esfericidad asumida 754,533 2 377,267 21,591 ,000 ,427
Greenhouse-Geisser 754,533 1,467 514,197 21,591 ,000 ,427
Huynh-Feldt 754,533 1,580 477,685 21,591 ,000 ,427
Límite-inferior 754,533 1,000 754,533 21,591 ,000 ,427
frecuenc * supresi Esfericidad asumida 218,791 2 109,396 6,261 ,003 ,178
Greenhouse-Geisser 218,791 1,467 149,101 6,261 ,008 ,178
Huynh-Feldt 218,791 1,580 138,514 6,261 ,007 ,178
Límite-inferior 218,791 1,000 218,791 6,261 ,018 ,178
Error(frecuenc) Esfericidad asumida 1013,467 58 17,474
Greenhouse-Geisser 1013,467 42,555 23,816
Huynh-Feldt 1013,467 45,807 22,125
Límite-inferior 1013,467 29,000 34,947
a. grupo experimental inducción e.a. negativo/no inducción = no inducción
Medida: MEASURE_1
Variable transformada: Promedio
Suma de Eta al
cuadrados Media cuadrado
Fuente tipo III gl cuadrática F Significación parcial
Intersección 11416,549 1 11416,549 64,006 ,000 ,688
supresi 9,194 1 9,194 ,052 ,822 ,002
Error 5172,613 29 178,366
a. grupo experimental inducción e.a. negativo/no inducción = no inducción
-51-
Existe un cierto grupo de transformaciones habituales en análisis de datos.
Una muy habitual es transformar en rangos, transformación usada en
muchas pruebas de estadística no paramétrica, y que permite fijarse no el
carácter numérico de los datos, sino en su ordenación, y resuelve, en
ocasiones, la falta de ajuste de las pruebas paramétricas a sus supuestos.
Sin embargo, una categoría de transformaciones bastante estandarizada, y
empleada a menudo con este mismo propósito es la transformación de
potencia, presentada por ejemplo en Tukey (1977), y cuyo procedimiento,
simple e intuitivo se conoce como la escalera de potencias de Tukey. El
objetivo de estas transformaciones consiste básicamente en corregir
asimetrías y curtosis en las variables, aunque normalmente también pueden
mejorar problemas de heterogeneidad de varianza, etc. La idea es sencilla:
se pueden transformar las variables elevando a una potencia, positiva o
negativa, cuanto mayor sea la potencia a la que se elevan las puntuaciones
originales, mayor el efecto sobre la escala original. Las potencias positivas
corrigen la asimetría negativa, las potencias negativas corrigen la
asimetría positiva. En el cuadro:
Para ver qué transformación aplicar, y también para evaluar el efecto que
sobre la variable ha tenido la transformación es adecuado estudiar
descriptivamente la variable en todo momento: calcular estadísticos
descriptivos, realizar histogramas, y muy especialmente en este caso
realizar Q-Q plots (gráfico de cuantil-cuantil).
-52-
número pequeño de categorías, o existen abundantes valores atípicos, cabe
la posibilidad de realizar pruebas no paramétricas. Podríamos verlos, por
tanto, como las alternativas a las pruebas t y el ANOVA, y por tanto
estarían indicadas para la comparación de dos grupos o tres o más grupos.
-53-
opciones, más específicas, pero las dos que hemos destacado son las de
mayor uso y de carácter más general.
-54-
44.. REGRESIÓ
REGRESI N LIN
ÓN EAL M
NEAL ÚLTIPPLE
MÚLT LE
La regresión lineal múltiple es una extensión natural de la regresión simple.
Resulta evidente que en ciencias sociales la capacidad explicativa de los
modelos exige la inclusión de un número relativamente importante de
predictores. Esa es la consecuencia de la complejidad de el/los objetos de
estudio. Por lo tanto, lo habitual es que se presente la situación en que
queremos evaluar la capacidad que tenemos para predecir una determinada
variable dependiente (cuantitativa) en base a diversos predictores
(usualmente, pero no necesariamente, cuantitativos). Normalmente estamos
también interesados en evaluar el impacto individual de esos predictores,
esto es, su importancia relativa a la hora de explicar los valores de la
variable dependiente o criterio. La regresión múltiple es un marco
adecuado para estos objetivos.
4.1. ESTIMACIÓN
La estimación va precedida, necesariamente, de una fase de constitución
del modelo, de una fase de especificación, consistente en la selección de las
variables que van a intervenir en la ecuación de regresión. Esta elección
viene dictada habitualmente por motivos teóricos, empíricos (estadísticos),
o por una combinación de ambos. La idea es tener el máximo de
predictores relevantes al fenómeno a predecir, y el mínimo (a ser posible
ninguno) irrelevante. Pero claro, a veces es necesario realizar selecciones
estadísticas debido a los requisitos de tamaño de la muestra, que en
regresión múltiple suele situarse en un mínimo de 5-10 sujetos por
predictor, con el óptimo situado en 15 sujetos por predictor, pero
recomendándose muestras mayores de 100, sea cual sea el número de
predictores.
-55-
Una vez elegidos los predictores la estimación propiamente dicha de los
parámetros de la ecuación de regresión suele realizarse mediante el método
de mínimos cuadrados, aspecto técnico que no tocaremos. Simplemente es
relevante que de los resultados del análisis obtendremos una estimación de
la pendiente para cada variable predictora, que en el caso no estandarizado
es un coeficiente de regresión parcial y en el estandarizado un coeficiente
de correlación parcial (y sus pruebas de significación), además de una
estimación de la capacidad explicativa del modelo en términos del
coeficiente de determinación (y su correspondiente valor ajustado).
Pero, aún asumiendo siempre este tipo de estimación, cabe todavía hacer
ciertas elecciones críticas en el proceso de estimación, ya que existen
diversos procedimientos de selección de variables. El problema de escoger
entre diversos procedimientos de selección es doble. Por un lado, cuando
hay muchos predictores potenciales y la muestra es relativamente pequeña
se impone en ocasiones una reducción en su número, lo que nos suele
llevar a algún tipo de selección de tipo estadístico. Por otro lado, en
ocasiones el orden de entrada de las variables en la ecuación de regresión
es relevante, por lo que éste no es indiferente, debiéndose, por tanto,
imponer un cierto orden, de forma estadística o substantiva. Los principales
tipos de procedimientos de selección, todos ellos montados en el SPSS, a
las dos lógicas ya esbozadas con anterioridad: la substantiva y la
estadística.
A) CONOCIMIENTO SUBSTANTIVO
Es el investigador el que escoge todos los predictores a introducir en la
ecuación de regresión, de todos ellos se obtendrá estimación de su efecto
sobre la variable dependiente. El investigador también determina su orden.
Existen dos subtipos bien diferenciados: introducir todos los predictores y
regresión jerárquica.
-56-
Es la opción por defecto de SPSS. Resulta sencilla. El investigador escoge
los predictores y su orden de entrada en la ecuación de regresión, pero
todos los predictores se incluyen en la misma ecuación simultáneamente.
Simplemente hay que acudir a ANALIZAR y escoger REGRESIÓN,
asumiendo la opción lineal. Aquí, en principio, solamente hace falta
colocar en la ventana de dependiente la variable que queremos predecir
(explicar), y en la ventana de independientes todos los predictores que
consideremos necesarios para su predicción, en el orden que nos parezca
adecuado. Hay que asegurarse que la opción por defecto, introducir, es la
que está seleccionada. Justo debajo de la ventana de independiente. Como
es el tipo de regresión múltiple más sencilla no entraremos en más detalles,
ni pondremos ejemplos, ya que se subsumirán en los ejemplos siguientes.
Regresión jerárquica
En la regresión jerárquica las variables se introducen por bloques según un
criterio lógico (teórico) definido por el investigador. De esta forma se
evalúa lo que la (o las) variables de cada nuevo bloque añaden a las ya
introducidas previamente. Normalmente las variables que se consideran de
mayor importancia, o de efecto causal anterior se introducen antes.
-57-
interesado en saber qué explican los tres componentes de la autoestima, una
vez que edad y sexo han recogido su parte en la explicación.
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Método
1 sexo, EDADa , Introducir
2 AD, AS, AFa , Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: ROSEN
-58-
Coeficientesa
Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 2,863 ,236 12,127 ,000
EDAD 2,512E-02 ,015 ,068 1,726 ,085
sexo -,177 ,039 -,180 -4,599 ,000
2 (Constante) ,308 ,169 1,829 ,068
EDAD 2,189E-02 ,009 ,059 2,380 ,018
sexo -5,39E-02 ,025 -,055 -2,189 ,029
AS 9,813E-02 ,022 ,133 4,550 ,000
AD ,414 ,023 ,535 18,069 ,000
AF ,183 ,022 ,257 8,451 ,000
a. Variable dependiente: ROSEN
B) MÉTODOS ESTADÍSTICOS
Otra opción para seleccionar predictores de entre un conjunto amplio es
recurrir a razones puramente estadísticas. Los procedimientos son: hacia
delante, en que se introduce el predictor con mayor relación con la variable
dependiente, luego el segundo, etcétera; hacia atrás, en que se empieza con
todos los predictores y se van eliminando, uno a uno, los menos
relacionados; y la regresión paso a paso, probablemente el más utilizado.
-59-
Supongamos que el ejemplo anterior se trata, en lugar de mediante
regresión jerárquica, mediante regresión paso a paso. Para poder realizarlo
se opta por ANALIZAR, en el menú REGRESIÓN, opción lineal. Se abre una
ventana en que se tiene que colocar en la dependiente la variable rosen, y
en las independientes el sexo, edad, AS, AD y AF, sin colocar bloques. Se
opta por método pasos suc. (pasos sucesivos). Los resultados más
importantes se muestran a continuación.
El cuadro anterior nos ofrece un resumen de los cinco pasos que se han
realizado, y del incremento (en este caso) en los porcentajes de varianza
explicada. En este ejemplo la regresión ha introducido uno a uno todos los
predictores, sin eliminar ninguno, porque coincide que todos ellos
continúan siendo significativos cuando otros predictores entran en la
regresión.
-60-
Coeficientesa
Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) ,975 ,078 12,562 ,000
AD ,563 ,021 ,727 26,532 ,000
2 (Constante) ,639 ,077 8,282 ,000
AD ,438 ,022 ,566 19,570 ,000
AF ,228 ,021 ,322 11,122 ,000
3 (Constante) ,542 ,078 6,922 ,000
AD ,408 ,023 ,526 17,788 ,000
AF ,193 ,021 ,272 9,018 ,000
AS ,105 ,022 ,143 4,864 ,000
4 (Constante) ,213 ,163 1,305 ,192
AD ,414 ,023 ,534 17,994 ,000
AF ,190 ,021 ,268 8,898 ,000
AS 9,955E-02 ,022 ,135 4,604 ,000
EDAD 2,116E-02 ,009 ,057 2,294 ,022
5 (Constante) ,308 ,169 1,829 ,068
AD ,414 ,023 ,535 18,069 ,000
AF ,183 ,022 ,257 8,451 ,000
AS 9,813E-02 ,022 ,133 4,550 ,000
EDAD 2,189E-02 ,009 ,059 2,380 ,018
sexo -5,39E-02 ,025 -,055 -2,189 ,029
a. Variable dependiente: ROSEN
La tabla anterior nos ofrece los coeficientes de cada uno de los pasos de la
regresión paso a paso, siendo el último el que debe interpretarse. Como
vemos todos los predictores han resultado estadísticamente significativos
(p<0.05), tal y como ocurría en la regresión por bloques.
-61-
4. 2. DIAGNÓSTICO EN REGRESIÓN
La regresión, al igual que el análisis de varianza, dado que es un submodelo
del modelo lineal general, como éste, presenta una serie de supuestos
subyacentes, de cumplimiento más o menos necesario para una correcta
utilización de la prueba. Prácticamente ningún conjunto de datos aplicados
(reales) cumple estrictamente todos los supuestos en los que se basa la
regresión, de forma que el problema se traslada a comprobar si el
alejamiento de los supuestos no es tan grande que genere problemas graves
de aplicación e interpretación del modelo de regresión. La evaluación del
grado de cumplimiento de los supuestos es lo que se conoce como
diagnóstico en regresión. Para aprender a hacer un buen diagnóstico en
regresión, que sea al mismo tiempo muy sencillo, conviene ir a las pruebas
a realizar, más que evaluar supuesto a supuesto, ya que algunas pruebas
responden sobre el cumplimiento de varios supuestos. Hay tres cuestiones a
realizar:
A) GRÁFICOS DE RESIDUALES
Los residuales son los errores que se cometen al predecir cada puntuación
individual en base a la ecuación de regresión. Si la regresión es buena, los
residuales tienden a ser pequeños. Pero no es por esto por los que los
tratamos aquí, sino porque al estudiar el comportamiento de los residuales
podemos observar de forma simple posibles alejamientos de los supuestos.
Este estudio de diagnóstico conviene realizarlo para cada predictor por
separado, y para la ecuación completa.
-62-
Supongamos que se quiere predecir ROSEN en base a AD, siguiendo con
las mismas variables de ejemplos anteriores. Queremos añadir a lo pedido
habitualmente un gráfico de residuos. Para hacerlo se opta en la ventana
abierta de regresión lineal por la opción gráficos, lo que nos abre una nueva
ventana, en la que escogeremos como valores para el eje de abscisas (X)
los valores predichos estandarizados (ZPRED, en SPSS), mientras en el eje
de ordenadas (Y) escogeremos, de entre las distintas medidas de residuales
estandarizados y estudentizados la opción de SDRESID. Si lo hacemos así
para este ejemplo obtendremos un gráfico como el siguiente:
Regresión Residuo borrado (pulsar) estudentizado
Gráfico de dispersión
Variable dependiente: ROSEN
3
-1
-2
-3
-4
-4 -3 -2 -1 0 1 2 3
-63-
que realizamos anteriormente con el procedimiento paso a paso, el
resultado que obtenemos es el siguiente:
Regresión Residuo borrado (pulsar) estudentizado
Gráfico de dispersión
Variable dependiente: ROSEN
3
-1
-2
-3
-4
-5
-4 -3 -2 -1 0 1 2 3
-64-
nos digan si tenemos alguna observación que nos genere problemas a
cualquiera de estos niveles.
1 DM
hi = +
n n −1
-65-
C) MULTICOLINEALIDAD
En el caso de regresión simple solamente se considera un predictor, por lo
que no se puede producir multicolinealidad (colinealidad), que de forma
intuitiva puede definirse como el problema que aparece cuando los
predictores están parcialmente solapados (altamente correlacionados), y por
tanto resulta difícil discernir quién predice mejor (o más) a la variable
dependiente. En el límite si los predictores están muy correlacionados,
entonces los resultados de los coeficientes de regresión son muy inestables
e inseguros. Por lo tanto, debemos asegurarnos de que el nivel de
correlación entre los predictores no es tan importante como para hacer
inseguros nuestros resultados, para lo que es necesario tomar medidas de
diagnóstico de la colinealidad.
-66-
Coeficientesa
Coeficient
es
Coeficientes no estandari Estadísticos de
estandarizados zados colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FIV
1 (Constante) ,308 ,169 1,829 ,068
AS 9,813E-02 ,022 ,133 4,550 ,000 ,695 1,438
AD ,414 ,023 ,535 18,069 ,000 ,683 1,463
AF ,183 ,022 ,257 8,451 ,000 ,645 1,549
EDAD 2,189E-02 ,009 ,059 2,380 ,018 ,975 1,026
sexo -5,39E-02 ,025 -,055 -2,189 ,029 ,955 1,047
a. Variable dependiente: ROSEN
4. 3. VALIDACIÓN CRUZADA
Un aspecto crucial de cualquier técnica estadística es el de la replicación, la
generalización de los resultados a muestras de la misma población. En el
caso de la regresión simple y múltiple el problema se agudiza por la
capitalización del azar que se produce, entre otros problemas, como que,
por ejemplo que simplemente aumentando el número de predictores se
obtienen predicciones mayores aunque éstos no aporten nada. Por lo tanto,
es muy necesario, en ocasiones realizar estudios de validación cruzada.
-67-
idea de la capacidad predictiva del modelo sin estar influida por el tamaño
muestral ni el número de predictores, por lo que nos resultará de especial
utilidad para comparar regresiones múltiples de distintas muestras y de
tamaños desiguales.
4. 4. CATEGÓRICAS EN REGRESIÓN
-68-
Regresión múltiple es una técnica específica del modelo lineal general.
Como tal el modelo lineal general es capaz de manejar variables tanto
cuantitativas como cualitativas, con tal de que se cumplan ciertas
condiciones de codificación.
Variables dicotómicas
Con variables dicotómicas (o dicotomizadas) no hay ningún problema en
absoluto. Cualquier variable cualitativa puede introducirse sin ningún
problema en una ecuación de regresión simple o múltiple, con tal de que
esté codificada en 0-1, siendo uno cualquiera de las dos categorías.
-69-
Coeficientes a
Coeficientes no Coeficientes
estandarizados estandarizados Estadísticos de colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FIV
1 (Constante) -1,604 1,145 -1,401 ,162
Factor 1 IVOC: TAF-P ,002 ,050 ,003 ,047 ,962 ,637 1,571
Factor 2 IVOC: P-II ,036 ,025 ,112 1,411 ,159 ,457 2,189
Factor 3 IVOC: SP ,133 ,034 ,273 3,937 ,000 ,597 1,674
Factor 4 IVOC: TAF-M ,049 ,029 ,125 1,694 ,092 ,531 1,885
Factor 5 IVOC: RE-ICP ,029 ,030 ,078 ,965 ,335 ,446 2,242
Factor 6 IVOC: SIP -,086 ,074 -,078 -1,148 ,252 ,617 1,621
Factor 7 IVOC: RI ,065 ,050 ,090 1,296 ,196 ,598 1,671
Los gráficos parciales para las dos variables cualitativas nos permiten ver el
porqué de que una sea significativa y otra no. En cualquier caso los
resultados para el grupo de los que reciben tratamiento están basados en
muy pocos datos.
-70-
Gráfico de regresión parcial
Variable dependiente: MOCI
20,0
10,0
MOCI
0,0
-10,0
-20,0 R² = 0.0000
-1,5 -1,0 -,5 0,0 ,5 1,0
Sexo
10,0
MOCI
0,0
-10,0 R² = 0.0616
-,2 0,0 ,2 ,4 ,6 ,8 1,0
-71-
En el caso de las variables de tres o más categorías la situación no es tan
sencilla, pues hay que reducirlas primero a variables dicotómicas. Existen
diversas opciones de codificación, pero la más habitual es generar
dummies. En este caso utilizaremos la variable estado civil, que tiene las
siguientes categorías: 1= soltero, 2= divorciado y 4 = casado (existía 3=
viudo, pero no paraeció en los datos). Para codificar esta variable de tres
categorías en variables dummy hace falta generar dos dummies -siempre
hace falta una dummy menos que categorías tiene la variable cualitativa-:
Los resultados de una regresión en que los predictores son las dos dummies
acabadas de generar y el factor 3 del IVOC se ofrecen a continuación.
Coeficientes a
Coeficientes no Coeficientes
estandarizados estandarizados
-72-
4. 5. INTERACCIONES EN REGRESIÓN
Al igual que en análisis de varianza existen interacciones entre dos o más
variables independientes, en regresión pueden existir interacciones entre
predictores. En regresión a estas interacciones se les suele llamar efectos de
moderación. En esencia quieren decir que los efectos de un predictor sobre
un criterio dependen de (son condicionales) al nivel que se considere de
una tercera variable. Hay dos situaciones distintas para estudiar estas
moderaciones, en el caso en que la variable moderadora sea una cualitativa
es la más simple, con una variable moderadora cuantitativa el problema
resulta más complejo.
-73-
30,0
20,0
MOCI
10,0
Sexo
0,0 Mujer
R² = 0.2383
Hombre
-10,0 R² = 0.1134
0 10 20 30 40 50 60
Factor 3 IVOC: SP
Interacciones de cuantitativas
En el caso de variables cuantitativas la interacción se realiza mediante la
introducción de un nuevo predictor. Este nuevo predictor es la
multiplicación de los dos predictores que se supone que tienen un efecto de
moderación. Ahora bien, esta multiplicación no se realiza con las variables
originales, sino con las variables en puntuaciones diferenciales.
Supongamos que tenemos las siguientes variables:
Y= la variable dependiente
X1= predictor 1
X2= predictor 2
-74-
trasformar, calcular de SPSS obtener las diferenciales (variable original
menos su media, también conocidas como variables centradas) de forma
que obtendríamos:
x1 x2= interacción
-75-
Dónde puedo aprender más de esto:
-76-
5. REGRESIÓN LOGÍSTICA
5. 1. Generalidades de la técnica
-77-
El modelo es tan similar a la regresión múltiple que en principio surge la
pregunta de porqué no usar, simplemente, este último modelo para predecir la
probabilidad de la variable dependiente. La respuesta es que existirían dos
problemas (Landau y Everitt, 2004):
5. 2. Modelo estadístico
-78-
de diversos factores, cuantitativos o no, en la predicción de la probabilidad de
curarse de una depresión.
A todos los efectos esto sería una aplicación de regresión lineal múltiple y los
coeficientes se calcularían mediante mínimos cuadrados, como se ha visto en el
capítulo dedicado a regresión. Este procedimiento, no obstante, produce dos
problemas:
p
ln = β 0 + β1 X 1 + β 2 X 2 + K + β i X i
1− p
-79-
5. 3. Supuestos del modelo de regresión logística
-80-
3. El modelo debe especificarse
correctamente. Este supuesto se conoce
como especificidad, y requiere que el
modelo incluya todos los predictores
relevantes y ningún predictor irrelevante.
Este supuesto es compartido con el
modelo de regresión lineal, pero en
pocas ( o ninguna) ocasión se cumple en
la práctica.
4. Las categorías implicadas en el análisis
deben ser mutuamente exclusivas y
exhaustivas.
5. Finalmente, y aunque más que un
supuesto es una condición de
aplicación, la estimación de los
coeficientes de regresión requieren de
muestras grandes para ser adecuados,
ya que en muestras pequeñas los errores
estándar (típicos) asociados pueden ser
poco fiables. Para la mayoría de
-81-
aplicaciones, el mínimo de sujetos por
predictor se situaría en 50 (Aldrich y
Nelson, 1984).
-82-
poder aplicar como ejemplo la regresión logística. El valor 0 indicaría no
estrés (en realidad nivel por debajo de la median de estrés), mientras el
valor 1 indica síntomas de estrés (en realidad valores por encima de la
mediana de estrés.
-83-
hacer se tiene simplemente que situar la
variable dependiente en su lugar
(dependiente) y la independiente en la
ventana que dice covariables, que es la
denominación empleada en la ventana para
los predictores.
Tras realizar esta elección se dan los resultados del modelo, que incluye un gran
número de tablas, de las que solamente veremos las más relevantes para este
problema. La primera de las tablas simplemente nos informa de los casos totales
incluidos en el análisis, y resulta importante, dado que ya hemos visto que los
requerimientos muestrales son importantes, y necesitamos ver de cuántos
sujetos efectivos tenemos, ya que puede haber faltantes en la variable
dependiente y/o en la o las independientes.
-84-
Resumen del procesamiento de los casos
a
Casos no ponderados N Porcentaje
Casos seleccionados Incluidos en el análisis 189 96,9
Casos perdidos 6 3,1
Total 195 100,0
Casos no seleccionados 0 ,0
Total 195 100,0
a. Si está activada la ponderación, consulte la tabla de clasificación para ver el
número total de casos.
Tras estas tablas el programa da una serie de tablas que se corresponden con lo
que se denomina modelo nulo. Es un modelo que no incluye ningún predictor. O
sea, que en nuestro caso no incluye siquiera el único predictor empleado, y es
por tanto un modelo que sirve para comparar la ganancia que supone añadir
predictores. No tiene utilidad en sí misma. SPSS le llama bloque 0 o bloque
inicial. La siguiente tabla nos permite ver que el modelo nulo simplemente es
capaz de clasificar correctamente a un 50.3%, ya que clasifica a todo el mundo
en base a la categoría más frecuente.
Pronosticado
estres dicotómico
Porcentaje
Observado ,00 1,00 correcto
Paso 0 estres dicotómico ,00 0 94 ,0
1,00 0 95 100,0
Porcentaje global 50,3
a. En el modelo se incluye una constante.
b. El valor de corte es ,500
-85-
Variables que no están en la ecuación
Puntuación gl Sig.
Paso 0 Variables epc 21,083 1 ,000
Estadísticos globales 21,083 1 ,000
-86-
Bloque 1: Método = Introducir
Resumen de los modelos
Tabla de clasificacióna
Pronosticado
estres dicotómico
Porcentaje
Observado ,00 1,00 correcto
Paso 1 estres dicotómico ,00 55 39 58,5
1,00 30 65 68,4
Porcentaje global 63,5
a. El valor de corte es ,500
En la tabla resumen de los modelos lo relevante es ver las dos estimaciones del
porcentaje de varianza explicada que se ofrecen, la de Cox y Shell y la de
Nagelkerke. Su interpretación, análoga a la R al cuadrado de la regresión lineal.
Por su parte, en la tabla de clasificación vemos que ahora se clasifica
correctamente a un total del 63.5% de los trabajadores en los dos grupos, de
forma que la ganancia con respecto al 50.3% es del 13.2%. Se clasifica un 13.2%
mejor al incluir un predictor. También puede verse que se predice mejor al
grupo de estresados (68.4%) que al grupo de no estresados (58.5%).
Variables en la ecuación
-87-
Esta ecuación, y su interpretación son el
meollo de la regresión logística. Si no se
interpretara bien, todo el trabajo realizado
sería inadecuado. El primer valor que
aparece es el de B, que es el coeficiente de
regresión asociado a la variable
independiente exigencias cuantitativas. El
valor es poco relevante, puesto que no es
estandarizado, pero el signo es fundamental.
Si el signo, como en este caso, es positivo
quiere decir que aumentando las exigencias
aumenta la probabilidad de padecer estrés
(la categoría señalada con un 1 en la variable
dependiente binaria). Por el contrario, si el
signo es negativo querría decir que al
aumentar la exigencia disminuye la
probabilidad de estar estresado. Este
coeficiente tiene un cierto error estándar o
típico (ET) ambos (coeficiente y error típico)
dan lugar al estadístico de Wald que permite
poner a prueba la hipótesis nula de que el
-88-
coeficiente es cero en la población. En otras
palabras, si el estadístico de Wald resultase
estadísticamente significativo para un 0.05
(habitualmente), sería indicativo de que
efectivamente el predictor es
estadísticamente significativo, como es el
caso ya que p< 0.05.
Finalmente, a la hora de interpretar el impacto la B no resulta de mucha
utilidad, ya que indica el cambio en la transformación logit por un cambio
unitario del predictor, o sea un cambio dado en términos de logaritmos
neperianos. Por el contrario, si calculamos expB ( e B ) se consigue una
interpretación sencilla en términos de los odds ratio, de las ventajas. Así, en
nuestro caso el expB es 2.413 que quiere decir que al cambiar un punto en las
exigencias cuantitativas (por ejemplo de nada=1 a algunas veces=2) aumenta
2.413 veces la probabilidad de estar estresado (variable dependiente=1).
-89-
Haciendo click en ella se despliega un menú que contiene las diversas
posibilidad de recodificación automática, entre las que se encuentran:
indicador, simple, diferencia, Helmert, repetido, etc. Para una descripción
detallada, que está fuera de nuestro interés ver Pardo y Ruíz (2002). La
apariencia de la ventana puede verse a continuación:
-90-
a la tabla que nos ofrece las estimaciones de los parámetros del modelo,
simplemente para conseguir entender la interpretación de una variable
categórica:
Variables en la ecuación
-91-
Utilizando los mismos datos de la “base de
ejemplo.sav” vamos a realizar una regresión
logística con múltiple predictores o variables
independientes. Vamos a utilizar las
siguientes variables.
• Variable dependiente el estrés dicotómico, que es una variable en
principio continua, pero que hemos dicotomizado por la mediana para
poder aplicar como ejemplo la regresión logística. El valor 0 indicaría no
estrés (en realidad nivel por debajo de la median de estrés), mientras el
valor 1 indica síntomas de estrés (en realidad valores por encima de la
mediana de estrés.
-93-
sin ninguno de los predictores propuestos a un 50% de los sujetos. Además la
tabla de variables que no están en la ecuación nos permite, mediante el
estadístico de Rao asociado a cada variable independiente, qué variables serán
previsiblemente estadísticamente significativas al calcular de forma efectiva en
el siguiente bloque la regresión logística. Todos los predictores, salvo pdt (p=
0.691, y por tanto p> 0.05), han resultado estadísticamente significativos (p<
0.05).
Pronosticado
estres dicotómico
Porcentaje
Observado no estresado estresado correcto
Paso 0 estres dicotómico no estresado 0 87 ,0
estresado 0 87 100,0
Porcentaje global 50,0
a. En el modelo se incluye una constante.
b. El valor de corte es ,500
Puntuación gl Sig.
Paso 0 Variables sexo 11,132 1 ,001
epc 19,681 1 ,000
pdt ,158 1 ,691
conr 23,092 1 ,000
as 14,965 1 ,000
cl 11,885 1 ,001
Estadísticos globales 43,994 6 ,000
-94-
Resumen de los modelos
Tabla de clasificacióna
Pronosticado
estres dicotómico
Porcentaje
Observado no estresado estresado correcto
Paso 1 estres dicotómico no estresado 67 20 77,0
estresado 23 64 73,6
Porcentaje global 75,3
a. El valor de corte es ,500
Variables en la ecuación
-95-
2.001. Este resultado indica que para aquellos que aumenten su conflicto de rol en un
punto, aumenta en casi el doble la probabilidad de padecer estrés laboral.
• Hacia delante, que incorpora variable a variable hasta que ninguna más es
significativa, y usando los estadísticos de puntuación de Rao, la RV (razón de
verosimilitudes) y el estadístico de Wald.
• Hacia atrás, que quita variable a variable hasta que ninguna más es no
significativa, y usando los estadísticos de puntuación de Rao, la RV (razón de
verosimilitudes) y el estadístico de Wald.
-96-
Dónde puedo aprender más de esto:
• Pardo, A. y Ruiz, M. A. (2002). SPSS 11. McGraw-Hill.
Tiene un capítulo de regresión logística muy centrado en
SPSS. Muy bueno
• Grimm, L. y Yarnold, P. (1995). Reading and
understanding mulltivariate statistics. El capítulo de
regresion logística es básico, y en general es un libro
buenísimo sobre multivariante.
-97-
66.. AANÁLISIS ACTORIAL
NÁLISIS FFACTORIAL
Como puede verse, en todos los casos se asume que un cierto número de
variables están altamente correlacionadas entre sí, porque comparten algo
en común. Por ejemplo, se asume que los distintos síntomas de depresión
deben darse conjuntamente, covariar, en una muestra de depresivos.
-98-
En nuestro caso disponemos de una muestra de más de seiscientos
adolescentes que contestan al cuestionario.
Las pruebas más utilizadas para evaluar si unas determinadas variables son
adecuadas para ser factorizadas, para aplicarles un análisis factorial son la
prueba de esfericidad de Bartlett y la medida de adecuación muestral de
Kaiser-Meyer-Olkin (KMO). Ambas pueden obtenerse en SPSS. Para
obtenerlas en SPSS hay que entrar en analizar, dentro de este menú en
reducción de datos y análisis factorial. En la ventana que se abre en el
botón de descriptivos están ambas opciones (Bartlett y KMO) y son
seleccionables.
-99-
Los resultados de ambas pruebas, para la factorización de las 10 variables
del cuestionario de Rosenberg, se pueden ver en las siguiente tabla extraída
de SPSS.
-100-
KMO y prueba de Bartlett
Medida de adecuación muestral de
Kaiser-Meyer-Olkin. ,856
-101-
6.2. TIPOS DE ANÁLISIS FACTORIAL
Es el más empleado
-102-
6.3. ¿CUÁNTOS COMPONENTES RETENEMOS?
-103-
1. Escoger solamente componentes que tengan valores propios mayores
que uno. Esto es tanto como decir que no se aceptarán componentes
salvo que sean, a menos, igual de importantes que una variable
observable. Este criterio, propuesto por Kaiser se conoce como criterio
de Kaiser.
-104-
6.4. ROTACIONES
-105-
oblimin es una opción razonable en SPSS. Cuando se realiza una rotación
oblicua, para interpretar los factores se debe mirar dos matrices, la matriz
patrón y la matriz de estructura. La primera dice la relación de la variable
con el factor controlando por el resto de variables observables, la segunda
es simplemente la saturación factorial, o sea, la correlación del factor y la
variable.
-106-
Los resultados del análisis factorial se presentan en una serie de tablas. La
primera de éstas nos ofrece el porcentaje de varianza explicada de cada uno
de los componentes retenidos, antes y después de la rotación. En este caso,
como en todos, el primer componente es el que más explica. Especialmente
antes de la rotación es cuatro veces más importante que el segundo.
-107-
Gráfico de sedimentación
3
Autovalor
1 2 3 4 5 6 7 8 9 10
Número de componente
-108-
Matriz de componentes rotadosa
Componente
1 2
ros1 ,665
ros2 ,741
ros3 ,502 ,545
ros4 ,280 ,614
ros5 ,475 ,152
ros6 ,531 ,465
ros7 ,571 ,432
ros8 ,730
ros9 ,824 ,110
ros10 ,830 ,138
Método de extracción: Análisis de componentes principales.
-109-
Varianza total explicada
Matriz de componentesa
Compone
nte
1
ros1 ,394
ros2 ,492
ros3 ,724
ros4 ,583
ros5 ,476
ros6 ,702
ros7 ,715
ros8 ,626
ros9 ,736
ros10 ,757
Método de extracción: Análisis de componentes principales.
a. 1 componentes extraídos
-110-
-111-