You are on page 1of 23

Prctica 1

Introduccin al contraste de hiptesis y anlisis de varianza

La realizacin de esta prctica permite afianzar los conocimientos y aplicacin de los


contrastes de significacin de diferentes estadsticos. Se utilizan datos reales procedentes de
un barmetro de opinin del CIS que se analizar mediante el paquete PSPP. En el ejercicio se
indagar sobre las diferencias por sexo y edad respecto a la ubicacin en la escala de ideologa
poltica entre derecha e izquierda. Se comenzar por realizar un contraste de proporciones
sobre el nivel de respuesta en funcin del sexo a la pregunta de autoubicacin para continuar
con el contraste de la diferencia de medias de posicionamiento ideolgico entre hombres y
mujeres. La cuestin se extender a variables con mltiples categoras como la edad con el
uso de tcnicas ANOVA.

1. Preparacin de las variables


Adems de aprender a realizar e interpretar los estadsticos de contraste de hiptesis, la
cuestin que queremos responder con este ejercicio es acerca de la existencia, o no, de
diferencias en posicionamiento poltico entre hombres y mujeres, as como por edad. Son
ms de derechas las mujeres que los hombres, y los mayores que los jvenes? Vamos a
responder a este tipo de preguntas. Para ello vamos a utilizar el estudio 3005 del CIS
(Noviembre de 2013). Una vez descargado y generado el fichero activo vamos a centrarnos en
la pregunta 27:

Dicha pregunta permite la autoubicacin del entrevistado en una escala de 1 a 10 entre las
posiciones polticas de izquierda y de derecha.

Vamos a solicitar las frecuencias de dicha variable, podemos hacerlo mediante el recurso de
mens:

O, escribiendo en el fichero de sintaxis, la instruccin, y ejecutndola:


FRE P27.

El comando FREQUENCIES, que puede abreviarse como todos los de PSPP- mediante el uso de
las tres primeras permite la obtencin de tablas completas de frecuencias indicando
nicamente el nombre de la variable o variables.

Los resultados obtenidos, nos muestran que algo ms del 25% (12,86%+13.55%) de los
entrevistados de la muestra no se han ubicado en dicha escala. La cifra, uno de cada cuatro, es
elevada, sin embargo vamos a comprobar si puede afectar a nuestro inters que es la
comparacin entre hombres y mujeres. Vamos a solicitar un cruce de la variable ideologa
(p27) respecto de la variable sexo (p29). Como en otras ocasiones podemos utilizar el sistema
de mens: (Analizar-Estadstica Descriptiva- Tablas Cruzadas...)

Tambin podemos obtener la tabla de contingencia mediante comandos de sintaxis:

CROS P27 BY P29 /CELLS=COUNT COL.

El comando CROSSTABS, en su forma abreviada CROS, viene seguido del nombre de la variable
que se coloca en filas y despus de la partcula BY el nombre de la variable de columnas. Con el
subcomando /CELLS indicamos el contenido de las casillas. En este caso utilizamos COUNT que
es la frecuencia absoluta y COL que es el porcentaje vertical. Si quisiramos el porcentaje
horizontal o de filas indicaramos ROW.
Los resultados nos orientan que la no respuesta a ubicacin poltica hay diferencias
importantes entre hombres y mujeres. Para los hombres es el 23,37% mientras que para las
mujeres alcanza el valor de 29,46%.

Antes de continuar el anlisis vamos a generar las distintas variables que necesitaremos para la
prctica. De la P27 vamos a obtener dos variables:

Resp27

Dicha variable ser dicotmica y tomar valores 0 y 1 para informarnos de si ha


respondido o no la autoubicacin poltica.
3

Ideo

Esta variable tomar valores entre 1 y 10 y nos indicar, slo para aqullos que han
respondido en P27, su posicin en la escala izquierda derecha.
Adems utilizaremos la edad de forma agrupada:

Edad4

Esta variable agrupa la edad ver pregunta 30 y variable P30- en cuatro grupos.
El fichero de instrucciones para la generacin de las tres variables que usaremos se reproduce
a continuacin. Conviene ejecutarlo de una vez y generar el fichero sav. Las explicaciones de
los comandos se detallan posteriormente cuando se utilizan las variables. (Recuerde que los
comando que comienzan con * y terminan con . son comentarios o notas de texto.

*Variable dicotmica sobre respuesta en P27.


COMPUTE Resp27=0.
IF (P27=98 OR P27=99) Resp27=1.
VALUE LABEL Resp27 0 Responde 1 No Responde.

*Variable IDEO posicionamiento de 1-10.


COMPUTE Ideo=P27.
MISSING VALUE Ideo (98,99).

*Variable EDAD4 edad en cuatro grupos.


COMPUTE Edad4=P30.
RECODE Edad4 (18 THRU 29=1) (30 THRU 49=2) (50 THRU 64=3) (65 THRU 97=4).
VALUE LABELS Edad4 1 18-29 2 30-49 3 50-64 4 65+.

2. Contraste de proporciones
Vamos a estudiar en primer lugar la diferencia en la respuesta en funcin del sexo. Pedimos la
tabla, bien mediante las opciones de men, o bien mediante comandos:

CROS Resp27 BY P29 /CELLS=COL.

La tabla que contiene los resultados es la siguiente:


Hombres
76,73%
23,27%
100%
(1216)

Responden
No responden
Total

Mujeres
70,54%
29,46%
100%
(1256)

La cuestin ahora es, las diferencias observadas (alrededor del 6%) entre la respuesta de
hombres y mujeres a la cuestin de autoubicacin poltica son significativas?
Para contestar a esta cuestin, y descartar el efecto del azar, podemos realizar un contraste de
igualdad de proporciones.
Vamos a definir que:
Ho: ph=pm de forma equivalente ph-pm = 0
H1: phpm de forma equivalente ph-pm 0
Como los tamaos muestrales son grandes vamos a utilizar el estadstico Z.
Segn Estadstica para la investigacin social (pp.284). La distribucin muestral de la diferencia
de proporciones es (en este caso utilizamos h para la muestra de hombres y m para las
mujeres):
(

Siendo el error tpico

Si damos valores:

El estadstico nos seala que la diferencia entre ambas proporciones nos informa que hay ms
de 3 desviaciones estndar de diferencia. Si observamos en tablas de la curva normal el valor
de probabilidad asociado a dicho Z-3,5095 es p=0,00022446, como se trata de una prueba
bilateral, dicho valor es por lo tanto el nivel ser igual a 0,00044892.
Con una probabilidad (p<1/1000) podemos rechazar la hiptesis nula que indica que no hay
diferencias en la respuesta de ubicacin poltica entre hombres y mujeres. Las diferencias que
observamos (un 6%) de respuesta resulta muy improbable que se deban al azar. Podemos
afirmar, con gran seguridad, que las mujeres responden de forma distinta la cuestin
ideolgica. (Otra cuestin es la intensidad de la diferencia de respuesta. La prueba de hiptesis
nos indica que hay diferencias, ahora bien estas pueden ser grandes o pequeas).
Este resultado, de diferencia en la tasa de respuesta a cuestiones polticas entre hombres y
mujeres es habitual, y es efecto de varios factores. Por una parte por el mayor grado de
envejecimiento de la poblacin femenina, y el hecho de que las edades ms elevadas
aumenten la no respuesta en cuestiones de opinin. Por otra parte, y esta cuestin resulta
relevante, por el hecho que muestran los datos como esta encuesta, de la mayor dificultad que
tienen las mujeres a expresar en pblico sus opiniones polticas, como residuo de la cultura
patriarcal dominante.

2.1 Contraste de proporciones con programas informticos


Para realizar un contraste de hiptesis de proporciones los programas de ordenador exigen
variables dummy. Las variables dummy son variables dicotmicas que toman el valor 1
cuando se cumple la caracterstica (en este caso no responder) y 0 en los dems casos
(=ausencia de caracterstica).
COMPUTE Resp27=0.
IF (P27=98 OR P27=99) Resp27=1.
VALUE LABEL Resp27 0 Responde 1 No Responde.

En el apartado anterior hemos construido, mediante comandos de sintaxis, una variable


dicotmica que llamamos Resp27 que tomaba dos valores 0 cuando el entrevistado se
posiciona en la escala izquierda-derecha y 1 cuando no sabe o no contesta a la pregunta 27.
Para ello con el comando COMPUTE inicializamos la variable Resp27 con el valor 0. Mediante el
siguiente comando IF, indicamos que en los casos en que en la pregunta 27 (variable P27) se
ha respondido 98 o 99, cambie el valor de Resp27 a 1. Con el comando VALUE LABEL
asignamos etiquetas de valor a la variable. Podemos observar lo realizado, solicitando las
frecuencias de la variable.
SET FORMAT=F12.6.
FRE Resp27.

En este caso adems del comando FREQUENCIES hemos indicado tambin la secuencia SET
FORMAT. Este comando nos permite ajustar el nmero de decimales para los resultados. Por
defecto el PSPP presenta los resultados con 2 decimales, cuando trabajamos con contrastes,
conviene tener ms decimales. En este caso con F12.6 le indicamos que los 12 dgitos que
tiene el valor de salida, 6 sern decimales.

Como podemos observar en los resultados de la tabla de frecuencias la categora que No


responden es el 26, 41%. Al ser una variable dummy tiene la ventaja de que la media se
corresponde con la proporcin. Observe que la media es 0,2641. Esta propiedad nos va a
permitir el uso de los test de contraste de medias para aplicarlos a proporciones.
Para el contraste de hiptesis utilizamos el comando T-Test de PSPP.
Desde las opciones de men
(Analizar- Comparar Medias- Prueba T para Muestras Independientes):

Vamos a contrastar las medias de respuesta (Resp27) para los hombres y mujeres (P29).
Definimos como variable de contraste Resp27 y como variable de agrupacin P29 que es el
sexo del entrevistado. Al definir el grupo se nos abre otra ventana para indicar los valores que
queremos contrastar. En este caso slo hay dos valores 1=Hombres y 2=Mujeres.
Si escribimos la sintaxis:
T-TEST /VARIABLE=resp27
GROUP=p29 (1,2)
CRITERIA=CIN(0.95).

El comando T-TEST tiene dos subcomandos obligatorios:


VARIABLE para indicar la variable de contraste y
GROUP para indicar la variable que forma los grupos de contraste con indicacin de los valores
a contrastar.
Podemos aadir el subcomando CRITERIA que indica dentro del parntesis el nivel de
confianza Confindence Interval CIN=(0.95) que es el 95% ( el 5% de significacin) Este es el
valor por defecto si no incluimos el subcomando. Si quisiramos realizar contrastes para un
nivel de significacin del 1% entonces deberamos indicar CIN=(0.99).
Los resultados nos aparecen en las dos tablas siguientes:
Sexo de la persona entrevistada
Resp27
Hombre
Mujer

N
1216
1256

Media
.232730
.294586

Desviacin Estndar
.422746
.456038

Prueba de Levene para la


igualdad de varianzas
F

Resp27 Se asume
igualdad de
varianzas
Igualdad de
varianzas no
asumida

49.185494

Sign.

.000000

Err.Est.Media
.012123
.012868

Prueba T para la Igualdad de Medias


t

df

Sign. (2- Diferencia Err.Est. de la


Intervalo de
colas)
Media Diferencia confianza 95% de la
Diferencia
Inferior Superior
-3.494524 2470.000000
.000483 -.061856
.017679 -.096523 -.027188

-3.498806 2465.364103

.000476 -.061856

.017679 -.096523 -.027188

En la primera de las tablas obtenemos unos estadsticos descriptivos. As podemos observar


que la proporcin no respuesta de los hombres es 0,2327 y la de las mujeres 0,2945, que son
los porcentajes que habamos deducido a partir del cruce de la P27 por sexo. Para cada grupo,
tanto de hombres como de mujeres, nos indica tambin la varianza1, as como el error tpico,
que sera de utilidad para la construccin de los intervalos de confianza.
Por ejemplo, para hombres, la no respuesta, dado un nivel de confianza del 95%, ser:

Para las mujeres:

Como podemos observar, para un nivel de confianza del 95% podemos sealar que hay
diferencia en la respuesta entre hombres y mujeres a la pregunta de autoubicacin poltica.
Los intervalos son excluyentes, no tienen ningn punto en comn.

Intervalos de confianza del 95% para la proporcin de no respuesta a la pregunta de


autoubicacin ideolgica por sexo.
35%
30%
25%
20%
15%

10%
5%
0%
Hombres Mujeres
Fuente: Estudio CIS 3005. Noviembre 2013.

Vamos a analizar ahora la tabla del contraste de medias. La tabla de resultados que nos ofrece
el programa son en realidad dos tablas diferentes:

Tngase presente que por regla general los programas de ordenador se refieren a varianza muestral.
Es decir se refieren a la cuasivarianza.

Por una parte el programa realiza un contraste sobre la igualdad de varianzas para las
categoras analizadas. Al final de la prctica en un anexo se explica con mayor detalle el test de
Levene. Dicho test nos permite sealar si las varianzas, en este caso de hombres y de mujeres,
son iguales o no. En funcin de dicho resultado leeremos la segunda tabla. La segunda tabla
tiene dos lneas de resultados, una para el caso en el que consideremos que hay igualdad de
varianzas, y una segunda, si consideramos que las varianzas no son iguales.
La tabla de descriptivos nos indicaba la desviacin tpica Shombres=0,422746 y Smujeres=0,456038.
Las varianzas respectivas sern:
0,17871418 y
0,20797066.
En este caso, el test de Levene nos indica que las varianzas no son iguales, por ello leeremos la
segunda lnea. Observemos que el p-valor (Sign.) del estadstico F es2 p<0,000001. Por ello
decimos que resulta muy improbable que hayan sido distintas por azar.
No obstante, podemos ver que la diferencia, entre considerar igualdad de varianzas o no,
resulta en nuestro caso indiferente. Los estadsticos tienen valores casi idnticos. En la prctica
en anlisis de encuestas en sociologa los tamaos muestrales son lo suficientemente grandes
para ser insensibles a la cuestin de la homogeneidad de varianzas.
El programa como estadstico de contraste utiliza la distribucin t de Student. El valor
obtenido es t=-3,499, un valor casi idntico al valor Z=-3,510 que habamos calculado
anteriormente mediante la distribucin normal. Adems del valor t nos seala los grados de
libertad. En el caso de igualdad de varianzas son n-2. En el supuesto de no igualdad de
varianzas la expresin resulta distinta. En el anexo se detalla la formulacin del error tipico de
la diferencia de medias en ambos casos. Adems del valor del estadstico y de sus grados de
libertad el programa nos seala el p-valor o grado de significacin del valor obtenido. En este
caso p<0,000476.

Aunque en la tabla aparece .000000 de manera estricta no podemos decir que es cero, sino que es
insignificante p<1/1.000.000.

10

Realmente este nmero es el centro de nuestro anlisis. Este valor lo podemos interpretar
como la probabilidad de equivocarnos si rechazamos la hiptesis nula, de que esta sea cierta.
Es decir, si rechazamos que haya igualdad de no respuesta entre hombres y mujeres, la
probabilidad que asumimos de equivocarnos es 4,76 diezmilsimas. Francamente es un valor
despreciable. La encuesta dice claramente que hombres y mujeres responden distinto, y ello lo
podemos afirmar al menos con un nivel de confianza mayor del 99,999%.
Otra informacin que produce la tabla es la diferencia de las medias, en este caso la diferencia
entre proporcin de hombres y de mujeres 6,18%, favorable a las mujeres. Tambin el error
tpico del estadstico de la diferencia. Recordemos que el error tpico de la diferencia de
medias es (Estadstica para la Investigacin Social, pp. 264):
(

Conocido el error tpico, el programa nos ofrece el intervalo de la diferencia entre hombres y
mujeres, en este caso para un Nivel de Confianza (CIN=0,95) del 95%. (Z=1,96)
As:
(

-0,618561,96x0,0176791=[-0,09650704 : -0,02720496]
Dicho intervalo seala que la diferencia oscilar entre el 9,6% y el 2,7%, siendo siempre mayor
la no respuesta entre hombres y mujeres. Como el intervalo no contiene el 0 podemos decir
que no hay igualdad en la tasa de no respuesta entre hombres y mujeres.
Como puede apreciarse el programa, ofrece de forma conjunta un contraste de hiptesis as
como el intervalo de confianza para la diferencia de medias.

3.

Contraste de medias

Para estudiar el posicionamiento entre izquierda y derecha utilizaremos la variable Ideo que
habamos generado con dos siguientes comandos. Por una parte hacemos una copia de la
variable original P27 mediante el comando COMPUTE y declaramos valores perdidos a los
cdigos 98 y 99 mediante el comando MISSING VALUE.
COMPUTE Ideo=P27.
MISSING VALUE Ideo (98,99).

11

Vamos a examinar la variable de posicionamiento ideolgico respecto al sexo de dos formas.


Por una parte haremos una tabla de porcentajes verticales, tomando la variable sexo como
variable independiente. Mediante menus: Analizar-Estadstica Descriptiva-Tablas Cruzadas...-.
Y, por otra parte, las medias de la variable para los grupos de hombres y mujeres. (AnalizarComparar Medias-Medias...).
Escrito mediante comandos:
CROSS Ideo BY P29 /CELLS=COL.
MEANS TABLES Ideo BY P29 /CELLS=MEAN STDDEV VAR COUNT.

Para las medias utilizamos el comando MEANS TABLES que tiene una sintaxis muy parecida a
CROSSTABS. -Variable dependiente BY variable independiente-. El contenido de las celdas o
casillas lo indicamos con el subcomando CELLS. En este caso, solicitamos la media (MEAN), la
desviacin estndar (STDDEV), la varianza (VAR) y el nmero de casos (COUNT).
Las tablas obtenidas:
Sexo de la persona entrevistada
Ideo

Hombre
1,00

5,681%

Mujer
4,176%

Total
4,948%

2,00

5,788%

6,659%

6,212%

3,00

17,899%

18,397%

18,142%

4,00

17,685%

15,576%

16,658%

5,00

29,796%

30,474%

30,126%

6,00

8,789%

9,594%

9,181%

7,00

7,610%

7,336%

7,477%

8,00

4,180%

5,530%

4,838%

9,00

1,822%

1,467%

1,649%

10,00

0,750%

0,790%

0,770%

100,000%

100,000%

100,000%

Total

Ideo

Sexo de la
persona
entrevistada
Hombre

Media
4,5402

Desviacin
Estndar
1,83368

Varianza
3,362

Mujer

4,6163

1,82621

3,335

886

Total

4,5772

1,82994

3,349

1819

N
933

Adems de los datos vamos a representar los porcentajes en un grfico

Distribucin de la poblacin en el espectro ideolgico de Izquierda-Derecha por sexo.


(1=Izquierda, 10=Derecha).

12

35%
Hombres

30%

Mujeres
25%

20%
15%
10%
5%
0%
1

10

Fuente: Estudio CIS 3005. Noviembre 2013.

La distribucin de porcentajes no sugiere que existan diferencias entre hombres y mujeres.


Hay una ligera concentracin de hombres respecto a mujeres en posiciones de izquierda. Por
ello la media de hombres es ms baja 4,54 frente a las mujeres 4,61 recordemos que 1 es el
polo de izquierda y 10 el de derecha-. La cuestin ahora es, podemos afirmar sin gnero de
dudas que no hay diferencias de ubicacin poltica por ser hombre o por ser mujer. Para ello
ejecutamos un contraste de medias, bien mediante mens, o mediante comandos, utilizamos
el T-TEST.

T-TEST /VARIABLE=Ideo
GROUP=p29 (1,2).

Los resultados:
Estadsticos de grupo
Sexo de la persona entrevistada
ideo

Media

Desviacin tp.

Error tp. de la media

Hombre

933

4,540193

1,833681

,060032

Mujer

886

4,616253

1,826214

,061353

Prueba de muestras independientes


Prueba de Levene
para la igualdad de
varianzas

ideo

Se han
asumido
varianzas
iguales
No se han
asumido
varianzas
iguales

F
,000845

Sig.
,976809

Prueba T para la igualdad de medias

1817

Sig.
(bilateral)
,375734

Diferencia
de medias
-,076060

Error tp.
de la
diferencia
,085837

1812,884987

,375684

-,076060

,085837

t
-,886002

gl

-,886095

95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-,244410
,092290

-,244410

,092290

13

Los resultados muestran que no tenemos evidencia suficiente para afirmar que existen
diferencias entre hombres y mujeres en cuanto a ubicacin ideolgica. Los datos nos dicen que
podemos considerar que hay igualdad de varianzas. 97,6% sera la probabilidad de
equivocarnos al afirmar que las varianzas son distintas. Asumiendo la homogeneidad de
varianzas, vemos que el p-valor resulta alto (0,375734) para rechazar la hiptesis nula de
igualdad de medias. Las pequeas diferencias observadas en este caso bien pueden deberse al
azar. As nos lo confirma tambin el intervalo de confianza de la diferencia de medias. Las 76
milsimas de diferencia (-0,076) entre la media de hombres y de mujeres, oscilan entre 244
milsimas (-0,244410) o 92 en sentido contrario (+0,092290). Como puede apreciarse dentro
del intervalo tambin est el 0, es decir el punto de igualdad de medias.

Por ello podemos concluir que no se aprecia ninguna diferencia de ubicacin poltica entre
hombres y mujeres. Tampoco habra motivos tericos suficientes para soportar que por ser
hombres o mujeres somos polticamente diferentes. Lo que tambin han puesto en evidencia
los datos es que hay una diferencia relativa en la respuesta a la pregunta de ubicacin poltica.
Convendra investigar de forma ms detallada si esta tasa es un efecto de la menor
expresividad pblica de las mujeres, y en qu contextos culturales resulta esto todava cierto.

4. Anlisis de Varianza

Discutida la relacin entre gnero y ubicacin poltica, vamos a preguntarnos por el papel que
ejerce la edad en dicha relacin. Influye la edad en el posicionamiento poltico. Para responder
a esta pregunta vamos a dividir la muestra en cuatro grupos de edad: De 18 a 29 aos, de 30 a
49 aos, de 50 a 64 aos y mayores de 65 aos. Esta variable la habamos generado
anteriormente y denominado Edad4 mediante la siguiente secuencia de comandos:

COMPUTE Edad4=P30.
RECODE Edad4 (18 THRU 29=1) (30 THRU 49=2) (50 THRU 64=3) (65 THRU 97=4).
VALUE LABELS Edad4 1 18-29 2 30-49 3 50-64 4 65+.

Mediante COMPUTE generamos la variable Edad4 como copia de P30. Con RECODE
recodificamos los valores originales de edad en cuatro grupos. (En este caso hemos
comprobado que no hay ningn valor 99 que hubiera significado No Respuesta). Con VALUE
LABEL etiquetamos los cuatro valores de la nueva variable Edad4.
14

En primer lugar examinamos la relacin de la variable edad (como independiente) con


Ideologa como dependiente. Observemos que la variable Edad4 es una variable nominal en
cuatro grupos, que podramos haber etiquetado como Jvenes, Maduros, Seniors y Mayores,
por ejemplo. La variable Ideo es una variable de intervalo. Para examinar la relacin entre
ambas variables solicitamos la tabla de porcentajes verticales y la tabla con las medias.

CROSS Ideo BY Edad4 /CELLS=COL.


MEANS TABLES Ideo BY Edad4 /CELLS=MEAN STDDEV VAR COUNT.

ideo

18-29
6,7%
7,6%
19,1%
16,2%
33,4%
9,2%
4,8%
1,3%
,6%
1,0%
100,0%

1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00

Total

Edad4
30-49
50-64
4,3%
6,7%
6,3%
7,6%
18,2%
19,4%
18,1%
16,6%
31,4%
24,9%
8,7%
10,9%
7,0%
6,7%
4,8%
5,5%
,7%
1,2%
,4%
,5%
100,0%
100,0%

65+
2,5%
3,1%
15,6%
14,2%
30,9%
8,1%
11,7%
7,2%
5,0%
1,7%
100,0%

Total
4,9%
6,2%
18,1%
16,7%
30,1%
9,2%
7,5%
4,8%
1,6%
,8%
100,0%

ideo
Edad4

Media

Desv. tp.

Varianza

18-29

4,2580

1,69768

2,882

314

30-49

4,5105

1,71828

2,952

713

50-64

4,4273

1,88559

3,555

433

65+

5,1699

1,96096

3,845

359

Total

4,5772

1,82994

3,349

1819

Ntese que en el total slo hay 1819 casos, tngase en cuenta que al igual que suceda en el
anlisis por sexo, la variable Ideo slo se refiere al grupo que han respondido a la pregunta 27.
Distribucin de la poblacin en el espectro ideolgico de Izquierda-Derecha por grupos de
edad. (1=Izquierda, 10=Derecha).

15

40%
18-29

35%

30-49

30%

50-64

25%

65+

20%
15%
10%
5%
0%
1

10

Fuente: Estudio CIS 3005. Noviembre 2013.

El grfico sugiere que los mayores de 65 aos se posicionan ms a la derecha. Los ms jvenes
(18-29) por el contrario no se posicionan en valores de la escala cercanos al polo de derecha
sino ms cerca de la izquierda. Los maduros entre 50 y 64 aos se polarizan ms entre
izquierda y derecha, evitando relativamente su posicionamiento en el centro.
Los datos de la tabla de medias evidencian que stas varan con la edad, subiendo en la escala.
En nuestra escala esto quiere decir que hay algn desplazamiento entre la izquierda y la
derecha segn aumenta la edad.
La cuestin ahora es estas apreciaciones son significativas? Para ello vamos a realizar un
contraste de medias. Sin embargo la variable de agrupacin, que ahora denominamos factor,
tiene ms de dos categoras. Por ello vamos a utilizar el Anlisis de Varianza (ANOVA) para
realizar un contraste mltiple de hiptesis. La hiptesis nula ser que las medias son iguales
entre los cuatro grupos de edad. Lo que quiere decir que no hay diferencias en ubicacin
poltica por edad, y que las diferencias que hemos observado son de carcter aleatorio.

El ANOVA podemos realizarlo mediante mens:


Analizar-Comparar Medias-ANOVA de un factor...

16

Indicamos la variable dependiente (Ideo) y el factor (Edad4).

Desde el editor de comandos la sintaxis resulta sencilla:

ONEWAY /VARIABLES= Ideo BY Edad4.

El comando se denomina ONEWAY y especifica las variables mediante el subcomando


VARIABLES, con el formato Variable Dependiente BY Factor.
La tabla de resultados que ofrece sigue el modelo clsico de descomposicin de suma de
cuadrados y de presentacin del estadstico F:

ANOVA
ideo
Suma de cuadrados

gl

Media cuadrtica

Inter-grupos

171,028

57,009

Intra-grupos

5916,870

1815

3,260

Total

6087,898

1818

F
17,488

Sig.
,000

El resultado tambin es claro, no hay evidencia para soportar la idea de que las medias de
ideologa son iguales por edad. El nivel de significacin es p<1/1000. Dicho de otra forma este
es el riesgo que asumimos cuando decimos que no hay igualdad en las medias de ubicacin
poltica y por tanto debemos suponer que hay diferencias. La aportacin en trminos de
varianza que hacen los grupos de edad es 17 veces superior a la que hacen los propios sujetos.
Los grupos son diferentes. Sin embargo el trabajo del socilogo no termina aqu, debera
sealarse si esto es as para todos los grupos del factor.

Una inspeccin grfica de los intervalos de las medias por cada categora del factor nos puede
ayudar a especificar la relacin que existe entre edad e ideologa.
El propio comando de ANOVA nos permite obtener los intervalos de confianza, pulsando en la
casilla de Descriptivos:

17

O aadiendo el subcomando ESTATISTICS, la especificacin de DESCRIPTIVES nos ofrece un


resumen de los estadsticos para cada grupo del factor.
ONEWAY
/VARIABLES= Ideo BY Edad4
/STATISTICS= DESCRIPTIVES.

Descriptivos
ideo
Intervalo de confianza para la
media al 95%

Desviacin
N

Media

tpica

Error tpico

Lmite inferior

Lmite superior

Mnimo

Mximo

18-29

314

4,2580

1,69768

,09581

4,0695

4,4465

1,00

10,00

30-49

713

4,5105

1,71828

,06435

4,3842

4,6369

1,00

10,00

50-64

433

4,4273

1,88559

,09062

4,2491

4,6054

1,00

10,00

65+

359

5,1699

1,96096

,10350

4,9664

5,3735

1,00

10,00

Total

1819

4,5772

1,82994

,04291

4,4931

4,6614

1,00

10,00

La tabla nos ofrece adems de la media el error tpico, recurdese que es


en el primer grupo de edad:

, por ejemplo

y con el valor de los errores tpicos los

intervalos de confianza para las medias, por defecto para Niveles de Confianza del 95%
(Z=1,96). El grfico siguiente nos permite observar con mayor detalle.

Intervalos de confianza del 95% para la media de autoubicacin ideolgica por grupos de
edad.

18

5,5

4,5

3,5

3
18-29

30-40

40-65

65+

Fuente: Estudio CIS 3005. Noviembre 2013.

El grupo de mayores de 65 aos presenta una media claramente distinta a los otros grupos de
edad. Mientras que los grupos de 18 a 65 aos no se diferencian de forma significativa en su
posicionamiento en la escala de ideologa poltica, los intervalos de confianza de sus medias se
solapan, la media de los mayores queda claramente alejada del resto. Los mayores de 65 aos
son por regla general ms conservadores que la poblacin general.

19

ANEXO. Comentarios sobre la cuestin de la homogeneidad de varianzas y test de Levene.

En la construccin de los test de hiptesis para la diferencia de medias los estadsticos


diferencian dos situaciones: que los grupos de comparacin tengan la misma varianza o
varianzas distintas. Por qu?
Porque los errores tpicos dependen de la varianza poblacional, y como por regla general
desconocemos la varianza de la poblacin, debemos estimar sta a travs de las varianzas de
la muestra. Y dicha estimacin resulta distinta segn el grado de homogeneidad de la varianza
poblacional. De forma sencilla hay homogeneidad de la varianza cuando esta no cambia con
los distintos niveles de la variable, y heterogeneidad en el caso en que exista asociacin entre
la media y la varianza. En cada caso vamos a utilizar una forma distinta para estimar el error
tpico.
Supongamos por ejemplo que estamos analizando el gasto en alimentacin de una poblacin.
Si dicha poblacin la dividimos en dos grupos por la inicial del apellido A-L y de la M-Z que
vamos a comparar, no encontraremos diferencias en la varianza del gasto y probablemente
tambin el gasto medio de ambos grupos ser el mismo. Sin embargo si dividimos dicha
poblacin en grupos por su estatus socieconmico, observaremos diferencias en la media de
gasto pero tambin asociados a la misma en la varianza. Los grupos de menor estatus tienen
comportamientos ms homogneos mientras que los grupos de estatus ms elevado son muy
diversos entre s en referencia a sus prcticas de consumo. Mayor gasto supone mayor
diversidad, menor gasto supone menor diversidad.
El efecto que puede tener la heterogeneidad de la varianza es relevante si se est trabajando
con muestras pequeas. En el cuadro adjunto se detallan las formulaciones del error tpico
para los casos de igualdad y de diferencia de varianzas entre grupos. Se han utilizado los datos
referentes a la variable Resp27.

Hombres

Mujeres

0,232730

0,294586

0,178714181

0,207970657

1216

1256

Como puede apreciarse la formulacin se diferencia en la medida en que se combinan


las varianzas de los grupos. Cuando son iguales se calcula la varianza combinada. En el
caso en el que se suponen varianzas desiguales, la varianza se supone una
combinacin lineal de dos fuentes independientes, por ello se complejiza
algebraicamente la cuestin de los grados de libertad que se estima mediante la
frmula de Welch.
20

21

Error tpico de la diferencia de medias

Varianzas
Iguales

Estadstico T
)

Grados de libertad

gl=2470
(

( )

(
Varianzas
desiguales

(
(

)
)

22

Para la eleccin de uno o de otro estadstico se utiliza el test de Levene. El test de Levene es
similar al test F de Fisher. El test F, contrasta la varianza de las medias dentro y entre los
grupos para observar la relacin entre ambas. El test de Levene sigue tambin la distribucin F
de Fisher. Puede calcularse su valor de forma anloga al anlisis de varianza3. Su interpretacin
es idntica al anlisis de varianza. En este caso la hiptesis nula es, no la igualdad de medias,
sino la igualdad de varianzas. Adems del valor del estadstico, aparece su p-valor asociado.
Como regla general admitiremos la hiptesis nula hay homogeneidad de varianza- cuando
p<0,05.

Se pueden utilizar las frmulas de la suma de cuadrados, sustituyendo los valores x de la variable por
|
las diferencias absolutas del valor a la media. Se utiliza en vez de xi el valor
|. De la misma

forma las medias se convierten en las medias de las desviaciones absolutas


.

23