Вы находитесь на странице: 1из 21

El anlisis de la varianza

Joaqun Alds Manzano1

Universitat de Valncia
Dpto. de Direccin de Empresas Juan Jos Renau Piqueras

1
Estas notas son una seleccin de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epgrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi nica tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
2 Anlisis de la varianza
Joaqun Alds Manzano

El anlisis de la varianza

1. Qu es el anlisis de la varianza?
(Uriel, 1995)

El anlisis de la varianza es un mtodo estadstico para determinar si una


variable determinada toma valores medios iguales o distintos en los grupos que
forma otra variable, por ejemplo, si la opinin que tiene una muestra de indivi-
duos sobre si deben o no subirse los impuestos sobre el tabaco, es la misma o
distinta entre los fumadores y los no fumadores.

Se denomina factor a la variable que supuestamente ejerce una influencia sobre


la variable dependiente. En nuestro ejemplo la variable dependiente es la
opinin manifestada sobre la subida de impuestos sobre el tabaco, mientras que
el factor es pertenecer al grupo de fumadores o al de no fumadores.

El diseo que hemos visto se conoce como anlisis de la varianza de un factor,


puesto que se considera la influencia de una sola variable (fumar o no fumar).
En este tema se ver tambin el anlisis de la varianza de dos factores, donde
se considera la influencia conjunta de dos variables independientes (podra ser
fumar o no fumar y el sexo, por ejemplo).

2. Un ejemplo de aplicacin del anlisis de la varianza de un


factor

(Elaboracin propia y Uriel, 1995)

Paso 1. Establecimiento de los objetivos

Como se ha indicado, un anlisis de la varianza es adecuado cuando queremos


saber si una variable toma valores medios significativamente distintos en los
grupos que forma otra variable que llamamos factor. La primera cuestin
importante es saber cmo deben ser las escalas de medida de cada una de las
variables.

El factor, o variable independiente, debe ser una variable nominal.


En el ejemplo que estamos utilizando, los encuestados se clasifican
3 Anlisis de la varianza
Joaqun Alds Manzano

en 1 = fumadores; 2 = Fumaban pero lo han dejado y 3 = No


fumadores.
La variable dependiente, debe ser mtrica, dado que el clculo del
valor medio debe tener sentido y, precisamente, es el valor medio lo
que deseamos saber si toma valores significativamente diferentes
entre los fumadores, no fumadores o los que lo han dejado. En
nuestro ejemplo, la variable dependiente est medida del siguiente
modo. Exprese su acuerdo o desacuerdo sobre la siguiente
afirmacin: Deben subirse los impuestos que gravan el tabaco. La
respuesta se recoge en una escala de 5 puntos donde 1 = Estoy
totalmente en desacuerdo y 5 = Estoy totalmente de acuerdo.

Este objetivo se plantea estadsticamente formulando una hiptesis nula que


deber ser aceptada o rechazada a la luz de la evidencia emprica. En nuestro
caso la hiptesis nula es que la opinin que expresan los entrevistados acerca de
que se suban los impuestos sobre el tabaco, es la misma entre los fumadores y
los no fumadores o, dicho de otro modo, que el ser fumador no ejerce ningn
tipo de influencia sobre la opinin manifestada acerca de subir los impuestos
sobre el tabaco. De una manera ms formal, la hiptesis nula se plantea de este
modo:

H 0 : x F = xNF = x D

Es decir que la media de las respuestas a la pregunta formulada es la misma


entre los fumadores, los no fumadores o los que lo han dejado. Es muy impor-
tante dejar claro cul es la hiptesis alternativa, es decir, la que asumiramos si
no pudisemos aceptar la hiptesis nula planteada. Esta no es que todas las
medias sean distintas entre s, sino que, al menos una es significativamente
distinta de todas las dems. Esto es, si rechazramos la hiptesis nula no
podramos decir que los no fumadores piensan distinto que los fumadores y que
los que lo han dejado y que los no fuamdores tambin piensan diferente de los
que lo han dejado. Podra ocurrir que los fumadores pensaran de manera
distinta a los no fumadores y los que lo han dejado, pero estos dos ltimos
piensan igual. Para determinar en qu caso nos encontramos habr que recurrir
a otro tipo de pruebas, que denominamos comparaciones pareadas a posteriori
o pruebas post hoc, como veremos posteriormente.

El proceso que se sigue para determinar si podemos aceptar o rechazar la


hiptesis nula, es el mismo que se sigue en cualquier otra tcnica de inferencia
estadstica y que podemos asimilar a la decisin de un juez en un juicio. El juez
4 Anlisis de la varianza
Joaqun Alds Manzano

mantendr siempre la hiptesis nula (inocencia del acusado) a no ser que se


logren acumular suficientes pruebas en contra del acusado como para que la
probabilidad de que se equivoque al rechazar la hiptesis nula (declararle
culpable) sea lo suficientemente pequea. La acumulacin de pruebas en
inferencia estadstica es la construccin de un estadstico que, en nuestro caso,
es una F. Segn cual sea el valor que tome ese estadstico F, podremos aceptar
o rechazar la hiptesis nula. Sin embargo es imposible tener en la cabeza las
tablas del estadstico, por eso los programas de ordenador traducen ese
estadstico mediante un valor que llaman p o significatividad que no es, ni ms
ni menos, que la probabilidad de equivocarnos cuando rechazamos la hiptesis
nula. Si esa probabilidad es lo suficientemente baja lo rechazaremos.

Pero suficientemente baja es un trmino subjetivo. Para objetivarlo, la


prctica en Ciencias Sociales es considerar los valores mximos del 1% o del
5%. Si la probabilidad mencionada es inferior al 1% (5%) consideramos que es
improbable que nos equivoquemos y rechazaremos la hiptesis nula, teniendo
que aceptarla en caso contrario.

Pero vayamos paso a paso y veamos, en primer lugar, cmo se calcula el


estadstico F.

Llamemos Yi a la variable que recoge la respuesta del individuo i a la pregunta


Deben subirse los impuestos que gravan el tabaco. Cada individuo pertenece
a uno de los G grupos existentes del factor (en nuestro caso 3: fumadores, no
fumadores o los que lo han dejado), con lo que llamaremos Ygi a la respuesta
dada a esa pregunta por el individuo i dado que pertenece a grupo g. La media
de la variable Y para todos los individuos, sin distinguir grupos la llamamos Y
con lo que la desviacin de cada observacin respecto a la media global ser:

Ygi - Y

desviacin que puede descomponerse de la siguiente forma:

Ygi - Y = (Y g - Y ) + (Ygi - Y )
donde el primer componente,(Y g Y ) refleja la desviacin de la media muestral
de cada grupo respecto a la media global, lo que llamamos desviacin explicada
por el factor.
5 Anlisis de la varianza
Joaqun Alds Manzano

El segundo componente, (Y gi Y g ), es la desviacin que no explica el factor, y


que denominamos desviacin residual. Elevando al cuadrado ambos trminos
de la ecuacin [1] tenemos que:

(Ygi -Y ) +(Ygi -Yg ) + 2 (Yg - Y )(Ygi -Y )


2 2
= (Yg -Y )2

Si la expresin anterior la sumamos para todos los grupos (G en total) y para


todos los individuos de cada grupo (ng) se obtiene que:

G ng G G ng

(Ygi - Y ) = ng (Yg - Y ) + (Ygi - Yg )


2 2 2

g =1 i =1 g =1 g =1 i =1

En el primer miembro de la ecuacin anterior aparece la suma de cuadrados de


las desviaciones de cada observacin respecto a la media global, suma que
denominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidad
total. Si se divide por el tamao total de muestra se obtiene la varianza total.
Pues bien, de acuerdo con [2] esta SCT se divide en dos partes:

La suma de cuadrados de las desviaciones entre la media de cada


grupo y la media general. Esta es la suma de cuadrados explicada
por el factor considerado, a la que denominaremos Suma de cuadra-
dos del factor (SCF) o variabilidad explicada.
La suma de cuadrados de las desviaciones entre cada dato y la
media de su grupo. Esta es la suma de cuadrados no explicada, a la
que denominaremos Suma de cuadrados residual (SCR) o variabili-
dad residual.

Cada suma de cuadrados tiene sus propios grados de libertad. La SCT es el


nmero total de casos menos uno, es decir n-1; La SCF es el nmero de grupos
menos uno, es decir, G-1 y la SCR es el nmero total de datos menos G, es
decir, n-G. En el anlisis de la varianza, se define una media cuadrtica como
el cociente entre la suma de cuadrados y sus correspondientes grados de liber-
tad:
6 Anlisis de la varianza
Joaqun Alds Manzano

SCF
MCF =
G -1
SCR
MCR =
n -G
SCT
MCT =
n -1

pues bien, el estadstico F que nos ha de decir si tenemos pruebas suficientes


para rechazar o aceptar la hiptesis nula, se calcula del siguiente modo:

SCF
MCF
F = = G -1
MCR SCR
n -G

y se distribuye segn una F de Snedecor con G-1 grados de libertad en el


numerador y n-G en el denominador. Pero como hemos dicho, es difcil saberse
de memoria la tabla de esta distribucin, por eso el programa traduce directa-
mente ese valor en una probabilidad de equivocarnos al rechazar la hiptesis
nula o significatividad llamada p.

El cuadro 2 nos ofrece la salida de SPSS del anlisis de la varianza de un


factor que nos est sirviendo de ejemplo. Sin adelantar cul es el resultado
obtenido, vemos que nos proporciona la mayor parte de la informacin que
hemos descrito hasta el momento.

Cuadro 2. Salida de SPSS para el anlisis de la varianza


ANOVA
Deben aumentarse los impuestos

Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-grupos 171,378 2 85,689 59,161 ,000
Intra-grupos 344,721 238 1,448
Total 516,100 240

La SCF es 171,3, y el nmero de grado de libertad 2 (tenemos 3 grupos,


fumadores, no fumadores y los que lo han dejado, menos uno). La SCR es
344,7 con 238 grados de libertad (241 datos menos 3 grupos). La SCT es la
7 Anlisis de la varianza
Joaqun Alds Manzano

suma de las dos anteriores y el nmero de grados de libertad es el total de


datos menos uno, es decir 240. El estadstico F se obtiene:

SCF 171,37
MCF
F = = G - 1 = 344,72
3 - 1 = 59,16
MCR SCR
n -G 241 - 3

Paso 2. Condiciones de aplicabilidad

La hiptesis ms relevante que deben cumplir los datos para poder aplicar un
anlisis de la varianza, es la hiptesis de homoscedasticidad, es decir, que la
varianza de la variable dependiente (opinin acerca de que deben subirse los
impuestos sobre el tabaco) es constante en los grupos que hace el factor
(fumadores, no fumadores y los que lo han dejado).

Algunos autores (Uriel, 1995; Stevens, 1986) afirman, sin embargo, que el
estadstico F no se ve muy afectado por el hecho de que no exista homoscedas-
ticidad siempre que las muestras de los diferentes grupos sean del mismo o
similar tamao. Se afirma que el estadstico se ver afectado cuando la razn
entre el tamao muestral del grupo de mayor tamao y el ms pequeo sea
superior a 2. El cuadro 2.2 nos muestra unos estadsticos descriptivos de
nuestra muestra de ejemplo, se observa que el grupo ms numeroso es el de los
no fumadores con 120 individuos, mientras que el ms pequeo es el de los que
han dejado de fumar con 14. Es evidente que la razn es superior a 2 (120/14
> 2), por lo que la vulneracin de la hiptesis de homoscedasticidad s que
afectar a la aplicabilidad del anlisis de varianza.

Como saber entonces si se cumple la hiptesis de homoscedasticidad? y cmo


actuar caso de no ser as?
8 Anlisis de la varianza
Joaqun Alds Manzano

Cuadro 2. Estadsticos descriptivos de la variable dependiente


Descriptivos
Deben aumentarse los impuestos

Intervalo de confianza para


la media al 95%
Desviacin Lmite Lmite
N Media tpica Error tpico inferior superior Mnimo Mximo
SI 107 1,73 1,15 ,11 1,51 1,95 1 5
DEJADO 14 2,86 1,56 ,42 1,96 3,76 1 5
NO 120 3,47 1,20 ,11 3,25 3,68 1 5
Total 241 2,66 1,47 9,45E-02 2,47 2,85 1 5

Para detectar la vulneracin de la hiptesis de homoscedasticidad, SPSS


proporciona un test conocido como de Levene. Este test plantea la hiptesis
nula de homoscedasticidad, es decir, que las varianzas son iguales en todos los
grupos (fumadores, no fumadores y los que lo han dejado), que es la propiedad
deseable. Si el valor de la significatividad de este test es inferior a los lmites
clsicos (1% o 5%), podremos rechazar la hiptesis nula, es decir, habr
heteroscedasticidad y el ANOVA no ser aplicable.

El cuadro 3 ofrece la salida de SPSS para el test de Levene, se observa que el


valor de la significatividad es superior tanto al 1% como al 5% (concretamente
p=0.089). Luego la probabilidad de equivocarnos al rechazar la hiptesis nula
es demasiado elevada, habr que aceptarla, es decir, las varianzas son constan-
tes, se cumple la hiptesis de homoscedasticidad y los resultados que se hayan
obtenido del anlisis de la varianza sern consistentes.

Cuadro 3. Test de Levene


Prueba de homogeneidad de varianzas
Deben aumentarse los impuestos
Estadstico
de Levene gl1 gl2 Sig.
2,439 2 238 ,089

Qu podra haberse hecho caso de no poder aceptar la homoscedasticidad? Lo


habitual es transformar la variable dependiente tomando logaritmos
neperianos, lo que permite estabilizar la varianza y repetir entonces el ANOVA.
Si la variable est acotada entre 0 y 1 se recomienda tambin la transforma-
cin arcosenoidal.
9 Anlisis de la varianza
Joaqun Alds Manzano

Aunque algunos autores consideran que la no normalidad de la variable depen-


diente no afecta de forma importante al estadstico F, la hiptesis de normali-
dad es, tericamente, un supuesto que debe verificarse antes de realizar un
anlisis de la varianza. En el tema 1 se indic uno de los procedimientos
habituales, que son los grficos q-q. La figura 1 muestra que los residuos se
hallan homogneamente repartidos por encima y por debajo de la diagonal, lo
que nos permite asumir con razonable precisin que estamos ante una distribu-
cin normal.

Figura 1. Grfico q-q para el contraste de la normalidad

Grfico Q-Q normal de Deben aumentarse los impuestos


1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0
0 1 2 3 4 5 6

Valor observado

Paso 3. Estimacin del modelo y medida del ajuste global

Hasta este momento, hemos planteado los objetivos del ANOVA (saber si la
opinin que se tiene acerca de que se suban los impuestos sobre el tabaco, vara
o no entre fumadores y no fumadores), hemos comprobado las hiptesis que
deben cumplir los datos y, adems, hemos construdo el estadstico que nos ha
de permitir aceptar o rechazar la hiptesis nula de igualdad de medias, pero
cul es el resultado del anlisis?

Observando el cuadro 2, se observa que las medias son aparentemente muy


distintas entre cada uno de los grupos analizados. As, los fumadores parecen
estar muy en desacuerdo en que se suban los impuestos (1,73 en una escala de
1 a 5), los no fumadores estn mucho ms de acuerdo (3,47) y los que han
dejado de fumar se muestran algo ms comprensivos (2,86). Pero estas diferen-
cias pueden ser aparentes ms que estadsticamente significativas y, por ese
motivo, hemos realizado el anlisis de la varianza. Del cuadro 2.1 vemos que el
10 Anlisis de la varianza
Joaqun Alds Manzano

estadstico F=59,16 no nos dice mucho dado que no conocemos de memoria las
tablas, pero s el valor de la significatividad p=0.000. Dijimos que la significati-
vidad era la probabilidad de equivocarnos al rechazar la hiptesis nula de que
las medias son iguales. Esta probabilidad es nula (en todo caso menor que
cualquiera de los dos valores crticos: 0.01 y 0.05), por lo que, dado que no
tenemos ninguna probabilidad de equivocarnos la rechazaremos, es decir,
alguna de las medias es significativamente distinta de las dems. Sin embargo
no sabemos si todas son distintas entre s (xFxNFxD) o, por ejemplo, la de los
fumadores es distinta del grupo de no fumadores y lo han dejado, pero estas
dos ltimas no son diferentes (xFxNF=xD). Para ello habr que realizar alguna
prueba post hoc, como veremos inmediatamente.

El cuadro 2.4 nos permite responder a la duda que hemos planteado. Si el


anova demuestra que alguna media es distinta de las dems, como es el caso,
SPSS nos ofrece diversos tests post hoc de comparaciones mltiples para detec-
tar qu media es distinta de cul. En este caso hemos recurrido a una de las
mltiples posibilidades, el test de la diferencia honestamente significativa de
Tukey (Tukeys HSD). El cuadro debe leerse de la siguiente manera. Veamos
primero la primera fila. La diferencia de las medias de respuesta a la variable
deben subirse los impuestos sobre el tabaco entre los que s que fuman y los
que lo han dejado es de 1,13 y entre los que s que fuman y los que no fuman
es de 1,74. Ambas diferencias son significativas al 5%, como lo demuestra el
asterisco (*) que llevan ambas. Es ms, ambas son significativamente distintas
tambin al 1%, dado que la significatividad es tambin inferior a esta cantidad
(0.003 y 0.000 respectivamente). Luego ya sabemos que la opinin de los que s
que fuman es distinta de los otros dos grupos, pero qu ocurre entre ellos?.

Leamos ahora la segunda fila. Ahora la diferencia entre los que lo han dejado y
los que s que fuman es de 1,13 y significativa (ya lo sabamos de la fila
anterior), pero la diferencia ente los que lo han dejado y los que no fuman es
de 0,61 y NO ES SIGNFICATIVA, dado que ni lleva asterisco ni 0,172<0,05.
Luego la opinin de los que fuman es distinta de los que lo han dejado, pero la
de estos ltimos no es distinta de los que no fuman.

La tercera fila nos confirma lo anterior. La diferencia de opinin entre los que
no fuman y los que s (1,74) es estadsticamente significativa, pero no la
diferencia con los que lo han dejado (0,61).
11 Anlisis de la varianza
Joaqun Alds Manzano

Cuadro 4. Test de comparaciones mltiples


Comparaciones mltiples

Variable dependiente: Deben aumentarse los impuestos


HSD de Tukey

Intervalo de confianza al
95%
Diferencia
de medias Lmite Lmite
(I) FUMA USTED? (J) FUMA USTED? (I-J) Error tpico Sig. inferior superior
SI SI
DEJADO -1,13 * ,342 ,003 -1,93 -,33
NO -1,74 * ,160 ,000 -2,11 -1,36
DEJADO SI 1,13* ,342 ,003 ,33 1,93
DEJADO
NO -,61 ,340 ,172 -1,41 ,19
NO SI 1,74* ,160 ,000 1,36 2,11
DEJADO ,61 ,340 ,172 -,19 1,41
NO
*. La diferencia entre las medias es significativa al nivel .05.

En sntesis, como muestra el cuadro 5 que ofrece los grupos con la misma
media, por un lado tenemos el grupo de los no fumadores, con media 1,73 que
mantiene una opinin distinta (son menos favorables a que se suban los
impuestos) que el otro grupo, formado por no fumadores y quienes lo han
dejado, cuyas medias no son significativamente diferentes.

Cuadro 5. Grupos con la misma media


Deben aumentarse los impuestos
HSD de Tukey1,2

Subconjunto
para alfa = .05
FUMA USTED? N 1 2
SI 107 1,73
DEJADO 14 2,86
NO 120 3,47
Sig. 1,000 ,094
Se muestran las medias para los grupos en los subconjuntos
homogneos.
1. Usa tamao de la muestra de la media armnica = 33,667.
2. Los tamaos de los grupos no son iguales. Se utilizar la
media armnica de los tamaos de los grupos. Los niveles de
error del tipo I no estn garantizados.
12 Anlisis de la varianza
Joaqun Alds Manzano

Finalmente, para medir si es importante la parte de la variabilidad total expli-


cada por el factor (medida de bondad del ajuste) se utiliza el coeficiente de
determinacin que viene dado por la siguiente expresin:

SCF 171,37
R2 = = = 0,33
SCT 516,10

Aunque SPSS no da este estadstico, este puede obtenerse de manera bastante


sencilla de la informacin proporcionada por el cuadro 1. Vemos que gran
parte (33%) de la diferencia de opinin respecto al aumento de impuestos sobre
el tabaco, se explica por el hecho de que el que conteste sea o no fumador.

Paso 4. Interpretacin de los resultados

Por claridad expositiva, los resultados del anlisis de la varianza efectuado se


han interpretado simultneamente a la estimacin del modelo en el paso
anterior. Sin embargo, a modo de conclusin, repetiremos que el fumar o no
fumar, independientemente de que no se haya hecho nunca o se haya dejado el
hbito, ejerce una influencia importante sobre el apoyo de los individuos a que
se suban los impuestos sobre el tabaco. Los fumadores son mucho ms reacios
(1,73 en una escala de 1 a 5) a esta subida que los no fumadores, que no se
distinguen de los que lo han dejado en esta opinin.

Paso 5. Validacin de los resultados

El nico procedimiento adecuado para validar los resultados de un anlisis de


la varianza, consiste en replicar el experimento para una muestra diferente y
constatar la convergencia de los resultados lo que, por motivos obvios de
medios, no suele ser habitual en los trabajos en ciencias sociales.
13 Anlisis de la varianza
Joaqun Alds Manzano

3. Un ejemplo de aplicacin del anlisis de varianza de dos facto-


res

(Elaboracin propia; Uriel, 1995 y Hatcher y Stepanski, 1994)

En el ejemplo anterior intentbamos determinar la influencia sobre el acuerdo


con que se subieran los impuestos sobre el tabaco, de un factor a priori relevan-
te, como era el hecho de que se fumara o no. Pero supongamos que hay dos
variables independientes cuya posible influencia queremos controlar: el hecho
de fumar o no y el sexo del individuo. Podramos pensar que es necesario llevar
a cabo un anlisis de la varianza de un factor para cada uno de ellos, sin
embargo es posible trabajar con las dos variables independientes de manera
simultnea en un nico estudio.

El diseo experimental que se sigue en estos casos, es conocido como diseo


factorial, donde dos o ms variables independientes son manipuladas en un
nico estudio de tal forma que en el anlisis se representan todas las posibles
combinaciones de los diversos niveles de las variables independientes.

Tericamente, un diseo factorial puede incluir cualquier nmero de variables


independientes, en la prctica resulta poco adecuado utilizar ms de tres o
cuatro. Nosotros ilustraremos el tema con un diseo factorial que incluye dos
factores: el ser o no fumador, y el sexo del entrevistado. En sntesis, queremos
constatar si:

Ser o no fumador hace que se tengan opiniones distintas sobre que


se suban los impuestos sobre el tabaco.
Ser hombre o mujer ejerce algn tipo de influencia sobre esa
opinin.

De una manera similar al caso de un factor, la varianza total puede descompo-


nerse del siguiente modo (donde G es el nmero total de grupos de un factor,
en nuestro caso, por ejemplo los tres niveles de fumar, no fumar o haberlo
dejado; J es el nmero total de grupos del segundo factor, en nuestro caso 2,
hombres y mujeres):

G J ngj G J G J ngj

(Ygji -Y ) = ngj (Ygj -Y ) + (Ygji - Ygj )


2 2 2

g =1 j =1 i =1 g =1 j =1 g =1 j =1 i =1
14 Anlisis de la varianza
Joaqun Alds Manzano

El primer trmino de la expresin anterior refleja, como hemos dicho, la suma


de los cuadrados con respecto a la media muestral global. El triple sumatorio se
refiere: el primero a los niveles del primer factor (e.g. fumar o no fumar), el
segundo a los del segundo factor (e.g. hombre o mujer) y el tercero a los datos
individuales del cruce de los dos anteriores. El segundo trmino de la expresin
se descompone en dos sumandos. El primero refleja las diferencias al cuadrado
entre la media de cada celda y la media global, mientras que el segundo
sumando es la suma de cuadrados residual SCR.

Lo interesantes est en analizar qu ocasiona las diferencias del primer suman-


do, es decir, las diferencias al cuadrado entre la media de cada celda. Puede
demostrarse que:
G J

ngj (Ygj - Y )
2
=
g =1 j =1
G J G J G J

ngj (Yg -Y ) + ngj (Yj -Y ) + ngj (Ygj -Y g -Y j +Y )


2 2 2
=
g =1 j =1 g =1 j =1 g =1 j =1

se ve claramente en esta expresin que los dos primeros sumandos correspond-


en a las sumas de cuadrados de los dos factores, llammosles A y B. A estas
sumas las denominaremos SCFA y SCFB. El ltimo trmino refleja la interac-
cin de los factores A y B, es decir el efecto de los dos factores que no ha es
debido individualmente a ninguno de ellos. El efecto interaccin, ser denomi-
nado SCFAxB. En sntesis, la suma total de cuadrados puede descomponerse, en
el caso de dos factores del siguiente modo:

SCT = SCF A + SCF B + SCF A%B + SCR

Al igual que en el caso de un factor, cada suma de cuadrados tiene sus propios
grados de libertad, tal y como ilustramos en el cuadro 2.7. En este mismo
cuadro ilustramos tambin como se construye cada uno de los estadsticos F
que, ahora, han de permitirnos determinar si el efecto de cada factor por
separado y la interaccin de ambos, son o no significativos.
15 Anlisis de la varianza
Joaqun Alds Manzano

Cuadro 7. Tabla de anlisis de la varianza con dos factores


Fuente de Suma de Grados de
Media cuadrtica Estadstico F
Variacin cuadrados libertad

SCF A MCF A
Factor A SCFA G-1 MCF A = G1 F= MCR

SCF B MCF B
Factor B SCFB J-1 MCF B = J1 F= MCR

SCF A%B MCF A%B


Interaccin SCFAxB (G-1)(J-1) MCF A%B = (G1 )(J1 F= MCR

SCR
Residual SCR n-GJ MCR = nGJ

SCT
Total SCT n-1 MCT = n1

Antes de comentar los resultados concretos del ejemplo que venimos analizan-
do, tratemos de analizar los posibles resultados que podran obtenerse y
comprender, as, qu significar que uno de los factores, o la interaccin de
ambos sea significativa. La figura 2 es una ilustracin del resultado que se
obtendra si el efecto del factor 1 (fumar o no fumar) fuera significativo sin que
lo sea el factor 2 (sexo) ni la interaccin entre ambos. En el eje y se ha repre-
sentado la opinin sobre que se suban los impuestos. En el eje x vienen repre-
sentados los tres niveles del factor 1 (fumador, no fumador, han dejado de
fumar) y se han representado las medias de la opinin en cada uno de estos
tres grupos pero utilizando dos lineas, una para hombres y otra para mujeres.
Decimos que el factor 1 influye y el factor 2 no porque:

La opinin acerca de la subida de impuestos es ms favorable en la


medida en que se pasa de ser fumador a haberlo dejado o no haber
fumado nunca (lnea recta creciente)
Las medias en cada grupo de hbito coinciden, sin embargo, entre
hombres y mujeres, como demuestra el hecho de que las lneas sean
coincidentes.

La figura 3 ilustra el caso en que el resultado fuera que el sexo influye, pero no
lo hace el factor 1, es decir, el hbito. Se observa que en este caso las lneas
estn separadas (sexo influye), pero las medias de opinin son las mismas
independientemente del hbito (lneas paralelas al eje x).
16 Anlisis de la varianza
Joaqun Alds Manzano

Figura 2. Slo el efecto hbito es significativo.

Acuerdo l Hombres
n Mujeres

Opinin
n

l
n

Desacuerdo

Fumador Dejado No fumador

Factor 1: Fumar

Figura 3. Slo el efecto sexo es significativo.

Acuerdo

l l l Hombres
Opinin

n n n Mujeres

Desacuerdo

Fumador Dejado No fumador

Factor 1: Fumar

Figura 4. Los dos factores son significativos. No hay interaccin


l Hombres

Acuerdo

n Mujeres

l
Opinin

Desacuerdo
n

Fumador Dejado No fumador

Factor 1: Fumar

En la figura 4, se observa el resultado que se obtendra cuando el sexo influye


(lneas separadas), pero tambin lo hace el hbito (medias distintas en los tres
grupos, es decir lneas no paralelas respecto al eje x).
17 Anlisis de la varianza
Joaqun Alds Manzano

La figura 5 muestra el resultado que conseguiremos cuando no influyan


ninguno de los dos factores (lneas juntas y paralelas al eje x) y, finalmente, la
figura 6 ilustra el caso de que ambos factores sean significativos (lneas separa-
das, no paralelas al eje x) pero, adems, existe una interaccin significativa
entre los factores, es decir, el hbito afecta ms al cambio de opinin entre los
hombres que entre las mujeres, puesto que la pendiente de la recta de ellos es
superior a la de ellas.

Figura 5. Efectos principales no significativos


Acuerdo
Opinin

l l l Hombres
n n n Mujeres

Desacuerdo

Fumador Dejado No fumador

Factor 1: Fumar

Figura 6. Efectos principales e interaccin significativos


Acuerdo
l Hombres
Opinin

n Mujeres

l
n
Desacuerdo

Fumador Dejado No fumador

Factor 1: Fumar

Ilustradas las posibles soluciones a nuestro ejemplo, veamos a continuacin


cules son los resultados reales que se obtendran tal y como los proporciona
SPSS. El cuadro 7 nos muestra los estadsticos descriptivos, bsicamente, las
medias de la opinin sobre que se suban los impuestos sobre el tabaco entre
fumadores, no fumadores y aquellos que lo han dejado, pero distinguiendo
entre hombres y mujeres. Observando los datos, se comprueba que el
18 Anlisis de la varianza
Joaqun Alds Manzano

desacuerdo entre los fumadores es prcticamente el mismo sean estos hombres


(1,71) o mujeres (1,74). Tampoco se aprecian grandes diferencias en el acuerdo
entre no fumadores (3,59) y no fumadoras (3,39). La nica diferencia aprecia-
ble est en que los hombres que lo han dejado, son menos comprensivos con los
fumadores (3,50) que las mujeres que lo han dejado (2,60).

Cuadro 7. Estadsticos descriptivos

Estadsticos descriptivos
Variable dependiente: Deben aumentarse los impuestos
sexo FUMA USTED? Media Desv. tp. N
Hombre SI 1,71 1,25 41
DEJADO 3,50 1,73 4
NO 3,59 1,26 46
Total 2,74 1,57 91
Mujer SI 1,74 1,10 66
DEJADO 2,60 1,51 10
NO 3,39 1,17 74
Total 2,61 1,40 150
Total SI 1,73 1,15 107
DEJADO 2,86 1,56 14
NO 3,47 1,20 120
Total 2,66 1,47 241

Estas diferencias basadas en estadsticos descriptivos son, sin embargo, aparen-


tes. Debemos constatar si son estadsticamente significativas atendiendo al
contraste de hiptesis que se ha descrito. El anlisis del cuadro 8 nos permite
obtener las siguientes conclusiones:

El sexo no ejerce una influencia significativa sobre la opinin


manifestada por los entrevistados acerca de que se suban o no los
impuestos. Se observa que la significatividad del estadstico F=1.82
de esta variable es superior a 0.05, concretamente p=0.178.
El fumar o no fumar, s que ejerce una influencia significativa sobre
dicha opinin, como ya caba esperar de los resultados que obtuvi-
mos al realizar un anlisis de la varianza de un factor. La significati-
vidad del estadstico F=57.9 s que es inferior a 0.05, en este caso
p=0.
La interaccin de los dos factores anteriores tampoco es significativa
(F=0.862; p=0.424), es decir que las diferentes opiniones segn el
19 Anlisis de la varianza
Joaqun Alds Manzano

hbito no son ms o menos marcadas segn cul sea el sexo del


entrevistado.

Cuadro 8. Anlisis de los efectos principales e interaccin


Pruebas de los efectos inter-sujetos
Variable dependiente: Deben aumentarse los impuestos

Suma de
cuadrados Media
Fuente tipo III gl cuadrtica F Sig.
1
Modelo corregido 174,803 5 34,961 24,072 ,000
Intercept 643,121 1 643,121 442,822 ,000
SEXO 2,645 1 2,645 1,821 ,178
FUMA 168,187 2 84,094 57,903 ,000
SEXO * FUMA 2,503 2 1,252 ,862 ,424
Error 341,296 235 1,452
Total 2221,000 241
Total corregido 516,100 240
1. R cuadrado = ,339 (R cuadrado corregido = ,325)

Se deja como ejercicio para el lector el que se comprueben los clculos que
permiten obtener los estadsticos F de acuerdo con lo descrito en el cuadro 6.
Por ejemplo, para el factor sexo:

SCFsexo 2,645
MCFsexo J -1 = 2-1
F = =
MCR SCR 341,29 = 1,821
n - GJ 241 - 3 2

Tal y como ocurra con el anlisis de varianza de un factor, es fundamental


constatar el cumplimiento de la hiptesis de homogeneidad de las varianzas de
la variable dependiente mediante el test de Levene. Como se observa en el
cuadro 9, no puede rechazarse la hiptesis nula de homoscedasticidad
(p=0.225) a un nivel de significacin razonable, luego los resultados pueden
considerarse sin las precauciones que se derivaran de su incumplimiento.
20 Anlisis de la varianza
Joaqun Alds Manzano

Cuadro 9. Test de Levene

Contraste de Levene sobre la igualdad de las varianzas error 1

Variable dependiente: Deben aumentarse los impuestos

F gl1 gl2 Sig.


1,400 5 235 ,225
Contrasta la hiptesis nula de que la varianza error de la variable
dependiente es igual a lo largo de todos los grupos.

1. Diseo: Intercept+FUMA+SEXO+FUMA * SEXO

Finalmente, ilustraremos el resultado obtenido (recurdese: el hbito influye,


pero no as el sexo ni la interaccin de ambos), con un grfico similar a los que
utilizbamos para ejemplificar los posibles resultados que podan obtenerse
(figuras 2 a la 6), que se obtiene directamente de la salidad de SPSS. Anali-
zando la figura 7, podemos constatar que las medias crecen sistemticamente
cuando se pasa de ser fumador a haberlo dejado o no fumar. Por sexo las
medias estn muy cercanas entre los fumadores y tambin entre los no fumado-
res, y la diferencia que se aprecia por sexo entre quienes lo han dejado, no
compensan la igualdad anterior, lo que se deriva en no influencia del factor
sexo. Esto es tanto ms cierto, cuanto que el tamao muestral de este grupo es
muy inferior a los dems, como se puede apreciar en el cuadro 7 (14 sobre 241
entrevistados).
21 Anlisis de la varianza
Joaqun Alds Manzano

Figura 7. Resultado grfico del ANOVA


Medias marginales estimadas de Deben aumentarse los impuestos
4,0

3,5
Medias marginales estimadas

3,0

2,5

2,0
sexo

Hombre

1,5 Mujer
SI DEJADO NO

FUMA USTED?

Referencias bibliogrficas

URIEL , E. (1995): Anlisis de datos. Series temporales y anlisis multivariable.


Madrid: Editorial AC.
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate
Data Analysis. 4 edicin. Englewood Cliffs: Prentice Hall.
HATCHER, L. Y STEPANSKI, E.J. (1994): A Step-by-Step approach to using the
SAS System for univariate and multivariate statistics. Cary: SAS Insti-
tute Inc.
STEVENS, J. (1996): Applied Multivariate Statistics for the Social Sciences. 3
edicin. Mahwah, NJ: Lawrence Erlbaum.

Вам также может понравиться