Вы находитесь на странице: 1из 28

Tema 5: Análisis de la varianza

Índice
1. Introducción
2. Modelo ANOVA con 1 factor
3. Modelo ANOVA con k factores
4. Modelos ANOVA por bloques
5. Modelo MANOVA
6. Modelo ANCOVA-MANCOVA
7. Modelo de medidas repetidas

1. Introducción

Antes de empezar con el tema vamos a resumir las explicaciones principales que vamos a tratar más tarde en
este tema correspondiente al estudio del análisis de la varianza.

Este tema se ha estructurado en torno a 5 temas principales:


• Introducción: donde se presentará de forma sintética la utilidad principal de esta técnica de análisis y
sus características esenciales
• ANOVA: en la que presentaremos el modelo básico de análisis de la varianza
• MANOVA: en la que presentaremos el modelo multivariable del análisis de la varianza
• ANCOVA-MANCOVA: en la que presentaremos el modelo básico y multivariable de análisis de la
varianza con covariables
• Medidas repetidas: en la que presentaremos el modelo de análisis de la varianza para medidas
dependientes o relacionadas.

A modo de introducción debemos recordar los principios básicos de investigación basada en la


experimentación.

Un experimento es una situación creada por el investigador en la que se manipula el valor de ciertas
variables o tratamientos y se registran sus consecuencias sobre otro conjunto de variables.

Este planteamiento de investigación gira en torno a la hipótesis de existencia de una relación de causalidad
entre los tratamientos objeto de manipulación y las variables dependientes.

En este contexto, el análisis de la varianza es, por su naturaleza, la herramienta de análisis más empleada en
el estudio de los resultados derivados de un planteamiento experimental. Esto es así debido a la gran
versatilidad de este método a la hora de evaluar las relaciones existentes, por ejemplo, entre cierta variable
independiente y cierta variable dependiente, entre dos o más variables independientes y cierta variable
dependiente, entre dos o más variables independientes y dos o más variables dependientes consideradas
individualmente.
También para evaluar la interacción de dos o más variables independientes y un conjunto de variables
dependientes individualmente consideradas.

Y finalmente, la interacción de dos o más variables independientes y un conjunto de variables dependientes


consideradas de forma conjunta.

Se trata tan solo de algunos ejemplos de las posibilidades que nos ofrece este modelo que a la vista de su
pranteamiento consituye el primero de los procedimientos multivariables de análisis de este curso en el que
se desarrolla un análisis de dependencia.

Antes de profundizar en el conociminento de esta técnica, merece la pena detenernos un instante para
distingirla de otros procedimientos alternativos. Dicha distinción tiene fundamentalmente que ver con el tipo
y la cantidad de variables que son objeto de análisis en cada caso.

Así el análisis de la varianza es un conjunto de modelo que nos permitirán analizar la relación existente entre
un conjunto de variables nominales independientes y un conjunto de variables métricas dependientes. Existe
una excepción a esta regla general que consiste en la inclusión de variables independientes métricas que
complementan a las variables independientes nominales. Este caso se aboradará en el apartado dedicado al
modelo ANCOVA-MANCOVA.

El análisis de regresión permite explicar una única variable métrica dependiente a partir de un conjunto de
variables independientes igualmente métricas.
Finalmente, el análisis discriminante, otras de las técnicas que se aboradrán a lo largo de este curso, permite
explicar el valor de una única variable nominal dependiente a partir de un conjunto de variables
independientes métricas

Cada una de estas técnicas es apropiada para una situación diferente por lo que antes de aplicar una de ellas
es imprescible comprobar que efectivamente estamos ante la situación apropiada para su aplicación.

El análisis de la varianza es en realidad el témino genérico que se emplea para hacer referencia a un conjunto
de modelos lineales cuyo planteamiento, hipótesis y resultados variaran en función, principalmente, del
nñumero y naturaleza de las variables independientes y dependientes objeto de análisis.

• Llamamos modelo ANOVA con 1 factor al modelo univariable, es decir, con una única variable
dependiente que sólo incluye un factor nominal explicativo. Es el modelo báico de análisis de la
varianza.
• Cuando en lugar de un único factor, el modelo el modelo incluye k factores nominales explicativos
el modelo se denomina MANOVA con k factores. Modelo multivariable de análisis de la varianza.
• Si además de 1 o k factores el modelo incluye una variable independiente métrica o covariable el
modelo se denomina ANCOVA ( con 1 o k factores).
• Cuando el modelo en cuestión trata de explicar la variabilidad de r variables dependienes
simultáneamente, es decir, cuando el modelo adopta un enfoque verdaderamente multivariable, los
modelos anteriores pasan a denominarse respectivamente MANOVA con 1 factor, MANOVA con k
factores y MANCOVA.
Además de los 6 modelos genéricos anteriores, el modelo lineal general nos ofrece otro modelo particular
denominado Modelo de medidas repetidas cuya aplicación resultará adecuada en aquellos casos en los que
las medidas dependientes sean efectuadas dentro de grupos dependientes entre sí.

2. Modelo ANOVA con 1 factor

Aplicaciones

El modelo ANOVA con 1 o k factores es el más simple de los posibles modelos de análisis de la varianza que
pueden plantearse.

Las aplicaciones principales de este modelo básico son 3:


• Medir la significación de la influencia que 1 o varias variables independientes no métricas tienen
sobre una variable dependiente métrica
• Descubrir qué modalidades de las variables independientes provocan efectos significativos
• En el caso de que existan varias variables independientes, descubrir si la acción conjunta o
interacción de éstas provoca efectos significativos

Planteamientos

Empezaremos por conocer la lógica básica que subyace al planteamiento del modelo ANOVA con un único
factor.

Supongamos que dentro de una población de tamaño "N" se extrae una muestra de tamaño "n" en la que
llevaremos acabo otras tantas medidas de la variable métrica "y". Cada una de estas n medidas se anotarán
como "yi" (medidas de la variable dependiente). La media y la varianza muestral de estas n medidas
constituyen respectivamente una medida de tendencia central y de dispersión de la muestra respecto a dicha
media. Además asumimos que estos dos estadísticos constituyen estimadores insesgados de los
correspondientes para métodos poblacionales.

Supongamos que además del valor de la variable "y", conocemos el valor que en cada observación adopta
una supuesta variable explicativa nominal que clasifica la muestra y a la población en "p" grupos. Dicha
variable nos permite agrupar las "n" observaciones de la variable dependiente métrica en "p" submuestras en
las que podemos calcular el valor de la media y la varianza.

Ahora notamos como "yik" al valor i-ésimo de la variable dependiente medido dentro del grupo k-
ésimo.Análogamente, llamamos "μk" al valor de la media de la variable dependiente "i" en el grupo "k" y
sigma cuadrado sub "k" o varianzak al valor de este parámetro en el grupo "k".
Este esquema nos permite ya plantear el modelo básico con el que pretendemos explicar la variabilidad de la
variable dependiente .

En este caso trataremos de explicar el valor de cada observación i-ésima de la variable "i" tomada en el
grupo "j" como la suma de la media general de la población ( μ)más el efecto producido por el nivel j-ésimo
del factor o variable explicativa (αj) más un residio no explicado por dicho factor (Eij).

La contrastación de este nos permite contrastar la hipótesis de igualdad de medias de la variable dependiente
entre los "p" grupos determinados por el factor o alternativamente de que el efecto producido por los "p"
niveles del factor es igual a 0.

Independientemente del planteamiento de la hipótesis, el rechazo de la hipótesis nula nos llevaría a admitir la
existencia de diferencias entre las medias de la variable dependiente en los "p" grupos definidos por el factor
y por consiguiente, la existencia de un efecto producido por alguno de los niveles del mismo sobre la
variable dependiente.
Supuestos

La contrastación de este modelo a travésdel análisis de la varianza requiere del cumplimiento previo de los
siguientes supuestos:
• La variable dependiente debe seguir una distribución normal. Esta hipótesis será contrastada a través
del Test normalidad de Kolmogorov-Smirnov o mediante el examen del apuntamiento(curtosis) y la
asimetría de la distribución observada de la variable en cuestión (también representación gráfica).
• Debe cumplirse la hipótesis de homocedasticidad u homogeneidad de las varianzas de la variable
dependiente entre los "p" grupos definidos por el factor . Esta hipótesis se contrastará generalmente
el Test de Levene pero tambien se puede con el Test de Cochran y Bartlett
• Las "p" submuestras objeto de comparación deben ser aleatoriamente seleccionadas e independientes
entre sí, es decir, este modelo no es apto para la comparación de muestras relacionadas.

Descomposición de la varianza

Sobre la base de estos supuestos previos, el modelo ANOVA implica la descomposición de la varianza en
suscomponentes esenciales .

A nivel de cada observación, se asume que la diferencia entre cada observación i-ésima de la variable "i"
tomada en el grupo "k" y la media general de la variable "i" puede descomponerse en la diferencia entre la
media de la variable "i" en el grupo "k" y la media general de la variable y la diferencia entre cada
observación i-ésima de la variable "i" tomada en el grupo "k" y la media de la variable "i" en el grupo "k".

A n ivel agregado, la suma de diferencias entre cada observación i-ésima de la variable "i" tomada en el
grupo "k" y la media general de la variable "i" se descompone en la suma de las diferencias entre la media "i"
en cada grupo y la media general de la variable "i" y la suma de la diferencia entre cada observación i-ésima
de la vriable "i"tomada en el grupo "k" y la media de la variable "i" en dicho grupo "k".

En otras palabras, la variabilidad total o suma de cuadrados totales se descompone en la suma de cuadrados
explicados o variabilidad explicada por el factor, aquella que causa las diferencias entre la media de cada
grupo y la media general, y la media de cuadrados residuales o variabilidad no explicada por el factor o
variabilidad residual, aquella que tiene lugar dentro de cada uno grupos definidos para el factor.Al primero
de estos componentes se le denomina variabilidad inter-grupos mientras que al segundo variabilidad intra-
grupo.
Varianzas (medias cuadráticas)

Las varianzas o medias correspondientes a cada uno de estos componentes se calculan dividiendo cada uno
de estos elementos por sus respectivos grados de libertad.

En este caso el número de grados de libertad de la variabilidad explicada será igual al número de grupos
definidos por el factor menos 1 (p-1). Mientras que el de la variabilidad resudual al tamaño de la muestra
menos el número de grupos definidos por el factor (n-p).

La variabilidad total tendrá n-1 grados de libertad, la suma de los dos valores anteriores.

Tabla resumen

Estas varianzas tienen la particularidad de que la ratio "f" entre la varianza explicada y la varianza residual
tiene una distribución de probabilidad conocida que nospermite asociar al mismo un nivel de significación
sobre el cual basar nuestra decisión de rechazo o no de la hipótesis nula.
Por ejemplo, que supongamos que estamos ante un modelo en el que el factor tiene 4 niveles y la muestra
por 128 casos. En esta situación la distribución de probabilidad relevante es la "f" es de 4 menos 1, 3 y 128
menos 4 grados de libertad.

Medida de efectos

En esta distribución de probabilidad el valor 2,67 deja a su derecha un 5% de significación.

Por lo tanto si el valor de "f" obtenido en el modelo fuera por ejemplo de 50, mayor que 2,67, podríamos
rechazar la hipótesis nula con una probabilidad de error de menos del 5%.

Lo que nos llevaría a admitir la existencia de diferencia entre las medias de la variable dependiente de los 4
grupos definidos por el factor y la existencia de un efecto provocado por el factor.

Este constraste constituye el resultado principal de un análisis de la varianza. Sin embargo, a menudo, se
acompaña de una serie de indicadores y contrastes complementarios que permiten al analista profundizar en
el conocimiento de la relación objeto de estudio.

Eta-cuadrado

En primer lugar, se ofrece generalmente el coeficiente eta-cuadrado que se calcula como la ratio entre la
variabilidad indicada por el factor y la suma de la variabilidad explicada por el factor más la variabilidad
residual.

En el caso particular en el que sólo se incluye un factor del modelo dicho coeficiente será igual a la ratio
entre la suma de cuadrados explicados y la suma de cuadrados totales.
Cuanto mayor sea el coeficiente eta mayor será la capacidad explicativa del factor en relación con la variable
dependiente y viceversa.

Nivel de significación y potencia observada

Todo contraste se basa en la distinción de dos hechos probables, que H 0 sea cierta o que no lo sea, y de dos
posibles decisiones al respecto, aceptar H0 o no acerlo.

Sobre estas dos distinciones generlamente razonamos en términos de nivel de confianza (1-α) o probabilidad
de mantener la hipótesis nula cuando esta es cierta y nivel de significación (α) o probabilidad de cometer un
error de tipo 1 al rechazar H0 cuando esta es cierta.

Sin embargo, también es posible razonar en términos de probabilidad de cometer un error de tipo 2, es decir,
de no rechazar H0 cuando esta es falsa y la probabilidad de H 0 cuando esta es falsa.

Este valor de potencia de la prueba se presenta también generalmente junto con el resto de los resultados del
análisis de la varianza y será tanto más indicativo de la existencia de un efecto provocado por el factor
cuanto más cercano sea a la unidad.

Análisis post-hoc: diagrama de cajas y patillas

En tercer lugar, es habitual mostrar alguna indicación de las medias correspondientes a cada grupo, esto es,
de las medias cuyas diferencias son contrastadas.

Así por ejemplo, los diagramas de cajas y patillas o Box &Whisker Plot , repressentan las medias de cada
uno de los grupos rodeadas de una caja que representa la amplitud de un intervalo definido por el error típico
y de un par de patillas que representan el intervalo de confianza de cada media, esto es, la media más/menos
el error típico de la media por el valor de Z correspondiente a un 5% de significación.

Como cuando en este caso, los intervalos de confianza de dos grupos, es decir, sus patillas en el gráfico no se
solapan, podemos afirmar que existen diferencias significativas entre sus medias. En aquellos otros casos en
los que se produzcan solapamientos no cabe afirmar que existan diferencias significativas.
Finalmente, el análisis de la varianza se complementa con un conjunto de contrastes post-hoc que permiten
evaluar las diferencias existentes entre pares de grupos y, por consiguiente, determinar qué niveles del factor
están produciendo los efectos observados. Estos contrastes son muy diversos y suelen categorizarse en dos
grandes grupos: aquellos que asumen la hipótesis de homocedasticidad y auquellos otros que no la asumen.
Entre los primeros, los más populares el Test DMS (diferencias mínimas significativas), el de Bonferroni, el
de Scheffe, el de Tukey y el de Duncan.
3. Modelo ANOVA con k factores

En este apartado vamos a extender el modelo anterior al caso de dos factores. Su planteamiento es muy
similar al del caso anterior, aunque ligeramente más complejo.

Planteamiento

Suponemos que hemos extraido una muestra de tamaño "n" . Sin embargo, además de un primer factor a que
divide la muestra en "p" grupos, conocemostambién el valor que adopta un segundo factor b que divide la
muestra en "q" grupos.Conjuntamente la combinación de estos dos factores divide a la muestra en p por q
grupos o submuestras.

Modelo con k factores

Con este nuevo planteamiento el modelo a contrastar incluye dos nuevos enlementos en explicativos que se
suman a los ya existentes.

En esta ocasión, cada observación i-ésima de la variable "i" tomada en el grupo "k" del factor "a" y el grupo
"j" del factor "b" se explica como la media general de la muestra más el efecto producido por el nivel k-
ésimo del factor "a" más el efecto producido por el nivel j-ésimo del factor "b" mál el efecto producido por
la interacción del nivel k-ésimo del factor "a" y el nivel j-ésimo del factor "b" más un residuo que no es
explicado por ninguno de los componentes anteriores.

En esta ocasión tenemos 3 potenciales explicaciones de la variabilidad de la variable dependiente: efecto


principal del factor "a" , efecto principal del factor "b" e interacción de los factores "a" y "b".

Por lo tanto, en este caso, habrá que contrastar tres conjuntos de hipótesis uno para cada una de estas posibles
fuentes de variación o efectos.
Supuestos

Los supuestos sobre los que se basa la contrastación de dichas hipótesis mediante análisis de la varianza son
los mismos que en el caso anterior, es decir,normalidad o homocedasticidad, aleatoriedad e independencia de
las submuestras.

Descomposición de la varianza

La lógica general de la descomposición de la variabilidad es la misma que en el caso anterior. La variabilidad


total se descompone en la variabilidad explicada por el modelo y la variabilidad residual.

La diferencia se encuentra en los elementos que componen la variabilidad explicada. En este caso, además de
la variabilidad por el primer factor "a", incorporamos la variabilidad explicada por el segundo factor "b" y la
explicada por la interacción de axb de ambos factores.
Tabla resumen

Por lo tanto en la tabla resumen encontraremos las sumas de cuadrados correspondientes a cada fuente de
variación, es decir, las respectivas variabilidades, el número de grados de libertad de cada una de estas
fuentes (observemos que el nuevo factor tendrá q-1 grados de libertad, es decir, su número de categorías
menos 1 mientras que la interacción tendra (p-1)(q-1) grados de libertad ), tercer lugar encontraremos la
varianza o media cuadrática correspondiente a cada fuente de variación resultado del cociente entre la
respectiva suma de cuadrados y sus grados de libertad, y por último un ratio "f" para cada una de las fuentes
de variación explicativas. Estos valores de "f" nos permitiran hacer una valoración individualizada del efecto
producido por cada una de dichas fuentes de variación.

Eta-cuadrado

Como en el caso de un sólo factor, también con k factores podemos y debemos calcular los correspondientes
valores del coeficiente eta-cuadrado.

En esta ocasión, habrá que calcular tantos como fuentes de variabilidad explicativas incluyamos en el
modelo. 3 en este caso.
4. Modelo ANOVA por bloques

En este apartado vamos a estudiar un caso particcular del modelo univariable: los modelos por bloques.

Como veíamos en la introducción de este tema, un planteamiento experimental nos llevaría generalmente a
estudiar cierta muestra de observaciones aplicando previamente cierto número de tratamientos sobre otros
tantos conjuntos de la misma.

Sin embargo, como ya se estudió en IME-I, dicho planteamiento experimental está habitualmente sometido
al efecto de variables extrañas cuya influencia debería neutralizarse en la medida de lo posible.

Uno de los procedimientos más habituales para realizar esta neutralización consiste en incluir en el diseño
experimental alguna variable nominal relacionada con el efecto de estas variables extrañas.

Planteamiento completo

Pongamos un ejemplo que aclare este procedimiento.

Supongamos que estamos evaluando el efecto producido por el precio sobre las ventas de cierto producto.
Para ello establecemos 4 niveles o tratamientos de precio que son aplicados a otras tantas submuestras de
individuos para posteriormente registar los valores de compras realizados por cada uno de ellos.

En esta situación experimental, cabe pensar que el efecto del precio podría verse afectado por el nivel de
renta de los individuos. Por tanto, una buena práctica consistiría en igualar la proporción de individuos de
cada nivel de renta ( 4 en el siguiente esquema gráfico) y cada una de las submuestras.

A los efectos del análisis de la varianza la inclusión en el modelo de este factor de bloque, la renta reduciría
parte de la variabilidad residual y mejoraría las estimaciones del modelo.

Cuando al modelo incluye todos los posibles niveles del factor de bloque este tiene la misma consideración
matemática que un factor normal. Sin embargo, en ocasiones se considera únnicamente una muestra de todos
los posibles niveles del factor en cuestión, en cuyo caso el factor de bloque debe considerarse como un factor
aleatorio a los efectos de la estimación del modelo.
Modelo

Con independencia de esta consideración, en la ecuación representativa del modelo a estimar el factor de
bloque aparecerá representado ahora como una "B"

Y llevaría aparejado el correspondiente conjunto de hipótesis:

Descomposición de la varianza

Además, la variabilidad explicada por el modelo vendria dada en esta ocasión por la suma de la variabilidad
explicada por el factor más la variabilidad explicada por el factor de bloque.
Tabla resumen

En este caso, la tabla resumen contendría un valor de suma de cuadrados, grados de libertad, varianza y "f"
para el factor y otro parael factor de bloque.

Lógica

En general, el objetivo perseguido con este procedimiento es limpiar la muestra del efecto producido por el
factor de bloque con lo que se consigue mejorar la estimación del efecto neto producido por el factor
principal.

Planteamiento incorrecto

Un problema asociado a este planteamiento anterior es que el número de grupos o submuestras a estudiar
aumenta considerablemente a medida que lo hace el número de niveles de los factores principales y del
factor o factores de bloque.

Esto redunda en la necesidad de mayores tamaños muestrales y, por tanto, mayores costes de investigación.

Para paliar este problema a menudo se recurre al diseño incompletos. La lógica de estos diseños es similar a
la del caso concreto. La gran diferencia es que cada uno de los niveles del factor de bloque se considera
exclusivamente en alguno de los niveles del factor principal.

Cuadrado latino

El diseño en cuadrado, un cuadro latino, constituye un caso especial de diseño incompleto. Se trata de un
diseño en el que se consideran dos factores de bloque con el mismo número de niveles que el factor
principal.

En este caso se trata de diseñar un esquema en el que las muestras a analizar incluyan todas las posibles
combinaciones de los 3 factores considerados, el factor principal y los dos factores de bloque.

En el siguiente esquema el factor principal tiene 4 niveles (a, b, c y d), el primer factor de bloque tiene otros
4 niveles (1,2,3 y 4) y el segundo factor de bloque tiene otros 4 niveles (w,x,y,z).
El diseño que se propone llevaría a analizar el nivel "a" del fator principal en condiciones de bloque 1 y de
bloque "w", bloque 4 y bloque x, bloque 3 y bloque y, bloque 2 y bloque z. Algo similar ocurre con los 3
niveles restantes del factor principal.

Observemos que este esquema inplica analizar exclusivamente 16 combinaciones o submuestras en lugar de
las 4x4x4 es decir 64 combinaciones que serían necesarias por un diseño por bloques completo.

Modelo

Sin embargo, eso no nos impide estimar el modelo representativo de este diseño formado por 3 factores
explicativos: alfa o factor principal , "B" y "C" factores de bloque siguiendo el procedimiento habitual de
descomposición de la variabilidad.
5. Modelo MANOVA

Los modelos multivariables de análisis de la varianza son una extensión multidimensional de los
correspondientes modelos univariables en los que trataremos de evaluar el impacto provocado por uno o más
factores sobre un conjunto de "r" variables dependientes.

Plantamiento

En el caso más simple, el modelo multivariable con un solo factor la ecuación fundamental tendría la
siguiente forma:

Es decir, las medidas de las "r" variables dependientes devaluadas en el individuo i-ésimo perteneciente al
grupo k-ésimo del factor se explican como las medias de cada una de las "r" variables dependientes más el
efecto del nivel k-ésimo del factor sobre cada una de las "r" variables dependientes más un residuo
correspondiente a cada variable dependiente.

Es decir, en este caso en lugar de un modelo de valores escalares tendremos un modelo de vectores.

Modelo

Por lo tanto la hipótesis a contrastar se planteará igualmente de forma vectorial.

En este caso, la hipótesis nula repressenta el caso de ausencia de diferencias entre los vectores de "r" medias
correspondientes a los "p" niveles del factor mientras que la hipótesis alternativa implicaría la existencia de
diferencias entre algunos de dichos vectores de medias y por consiguiente la existencia de cierto efecto del
factor considerado.
Supuestos

Los supuestos básicos sobre los que sustenta la estimación de este modelo no son, en este caso, sino una
extensión multivariable de los correspondientes al modelo univariable.
• Las variables dependientes siguen una distribución normal multivariable, esdecir,asumimos el
cumplimiento de las hipótesis de normalidad multivariable que contrastaremos a través del Test de
Mardia ( que no está disponible en SPSS)
• Homocedasticidad multivariable o igualdad de las matrices de varianzas -covarianzas que podremos
contrastar a través del Test de Box
• Las submuestras son independientes y aleatorias. Ambas características vienen determinadas por el
modo de selección de las submuestras.

A estos supuestos de caracáter teórico se añade otro de naturaleza práctica.


• Para que el modelo multivariable resulte superior a un conjunto de modelos univariables estimados
para cada una de las variables dependientes por separado debe cumplirse que las variables
dependientes estén sigificativamente correlacionadas entre sí, es decir, que esten relacionadas entre
sí. Para contrastar este cuarto supuesto haremos uso del conocido Test de esfericidad de Bartlett

Descomposición de la varianza

La descomposición de la varianza total se basa en la misma lógica que en el caso de los modelo univariables.
La variabilidad total se descompone pues en variabilidad explicada por el factor y variabilidad residual.

Sin embargo, dado que en este caso trabajamos con valores vectoriales y matriciales en lugar de con
escalares, los valores de sumas de cuadrados serán, en este caso, matrices de sumas de cuadrados y productos
cruzados.
Estadísticos

Otra diferencia importante con los modelos univariables tiene que ver con el estadístico de contraste.

En este caso, en lugar del estadístico "f" o ratio entre varianzas explicada y varianza residual, utilizaremos
uno de los siguientes estadísticos:

Todos estos estadísticos se calculan a partir de los valores propios o lambda correspondientes al matriz de
suma de cuadrados y productos cruzados totales.

En general, se ha demostrado que Lambda de Wilks es el más rebusto de estos cuatro estadísticos, lo que lo
ha convertido en el estadístico más empleado en la evaluación de modelos multivariables de la varianza.
Además, su valor es igual a la ratio entre el determinante de la matriz "r" de sumas de cuadrados y producto
cruzado residuales y la matriz "t" de suma de cuadrados y productos cruzados totales. Por lo que constituye
un indicador directo de la proporción de variabilidad no explicada por el factor en cuestión, es decir, la
capacidad explicativa del factor en relación con las "r" variables dependientes será tanto menor cuanto mayor
sea el valor de Lambda de Wilks.

Cualquiera que sea el estadístico de referencia empleado su interpretación se basará en la inspección del
nivel de significación asociado. Niveles de significación inferiores a 0,05 nos permitirán rechazar la hipótesis
nula y por tanto admitir que el factor en cuestión tiene un efecto significativo sobre el conjunto de "r"
variables dependientes y viceversa.
6. Modelo ANCOVA/MANCOVA

En este apartado del tema vamos a estudiar la inclusión de covariables o variables independientes métricas
de los modelos uni o multivariables de análisis de la varianza.

Entraremos en la explicación, en el caso más sencillo posible, el de la inclusión de una covariable en un


modelo univariable de un solo factor. No obstante, cualquier otro modelo no sería sino una extensión de este
modelo básico en el que la inclusión de este tipo de variables respondería a la misma lógica fundamental.

En primer lugar, debemos subrrayar que un modelo con covariables es un modelo en el que además de uno o
varios factores explicativos nominales se incluye una variable métrica explicativa. Recordamos que si el
modelo sólo incluyera variables explicativas métricas nos encontraríamos ante un modelo de regresión lineal
y no ante un verdadero modelo de análisis de la varianza.

En segundo lugar debemos aclarar que la inclusión de una covariable o variable explicativa métrica tiene
normalmente por objetivo la neutralización del efecto potencialmente nocibo o extraño que cierta variabe
métrica pueda ejercer sobre los resultados de un experimento.

Supongamos, por ejemplo, que pretendemos evaluar el impacto de 3 formatos alternativos de spot
publicitario sobre la imagen de cierto producto. El formato de anuncio constituiria el factor explicativo
mientras que la imagen del producto, medida a través de una escala métrica, constituiria la variable
dependiente del modelo.

En este caso, cabría suponer que el impacto generado por los 3 formatos de anuncio podría verse afectado
por la actitud de los individuos hacia la publicidad en general. Es decir, si cierto individuo tubiera una actitud
general negativa frente a la publicidad el impacto de un anuncio sobre la actitud hacia el producto podría ser
menor que el ejercido en el caso de que otro individuo con una actitud más favorable hacia la publicidad
fuera sometido a este mismo anuncio. En tal caso, cabria incluir en el modelo una medida métrica de la
actitud general hacia la publicidad de los individuos como variable explicativa. De este modo eliminariamos
su efecto y obtendríamos el efecto neto producido por los 3 formatos de anuncio.

Modelo

En este modelo básico con un solo factor y una única variable dependiente la ecuación fundamental del
modelo con covariables sería la siguiente:

En este caso, el sumando que aparece ponderado por el coeficiente beta representa la influencia ejercida por
la covariable. De echo, el coeficiente beta del modelo representa la pendiente de la recta de regresión de la
covariable sobre la variable dependiente.

La estimación del modelo propuesto nos permite contrastar dos tipos de hipótesis: uno correspondiente a los
efectos producidos por los factores sobre las variables dependientes, es decir, en este caso el efecto del
formato del anuncio sobre la actitud hacia el producto, y otro correspondiente al efecto de las covariables, es
decir, al efecto de la actitud general hacia la publicidad en el ejemplo anterior.
Destacamos que el modelo que acabamos de plantear no incluye, no debe incluir de hecho en este caso, el
efecto interacción del factor y la covariable. No obstante, como veremos a continuación, será necesario
evaluar su significación antes de evaluar el modelo para comprobar el cumplimiento de supuestos básicos
que han de satisfacerse para estimar este tipo de modelos.

Ilustración

Analicemos mediante una serie de representaciones gráficas de qué modo opera un modelo con covariables y
cómo la inclusión de éstas permite mejorar la capacidad explicativa del modelo.

En el ejemplo al que antes hicimos referencia suponiamos que evaluavamos una variable dependiente
métrica, actitud hacia el producto. Gráficamente representamos este conjunto de medidas como un conjunto
de puntos en el gráfico.

No obstante, como conocemos que este conjunto de medidas a sido realizado tras someter a los entrevistados
a 3 tratamientos o anuncios alternativos, podemos dividir la muestra en 3 grupos o submuestras deimitadas
por el tratamiento al que estos fueron sometidos.
El problema en este caso, es que la variabilidad existente dentro de los grupos podría ser relativamente
importante, tanto que podría impedirnos concluir la existencia de diferencias significativas entre las medias
de los 3 grupos experimentales aún cuando a nivel muestral las medias resulten aparentemente diferentes.
Lógica

La inclusión de una covariable nos permitirá fundamentalmente reducir esta variabilidad existente dentro de
los grupos experimentales tanto más cuanto mayor sea su influencia sobre la variable dependiente. A
continuación vemos como.

Si ahora representamos gráficamente la nube de puntos correspondiente a la variable dependiente y a la


covariable y calculamos la recta de regresión entre ambas, comprobamos que el valor de la variable
dependiente en cada punto puede descomponerse en dos partes: una parte que es explicada por la covariable
a través de la recta de regresión y otra que no es explicada por la recta de regresión y por tanto constituye el
residuo de la misma.

Al incluir una covariable en un modelo de análisis de la varianza dicho modelo es calculado de modo que, en
primer lugar, se calcula la recta de regresión entre la covariable y la variable dependiente y, en segundo
lugar, se estima la parte del modelo correspondiente al factor considerado teniendo en cuenta únicamente los
residuos resultantes de dicha recta de regresión .

Los residuos representados anteriormente, ahora ya están libres del efecto producido por lo covariable por lo
que si este fuera importante, el nivel de variabilidad intra-grupo se habria visto considerablemente reducido.

En nuestro ejemplo, comprobamos que efectivamente los valores de la variable dependiente son, despues de
quedarnos sólamente con los residuos de la regresión, mucho más homogéneos dentro de cada grupo. Lo que
probablemente nos llevaría a poder admitir la existencia de diferencias entre las medias de los 3 niveles de
tratamiento.
Supuestos

Como en los modelo anteriores, también en los modelos de análisis de la varianza con covariables, se
requiere el cumplimiento previo de una serie de supuestos básicos.

De hecho, por una parte, dichos supuestos son los propios del modelo en cuestión obviando la covariable:
• La variable dependiente sigue una distribución normal. Normalidad univariable si estamos ante un
modelo univariable y multivariable si el modelo incluye vairas variables dependientes
• Homocedasticidad (homogeneidad de varianzas) uni o multivariable en función del tipo de modelo
• Las submuestras son independiente y aleatorias

Sin embargo, la inclusión de covariables impone dos nuevos supuestos básicos:


• La homogeneidad de los coeficientes de regresión (pendientes) entre las diferentes submuestras
definidas por el factor o factores del modelo
• Existencia de una relación lineal entre la covariable y la variable dependiente

En relación con el primero de estos nuevos supuestos simplemente añadiremos que el modo habitual de
contrastar su cumplimiento consiste en evaluar con anterioridad a la evaluación del modelo propuesto la
significación del efecto interacción del factor y la covariable. Si dicha interacción fuera significativa ello
implicaría que la pendiente de la recta de regresión, es decir, el parámetro beta, es diferente para cada uno de
los grupos definidos por el factor. Lo que indicaría un incumplimiento del supuesto en cuestión.

Veamos gráficamente a qué nos referimos con este nuevo supuesto.

El modelo con covariables asume que la pendiente o parámetro beta de la recta de regresión es única para
todos los niveles de tratamiento. Sin embargo, en ocasiones, esto puede no ser cierto.
En nuestro ejemplo, podría darse que la pendiente de la recta de regresión fuera distinta en cada uno de los 3
niveles del factor, lo que supondría una violación de este supuesto básico.
7. Modelo de medidas repetidas

En esta última parte del tema vamos a presentar los fundamentos del modelo de análisis de la varianza de
medidas repetidas.

Planteamiento

Esquemáticamente podríamos describir el modelo de medidas repetidas de un solo factor como aquel que se
correspondería con un caso en el que en una muestra de tamaño (n) realizaramos un conjunto de medidas de
la variable dependiente (yi).

Podemos cálcular lógicamente la media y la varianza de dichas medidas:

Hasta aquí el planteamiento sería idéntico al del modelo básico con un único factor. Sin embargo, en esta
ocasión, en lugar de un factor que delimita un conjunto de grupos dentro de la muestra, lo que tenemos es "t"
medidas de la misma variable, tomadas sobre la misma muestra aunque en momentos diferentes de tiempo.

Para cada uno de estos conjuntos de medidas podemos calcular, lógicamente también, sus correspondientes
medias y varianzas.
Supuestos

El problema ahora es que estos conjuntosde medidas estan por definición relacionados entre sí, es decir, las
muestras que comparariamos en este caso si realizaramos un análisis de la varianza convencional serían
muestras relacionadas. Lo que supondría una violación evidente del tercer supuesto básico del análisis de la
varianza.

Enfoques de contraste

En estos casos pues, cabe abordar la contrastación de la hipótesis de diferencia de medias entre los "p"
conjuntos de medidas mediante dos procedimientos alternativos:
• Enfoque multivariable
Implicaría contrastar el modelo como si se tratara de un modelo multivariable con tantas variables
dependientes como niveles tenga el factor intra-sujetos, es decir, tantas variables dependientes como
conjuntos de medidas relacionadas sean objeto de comparación
• Enfoque univariable
El modelo se contrasta como si se tratara de un modelo univariable inter-sujetos convencional,
siempre que se verifique previamente la hipótesis de esfericidad de la matriz de varianzas-
covarianzas (Test de Mauchly)

Вам также может понравиться