Вы находитесь на странице: 1из 26

© Leticia de la Fuente Sánchez y Juan García García 1

Diseños de investigación básicos y análisis de datos II.

Diseños con más de dos grupos independientes.

1. Características fundamentales de los diseños básicos con más de dos


grupos independientes

2. Fundamentos del Análisis de Varianza para diseños básicos con más


de dos grupos independientes

3. Supuestos que deben cumplir los datos para poder analizarlos


mediante el modelo de Análisis de Varianza

4. El Procedimiento Análisis de Varianza en SPSS


4.1. Supuesto práctico
4.2. Editor de datos, instrucciones y tipos de análisis
4.3. Resultados e Interpretación
4.4. Tamaño del efecto
4.5. Pruebas Post hoc: Comparaciones múltiples complementarias
al Análisis de Varianza

5. Alternativas no paramétricas al ANOVA para datos ordinales

6. Alternativas no paramétricas al ANOVA para datos nominales

Apéndice I. Ampliaciones del Análisis de Varianza


Apéndice 2. La opción Contrastes en SPSS

Textos complementarios
© Leticia de la Fuente Sánchez y Juan García García 2

1. Características fundamentales de los diseños básicos con más de dos


grupos independientes
Los diseños básicos con más de dos grupos (o muestras) independientes son una
extensión de los diseños con dos grupos independientes vistos en la unidad anterior y,
como aquellos, son procedimientos básicos aplicables tanto en contextos
experimentales, cuasi-experimentales, como no experimentales.
En el contexto experimental estos diseños se caracterizan por la existencia de
único factor o variable independiente (VI) directamente manipulado por el investigador
y una variable dependiente (VD) o variable respuesta. La variable independiente tomará
más de dos niveles, a los cuales son asignados los sujetos participantes en la
investigación, formando tanto grupos como niveles o condiciones experimentales tenga
dicha VI. Esta asignación se realiza mediante procedimientos aleatorios, de manera que
se pueda asegurar la equivalencia inicial de los grupos. Se crean, de esta manera, tres o
más grupos o muestras independientes que, posteriormente a la aplicación del
tratamiento experimental, serán comparados, habitualmente a través de la puntuación
media de cada grupo en la VD. En el contexto experimental este tipo de diseño de
investigación se suele denominar “diseño unifactoral inter-sujeto” o “diseño unifactorial
de grupos aleatorios”. La principal ventaja de este diseño respecto al de dos grupos
independientes es que permite obtener una información más precisa acerca de la
relación entre la variable independiente y la variable dependiente, ya que proporciona
más información.
Cuando la forma de asignar los participantes a los grupos de comparación no
puede realizarse mediante procedimientos aleatorios, debido a restricciones del ámbito
aplicado, pero la variable independiente sí es manipulada por el investigador (por
ejemplo, la aplicación o no de un tratamiento o intervención), la investigación se
encuadra dentro de los Estudios Cuasi-Experimentales, y concretamente este tipo de
diseño, dentro de los “diseños con observaciones sólo post, con grupos duplicados”.
Estos grupos, dependiendo del estudio concreto, podrán ser un grupo tratamiento y
varios “cuasi-controles” o varios grupos tratamiento y uno “cuasi-control”.
Finalmente, en el contexto no experimental, la estructura básica del diseño es la
misma, con la diferencia de que en este caso, la variable independiente no puede ser
manipulada (y por tanto la asignación aleatoria no cabe planteársela), ya que
habitualmente es alguna característica propia de los sujetos. En estos casos, el estudio se
encuadraría dentro de los denominados Diseños Ex post Facto, y el diseño con más de
© Leticia de la Fuente Sánchez y Juan García García 3

dos grupos independientes, concretamente, pertenecería a los diseños prospectivos


simples multigrupos, o a los diseños transversales, cuando los grupos de sujetos
estuvieran formados en función de la edad (que sería la VI). Por tanto, ya sea en los
diseños cuasi-experimentales, como en los diseños ex pos facto con grupos
independientes, se trabajará con grupos ya formados o ya existentes, cuyas medias o
medidas similares en una variable respuesta (VD) interesará comparar.

2. Fundamentos del Análisis de Varianza para diseños básicos con más


de dos grupos independientes
En este tema se va a tratar el Procedimiento de Análisis de la Varianza o
ANOVA (siglas del término inglés Analysis of Variance), como técnica estadística para
analizar los datos procedentes de los diseños básicos con más de dos grupos
independientes, en los que cada sujeto obtiene solamente una puntuación. Por tanto, se
desarrollará el modelo básico de ANOVA, pero este procedimiento de análisis
estadístico es más general y se puede aplicar al análisis de diseños más complejos, con
más de un VI (factoriales), o a diseños con medidas repetidas. Esta técnica es muy
utilizada en los análisis de datos procedentes de los diseños experimentales, pero es
igualmente aplicable a los datos procedentes de diseños cuasi-experimentales y no
experimentales. Se deberá de tener en cuanta siempre, en este sentido, que la decisión
final de cuál o cuáles son las causas de los efectos encontrados por el análisis estadístico
estará guiada por las características del diseño aplicado (el análisis estadístico es
“ciego” el diseño utilizado, el investigador no debe serlo).
El ANOVA responde a una formulación específica del Modelo Lineal General, el
modelo estadístico más utilizado en las Ciencias del Comportamiento para describir la
relación entre dos o más variables. Según este modelo, la variabilidad encontrada en una
VD después de realizar un estudio se puede describir como el resultado de una suma
ponderada de efectos:

Observaciones de la Variable Dependiente = efectos de factores constantes a todos los


sujetos del estudio + efectos de factores sistemáticos, introducidos directamente por el
investigador (VI) + efectos de factores aleatorios.

La denominación Análisis de Varianza, por tanto, se debe a que este procedimiento lo


que hace es descomponer (dividir) la variabilidad de la variable dependiente en varios
© Leticia de la Fuente Sánchez y Juan García García 4

componentes (el número dependerá de cuántas variables independientes haya en el


estudio), siendo cada uno de estos componentes atribuido a una fuente de variabilidad
(o efecto) identificable. Así por ejemplo, en un diseño con una sola VI, la variación
encontrada en la VD después de realizado el estudio se descompondría en dos
componentes o efectos1:
2. El efecto de factores aleatorios, denominado también variabilidad intra-grupo.
Este efecto viene determinado por la variación de la puntuaciones de los sujetos
pertenecientes a un mismo grupo, y que no puede ser explicada por el efecto del
tratamiento, puesto que todas las personas del grupo recibieron el mismo
tratamiento; por tanto, esta variabilidad dentro del grupo se considera una
variación básica provocada por factores aleatorios independientes del efecto del
tratamiento, y en este sentido, variabilidad residual o componente aleatorio.
3. El efecto de un factor sistemático, denominado variabilidad inter-grupo, que se
ha introducido en el estudio y que provoca que las puntuaciones medias de los
distintos grupos sean diferentes entre sí (nuestra hipótesis mantendrá que este
factor sistemático es el tratamiento administrado).
Cada uno de estos efectos o componentes de variabilidad toma un valor numérico
concreto, que se obtiene a partir de los valores obtenidos por los sujetos del estudio en
la VD. Una vez obtenidos dichos valores, el ANOVA los pone en relación mediante un
estadístico de contraste, denominado F de Snedecor.
La F de Snedecor es, por tanto, una razón o cociente que pone en relación estos
dos tipos de efectos: el efecto de factores aleatorios y el efecto del factor sistemático,
que en el contexto del ANOVA denominaremos variabilidad o varianza error aleatoria
y variabilidad o varianza debida al tratamiento o VI, respectivamente. Concretamente:

VariabilidadVI
Fobs =
Variabilidad ERROR

Las expresiones estadísticas de estas dos fuentes de variación o varianzas son:


Media Cuadrática Inter-grupos y Media Cuadrática Intra-grupo o error,
respectivamente, y como tales aparecerán en las salidas de resultados del ANOVA en el
SPSS.

1
Aparte del efecto común o constante para todos los sujetos del estudio, que no se utiliza para el análisis.
© Leticia de la Fuente Sánchez y Juan García García 5

El valor empírico del estadístico F, servirá para el objetivo final: saber si las
diferencias que encontramos en nuestros datos, a través de las medias de los diferentes
grupos, una vez se han aplicado los tratamientos, pueden ser atribuidas, con el margen
de error delimitado por el nivel de significación α = 0,05 (un nivel de confianza del 95%),
al efecto de los factores aleatorios o azarosos, o no.
Para ello, se aplicará la regla de decisión sobre la H0 basada en el contraste de
hipótesis clásico. En este caso responderíamos a la siguiente pregunta: ¿cuál es la
probabilidad de que este resultado sea debido al azar? Si ese valor de probabilidad es
“suficientemente pequeño”, es decir, es menor o igual que el valor estipulado por el
nivel de significación (p ≤ 0,05;α = 0,05), rechazamos el azar como hipótesis
explicativa (rechazamos la H0).

3. Supuestos que deben cumplir los datos para poder analizarlos mediante el
modelo de ANOVA
Para poder aplicar correctamente el ANOVA a un conjunto de datos, dichos datos
deben satisfacer los siguientes supuestos básicos:
(1) Normalidad: las puntuaciones de los diversos grupos en la VD se deben distribuir
normalmente. El ANOVA es robusto al incumplimiento de este supuesto, no
obstante, si la muestra es pequeña es conveniente evaluarlo.
(2) Homocedasticidad: Las varianzas de los distintos grupos de tratamiento han de ser
homogéneas (no deben existir entre ellas diferencias estadísticamente
significativas). El ANOVA es robusto al incumplimiento de este supuesto con
tamaños muestrales iguales en todos los grupos y no muy pequeños. No obstante, es
aconsejable evaluarlo. Se puede hacer al mismo tiempo que se ejecuta el
Procedimiento para el ANOVA con el SPSS, como se verá en los ejemplos.
(3) Independencia de la observaciones: las puntuaciones de los diversos grupos en la
VD han de ser independientes, lo que asegura que la razón entre la varianza debida
al efecto de la(s) VI(s) y la varianza debida al efecto del error, siga una distribución
F de Snedecor con el alfa nominal estipulado y los grados de libertad asociados al
numerador y al denominador de dicha razón. El ANOVA NO es robusto al
incumplimiento de este supuesto, que se suele incumplir prácticamente siempre que
los datos proceden de diseños con medidas repetidas. En estos casos, es necesario
tener en cuenta otras opciones.
© Leticia de la Fuente Sánchez y Juan García García 6

(4) Nivel de medida de la VD: la variable dependiente debe estar medida en una escala
de razón o de intervalo.
Estos supuestos es necesario considerarlos antes de aplicar el ANOVA. Si NO se
cumplieran, los resultados que aporta al análisis de varianza pueden ser incorrectos y
nos pueden llevar a rechazar hipótesis nulas cuando no deberían rechazarse; es decir, a
cometer errores tipo I.

4. El Procedimiento Análisis de Varianza en SPSS


El procedimiento para realizar un análisis de varianza con SPSS varía en función del
tipo de diseño que se haya aplicado en el estudio cuyos datos queramos analizar. A
continuación se verá cómo realizar e interpretar un ANOVA para los diseños con más
de dos grupos independientes y una puntuación por sujeto.

4.1. Supuesto práctico


Se ha realizado un estudio cuasi-experimental para comprobar si dos alternativas
terapéuticas contra la depresión difieren entre sí a la hora de aumentar los sentimientos
positivos y las conductas asertivas en pacientes diagnosticados de depresión. Se planteó
realizar el estudio con dos grupos de tratamiento y otro grupo de control. En total se
seleccionaron 30 pacientes de tres centros de salud mental, de manera que se formaron
tres grupos con 10 pacientes cada uno. Al finalizar el periodo estipulado para los
tratamientos, se evaluaron los comportamientos asertivos mediante un cuestionario de
depresión elaborado a tal efecto en los tres grupos de pacientes. Sus puntuaciones se
pueden ver en el archivo de datos “Multigrupos.sav”.

4.2. Editor de datos, instrucciones y tipo de análisis


Una vez se han introducido los datos en el Editor de datos (mirar a este respecto
el tema correspondiente a la prueba t para contraste de dos medias independientes), en
primer lugar, antes de realizar el ANOVA, es conveniente comprobar si los datos que
tenemos cumplen los supuestos necesarios. Normalidad: por ejemplo, mediante el
Procedimiento Analizar, Estadísticos Descriptivos, Explorar. Homocedasticidad: se
evalúa en el mismo procedimiento que el ANOVA, no es necesario hacerlo antes.
Independencia: cuando los datos proceden de un diseño de grupos de sujetos distintos,
las puntuaciones se consideran independientes y, por tanto, no es necesario evaluar este
supuesto. Nivel de medida: la escala de medida que se utiliza es adecuada. El resultado
de evaluar el supuesto de Normalidad es el siguiente:
© Leticia de la Fuente Sánchez y Juan García García 7

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Grupo de pertenencia Estadístico gl Sig. Estadístico gl Sig.
Puntuaciones Control ,131 10 ,200* ,924 10 ,395
Conductas Asertivas Tratamiento A ,173 10 ,200* ,914 10 ,307
Tratamiento B ,177 10 ,200* ,946 10 ,624
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Como se puede observar en la tabla anterior, podemos asumir que las puntuaciones se
distribuyen Normalmente.
Para ejecutar el ANOVA, el procedimiento más sencillo es Analizar,
Comparar medias, ANOVA de un factor. En este ventana, se deben indicar la
variable dependiente y la independiente: introducimos la VD “Asertividad” en “Lista de
dependientes” y la VI “Grupo” en “Factor”.
Este procedimiento tiene tres posibilidades además de realizar la prueba global
del ANOVA: Contrastes, Post hoc y Opciones. La ventana Opciones permite
seleccionar estadísticos descriptivos, la prueba de Levene para comprobar el supuesto de
homocedasticidad, gráfico para las medias y también permite obtener los valores de dos
estadísticos (Brown-Forsythe y Welch) que son preferibles al estadístico F de Snedecor
cuando no se cumple el supuesto de homocedasticidad. También permite controlar el
tratamiento de valores perdidos.

Tanto la opción Contrastes como la opción Post hoc se utilizan para realizar
comparaciones múltiples adicionales a la prueba de ANOVA. La forma de utilizar la
© Leticia de la Fuente Sánchez y Juan García García 8

opción Contrastes se desarrolla en el anexo 2. La opción Post hoc se verá a


continuación del ANOVA.

4.3. Resultados e Interpretación del Análisis de Varianza

En primer lugar, en la salida de resultados aparecen los descriptivos y la prueba para evaluar el
supuesto de igualdad de varianzas que solicitamos en la ventana Opciones.

Descriptivos

Puntuaciones Conductas Asertivas


Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
Control 10 9,80 3,910 1,236 7,00 12,60 4 15
Tratamiento A 10 29,80 3,736 1,181 27,13 32,47 25 35
Tratamiento B 10 33,50 4,767 1,507 30,09 36,91 25 40
Total 30 24,37 11,324 2,068 20,14 28,60 4 40

Prueba de homogeneidad de varianzas

Rendimiento
Estadístico
de Levene gl1 gl2 Sig.
,119 2 27 ,888

Como se puede ver en la tabla, el resultado de la prueba de homogeneidad de varianzas indica


que sí se cumple el supuesto y, por tanto, es fiable el resultado del ANOVA.
A continuación, aparece la tabla resumen del ANOVA para las variables que hemos
indicado.

ANOVA

Puntuaciones Conductas Asertivas


Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 3251,267 2 1625,633 93,847 ,000
Intra-grupos 467,700 27 17,322
Total 3718,967 29

El resultado del Análisis de Varianza indica que podemos rechazar los factores
aleatorios como explicación de las diferencias de medias que encontramos en nuestros
datos, ya que el valor de probabilidad asociado al estadístico F (Sig. = 0,000) está por
debajo del nivel de significación que, como ya sabemos es 0,05.
© Leticia de la Fuente Sánchez y Juan García García 9

4.4. Tamaño del efecto

Una vez que el ANOVA ha determinado que exsite un efecto estadísticamente significativo, es
conveniente conocer cómo de importante es dicho efecto. Para ello, es necesario obtener un
índice que nos exprese lo que conocemos como “tamaño del efecto”.2
El tamaño del efecto es un índice que expresa, de forma general, “el grado o magnitud
de la relación entre la variable dependiente y la variable independiente”. Si la variable
independiente explica todos los cambios registrados en la variable dependiente, entonces la
relación entre las variables es perfecta, mientras que si no explica nada, la relación es nula.
Para estimar el valor del tamaño del efecto se pueden utilizar diversos índices, siendo

uno de los más utilizados junto con el análisis de varianza el conocido como η2 (eta cuadrado),
de la familia de índices basados en la proporción de varianza explicada o familia r (Kirk,
1996; Maxwell y Delaney, 1990; Richardson, 1996; Rosenthal, 1994; Yeaton y
Sechrest, 1981). Para estimar el valor de η2 se utilizan los datos obtenidos en el ANOVA,
concretamente se calcula mediante un cociente entre la variabilidad atribuida al tratamiento y la
variabilidad total:

SCINTER
η2 =
SCTOTAL

Los valores que puede tomar η2 oscilan entre 0 y 1, expresando la proporción de varianza de la
variable dependiente que puede ser explicada por el efecto de la variable independiente. Con los
datos del ejemplo utilizado anteriormente para el ANOVA, el tamaño del efecto sería:

SCINTER 3251.26
η2 = = = 0.87
SCTOTAL 3718.96

Por tanto, la varianza atribuible al efecto de la VI es de 0’87, lo cual quiere decir que el 87% de
la variación observada en los comportamientos asertivos de los diferentes grupos, corresponde
al tipo de tratamiento al que fueron asignados los pacientes que participaron en el estudio.
Una guía que puede orientar a partir de qué valores se puede considerar un tamaño del
efecto bajo, medio o alto, es la siguiente (Cohen, 1988):
- Valores de η2 entre 0 y 0’199: tamaño del efecto bajo
- Valores de η2 entre 0’2 y 0’399: tamaño del efecto medio
© Leticia de la Fuente Sánchez y Juan García García 10

- Valores de η2 entre 0’4 y 1: tamaño del efecto alto

4.5. Pruebas Post hoc: Comparaciones Múltiples complementarias al


Análisis de Varianza
El Análisis de Varianza es una prueba de significación general, lo que significa
que la información que aporta hace referencia a la existencia de diferencias
estadísticamente significativas entre los grupos, en el caso de que rechacemos la H0. Sin
embargo, no nos permite saber entre qué grupos están exactamente esas diferencias.
Para obtener esta información, después de realizar el ANOVA se pueden llevar a
cabo diversas comparaciones entre las medias de los grupos específicos que nos
interesen. El OBJETIVO, por tanto, de estas comparaciones es obtener información
concreta sobre el efecto de la variable independiente. Se denominan “comparaciones
múltiples” porque habitualmente se lleva a cabo más de una comparación.
Existen muchos procedimientos para realizar las comparaciones múltiples, que
pueden ser clasificadas en función de dos criterios:
- El primero de ellos es si los contrastes se han definido antes de realizar los
análisis de resultados o después de conocer cuáles son las medias de cada grupo.
En el caso de que se hayan formulado en función de unos criterios teóricos y
antes de conocer cuáles son las medias de los grupos se denominan contrastes o
comparaciones planificadas, recibiendo también el nombre de comparaciones a
priori (corresponderían a la opción Contrastes del procedimiento ANOVA de
un factor del SPSS). En el caso de que las medias que se decidan contrastar no
obedezcan a ningún criterio predefinido, sino que se definen a partir de los
resultados o después de realizados los análisis, se denominan comparaciones a
posteriori o comparaciones post hoc. En este segundo caso, una vez se obtienen
los datos del ANOVA, se decide realizar un número de contrastes suficiente que
permita obtener la máxima información posible. Los contrastes post hoc son los
más habituales.
- Una segunda clasificación se realiza en función de si las comparaciones
involucran únicamente a dos medias o se formulan contrastes que involucran a
más de dos medias. Cuando únicamente se comparan medias de grupos dos a
dos, se denominan comparaciones simples o entre pares de medias. Frente a las

2
Para una explicación más amplia del concepto “tamaño del efecto” remítase al punto correspondiente
© Leticia de la Fuente Sánchez y Juan García García 11

comparaciones simples están las complejas, en estas últimas se prueba si difiere


la media de un grupo frente a la media de otros dos, o la media de dos grupos
frente a la de otros tres, o cualquier otra posible combinación que incumba a más
de dos grupos.
Combinado ambos criterios, se puede decir que cuando se realizan comparaciones a
priori, se suelen realizar tanto simples como complejas, mientras que cuando las
comparaciones son a posteriori, los contrastes son habitualmente simples.
Por tanto, la opción Post hoc se utiliza cuando no partimos de hipótesis claras
acerca del comportamiento de las variables y, una vez que el ANOVA ha indicado que
existen diferencias estadísticamente significativas entre los grupos, queremos realizar
todas las comparaciones posibles entre ellos para obtener la máxima información.
La ventana de comparaciones múltiples permite elegir entre distintos estadísticos
para realizar las comparaciones. Casi todos realizan comparaciones simples, entre pares
de medias, a excepción de la prueba de Scheffé. Es aconsejable seleccionar dos de ellos
y comprobar si coinciden los resultados. La elección debe estar guiada por dos criterios:
control de la tasa de error tipo I y potencia de la prueba (Pascual, Frías y García, 1996)3.
En este sentido, dos buenas opciones pueden ser la prueba de Bonferroni y la de Tukey,
para el caso de que no se incumpla el supuesto de homocedasticidad, y las pruebas T3 o
C de Dunnett, si se incumple dicho supuesto.

del documento “Diseños de investigación básicos y análisis de datos I”


3
Para ampliar información al respecto consultar el apartado de Control de la tasa de error en
comparaciones múltiples incluido en el apéndice final.
© Leticia de la Fuente Sánchez y Juan García García 12

Los resultados que aparecen a continuación son el resultado de la selección de pruebas Post hoc
asumiendo varianza iguales en los grupos de comparación.

Comparaciones múltiples

Variable dependiente: Puntuaciones Conductas Asertivas


Intervalo de confianza al
95%
Diferencia de Límite
(I) Grupo de pertenencia (J) Grupo de pertenencia medias (I-J) Error típico Sig. Límite inferior superior
HSD de Tukey Control Tratamiento A -20,000* 1,861 ,000 -24,61 -15,39
Tratamiento B -23,700* 1,861 ,000 -28,31 -19,09
Tratamiento A Control 20,000* 1,861 ,000 15,39 24,61
Tratamiento B -3,700 1,861 ,135 -8,31 ,91
Tratamiento B Control 23,700* 1,861 ,000 19,09 28,31
Tratamiento A 3,700 1,861 ,135 -,91 8,31
Bonferroni Control Tratamiento A -20,000* 1,861 ,000 -24,75 -15,25
Tratamiento B -23,700* 1,861 ,000 -28,45 -18,95
Tratamiento A Control 20,000* 1,861 ,000 15,25 24,75
Tratamiento B -3,700 1,861 ,171 -8,45 1,05
Tratamiento B Control 23,700* 1,861 ,000 18,95 28,45
Tratamiento A 3,700 1,861 ,171 -1,05 8,45
*. La diferencia de medias es significativa al nivel .05.

Como se puede ver en la tabla, ambas pruebas arrojan los mismos resultados.
Concretamente, vemos que las diferencias estadísticamente significativas se encuentran
entre el grupo control y los dos grupos de tratamiento utilizados. Sin embargo, no
existen diferencias estadísticamente significativas entre ambos grupo de tratamiento.
Este resultado está indicando que ambos tratamientos no difieren significativamente
entre sí en cuanto a su efectividad para aumentar los comportamientos asertivos de los
pacientes estudiados.
Finalmente, tenemos el gráfico de medias que también solicitamos en Opciones.

35
Media de Puntuaciones Conductas Asertivas

30

25

20

15

10

Control Tratamiento A Tratamiento B


Grupo de pertenencia
© Leticia de la Fuente Sánchez y Juan García García 13

5. Alternativa no paramétrica al ANOVA para datos ordinales: prueba de


Kruskall-Wallis.
Esta prueba es similar al ANOVA de un factor y se utiliza cuando la VD está
medida en una escala ordinal. Al igual que otras pruebas no paramétricas, no necesita
establecer supuestos sobre los datos (normalidad y homocedasticidad).
Ejemplo: Un psicólogo está interesado en estudiar el nivel de ansiedad crónica que
sufren las personas que han intentado suicidarse frente a otros grupos de personas. Para
ello eligió a 9 pacientes que habían intentado suicidarse (S), a 11 pacientes neurótico-
obsesivos (N-O) y a 10 sujetos considerados normales (N). Todos ellos fueron
evaluados mediante la misma escala de ansiedad. ¿Podemos considerar la hipótesis de
que existen diferencias en ansiedad entre los tres grupos?. (Fichero de datos krus-
W.sav).
Para responder a esta pregunta con ayuda del SPSS; Analizar, Pruebas No
paramétricas, Cuadro de diálogos antiguos, K muestras independientes.
Introducimos la variable independiente en variable de agrupación y la VD en contrastar
variable. La salida básica es:

Rangos

Rango
grupo N promedio
ansiedad suicidio 9 14,72
neurosis 11 24,45
normales 10 6,35
Total 30

Estadísticos de contrastea,b

ANSIEDAD
Chi-cuadrado 22,269
gl 2
Sig. asintót. ,000
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: GRUPO

Según los resultados, podemos concluir que existen diferencias estadísticamente significativas
entre los grupos considerados. Pero al igual que el ANOVA, si queremos concretar el efecto,
debemos explorar entre qué grupos se encuentra esas diferencias.
En este caso no tenemos pruebas no paramétricas a posteriori, por lo que procederíamos
a realizar tantas pruebas U de Mann-Whitney como comparaciones se desearan realizar. Sería
conveniente corregir el nivel de significación para el conjunto de comparaciones mediante la
© Leticia de la Fuente Sánchez y Juan García García 14

corrección de Bonferroni (α/nºde comparaciones), para evitar cometer errores tipo I en la


decisión estadística. En este caso, al aplicar la corrección, en lugar de utilizar un valor de alfa de
0,05, utilizaríamos 0,05/3 = 0,0167.
Así, realizaríamos el procedimiento, Pruebas No paramétricas, Cuadro de diálogos
antiguos, 2 muestras independientes, para cada una de las comparaciones, obteniendo los
siguientes resultados, que indican que realmente existen diferencias en ansiedad crónica entre
los tres grupos considerados.

Estadísticos de contrasteb

ANSIEDAD
U de Mann-Whitney 5,000
W de Wilcoxon 50,000
Z -3,383
Sig. asintót. (bilateral) ,001
Sig. exacta [2*(Sig. a
,000
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: GRUPO

Estadísticos de contrasteb

ANSIEDAD
U de Mann-Whitney 7,500
W de Wilcoxon 62,500
Z -3,065
Sig. asintót. (bilateral) ,002
Sig. exacta [2*(Sig. a
,001
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: GRUPO

Estadísticos de contrasteb

ANSIEDAD
U de Mann-Whitney 1,000
W de Wilcoxon 56,000
Z -3,804
Sig. asintót. (bilateral) ,000
Sig. exacta [2*(Sig. a
,000
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: GRUPO
© Leticia de la Fuente Sánchez y Juan García García 15

6. Alternativa no paramétrica al ANOVA para datos nominales: prueba de


Chi-cuadrado.
Esta prueba se utiliza cunado tenemos dos variables medidas en escala nominal y el
objetivo es contrastar la hipótesis sobre la igualdad de más de dos proporciones para muestras
independientes. Al igual que otras pruebas no paramétricas, no necesita establecer
supuestos sobre los datos (normalidad y homocedasticidad).

Ejemplo: Para estudiar si la actitud hacia la atención sanitaria cambia con la edad se tomaron
tres muestras aleatorias de 40 sujetos de distintas edades, categorizando la edad en tres grupos,
alta, media y baja. Todos los sujetos respondieron a la pregunta ¿Está conforme con la
institución sanitaria que recibe? En una escala de 1 a 3 (nada, poco, bastante, mucho). Tras los
resultados, ¿se puede afirmar que la proporción de personas que está de acuerdo con la atención
sanitaria que recibe cambia en función de la edad? (Fichero de datos “chi_c3mue.sav”)

Para responder a esta pregunta con ayuda del SPSS; el procedimiento es Analizar, Estadísticos
Descriptivos, Tablas de Contingencia. Introducimos una de las variables en filas y la otra en
columnas, y pulsamos en el botón de Estadísticos, Chi-cuadrado. La salida básica es:

Tabla de contingencia Atención Sanitaria * edad

Recuento
edad
baja media alta Total
Atención nada 5 4 6 15
Sanitaria poco 31 10 19 60
bastante 2 21 10 33
mucho 2 5 5 12
Total 40 40 40 120

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 29,545a 6 ,000
Razón de verosimilitud 31,886 6 ,000
Asociación lineal por
3,092 1 ,079
lineal
N de casos válidos 120
a. 3 casillas (25,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 4,00.
© Leticia de la Fuente Sánchez y Juan García García 16

El resultado nos lleva a concluir que existen diferencias entre los grupos
considerados, es decir, que la proporción de personas que está de acuerdo con la
atención sanitaria que recibe cambia en función de la edad.
Al igual que en los casos anteriores, si queremos concretar el efecto debemos explorar
entre qué grupos se encuentran esas diferencias. Para ello, la estrategia es similar a la d
la anterior prueba. En este caso, tampoco tenemos pruebas no paramétricas a posteriori, por lo
que procederemos a realizar tantas pruebas Chi-Cuadrado como comparaciones se deseen
realizar (teniendo en cuenta que se debe corregir el nivel de significación como se indicó
anteriormente).
Así, ejecutaremos Analizar, Estadísticos Descriptivos, Tablas de Contingencia, para
cada una de las comparaciones que nos interesen. Una vez realizado, los resultados se muestran
en las tablas siguientes. Como se puede observar, existen diferencias entre el grupo bajo y
medio, pero no entre los grupos bajo y alto, ni entre los grupos medio y alto en edad.

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 27,849a 3 ,000
Razón de verosimilitud 31,018 3 ,000
Asociación lineal por
13,298 1 ,000
lineal
N de casos válidos 80
a. 4 casillas (50,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 3,50.

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 9,590a 3 ,022
Razón de verosimilitud 10,150 3 ,017
Asociación lineal por
3,463 1 ,063
lineal
N de casos válidos 80
a. 2 casillas (25,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 3,50.
© Leticia de la Fuente Sánchez y Juan García García 17

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 7,096a 3 ,069
Razón de verosimilitud 7,232 3 ,065
Asociación lineal por
2,782 1 ,095
lineal
N de casos válidos 80
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 5,00.
© Leticia de la Fuente Sánchez y Juan García García 18

Apéndice I. Ampliaciones del Análisis de Varianza

1. Procedimiento de cálculo de las fuentes de variación en el ANOVA

Mediante el análisis de varianza, la variabilidad de las puntuaciones se divide en varios


componentes aditivos, mediante la aplicación del Modelo Lineal General, mediante el
siguiente procedimiento:
Consideremos la puntuación X de un sujeto cualquiera de un estudio (sujeto i),
perteneciente a uno cualquiera de los grupos (grupo j): Xi j
La variación total de ese sujeto se define como la distancia entre su puntuación y la
media total de todos los sujetos del estudio: (Xi j – X T).
Esta variación total se divide o está formada por dos componentes:
- la variación de la puntuación del sujeto respecto a la media de su grupo, definida
como la distancia (Xi j – X j), y;
- la variación de la puntuación media obtenida por su grupo respecto a la media
total de todas las puntuaciones, definida como la siguiente distancia ( X j - X T).
Analicemos estos dos componentes:
- La variación de la puntuación de un sujeto respecto a la media de su grupo no
puede ser explicada por el efecto del tratamiento, puesto que todas las personas
del grupo recibieron el mismo tratamiento; por tanto, esta variabilidad dentro del
grupo se considera una variación básica provocada por factores aleatorios
independientes del efecto del tratamiento, y en este sentido, variabilidad residual
o componente error aleatorio. Este componente también se denomina
variabilidad intragrupo.
- La variación de la puntuación media obtenida por un grupo respecto a la media
total de todas las puntuaciones refleja el efecto del factor que ha sido variado
sistemáticamente en el estudio, el tratamiento, que ocasionó que la puntuación
media para ese grupo se distanciara de la media total y de las demás medias,
aunque también refleja la variación básica presente a todas las puntuaciones de
ese grupo. A este componente se le denomina variabilidad intergrupos o
entregrupos.
En resumen, la descomposición de la variabilidad total para el sujeto del grupo j se
puede expresar de la siguiente forma:
© Leticia de la Fuente Sánchez y Juan García García 19

(Xi j – X T) = (Xi j – X j) + ( X j - X T)
VT = V EG + V IG

El propósito del ANOVA es calcular los dos componentes de variación en los que se
divide la varianza total y convertirlos en componentes comparables, incluyendo la
información de todos los sujetos del estudio.
Para poder generalizar este modelo referido a un sujeto y a un tratamiento
particular a todos los sujetos y grupos de tratamiento existentes en el estudio, debemos
aplicar sumatorios a todos los términos:
Σ(Xi j – X T) = Σ(Xi j – X j) + Σ( X j - X T)

También es necesario elevar al cuadrado todos los términos para convertirlos en


varianzas, ya que estamos utilizando distancias o desviaciones a la media:
Σ(Xi j – X T)2 = Σ(Xi j – X j)2 + Σ( X j - X T)2

Esta última es la ecuación básica o modelo matemático del ANOVA para el diseño
unifactorial de grupos aleatorios que permite descomponer la variación total en sus
componentes o fuentes de variación fundamentales. También se conoce como Modelo
de Partición de Varianza.

Los tres elementos que forman ese modelo se denominan “sumas de cuadrados”, dado
que lo que tenemos son sumatorios de elementos elevados al cuadrado. De manera que,
abreviadamente, es muy habitual representar dicho modelo como:

SC TOTAL = SC EG + SC IG

Para comprender4 como se realiza la descomposición de la variabilidad de las


observaciones de un experimento vamos a utilizar un ejemplo. Supongamos que hemos
realizado un estudio experimental para comprobar si tres tratamientos contra la
depresión difieren entre sí a la hora de reducir los sentimientos negativos de una

4
No es necesario que aprendas los cálculos, es simplemente un ejemplo de cómo opera la lógica del
análisis.
© Leticia de la Fuente Sánchez y Juan García García 20

muestra de 21 pacientes seleccionada aleatoriamente de un centro de salud mental. Los


pacientes fueron asignados aleatoriamente a cada uno de los tres tratamientos, de
manera que se formaron tres grupos de 7 pacientes cada uno. Una vez aplicados los
tratamientos, se midieron los síntomas depresivos mediante el cuestionario de depresión
de Beck. Las puntuaciones de los 21 pacientes fueron las siguientes:

Grupo Grupo Grupo


A B C
12 6 18
18 4 17
16 14 16
8 4 18
6 6 12
12 12 17
10 14 10

Grados de Libertad:

Total: glT = N – 1 = 20

Entre: glEG = k – 1 = 2 (k es el número de grupos o niveles de la VI)

Intra: glIG = glT - glEG = 18

ó glIG = N – k = 21 – 3 = 18

Medias Cuadráticas: Cada Suma de Cuadrados dividida entre sus grados de libertad.

SC T 457'8
Total: MCT = = = 22’89
gl T 20

SC ENTRE 165
Entre: MCEG = = = 82’5
gl ENTRE 2

SC INTRA 292'8
Intra: MCIG = = = 16’27
gl INTRA 18
© Leticia de la Fuente Sánchez y Juan García García 21

Los cálculos realizados anteriormente se agrupan en la siguiente tabla, denomina tabla


resumen del ANOVA o tabla de Fuentes de Variación:

Fuente de Variación SC Gl MC Fobs


TOTAL 457’8 20

ENTRE 165 2 82’5 5’07

INTRA 292’8 18 16,27

Contraste F de Snedecor:
MC ENTRE 82'5
Fobs = = = 5’07
MC INTRA 16'27

La prueba de significación del ANOVA es siempre unilateral derecha, por lo que


rechazaremos la H0 siempre y cuando:
Fobs > Fteórica (α , gl1 , gl2)
donde gl1 son los grados de libertad ENTRE, y gl2 son los grados de libertad INTRA.
Dado que el valor de alfa con el que trabajamos es α = 0’05, la Ft (0’05 , 2 , 18) = 3’55.

Como 5’07 > 3’55, podemos rechazar la hipótesis nula, concluyendo que existen
diferencias estadísticamente significativas entre las medias de los grupos. Esto quiere
decir que la variación encontrada entre las medias de los tres grupos la podemos atribuir
a los efectos de la variable independiente que hemos manipulado en el estudio,
concretamente, al efecto del tipo de tratamiento que hemos administrado para la
depresión, y no a efectos aleatorios. Siendo el tamaño de dicho efecto 0,36 y que
corresponde a:
SC EG / SC TOTAL = η2

2. Error de tipo I y tasa de error de tipo I en comparaciones múltiples


Cuando sometemos a prueba una hipótesis nula, como en el ANOVA, la
probabilidad de cometer un error de Tipo I es igual al valor que estipulamos para α, es
decir, 0,05 (lo que se conoce como alfa nominal: αN) Sin embargo, cuando contrastamos
varias hipótesis nulas, la probabilidad de cometer al menos un error de Tipo I en una de
ellas aumenta, pasando a ser mayor de 0,05.
© Leticia de la Fuente Sánchez y Juan García García 22

A la probabilidad de cometer al menos un error de Tipo I al realizar más de 1


contraste es a lo que se denomina Tasa de error de Tipo I, o Tasa de error de Tipo I por
experimento (αPE ). El valor de αPE depende de dos factores, el valor nominal de alfa
(αN) y el número de comparaciones —C— que realicemos, quedando relacionados
mediante la siguiente expresión:
αPE = 1 - ( 1- αN )C
siendo:
- C el número de comparaciones o contrastes a realizar.
- αPE la Tasa de Error Tipo I.
- αN el valor nominal de alfa (0,05), que es el que debemos mantener para cada
comparación.

Así por ejemplo, en el caso de que en un experimento se quieran realizar 4


comparaciones, siendo αN = 0.05, tenemos una probabilidad de cometer al menos un
error de Tipo I de:
αPE = 1 - ( 1- αN )C = 1 - (1 - 0.05)4 = 0.1855

Entonces, al realizar varias comparaciones entre pares de medias la probabilidad de


cometer un error de Tipo I aumenta respecto del nivel fijado en cada comparación
individual. Se han diseñado varios procedimientos para controlar la tasa de error de
Tipo I, aunque todos ellos lo hacen a costa de asumir valores de αN más conservadores,
es decir menores de 0,05, y las consecuencias que se derivan de esta estrategia respecto
de la probabilidad del Error Tipo //, son conocidas. Al reducir la probabilidad de
cometer un error de Tipo I se aumenta la probabilidad de cometer un error de Tipo II.
Por tanto, para elegir el procedimiento más adecuado en cada situación se siguen
dos criterios: 1) que controle la tasa de error de Tipo I, y 2) que sea el procedimiento
con mayor potencia —menos tasa de error de Tipo II—.

3. Procedimientos para efectuar Comparaciones Múltiples

Aunque el número de pruebas estadísticas que pueden aplicarse es muy amplio y la


investigación en este campo avanza continuamente, vamos a presentar los
procedimientos más utilizados junto con las recomendaciones para usarlas
convenientemente.
© Leticia de la Fuente Sánchez y Juan García García 23

En la práctica, como no suele ser habitual partir de hipótesis muy elaboradas que
permitan definir unos contrastes a priori, y en la mayoría de los casos todas las
comparaciones que se plantean son simples, los procedimientos que más se utilizan son
los contrates post hoc. De todos los procedimientos podemos distinguir entre los que
corrigen el incumplimiento del supuesto de homogeneidad de varianza y los que parten
del cumplimiento del supuesto. Los más habituales de esta última opción son los
siguientes, aunque habrá que distinguir entre los que realizan comparaciones por pares o
todas las posibles:

Procedimiento DHS de Tukey

El procedimiento de Tukey es el más potente para realizar todas las comparaciones


posibles entre todos los pares de medias, siempre y cuando sean simples. No es
necesario definir a priori qué grupos se desean comparar puesto que se pueden realizar
todas las comparaciones posibles; cuando hay a grupos el número de posible de
comparaciones post hoc simples entre ellos es: a (a-1) / 2.

Procedimiento de Scheffé

El procedimiento de Scheffé (1959) es válido para cualquier circunstancia, tanto si las


comparaciones son a priori como a posteriori, tanto si son simples como si son
complejas. Cuenta con la ventaja de que permite controlar la tasa de Error Tipo I con
menores restricciones respecto del número de comparaciones que pueden efectuarse, ya
que se pueden realizar todas las que se deseen. Sin embargo, debido a esto tiene el
inconveniente de que suele ser el menos potente. Además normalmente es más
conservadora que otras pruebas, lo que significa que se precisa una mayor diferencia
entre las medias.

Procedimiento de Bonferroni

El procedimiento de Bonfferroni utiliza pruebas t para realizar contrates simples entre


pares de medias. Controla la Tasa de Error Tipo I del experimento con la denominada
Corrección de Bonferroni. Es un procedimiento muy sencillo que consiste en aplicar en
cada comparación individual un nivel de alfa que es el cociente entre el αN final que se
quiere asumir y el número de comparaciones que realiza:
αPC = αN / C
De esta forma, en el caso de formular 4 contrastes para que el αN final se mantenga en
0.05, en cada comparación individual se tendrá que asumir el siguiente valor de alfa:
© Leticia de la Fuente Sánchez y Juan García García 24

αPC = αN / C = 0.05 / 4 =0.0125


y en este caso, si en cada comparación el valor nominal para α = 0.0125 entonces,

αPE = 1 - ( 1- αN )C = 1 – (1 - 0.0125)4 = 0.049.


Como se puede apreciar, la Tasa de error de Tipo I por experimento (αPE) es
ligeramente inferior al alfa nominal de 0.05 que fijamos en un principio.
La corrección de Bonferroni también es un procedimiento adecuado para controlar la
Tasa de Error Tipo I cuando se planifican los contrates a priori.
Cuando las varianzas no son iguales:
utilice T2 de Tamhane (prueba conservadora de comparaciones por parejas basada en
una prueba t), T3 de Dunnett (prueba de comparaciones por parejas basada en el
módulo máximo estudentizado), prueba de comparaciones por parejas (a veces liberal)
de Games-Howell o C de Dunnett (prueba de comparaciones por parejas basada en el
rango estudentizado). Recomendando las pruebas de Dunnett.

Apéndice 2. La opción Contrastes en SPSS


_______________________________________________________________
La opción Contrastes: se utiliza habitualmente si tenemos hipótesis previas
acerca del comportamiento de las variables y queremos realizar comparaciones entre los
grupos, guiadas por nuestras hipótesis teóricas, o realizar análisis de tendencia si la VI
es una variable cuantitativa con intervalos iguales entre sus niveles. Permite realizar
varios contrastes, tanto simples como complejos, pudiéndose plantear un conjunto de
contrastes ortogonales (independientes entre sí). El número máximo de contrastes
ortogonales que se puede realizar siempre vendrá determinado por el número de grupos
que se hayan formado en el diseño. Para realizar los contrastes entre medias mediante
este procedimiento es necesario asignar coeficientes adecuados a cada contraste que se
vaya a realizar. Hay que tener en cuenta que la suma de los coeficientes para cada
contraste deberá ser cero.
En nuestro ejemplo, podemos plantear dos contrastes ortogonales, por ejemplo, el
primero, el grupo control frente a los dos grupos tratamiento considerados
conjuntamente (coeficientes: 2, -1, -1), y el segundo, el tratamiento 1 frente al
tratamiento 2 (coeficientes: 0, 1, -1). Los coeficientes se deben introducir uno a uno
respetando el orden establecido para el contraste y pulsar Añadir después de cada
© Leticia de la Fuente Sánchez y Juan García García 25

entrada. El orden de entrada es importante porque se corresponde con el orden de las


categorías de la variable independiente o factor. Una vez se han introducido los
coeficientes para el primer contraste, pulsar Siguiente para introducir los
correspondientes al segundo contraste. Después pulsar Continuar para volver a la
ventana principal.
La salida de resultados de proporciona la información correspondientes a la opción
Contrastes: una tabla con los coeficientes que hemos especificado para los contrates
ortogonales que deseábamos realizar, y otra con el resultado de dichos contrastes. Recordemos
que los contrastes que especificamos mediante los coeficientes eran: el primero, el método
tradicional frente al método ecológico e informático considerados conjuntamente (coeficientes:
2, -1, -1), y el segundo, el método ecológico frente al informático (coeficientes: 0, 1, -1).

Coeficientes de los contrastes

Método de enseñanza
Contraste Tradicional Ecológico Informático
1 2 -1 -1
2 0 1 -1

Pruebas para los contrastes

Valor del
Contrastecontraste Error típico t gl Sig. (bilateral)
Rendimiento Asumiendo igualdad1 -43,70 3,224 -13,555 27 ,000
de varianzas 2 -3,70 1,861 -1,988 27 ,057
No asumiendo 1 -43,70 3,128 -13,971 19,353 ,000
igualdad de varianzas
2
-3,70 1,915 -1,932 17,027 ,070

Dado que se ha asumido igualdad de varianzas, los resultados adecuados son los de la
primera fila de la tabla. Estos resultados indican que podemos rechazar la H0 para el primer
contraste, pero no para el segundo. Es decir, que existen diferencias estadísticamente
significativas entre la puntuación media de los alumnos a los que se les ha aplicado el método
tradicional y la media conjunta de los alumnos a los que se les han aplicado los otros dos
métodos. En concreto, si miramos las medias, podemos ver que el rendimiento medio del grupo
tradicional es menor que la media conjunta de los otros dos grupos. Sin embargo, el resultado
del segundo contraste indica que las diferencias entre las medias de los grupos ecológico e
informático no resultan estadísticamente significativas, por lo que esa diferencia debe ser
atribuida al efecto del azar. No podemos, por tanto, decir que uno de estos dos métodos
produzca un mayor rendimiento que el otro, aunque sí que en conjunto, producen un mejor
rendimiento que el método tradicional.
© Leticia de la Fuente Sánchez y Juan García García 26

Textos complementarios

Balluerka, N. y Vergara, A.I. (2002). Diseños de investigación experimental en


Psicología. Prentice Hall.
Pascual, J., Frías, M.D. y García, J.F. (1996). Manual de Psicología Experimental.
Barcelona: Ariel Psicología.

Вам также может понравиться