Вы находитесь на странице: 1из 26

ANALISIS DE DISEOS UNIFACTORIALES PARA MUESTRAS

INDEPENDIENTES

Imaginemos que un experimentador quiere comparar los efectos de diferentes


tratamientos, tal como una serie de frmacos, sobre una variable dependiente tal
como la tasa cardaca. Para ello, ha escogido N sujetos de un modo completamente
al azar a partir una poblacin definida de antemano. A fin de comparar los efectos de
los frmacos, la muestra de N sujetos es dividida aleatoriamente en a grupos; esto se
realiza con el objeto de eliminar sesgos sistemticos en las caractersticas de los
grupos antes de comenzar el experimento. Finalmente, uno de los frmacos es
asignado aleatoriamente a cada grupo. La estructura de tratamiento en este caso es
unifactorial, en este caso el tipo de frmacos con a niveles de tratamiento, y el diseo
es completamente aleatorizado puesto que se ha realizado tanto una seleccin como
una asignacin aleatoria de los sujetos a los tratamientos.
El Modelo Lineal y Supuestos
Llamemos yij a la tasa cardaca del sujeto j tras la administracin del frmaco i.
Podemos pensar en y11, y12,...,y1n como una muestra aleatoria de tamao n de una
2
poblacin con media 1 y varianza 1 , y en y21, y22, ...,y2n como una muestra aleatoria
2
de tamao n de una poblacin con media 2 y varianza 2 , y asimismo para los i =

3,4,...,a frmacos. El parmetro i representa la media de tasa cardaca si uno


administrara el frmaco i a todos los sujetos de la poblacin. Se utilizar el supuesto
2
2
2
2
que 1 = 2 = ........ = a = , es decir que la aplicacin de los tratamientos

afectar a la media de la respuesta en el tratamiento i, pero no a su varianza.


Un modelo lineal que describe la situacin anterior es el siguiente:
yij = i + eij

para i = 1, 2, ....., a frmacos

(3.1.1)

y j = 1, 2, ...n sujetos por tratamiento,


en donde se asume que:
eij NID(0, ) ,
2

(3.1.2)

57

58 Diseos Unifactoriales para muestras independientes

lo que significa que eij son independientes, y que estn distribuidos normalmente con
2
media igual a cero, y varianza igual a .

Estimacin de Parmetros
El objetivo bsico de un buen anlisis estadstico es la estimacin de parmetros
que permita la realizacin de inferencias de inters. Los mtodos de inferencia
tpicamente incluyen el contraste de hiptesis y los intervalos de confianza. La
realizacin de inferencias en cualquier anlisis estadstico implica el tener un buen
2
estimador de la varianza de error de las unidades experimentales, es decir . En la

situacin anterior, la muestra correspondiente al tratamiento i, para i = 1, 2,...., a


2
proporciona un estimador de cuando ni > 1. Es decir,

ni

i2 = Si2 =
j =1

( yij yi. ) 2
ni 1

(3.1.3)

2
es un estimador insesgado de en donde,

ni

yi. =

y
j =1

ij

(3.1.4)

ni

2
Decimos que i esta basado en ni -1 grados de libertad, dado que la distribucin de

(n 1) i
2

es una distribucin chi cuadrado con ni -1 grados de libertad.

2
Una media ponderada de los a estimadores independientes de da el mejor
2
estimador de posible para esta situacin; cada estimador es ponderado por sus
2
correspondientes grados de libertad. As pues, el mejor estimador de es:

(n

2 =

1) i2

i=1
a

(n 1)

(3.1.5)

i =1

En el caso de que el diseo sea equilibrado, con el mismo nmero de sujetos por
tratamiento, la expresin anterior se reduce a:

59

= S =

2
i

(3.1.6)

i =1

que representa la media de las todas las varianzas intragrupos. Es tambin cierto que
2 es un estimador de 2 basado en N - a grados de libertad, y que la distribucin
2
2
muestral de ( N a) es una distribucin chi-cuadrado con N - a grados de

libertad; es decir
( N a) 2

2 (N a).

(3.1.7)

El mejor estimador de cada media de tratamiento es


i = yi

para i = 1, 2, ...., a tratamientos

Bajo los supuestos dados en (3.1.2), la distribucin muestral de i es normal con


2
media i y varianza ni . Es decir:

i N i ,

para i = 1, 2, .....,a tratamientos.

(3.1.8)

para i = 1, 2,....., a tratamientos

(3.1.9)

Tambin,
ti =

i i
2

t( N a)

ni

Es decir, la distribucin muestral de ti es la distribucin t de Student con N - a


2
grados de libertad. Adems, puede mostrarse tambin cmo 1, 2, ....., a y

son estadsticamente independientes (Hocking, 1995).


Un intervalo de confianza de (1 - ) 100% para una combinacin lineal de
parmetros,

c
i

y un conjunto de coeficientes c1, c2, ..., ca, viene dado por la

siguiente expresin:

ci i t / 2, N a 2

ci 2
n

(3.1.10)

60 Diseos Unifactoriales para muestras independientes

Contrastes de Hiptesis
Los resultados anteriores pueden utilizarse para contrastar hiptesis sobre las
medias (i) individuales. Tambin pueden ser utilizados para contrastar hiptesis
sobre combinaciones lineales de las mismas, o para construir intervalos de confianza
sobre los valores de tales combinaciones lineales.
En el experimento anterior, el investigador quiere comparar a menudo los
efectos de diferentes tratamientos o, de forma equivalente, comparar sus medias
poblacionales. Consideremos en primer lugar los siguientes dos tipos de hiptesis,
H01 : i =

p ara algn p ar de tratamientos i, i

H02 : ci i = k

p ara un conjunto de coeficientes c 1, c2 ,......., ca ,


y p ara una constante k

Tanto H01, como H02, pueden contrastarse mediante una prueba t para muestras
independientes:
te =

c c
i

t ( N a)

(3.1.11)

c
i
n
2

Puede utilizarse este resultado para realizar inferencias sobre

c
i

. Dado que H01

puede ser reformulada como i - i = 0, es un caso particular de H02 en donde ci =


1, ci= -1 y c = 0 para cualquier tratamiento distinto a i o i. El error tpico
estimado de

c
i

viene dado por el denominador de la expresin anterior. A fin

de contrastar H02 , ha de realizarse el siguiente clculo:


te =

c k t
i

ci 2
n

N a

(3.1.12)

Si tc > t / 2, N a , entonces H02 es rechazada al nivel de significatividad x 100%, en


donde t / 2,N a es el valor crtico correspondiente a una distribucin t con N - a
grados de libertad.

61

Una formulacin ms general de la hiptesis estadstica para realizar contrastes


simultneos de ms de un grado de libertad viene dada por:
H04 : C = k

frente a

Ha4 : C k

en donde
c11 c12
c21 c22
C: .
.
.
.

ck 1 ck 2

c1a
c2 a
. .
.

cka

1
2
: 3

4

k1
k2
k : k3
k
4

k
5

(3.1.13)

Aunque el procedimiento para realizar el contraste requiere algn conocimiento


de clculo de matrices, la mayora de los paquetes estadsticos actuales tales como
Statistical Package for the Social Sciences (SPSS), o Statistical Analysis System
(SAS) contienen mdulos sobre el Modelo Lineal General que permiten el uso de
estas tcnicas.
El Anlisis de Varianza
Consideremos la siguiente hiptesis, de inters frecuente en situaciones
experimentales:
H03 = 1 = 2 = ......... = a

Mientras que H01 y H02 implicaban contrastes de un solo grado de libertad, H03
implica la realizacin de varias comparaciones simultneas. La expresin anterior es
cierta si se cumple que la diferencia de medias para cualquier par de tratamientos es
cero, es decir: 1 - 2 = 0, 1 - 3 =0, 1 - a = 0 ,....., 3- a= 0. El contraste de H03,
que comprende varios grados de libertad, es tpicamente realizado mediante un
Anlisis de Varianza (ANOVA), que constituye un caso particular de (3.1.13). Esta
expresin surge porque se produce una particin de la varianza total en un
componente de tratamiento, y otro de error, y est basada en el hecho de que exista
independencia de la media y la varianza en muestras aleatorias de una poblacin
normal (Freund, 1992; Hogg & Craig, 1978).
Consideremos la siguiente expresin, que afirma que las desviaciones de una
serie de observaciones respecto de la media total comprende la suma de dos
componentes: a) la desviacin de una puntuacin respecto de la media de su propio

62 Diseos Unifactoriales para muestras independientes

grupo de tratamiento, y b) la desviacin de la media del grupo respecto de la media


total:
a

( yij y..) 2 =
i =1 j =1

( yij yi. )2 + n ( yi. y..)2


i =1 j =1

(3.1.14)

i =1

El primer trmino es el numerador de la varianza de las puntuaciones respecto de


la media total, y por lo tanto ser denominado como la suma total de cuadrados. El
segundo trmino es la suma de cuadrados intragrupos, o la suma de los numeradores
de cada una de las varianzas intragrupos. El tercer trmino es n veces el numerador
de la varianza de las a medias de los tratamientos respecto de la media total
(asumiendo la existencia de un diseo equilibrado); es denominado como la suma de
cuadrados de tratamiento. Se puede verificar que,
a

( y

ij

yi. )2

i =1 j =1

(3.1.15)

2 con a(n - 1) grados de libertad

n (yi . y.. )2
i =1

con a - 1 grados de libertad


2

y que ambas distribuciones son independientes (Hogg & Craig, 1978).


Dividiendo las sumas de cuadrados anteriores por sus correspondientes grados de
libertad, tenemos:
a

( y
i =1 j =1

ij

yi. )2 a(n 1)

Se

2
a(n1)

(3.1.16)

a(n 1)

n ( yi . y.. ) 2 ( a 1)
i =1

nS m2
a21

2
(a 1)

(3.1.17)

2
2
en donde Sm y Se , representan las varianzas de las medias respecto de la media total,

y la varianza intragrupos.
Por definicin, el cociente entre dos variables aleatorias independientes con
distribucin 2 y divididas previamente por sus grados de libertad, sigue una

63

distribucin F con los respectivos grados de libertad en el numerador y denominador


(Myers, 1995):
2
gl1
gl1
Fgl1, gl2
2
gl2
gl2

En el presente caso, el cociente entre las expresiones (3.1.17) y (3.1.16) seguir una
distribucin F con a - 1 grados de libertad en el numerador, y a (n - 1) grados de
libertad en el denominador,
nSm
nS
= 2m Fa 1, a(n1)
2
2
Se
Se
2

(3.1.18)

El numerador y denominador de la expresin anterior son llamados medias de


cuadrados de tratamiento y de error, respectivamente. Si la hiptesis nula es cierta,
ambas constituyen estimadores insesgados del mismo parmetro, 2, y el valor de la
razn F estar en torno a 1. Si la hiptesis nula es falsa, la media de cuadrados de
tratamiento estimar 2 ms una constante o parmetro de no centralidad que es
funcin de las diferencias de medias poblacionales, como puede apreciarse en su
valor esperado descrito en la Tabla 3.1-1. As pues, los efectos experimentales
aumentarn el valor de la razn F, distancindolo de 1. En general, y en condiciones
de incertidumbre sobre si la hiptesis nula es o no cierta, el valor crtico de la tabla
permitir establecer un criterio de decisin sobre si rechazarla o o no, segn el nivel
de evidencia o significatividad elegido por el experimentador.
Tabla 3.1-1.
Medias cuadrticas esperadas para un diseo completamente aleatorizado con estructura de
tratamiento de un factor de efectos fijos.
____________________________________________________________________
Efecto

g.l.

MC

E (MC)

____________________________________________________________________
a

nSm

TRATAMIENTOa - 1

ERROR

nSm
Se2

N-a

2
e

e2 +

n ( i . )2
i =1

a 1

2
e

____________________________________________________________________
TOTAL

N -1

64 Diseos Unifactoriales para muestras independientes

Efectos Fijos y Aleatorios


El modo de seleccin de los niveles de una variable o factor explicativo en un
diseo de investigacin es una caracterstica considerada relevante para identificar el
tipo de anlisis estadstico a realizar. Un factor se considera de efectos fijos si sus
niveles han sido seleccionados por un proceso no aleatorio, y si sus niveles consisten
en la poblacin completa de niveles. Un ejemplo sera dos niveles de dosis de un
frmaco, cuya administracin a los pacientes es una manipulacin sistemtica que es
reproducible en distintas replicaciones del experimento. Un factor es considerado
aleatorio si sus niveles consisten en una muestra aleatoria de una poblacin de
niveles posibles. Un ejemplo sera las diferencias entre escuelas en una prueba de
lenguaje. En un experimento podemos seleccionar una muestra al azar de escuelas
con el objeto de generalizar a una poblacin ms amplia, por ejemplo de todo el
estado. Como consecuencia, el parmetro de inters es el componente de varianza
2
asociado con la distribucin de todas las escuelas en la poblacin, m , que es objeto

de inferencia. La hiptesis estadstica puede ser expresada como:


H0 : m = 0
2

frente a

H0 : m > 0
2

(3.1.19)

Si esta es rechazada concluiremos que al menos dos de los niveles del factor aleatorio
generan resultados diferentes.
La diferencia entre el modelo de efectos fijos y aleatorio en el diseo
unifactorial completamente aleatorizado puede apreciarse en los valores esperados de
sus respectivas medias de cuadrados (ver Tablas 3.1-1 y 3.1-2). Como puede verse, el
mtodo de clculo de las medias cuadrticas no difiere del modelo de efectos fijos, y
en este caso de un diseo unifactorial completamente aleatorizado el procedimiento
de construccin de la razn F tambin es el mismo. A partir las medias de cuadrados
2
esperadas podemos derivar el siguiente estimador puntual de m :

m2 =

E[ MCTRT ] E[ MCE ]
n

2
y Sm =

MCTRT MCE
n

(3.1.20)

2
Mtodos para la construccin de intervalos de confianza sobre m , as como para la

estimacin de medidas derivadas del efecto experimental tal como la correlacin

65

intraclase pueden consultarse en Neter, Nachstheim, Wassermann & Kutner, 1996;


Montgomery, (1996) y Kuehl (1991).

Tabla 3.1-2.
Medias de cuadrados esperadas para un diseo totalmente al azar con estructura de
tratamiento de un factor de efectos aleatorios.
____________________________________________________________________
Efecto

g.l.

MC

E (MC)

____________________________________________________________________
2

TRATAMIENTO

a-1

ERROR

N-a

nSm
Se2

nSm
2

Se

e2 + n 2m

e2

____________________________________________________________________
TOTAL

N -1

Comparaciones Analticas entre Tratamientos


Es frecuente que un investigador tenga de antemano una serie de hiptesis
respecto de la diferencia de medias de los efectos de distintos tratamientos para las
que quiera encontrar una respuesta mediante el diseo de un experimento. Este tipo
de contrastes son denominados a priori, o planificados. Es diferente la situacin en
que el investigador cree que existe un efecto indeterminado del tratamiento sobre la
variable dependiente, y se disea el experimento para evaluar esta creencia. Si se
rechaza la hiptesis nula de igualdad de medias en una prueba F, entonces el
investigador sabe que al menos uno de los contrastes entre los tratamientos no es
igual a cero. A partir de ese momento, el inters se centra en determinar cul o
cules de estas comparaciones es significativa. Estas comparaciones son
denominadas como no planificadas, ya que implican el anlisis exploratorio de
relaciones no anticipadas. El inters por realizarlas es sugerido a menudo tras la
apreciacin de los resultados de un experimento. Estas comparaciones a posteriori, o
post-hoc, tienen muchas veces una importancia crtica en el desarrollo de un campo
de investigacin, ya que conducen al desarrollo de nuevas hiptesis.

El Aumento acumulativo del Error Tipo I


El problema resultante de la realizacin de una serie de comparaciones analticas
en un conjunto de datos radica en que la probabilidad de error cuando la hiptesis
nula es cierta aumenta proporcionalmente con el nmero de comparaciones
realizadas. Cuando un experimento implica slo una comparacin, la probabilidad
de cometer un Error Tipo I corresponde al nivel de significatividad, , y la
probabilidad de no cometerlo es por lo tanto (1 - ). Cuando el experimento implica
C comparaciones independientes con el mismo nivel de significatividad , la
probabilidad de no cometer ningn error viene dada por el producto de sus
respectivas probabilidades, segn la regla de multiplicacin para sucesos
independientes:
C
(1
)(1

)......(1





) = (1 )

(3.1.21)

C trminos

El trmino (1 - )C es la probabilidad de no cometer un error tipo I en C


comparaciones independientes. La probabilidad de cometer uno o ms errores tipo I
es, por tanto,
1 - (1 - )C.
Al aumentar el nmero de comparaciones independientes, aumenta tambin la
probabilidad de rechazar alguna hiptesis nula que sea cierta. Por ejemplo, si =
0.05, y el investigador realiza tres, cinco o diez comparaciones, esta probabilidad es,
respectivamente:
1 (1 0.05) 3 = 0.14

1 (1 0.05)5 = 0.23

1 (1 0.05)10 = 0.40

Una estrategia alternativa es la de controlar el Error Tipo I a un nivel para el


conjunto de inferencias simultneas realizadas. Podemos distinguir entre C, o la
probabilidad de cometer un error Tipo I en una nica comparacin, y F, o la
probabilidad de cometer al menos un error Tipo I en una familia o conjunto de
comparaciones (Tukey, 1953).
Cuando un experimentador est realizando un anlisis detallado y exhaustivo, y
pretende dar respuestas a muchas preguntas no anticipadas, es recomendable el

controlar el nivel F = 0.05. Los mtodos que se exponen a continuacin constituyen


formas de llevar a cabo esta correccin aplicables a situaciones distintas. Aunque
tanto las comparaciones planificadas como las a posteriori conllevan un aumento del
nivel de error experimental (F), son por lo comn tratadas de forma diferente (Kirk,
1995; Keppel, 1992).
Comparaciones a Priori
Los mtodos de contrastes generales de combinaciones lineales son utilizados
frecuentemente en este caso sin ningn tipo de correccin, especialmente cuando el
nmero de comparaciones es igual o menor al de grados de libertad del factor de
tratamiento (Keppel, 1982), y cuando tales contrastes sean ortogonales (Kirk, 1995).
No es necesario en este caso realizar un ANOVA o prueba F antes de los contrastes
individuales. Este procedimiento responde a una pregunta general: Hay diferencias
entre las medias de tratamientos? Sin embargo, el investigador puede estar
interesado en un conjunto de preguntas especficas, y contrastarlas directamente. As
pues, concluiramos que

ci i > t / 2,

c
i

0 cuando

ci2 2
Se

i =1 ni
a

(3.1.22)

En donde N es el tamao muestral total, ni es el tamao muestral del grupo i, a es el


nmero de grupos experimentales, y son los grados de libertad del error. Un
intervalo de confianza de (1 - ) 100% para el contraste anterior viene dado por:

ci i t / 2,

ci2 2
Se

i =1 ni
a

(3.1.23)

Los intervalos de confianza permiten al investigador llegar al mismo tipo de decisin


que la obtenida mediante un contraste de hiptesis. Por ejemplo, si el valor del
parmetro hipotetizado para un contraste dado se encuentra fuera del intervalo de
confianza del 100(1 - )%, la hiptesis nula puede rechazarse al nivel de
significacin . El tamao del intervalo proporciona informacin sobre los margenes

de error de la estimacin. Por estos motivos, en psicologa se est utilizando cada


vez ms este tipo de inferencia.
El mtodo de Bonferroni. Este procedimiento es recomendado cuando el
conjunto de comparaciones planificadas no son ortogonales (Kirk, 1995), o cuando se
desean realizar tras una prueba F que no ha resultado significativa (Milliken &
Johnson, 1984). Supngase que se quiere realizar c comparaciones de este tipo. Se
concluira que una comparacin es significativa, y por tanto

c
i

> t BON , / 2, c ,

c
i

0 , si

ci2 2
Se

i =1 ni
a

(3.1.24)

Estos c contrastes realizados a un nivel de error por comparacin /c darn un nivel


global de error experimental igual o menor que F . Los valores crticos de t / 2,c ,
vienen dados en las tablas elaboradas por Dunn (1961) para valores seleccionados de
, c y , los grados del libertad del error. Los intervalos de confianza son obtenidos
de forma anloga. Si calculramos los intervalos de confianza para los c contrastes
entonces en el (1-)100 % de las replicaciones del experimento el conjunto completo
de intervalos contendra los valores reales de los parmetros.
Comparaciones a Posteriori
En el anlisis exploratorio de un conjunto de datos, existe una gran cantidad de
hiptesis contrastables de un grado de libertad. Por poner ejemplos de experimentos
con 3, 4, 5 y 10 niveles de tratamiento, el nmero pares posibles entre sus medias es
3, 6, 10, y 45 respectivamente. El nmero de contrastes de otras posibles
combinaciones lineales es todava ms amplio. Muchos procedimientos han sido
propuestos para tratar el problema del aumento del nivel de error experimental en
comparaciones a posteriori. La lgica de estas tcnicas es bastante clara y anloga a
la solucin de Bonferroni: si reducimos el tamao de la regin de rechazo en cada
comparacin, C, cometeremos un nmero menor de errores Tipo I y se reducir el
nivel de error experimental global, F . . De hecho, Games (1971, 1978b) ha mostrado
cmo los distintos procedimientos implican el mismo estadstico subyacente y

difieren solamente en la forma en que se implementa esta reduccin en el nivel de


error por comparacin. La cantidad exacta de ajuste depende de varios factores, tales
como nuestro criterio subjetivo sobre la gravedad del Error Tipo I, as como del
nmero total de comparaciones exploradas.
El mtodo de Scheff. Es una tcnica que permite al investigador mantener F
constante, independientemente del nmero de comparaciones realizadas (Scheff,
1953). Se puede utilizar cuando tales comparaciones se realizan tras la inspeccin de
los resultados, que sugieren efectos no anticipados. No requiere tablas especiales
puesto que est basado en los valores del estadstico F. Se rechazar la hiptesis nula
Ho : ci i = 0 si

ci yi > (a 1) FF ,a1,

ci2 2
Se

i =1 ni
a

(3.1.25)

Es conveniente anotar que el mtodo de Scheff solamente resultar en algn


contraste significativo en el caso de que se rechace la hiptesis de igualdad de medias
en la prueba F. El procedimiento puede utilizarse tambin para establecer un
conjunto de intervalos de confianza para contrastes C1, C2,...., Cp mediante la
siguiente expresin aplicada a cada uno de ellos:

ci i (a 1) FF ,a 1,

ci2 2
Se

i =1 ni
a

(3.1.26)

El mtodo de Tukey. Hay situaciones en las que un investigador puede estar


interesado en evaluar todas las diferencias posibles entre pares de medias. El nmero
total de comparaciones en este caso viene dado por la siguiente frmula:

a(a1)
2

Este caso ocurre frecuentemente en investigacin aplicada, por ejemplo al comparar


la efectividad de distintos manuales de una asignatura sobre el rendimiento
acadmico de los estudiantes. En muchos casos, no hay razones obvias para formular
comparaciones complejas entre grupos de condiciones experimentales. La
investigacin con motivacin terica, en cambio, produce diseos experimentales

que generan un nmero limitado de contrastes a priori. Estos generalmente no


incluyen todas las comparaciones posibles entre medias sino un subconjunto de ellas
posiblemente combinadas con un par de contrastes ms complejos.
En el caso de que se pretenda realizar todas las comparaciones entre las medias,
la prueba de Scheff no es recomendable ya que tiene muy baja potencia estadstica.
La tcnica usualmente aconsejada en estos casos es la de Tukey (Kirk, 1995; Keppel,
1992; Neter, Kutner, Nachtsheim & Wasserman, 1996). Segn el metodo de Tukey
(Tukey, 1953), concluiremos la existencia de diferencias entre un par de medias
dado,

i i , cuando
Se2
yi yi > q ( , a, )
n

(3.1.27)

La distribucin del estadstico q, al igual que la del estadstico t, fue derivada


por William Gosset. Su clculo viene dado por la expresin
q=

yi yi
S e2
n

(3.1.28)

Una hiptesis de dos colas es rechazada si el valor absoluto de q es igual o excede el


valor crtico

q ( , a , v )

obtenido mediante tablas (Kirk, 1995). El valor crtico al

comparar pares de medias en la mtrica original ser siempre menor si se utiliza la


tcnica de Tukey en comparacin del correspondiente valor si se utiliza la tcnica de
Scheff. As como Bonferroni y Scheff pueden ser utilizados en diseos no
equilibrados, la tcnica de Tukey requiere un nmero igual de observaciones por
tratamiento. Una generalizacin para el caso de muestras con tamao desigual ha
sido desarrollada por Spjtvoll y Stoline (1973). Segn sus resultados, se debera
concluir que i i , cuando
yi yi > q ( , a, v)

Se
min( ni , ni )

(3.1.29)

Las propiedades de este procedimiento deberan ser satisfactorias si el tamao de las


muestras no es muy desigual; en el caso de que s lo sean, el procedimiento es mucho
menos sensible que el mtodo de Scheff.
La prueba de Dunnett. El propsito de muchos experimentos es comparar las a
-1 medias de tratamiento con un grupo de control. Dunnett (1955) desarroll un
procedimiento de comparaciones mltiples para estos fines, que efecta una
correccin del Error Tipo I menos restrictiva que en los mtodos de Tukey o Scheff,
al considerar el nmero menor de contrastes, a - 1, realizado en estos casos. En cada
uno de ellos, concluiremos que i control , cuando
yi yi > t DN ( , a, v)

2 S e2

(3.1.30)

La tabla del estadstico tDN presenta dos probabilidades: a) las relativas a las hiptesis
alternativas unidireccionales, o de una sola cola, y b) las probabilidades relativas a
hiptesis de dos colas.
Comparaciones cuando existe Heterogeneidad de Varianzas
El denominador del estadstico t utiliza un nico estimador de la varianza
agrupada bajo el supuesto de que sta es homognea para los distintos grupos. Si
esto no es cierto, su uso puede provocar un aumento del nivel de error Tipo I (Games
& Howell, 1976). El error Tipo I puede verse especialmente afectado cuando el
tamao de las muestras sea desigual, y las muestras ms pequeas sean obtenidas de
las poblaciones con varianzas mayores. Si el supuesto de igualdad de varianzas no
puede mantenerse, la varianza agrupada en el denominador del estadstico t puede
ser reemplazada por una combinacin lineal de varianzas de los grupos. Definiremos
el estadstico resultante, t* como:
a

c
i

t =

i=1
a

ni
i =1
2
i

2
i

c1 1 + c2 2 + ....... + ca a
c1212 c22 22
c2 2
+
+ .... + a a
n1
n2
n3

(3.1.31)

Los primeros intentos para determinar la distribucin muestral de t* fueron hechos


por Behrens (1929), y desarrollados por Fisher (1935). No existe una solucin exacta
para este problema. Un nmero de aproximaciones han sido propuestos por Cochran
(1964), Satterthwaite (1946), y Welch (1938, 1947). En general, hay bastante acuerdo
entre estas soluciones aproximadas (Lee & Gurland, 1975). Tablas para la
distribucin de t* han sido elaboradas por Aspin (1949), pero una buena
aproximacin a los valores crticos de t* puede obtenerse a partir de distribucin t de
Student con grados de libertad:

v =

a 2 2
c n
i i i
i =1

(3.1.32)

[ci4 i4 ni2( ni 1)]


i =1

En este caso, concluiremos que

ci i > t / 2, v

c
i

0 cuando,

c2i 2
n i ,
i =1 i

(3.1.33)

en donde v viene dado por la expresin (3.1.32). Un intervalo de confianza


aproximado del (1 - )100% puede obtenerse mediante la siguiente expresin:

ci i t / 2,v

ci2 2
i

i =1 ni

(3.1.34)

Wang (1971) inform que cuando el tamao de las muestras es mayor de cinco, la
aproximacin anterior de Welch (1938, 1947, 1949) controla el nivel de error Tipo I
en valores bastante cercanos a , el valor nominal, para un rango bastante amplio de
varianzas poblacionales.
Los resultados anteriores pueden ser utilizados con cualquiera de los mtodos de
comparaciones simultneas descritos en este tema, dado que stos emplean el mismo
estadstico t de Student subyacente, y sus diferencias se limitan en sus valores crticos
de significatividad estadstica respectivos. Estas correspondencias con la distribucin
t pueden apreciarse en la siguiente tabla:

Tabla 3.1-2
Correspondencia de Criterios Estadsticos Asociados con Diferentes Procedimientos
de Control del Error Tipo I.
__________________________________________________________________
Procedimiento

Valor crtico de la distribucin t de Student

__________________________________________________________________
t / 2,v

Bonferroni

(a 1) F ,t 1,v

Scheff1
Tukey2

q ( , a, v)
2

Dunnett

t DN ( , a, v)

__________________________________________________________________
1

2
Recurdese que F ,1,v = (t / 2,v ) .

En el caso particular que a = 2, puede consultarse en la tabla como

q( , 2, v) =

2 t( 2,v)

Cuando el supuesto de homogeneidad de varianzas es incumplido calculamos el valor


del estadstico t de forma diferente, t* en la expresin (3.1.31), as como sus grados
de libertad, v en (3.1.32). Sin embargo podemos seguir segn Myers (1995) los
mismos criterios de la tabla anterior para encontrar los valores crticos.
Sustituiremos as los grados de libertad exactos, en el caso de varianzas homogneas,
por los aproximados (redondeados al nmero entero ms cercano) en el caso de
varianzas heterogneas. Los resultados obtenidos con este procedimiento han sido
bastante satisfactorios en los casos que se han investigado (Brown & Forsythe, 1974;
Keselman, Games & Rogan, 1979; Kohr & Games, 1977; Tamhane, 1979).
Magnitud del Efecto y Potencia Estadstica
Uno de los objetivos de un estudio experimental es que tenga la suficiente
potencia estadstica que le permita detectar diferencias reales entre tratamientos que
estn presentes en la poblacin. En general, se puede disear experimentos con

potencia estadstica utilizando muestras grandes, condiciones experimentales que


produzcan efectos pronunciados, o reduciendo la variabilidad aleatoria. Tambin
podemos aumentar la potencia estadstica seleccionando un diseo experimental ms
sensible, tal como un diseo intrasujetos, o un diseo de bloques al azar, o utilizando
procedimientos estadsticos especiales tales como el anlisis de covarianza. A
continuacin se comentar conceptos y tcnicas presentes en la literatura que nos
permitirn realizar una planificacin previa de un experimento, a fin de que ste sea
sensible en detectar efectos de inters.
Estimacin e Indices de Magnitud del Efecto
La prediccin es uno de los objetivos bsicos de la ciencia. En el estudio de un
comportamiento de inters sera deseable el contar con ndices que nos indiquen el
grado en que ste es afectado por una o ms variables independientes. Se suele
utilizar el nivel de significatividad de una prueba F como ndice. Sin embargo, el
nivel de probabilidad observado, o valor p, no es siempre apropiado. Por ejemplo,
imaginemos que comparamos una prueba F que ha resultado significativa con p <
0.00001 con otra que es significativa con p < 0.05 y concluimos que el primer
experimento permitir un nivel de prediccin mucho mayor que el segundo. Un
problema con esta comparacin es que el tamao de la razn F se ve afectado no
solamente por la magnitud del efecto, sino tambin por otros factores tales como el
tamao de la muestra. As pues, tanto una muestra grande como un efecto de
magnitud considerable contribuyen a aumentar el valor de la razn F. Rosenthal y
Gaito (1963) presentan un ejemplo en el que se pide que se juzgue cul de dos
efectos experimentales es de mayor magnitud. En ambos casos, el nivel de
significatividad correspondiente a la razn F observada es de 0.05 pero el tamao de
la muestra vara, siendo de 5 sujetos en el primer estudio, y de 20 sujetos en el
segundo. Segn Rosenthal y Gaito (1963) muchos investigadores afirman que el
efecto ms grande se obtiene en el estudio con la muestra de veinte sujetos. Sin
embargo, la respuesta correcta es el efecto obtenido en el experimento con la muestra
pequea. En vista del hecho de que potencia y tamao de la muestra estn
correlacionados positivamente, no podemos utilizar el nivel de significatividad

solamente como ndice de magnitud de un efecto experimental. Se necesita en


cambio un ndice de magnitud del efecto que no se vea afectado por el tamao de la
muestra.
Si la hiptesis nula es cierta en un anlisis de varianza , el cociente entre la
media de cuadrados del tratamiento y la del error sigue una distribucin F conocida
como central. Esta depende de dos parmetros: 1 y 2, o los grados de libertad del
numerador y denominador, respectivamente. Tpicamente, las tablas nos dan los
valores crticos que dejan por delante porciones de la tabla con probabilidades de
0.25, 0.10, 0.05 y 0.01. Si la hiptesis nula es falsa, entonces el cociente de medias
de cuadrados sigue una distribucin F no central, que depende de tres parmetros:
1,2, y un parmetro de no centralidad , en donde:
p

n (i . ) 2
=

(3.1.40)

i =1

2
e

El parmetro es una medida del grado en que la hiptesis nula es falsa.


Varios de los ndices ms utilizados de magnitud del efecto estn basados en
una modificacin de ,
p

2 =

=
p

n (i . ) 2 p

(3.1.41)

i =1

e2

que nos proporciona una estimacin de la relacin entre el efecto medio de los
tratamientos experimentales y la varianza de error. Tal tambin es el caso del ndice
de Cohen (1988), cuya relacin con 2 es la siguiente:
p

f =

)2 p

i =1

2
e

m
e

(3.1.42)

, que representa la razn entre la desviacin tpica de las medias de los tratamientos
(m) y la varianza de error (e).
Un ndice relacionado para el caso de dos grupos, tambin propuesto por Cohen
(1988) es el siguiente,

d=

1 2
e

(3.1.43)

que anlogamente al caso anterior indica el nmero de desviaciones tpicas que estn
separadas las medias de los grupos experimentales. El significado intuitivo de este
ndice, as como el hecho de que se halle expresado en la misma mtrica de la
variable dependiente, ha hecho que haya tenido bastante aceptacin en la comunidad
psicolgica (Kirk, 1996). Cohen (1988) considera que magnitudes del efecto
pequeas, medias, y grandes vienen representados por valores de d correspondientes
a 0.20, 0.5 y 0.8 desviaciones tpicas.
Otro tipo de ndices de magnitud del efecto consisten en medidas de asociacin,
emparentadas con el R2 utilizado en el anlisis de regresin. Tal es el caso de la
razn de correlacin, o eta cuadrado propuesta por Fisher (1925),

2 =

Suma de Cuadrados de Tratamiento


Suma de Cuadrados Total

(3.1.44)

Se ha intentando paliar el carcter sesgado de este ndice con otros, tales como el
psilon cuadrado (2) de Kelley (1935) o el omega cuadrado (2) de Hays (1963).
Este ltimo se ha utilizado con frecuencia debido a que existen desarrollos aplicables
a un mayor nmero de diseos experimentales. Su relacin con el parmetro viene
dada por la siguiente expresin:

2 = n

2
1 2

(3.1.45)

En el contexto de un diseo de un factor completamente aleatorizado, omega


cuadrado (2 ) est basado en dos varianzas derivadas de las poblaciones
experimentales, una entre ( TRATAMIENTO ) y otra intra-tratamientos ( e ). En concreto,
2

2
TRATAMIENTO
= 2
TRATAMIENTO + e2
2

(3.1.46)

2
Definido de esta manera, = 0 cuando no existan efectos de tratamiento entre las

poblaciones, y puede tomar un valor entre 0 y 1 cuando stos estn presentes. La

2
magnitud del efecto medida por es claramente una medida relativa, que refleja la

proporcin de varianza total en la poblacin (representada por TRATAMIENTO + e ) que


2

es atribuible a la variabilidad del efecto experimental (representada por TRATAMIENTO ).


2

Un estimador muestral de esta cantidad puede obtenerse con la expresin:

w
=

(a1)( F e1)
(a1)( F e 1)+na

en donde a, n y Fe son el nmero de grupos, el tamao muestral por grupo, y el valor


emprico del estadstico F en un anlisis de varianza de un factor (Myers, Well y
Lorch, 2010).
Es poco probable que se obtenga valores de 2 altos, debido al fuerte peso de la
varianza de error en la mayor parte de las investigaciones comportamentales. En una
revisin realizada por Cohen (1977) se encontr que en la mayor parte de estudios, el
valor 2 oscilaba entre .01 y 0.15. Sedlmeier y Gigerenzer (1989), en una revisin
realizada en el Journal of Abnormal Psychology, encontraron un valor promedio de
2 =0.06

en todos los artculos consultados, valor que parece tambin representativo

de otras reas de estudio (Cooper & Findley, 1982).


Los ndices de tamao del efecto no constituyen estadsticos a partir de los
cuales se toma una decisin en un contraste de hiptesis. Este sigue siendo la razn
F; sin embargo stos puede proporcionar informacin incluso cuando la razn F no
haya resultado estadsticamente significativa debido a una muestra pequea o a una
baja potencia estadstica. La insensibilidad de estas medidas de magnitud del efecto
a variaciones en el tamao de la muestra es un motivo bsico para recomendar su
uso, y ha sido mostrada en varias ocasiones en simulaciones de Monte-Carlo (Carroll
& Nordholm, 1975; Lane & Dunlap, 1978). Maxwell, Camp, and Arvey (1981)
proporcionan una comparacin de algunas de estas medidas, y Cohen (1988, 1992)
presenta otras tiles en otro tipo de modelos tales como regresin mltiple,
diferencias entre grupos en el coeficiente correlacin, diferencias en proporciones
entre grupos independientes, y tablas de contingencia. Los estadsticos de magnitud

del efecto son complementarios a las razones F en el anlisis de experimentos y


contribuyen a la mejor descripcin de los resultados en un informe de investigacin.
La Problemtica de la Potencia Estadstica en Estudios Psicolgicos
La potencia de un experimento refleja el grado que podemos detectar diferencias
esperadas entre tratamientos, y la probabilidad de que otros sean capaces de replicar
resultados cuando intenten repetir un experimento. A pesar de la importancia de este
concepto, la realidad es que se tiene poco en cuenta en la fase de planificacin en la
mayora de los experimentos en psicologa. Como ilustracin, Cohen (1962) revis
toda la investigacin publicada en el Volumen 61 (1960) de la revista Journal of
Abnormal and Social Psychology y encontr una potencia media de 0.48. Esto
quiere decir que cualquiera que intentara replicar alguno de los resultados publicados
en la revista tendra solamente una probabilidad cercana a 0.50 de hacerlo. Un
anlisis subsiguiente realizado 10 aos ms tarde por Brewer (1972) en varias
revistas lleg a las mismas conclusiones. Incluso ms recientemente, 24 aos ms
tarde, Sedlmeier y Gigerenzer (1989) realizaron el mismo estudio anterior de Cohen
en la misma revista, llegando tambin a los mismos resultados: la potencia promedio
de los estudios para detectar un efecto de tamao medio era de 0.50.
La conclusin a partir de estos datos es que la investigacin experimental en
psicologa adolece de falta de potencia. Esto implica que un nmero substancial de
proyectos de investigacin son comenzados y descartados al no producir en un
principio resultados significativos a los niveles comnmente aceptados. Si la
potencia es realmente de 0.5 tal como sugiere la evidencia, la mitad de la
investigacin realizada no dar resultados significativos incluso cuando las
diferencias entre tratamientos sean reales. Esto tambin significa que ser tambin
difcil el replicar resultados experimentales publicados en la literatura. Este estado
de las cosas debera conducir a utilizar procedimientos para controlar la potencia
estadstica en la fase de planificacin del estudio. Keppel (1993) recomienda un
valor de 0.80 como un nivel aceptable de potencia. Otra razn para realizar anlisis
de potencia es por un lado el no desperdiciar recursos innecesarios tales como un
excesivo numero de sujetos, y otro para evitar niveles de significatividad empricos

inflados que no se corresponden con tamaos ms modestos en el efecto de los


tratamientos.
Control de la Potencia mediante el Tamao de la Muestra
La potencia de un experimento se determina por la conjuncin de cuatro
factores: a) la magnitud del efecto de tratamiento, b) la magnitud de la varianza de
de la variable dependiente, c) el tamao de la muestra, y d) el nivel de
significatividad requerido (). Para planificar el tamao muestral es necesario en
primer lugar tener una estimacin del tamao del efecto. Esto puede hacerse de
varias maneras, bien mediante resultados ya publicados en la literatura, o mediante
estudios preliminares o piloto con algunas de las condiciones experimentales.
Adems de una estimacin del tamao del efecto, es necesario tambin
seleccionar un nivel de potencia deseado para el experimento. Aunque la mayor
parte de los investigadores parecen ms bien ignorar esta pregunta (Sedlmeier &
Gigerenzer, 1989), recientemente los metodlogos estn llegando a un consenso de
que un valor de 0.80 (o una probabilidad de Error Tipo II, = 0.20) representa un
nivel razonable y realista en las ciencias del comportamiento (Cohen, 1965, 1977;
Hinkle & Oliver, 1983; Kirk, 1982). Este valor refleja un sentimiento de que los
errores Tipo 2 son menos graves que los errores Tipo 1 y que una razn entre ambos
de 4 a 1 (0.20 / 0.05) es apropiada en muchos casos. La razn entre el error Tipo II y
el error Tipo I reflejada tradicionalmente en la mayor parte de los experimentos es
mucho ms grande de 4:1, casi cercano a una razn de 20:1 (Rosenthal & Rubin,
1985; Rosnow & Rosenthal, 1989). Es un valor tambin realista en el sentido de que
pasar de una potencia de 0.80 a 0.90 conlleva un aumento muy grande del tamao de
la muestra requerida.
Como se mencion anteriormente la potencia, el nivel de significatividad, el
tamao del efecto y el tamao de la muestra son factores relacionados. Si fijamos
tres de ellos, determinaremos completamente el cuarto. Pearson y Hartley (1951,
1972) han construidos una serie de tablas a partir de las cuales podemos estimar el
tamao de la muestra necesario para un nivel de potencia determinado. La
utilizacin de estas tablas requiere de un procedimiento iterativo, en donde se escoge

inicialmente un tamao de muestra. A continuacin se estima el tamao del efecto


menor que se quiere detectar, expresado en trminos de , adems de un nivel de
significatividad. A partir de aqu, la consulta de la tabla nos proporcionar el nivel de
potencia estadstica implicado en estas opciones. Si ste fuera demasiado escaso, o
elevado, ajustaramos el tamao de la muestra a un nuevo valor tentativo, y
continuaramos el proceso hasta que diramos con el valor de potencia deseado.
Las tablas de potencia de Pearson y Hartley solamente contienen dos niveles de
significatividad, = 0.05, y 0.01, y por lo tanto no nos permiten realizar estimaciones
de potencia con otros niveles. Rotton y Schenemann (1978) han construido tablas
para niveles de significatividad menos restrictivos y que suplementan a las de
Pearson y Hartley. Ms concretamente, estas tablas proporcionan informacin sobre
potencia estadstica para seis niveles de significacin ( = .05, .10, .20, .30, .40, y .
50). En ellas puede localizarse el valor estimado de , y conjuntamente con los
grados de libertad del numerador, y denominador, consultar la potencia estadstica
para un experimento dado. Cohen (1977) tambin proporciona un conjunto de tablas
similares que incluyen tres niveles de significatividad ( =.05,.01 y .10). Se han
desarrollado tambin programas de ordenador de libre acceso como Gpower que
permiten planificar el tamao muestral de forma anloga (Faul, Erdfelder , Lang y
Buchner, 2007).
Editores y revisores de revistas urgen con cada vez ms frecuencia que se
incluyan en los informes medidas del tamao relativo del efecto para todos los
contrastes de hiptesis realizados. Un efecto pequeo pero significativo puede ser
trivial y detectado solamente porque el experimento cuenta con un alto nivel de
potencia. En cambio, un efecto medio pero no significativo puede sugerir la
existencia de una diferencia de medias importante que no ha sido detectada debido
a una falta de sensibilidad estadstica. Relacionado con este tema se encuentra el
concepto de diferencia prcticamente significativa. Es til para los clculos de
tamao de la muestra el que el investigador seleccione un nivel mnimo de efecto
experimental que sea de inters desde el punto de vista prctico o terico. La falta
de potencia estadstica para detectar efectos de tratamiento de poco inters no se

considera un problema. Algunos metodlogos se refieren al rango de posibles


efectos de tratamiento sin inters prctico como banda de nulidad (Greenwald, 1975;
Hays, 1973). El proporcionar estimadores del tamao del efecto nos permite evaluar,
en el caso de que la hiptesis nula no pueda ser rechazada, si este resultado puede o
no puede ser debido a que el experimento carezca de poder discriminativo.
Consideraciones de Potencia Estadstica en Comparaciones Anliticas
La inquietud respecto del aumento del error Tipo I con el nmero de
comparaciones debera implicar tambin una consideracin de los efectos de la
eleccin de valores crticos por los procedimientos anteriores sobre la probabilidad
del error Tipo II. Una preocupacin compulsiva por no cometer el primer tipo de
error puede llevarnos a realizar comparaciones con una potencia estadstica
inaceptable. Por este motivo, Davis y Gaito (1984) y Keppel (1992) recomiendan el
tomar estos dos factores en consideracin a fin de calibrar adecuadamente el anlisis
para que sea sensible a los efectos de inters.
Consideremos un ejemplo. Supongamos que hemos determinado que una
muestra con un tamao de diez participantes producira una potencia estadstica de
0.80 para una comparacin determinada con un solo grado de libertad cuyo valor
crtico se ha prefijado en = 0.05. Si utilizaramos la correccin de Bonferroni, el
nivel de significatividad del valor crtico para cada una de ellas se reducira a /c, en
donde c es el nmero de comparaciones planificadas de antemano. Bajo el supuesto
de que c = 5 y el tamao del efecto = 2, la potencia estadstica de la comparacin
se reducira de 0.8 a 0.5, segn las tablas de Pearson y Hartley (Pearson & Hartley,
1972; Kirk, 1995). Esto significara que slo tendramos un 50% de posibilidades de
detectar una diferencia real. Si tal efecto fuera de importancia, sera aconsejable el
tomar medidas preventivas. Las opciones en este caso seran aumentar el tamao de
la muestra, modificar el nivel de error experimental F, escoger otro mtodo de
correccin, o utilizar el valor nominal para la comparacin C = 0.05. Keppel (1992)
recomienda esta ltima opcin para comparaciones a priori siempre que su nmero
no exceda el de grados de libertad de tratamiento. Situaciones de este tipo pueden ser
frecuentes, por lo que se recomienda incorporar estas consideraciones en el plan de

anlisis de los datos experimentales. Ramsey (1978, 1981) y Einot y Gabriel (1975)
tratan con ms detalle la problemtica de la potencia estadstica en las comparaciones
mltiples.

Вам также может понравиться