Вы находитесь на странице: 1из 11

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/289672217

Análisis de Poder Estadístico y su Aplicación a


Evaluaciones Experimentales

Research · January 2016


DOI: 10.13140/RG.2.1.1545.7366

CITATIONS READS

0 161

1 author:

Nora Gesto Giannattasio


Oficina de Planeamiento y Presupuesto, Presidencia, Uruguay.
6 PUBLICATIONS 3 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Evaluación de Impacto View project

All content following this page was uploaded by Nora Gesto Giannattasio on 09 January 2016.

The user has requested enhancement of the downloaded file.


Maestrı́a en Ingenierı́a Matemática - Udelar.
Octubre 2015

Análisis de Poder Estadı́stico


y su Aplicación a Evaluaciones Experimentales
Nora Gesto1 *

Resumen
El cálculo y análisis del poder estadı́stico es un paso relevante al momento de concluir en una
evaluación experimental, dado que se puede estar rechazando la presencia de un efecto derivado de
un tratamiento, cuando en realidad no hay suficiente poder estadı́stico para arribar a dicha conclusión.
En este documento se presentan los conceptos claves del análisis de poder estadı́stico, un ejemplo de
su forma de cálculo y el análisis crı́tico respecto a su implementación desde un análisis prospectivo
versus uno retrospectivo.
Keywords
Poder estadı́stico, Evaluación de Impacto, Pruebas de Hipótesis.
*Contacto: noragesto@hotmail.com

Índice ambientales, etc) se deben de tomar importantes decisio-


nes, Steidl (2001)[7]:
Introduction 1 i) en cuanto a la cantidad de tratamientos a aplicar, ii)
1 Poder Estadı́stico y Nivel de Significación. 2 la forma en que cada unidad es asignada en el experi-
2 Tamaño del Efecto (Effect Size - ES). 4 mento al grupo de tratamiento, y iii) la forma en que se
selecciona la muestra de la población de interés.
3 Análisis Prospectivo vs Retrospectivo 5
3.1 Análisis Prospectivo . . . . . . . . . . . . . . . . . . 5 Al tener que tomar este tipo de decisiones, es importante
3.2 Análisis Retrospectivo . . . . . . . . . . . . . . . . . 6 tener una herramienta que permita comparar los distin-
3.3 Crı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 tos y potenciales diseños, siendo el análisis de poder
4 Forma de Cálculo 9
estadı́stico una herramienta adecuada [7].
5 Conclusión 10 En este sentido, el cálculo de poder estadı́stico es valioso
Referencias 10 en la planificación de un experimento dado que, si la
prueba de hipótesis da como resultado que es no signifi-
cativa estadı́sticamente, no es suficiente para establecer
Introduction que hay falta de impacto o efecto.

Es utilizado en áreas de investigación sobre impactos


Para evaluar los efectos de la aplicación de determinado
ambientales, seguridad de productos, bienestar público y
tratamiento a una población dada, se diseñan experimen-
otro tipo de diseños de evaluación experimental donde
tos donde se asignan unidades aleatoriamente a grupos
se busca encontrar el efecto o impacto de determinado
de tratamiento y de control. Ésto permite inferir que las
tratamiento aplicado.
diferencias futuras en la variable de resultados es un es-
timador insesgado de las diferencias en los impactos del
Es un tipo de test llevado a cabo por los investigadores
tratamiento ofrecido, Bloom (2006)[2].
para evitar concluir falsamente que determinado trata-
miento tiene efectos, cuando en los hechos no los tiene,
En el diseño de estudios y/o experimentos, donde se
por lo cual se quiere proteger a las personas de con-
quiere determinar el efecto de la aplicación de un trata-
cluir que no hay impactos cuando pueden existir serios,
miento (tanto en ciencias biológicas, médicas, sociales,
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 2/10

peligrosos o dañinos efectos. tado y un grupo de control, la hipótesis nula más común
indica que no hay diferencia entre las medias poblacio-
Hay gran cantidad de literatura que promueve que se nales de la variable de resultados entre los grupos de
hagan los cálculos de poder cada vez que uno realiza una tratamiento y control. La hipótesis alternativa afirma
prueba estadı́stica de una prueba de hipótesis y obtiene que hay una diferencia entre los grupos, y dicha dife-
de resultado que es estadı́sticamente no significativa. Los rencia puede ser expresada como un efecto positivo del
defensores de tales cálculos de poder post-experimento tratamiento, un efecto de tratamiento negativo, o simple-
afirman que los cálculos se debe utilizar para ayudar en mente significa que el tratamiento no es igual a la media
la interpretación de la resultados experimentales. del grupo de control.

El hecho de no rechazar la hipótesis nula de no efecto


puede ser el resultado de la baja potencia estadı́stica H0 : µT = µC (caso de medias poblacionales iguales).
cuando realmente existe efecto y la hipótesis nula de
no efecto es de hecho falso. Esto es conocido como Ha : µT 6= µC (caso de medias poblacionales distintas).
el dilema del no rechazo de la hipótesis nula, Hoenig
(2001)[4].
Para esta prueba de hipótesis se puede utilizar un t-test
Cohen (1988) [p.16] [3] afirma que si se diseña un es- para generar el estadı́stico t.
tudio para que tenga alto poder (1 − β ) para detectar
alejamientos ∆ de la hipótesis nula (siendo ES[effect µ¯T − µ¯C
size]=∆), y no se rechaza H0 , entonces la conclusión de t= σ ,

n
que el verdadero valor del parámetro se encuentra en ∆
unidades del valor de la hipótesis nula, es significativo
al nivel β . Por lo cual, usando la misma lógica con la siendo µ¯T la media de la variable de resultados en el gru-
que se rechaza la hipótesis nula con un riesgo de α, la po de tratados, µ¯C la media de la variable de resultados
hipótesis nula puede ser aceptada en preferencia respecto en el grupo de control, σ el error estándar y n la cantidad
a la que mantiene que ES=∆ con riesgo igual a β . de casos en la muestra.

Después que las hipótesis están claramente establecidas


1. Poder Estadı́stico y Nivel de y los datos se han recogido y analizado, el investigador
Significación. debe decidir si hay suficiente evidencia para rechazar la
hipótesis nula.
El análisis de poder estadı́stico está vinculado a discusio-
nes sobre prueba de hipótesis y niveles de significación. En el cuadro 1 se presentan los posibles tipos de error
que pueden darse en las pruebas de hipótesis. El nivel
En un estudio comparativo de dos grupos realizado me- de significación denotado con α, es la probabilidad de
diante un experimento aleatorio perfectamente imple- rechazar la hipótesis nula cuando es verdadera (Prob
mentado, el poder es la probabilidad de descubrir un (rechazar H0 |H0 cierta) = α). Esto se conoce como una
efecto causal del tratamiento cuando tal efecto realmente tasa de Error de Tipo I, el cual se produce cuando el
existe. investigador encuentra una diferencia significativa entre
los dos grupos cuando en los hechos no son diferentes.
Es la posibilidad de rechazar la hipótesis de que los dos Por lo tanto, la probabilidad de tomar la decisión correcta
grupos comparten una media poblacional común y por es Prob (no rechazar H0 |H0 cierta) = (1 − α).
lo tanto significan que no hay una diferencia entre las
medias de la población de los dos grupos, cuando en Por otro lado, cuando la hipótesis nula es falsa la decisión
realidad hay una diferencia de una magnitud dada. Es correcta es rechazar H0 . En este caso, la probabilidad
por lo tanto, la oportunidad de tomar la decisión correcta de realizar la decisión correcta es la definición de poder
de que los dos grupos son diferentes entre sı́. estadı́stico y está dada por: Prob (rechazar H0 |H0 falsa) =
(1−β ). El Error de tipo II es la probabilidad de mantener
En un diseño de evaluación donde se tiene un grupo tra- una hipótesis nula cuando ésta es falsa y está denotado
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 3/10

Cuadro 1. Tipos de Error en Pruebas de Hipótesis.

No Rechazo la Rechazo la
Hipótesis Nula Hipótesis Nula

Hipótesis Nula No hay Error Error de Tipo I


Verdadera Probabilidad = 1 − α Probabilidad = α

Hipótesis Nula Error de Tipo II No hay Error


Falsa Probabilidad = β Probabilidad = 1 − β
Fuente: Spybrook (2011) [6].

con β = Prob (no rechazar H0 |H0 falsa). En este caso, tamaño de muestra dado.
el investigador pasa por alto una diferencia significativa
cuando en realidad existe. En la figura 1 se ilustra que el efecto mı́nimo detectable
de un estimador de impacto es un múltiplo de su error
Como no es deseable cometer ninguno de los dos tipos estándar. En la campana de distribución de la izquierda
de errores, se va a querer tener un alto poder estadı́stico se representa la distribución t para una hipótesis nula
(por ejemplo, (1 − β )=0.8), de forma que la probabilidad de cero impacto. Para que una estimación de impacto
de poder detectar correctamente la diferencia entre la positiva sea estadı́sticamente significativa al nivel de α
media de las dos poblaciones sea de un 80 %. en un test a una cola (o α/2 en un test a dos colas), la
estimación debe de caer a la derecha del valor crı́tico tα
Si un estudio tiene poco poder, una diferencia que sea pe- (o tα/2 ) de la primer distribución.
queña y apenas significativa posiblemente no podrá ser
detectada, y éste es el factor importante al momento La campana de distribución a la derecha representa a la
del diseño del estudio o experimento. Dado que la reali- distribución t para una hipótesis alternativa de que el ver-
zación de los experimentos esta asociada a inversiones dadero impacto es igual a un efecto mı́nimo detectable.
costosas, que no se pueda concluir sólo debido a una Para tener una probabilidad de (1 − β ) 1 de detectar el
carencia de poder estadı́stico implica una debilidad im- efecto mı́nimo detectable, éste debe encontrarse a una
portante en el diseño. distancia de t1−β a la derecha del valor crı́tico t de la
hipótesis nula.
El análisis de poder estadı́stico puede hacerse desde 2
enfoques: Por lo tanto, el efecto mı́nimo detectable  debe de encon-
trarse a una distancia total de tα + t1−β (o tα/2 + t1−β )
El enfoque de determinación del poder (“power deter- de la hipótesis nula. Dado que los t-valor son múltiplos
mination”) asume un tamaño de efecto dado producido de los errores estándar del estimador de impacto,el efec-
por la intervención, y el objetivo es poder calcular el to mı́nimo detectable es por lo tanto tα + t1−β veces
poder estadı́stico con el cual se puede detectar ese efecto el error estándar (para el test a una cola) o tα/2 + t1−β
para un tamaño de muestra dado. veces el error estándar (para el test a dos colas).

En el enfoque de tamaño del efecto (“effect size”) se Dados los conceptos manejados, el análisis de poder
toma como dado el nivel de poder estadı́stico y el objeti- estadı́stico esta directamente vinculado al diseño de ex-
vo es calcular el mı́nimo efecto que puede ser detectado perimento seleccionado. Los parámetros a considerar
para ese nivel de poder y tamaño de muestra. en el cálculo difieren dependiendo de si en el diseño la
aleatorización fue por individuo y/o con estratos o por
Bloom (1995) [1] define el Efecto Mı́nimo Detectable clusters, y si constó de una o más etapas.
(Minimum Detectable Effect Size - MDES) como el
mı́nimo efecto que puede ser detectado para un nivel 1 En la figura 1 se representa con una B a β , por lo tanto (1 − β )
de poder y nivel de significación especificado, para un es equivalente a (1 − B).
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 4/10

Figura 1. Efecto Mı́nimo Detectable.

Fuente: Bloom (2006)[2]

Adicionalmente la inclusión de covariables en las esti- cluster sean similares respecto a la variable de resultados.
maciones afecta a los cálculos de poder y/o tamaños de Esto reduce la heterogeneidad dentro de los bloques,
muestra, por lo cual es una forma utilizada para incre- incrementando la precisión de la estimación del efecto
mentar la precisión del estudio y reducir el tamaño de la en los tratados.
muestra. El uso de covariables requiere que se cumplan
dos supuestos: i) que la covariable tenga una asociación
lineal fuerte con la variable de resultados, ii) que di- 2. Tamaño del Efecto (Effect Size - ES).
cha asociación sea similar dentro de cada condición del
tratamiento. El concepto de tamaño del efecto puede ser usado para
cuantificar la respuesta al tratamiento en el experimento,
La estratificación en la aleatorización es utilizado habi- o el grado en que el fenómeno de interés está presente
tualmente en los diseños experimentales para mejorar la en la población de interés (en estudios observacionales).
validez y/o la precisión y poder estadı́stico del experi-
mento. El concepto usado en el análisis de poder no es un
parámetro poblacional, sino que es un valor hipotético
En la aleatorización de individuos, la idea de aleatorizar que está determinado por el investigador en las hipóte-
en estratos es encontrar bloques donde los individuos sis nula y alternativa. Hay varias formas de medir el
dentro de cada bloque o estrato sean muy similares entre ES y por lo tanto en cada caso debe de especificarse
sı́ respecto a la variable de resultados, luego se aleatoriza explicitamente cual va a utilizarse, Steidl (2001)[7].
a tratamiento y control dentro de cada estrato.

La varianza entre los bloques no afecta el error estándar Efecto simple. Cuando la pregunta de interés puede ser
de las estimaciones del efecto en los tratados, inclusi- reducida a un único parámetro, como la pregunta
ve si dicha varianza es grande la estratificación logra sobre la diferencia entre las medias de dos pobla-
incrementar el poder estadı́stico. ciones o la diferencia de la media de una población
con un valor fijo.
Los mismos argumentos se aplican a la aleatorización de
Efecto absoluto. Establecido como alejamientos de la
clusters, donde el objetivo es encontrar bloques donde los
hipótesis nula y tiene la misma unidad que el
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 5/10

parámetro de interés. En una regresión lineal sim- 2 muestras, el tamaño del efecto (parámetro no central)
ple, una medida del tamaño del efecto absoluto que puede ser tomado como una medida del tamaño del
es la diferencia entre la pendiente de la linea de efecto estandarizado es2 :
regresión y una pendiente cero.
|µT − µC |
r
Efecto relativo. Representa el cambio en la variable de nT nC
δ= .
resultados debido al tratamiento relativo al valor σ nT + nC
en el grupo de control (µT − µC )/µC . En general
son expresados en porcentaje, p.ej. el porcenta-
je de incremento en el tamaño de una población 3. Análisis Prospectivo vs Retrospectivo
debido al tratamiento.
3.1 Análisis Prospectivo
Efecto estandarizado. Es una medida del efecto abso-
luto escalado con la varianza, y por lo tanto com-
El análisis prospectivo es el que se realiza cuando se esta
bina dos componentes a testear en la hipótesis.
planificando un estudio experimental. Tiene una natura-
Una medida del tamaño del efecto estandarizado
leza exploratoria y provee la oportunidad de investigar
está dado por |µT − µC | /σ , donde σ es el error
como los cambios que se hagan al diseño del estudio
estándar agrupado de la población. Las medidas
y sus componentes de análisis de poder estadı́stico (ta-
estandarizadas no estan expresadas en ninguna
maño de la muestra n, tamaño del efecto ES, y varianza
unidad de medida, por lo tanto son comparables
de la población σ 2 ) pueden influir en la capacidad del
a través de varios estudios. Pueden ser útiles al
estudio de hacer inferencia y alcanzar los objetivos.
momento de la planificación de la investigación
como una forma de especificar el tamaño del efec- El análisis prospectivo de poder estadı́stico es usado
to cuando no se dispone de datos preexistentes al principalmente para determinar:
respecto (por ejemplo cuando no se tiene conoci-
miento de σ ).
1. el tamaño de muestra n necesario para asegurar
Efectos complejos. Se consideran cuando hay varios un nivel determinado de poder en el test de hipóte-
tratamientos simultáneos. Una hipótesis nula de sis nula, dado un nivel especificado de ES, α y
un experimento en estos casos podrı́a ser H0 : µ1 = varianza.
µ2 = ... = µk , donde µ1 es la media de los con-
troles y de µ2 a µk son las medias de los (k − 1) 2. el poder que puede tenerse en el test de hipótesis
niveles de tratamiento nula cuando estan dados el ES, α, varianza y un
nivel máximo de tamaño de muestra previamente
definido por cuestiones logı́sticas o de costos del
Las funciones de distribución de los parámetros que ha- experimento.
bitualmente se utilizan para las pruebas de hipótesis son
conocidas como distribución central, las cuales forman 3. el efecto mı́nimo detectable, dado un nivel pre-
parte de un tipo de distribución más general conocida visto de poder, α, varianza y tamaño de muestra.
como distribución no central.
En la Figura 2 se presentan las relaciones entre tamaño
La distribución central describe la distribución del es-
de muestra y poder estadı́stico que se darı́an para un
tadı́stico bajo el supuesto de que la hipótesis nula es
ejemplo de tres niveles de tamaño de efecto considerados:
cierta. La distribución no central está dada para cual-
pequeño δ = 0,09, mediano δ = 0,23 y grande δ = 0,36.
quier hipótesis alternativa definida.
Es notorio como el tamaño de efecto esperado está muy
Por lo tanto, en el caso de la distribución no central se tie-
vinculado al poder estadı́stico y tamaño de la muestra.
ne un parámetro adicional a considerar, que corresponde
Cuanto menor tamaño del efecto que se quiere detectar
a la medida del tamaño del efecto.
2 Para dos muestras con igual varianza σ 2 . En caso de tener dis-
En una distribución t no central, asumiendo un t-test con tintas varianzas se debe contemplar en el cálculo.
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 6/10

es necesario tamaños de muestra más grandes para poder Figura 2. Estimación de tamaño de muestra y poder
tener un poder estadı́stico adecuado. La varianza de los para cada nivel de δ .
datos también afecta mucho a estos cálculos, siendo
las varianzas altas o muy dispares entre ambos grupos
lo que determina la necesidad de tamaños de muestra
mayores para poder obtener conclusiones con niveles
adecuados de poder estadı́stico. Este tipo de factores es
importante tenerlos en cuenta al momento de definir un
estudio porque puede llegar a afectar notablemente los
costos del mismo.

En cada uno de los casos es necesario para el cálculo


conocer la varianza poblacional, lo cual es altamente im-
probable y hace necesario poder estimar dicha varianza.

El método más utilizado para tener estimaciones de la


varianza a priori es a través de las los estudios piloto.
No solo habilitan a tener una estimación de la varianza
con intervalos de confianza, sino que además permiten
testear en campo el diseño de evaluación propuesto. Fuente:Elaboración propia con software Optimal Design. Tamaños
de ES considerados: pequeño δ = 0,09, mediano δ = 0,23 y grande
Otra forma de estimar esa varianza poblacional es a δ = 0,36.
través del uso de ese dato obtenido de estudios previos
con similares caracterı́sticas, en este caso también es
recomendable realizar la estimación considerando es-
cenarios de máxima y mı́nima de poder estadı́stico en 3.2 Análisis Retrospectivo
función del intervalo de confianza de la varianza.
El análisis retrospectivo se realiza luego de que el estudio
Por último, si no se dispone de ningún dato a priori que experimental fue realizado y se han analizado los datos.
permita estimar la varianza, la única opción que queda En este momento toda la información necesaria para
es realizar análisis de sensibilidad utilizando un rango realizar los cálculos de poder estadı́stico están disponi-
posible de valores para la varianza esperando que el bles: el diseño del experimento, el tamaño de muestra
verdadero valor de la varianza esté dentro de ese rango y n, el nivel de significación α y el tamaño del efecto
por lo tanto tener un escenario de máxima y mı́nima de y la varianza observados en la muestra que proporcio-
poder estadı́stico estimado. nan una estimación del tamaño del efecto y la varianza
poblacional.
En varias ocaciones el diseño del estudio es más comple-
jo que simplemente comparar dos muestras de población. El análisis de poder retrospectivo habitualmente se lleva
En estos casos hay que considerar alternativas adicio- a cabo cuando el test estadı́stico falla en proporcionar
nales para aumentar el poder estadı́stico cuando hay un suficiente evidencia para rechazar la hipótesis nula. En
presupuesto fijo que implica restricciones en el tamaño esa situación es importante poder distinguir las posibles
de muestra. razones:

Las formas de hacerlo pueden ser a través de [7]: i)


incrementos en el tamaño del efecto que puede obtenerse el verdadero tamaño del efecto no es importante y
a partir de incremento de tratamiento o de intensidades por lo tanto la hipótesis nula es verdadera
en los niveles de tratamiento, ii) reducir el error del
experimento a través de la estratificación en el proceso el verdadero tamaño del efecto es importante, pe-
de aleatorización, o iii) incorporar covariables en las ro se falla en rechazar la hipótesis nula (p.ej se
estimaciones. comete el Error del Tipo II).
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 7/10

Para identificar la razón se calcula el poder estadı́stico de tiva solo cuando la hipótesis nula no es rechazada
detectar un efecto mı́nimo, dado el tamaño de la muestra, compromete todo el análisis realizado.
el nivel de α y la varianza estimada en el estudio.
3. Los intervalos de confianza sobre las estimaciones
Si el poder para ese efecto mı́nimo es grande, entonces de poder estadı́stico o del tamaño del efecto son
el verdadero tamaño del efecto de magnitud mı́nima muy conservadores (muy amplios) siendo poco
deberı́a tener resultados estadı́sticamente significativos. útiles en el análisis posterior de los resultados.

Pero, dado que el test dio no significativo, se puede 4. La inferencia realizada a partir del análisis retros-
inferir de que el verdadero tamaño del efecto puede pectivo de poder (que no usa información sobre
ser pequeño o grande, por lo tanto el resultado no es el tamaño del efecto observado) es ineficiente res-
concluyente y no se deberı́a hacer inferencia a partir de pecto a la utilización de intervalos de confianza
ese resultado. del tamaño del efecto estimado.

Otra aproximación puede hacerse a través de la estima-


ción del Efecto Mı́nimo Detectable para un nivel dado Otras crı́ticas se han desarrollado en el análisis de prue-
de poder, o la estimación del tamaño de muestra que bas de hipótesis y cálculos del poder estadı́stico que no
hubiese sido necesario para poder detectar ese tamaño apuntan exclusivamente a la comparación de análisis
de efecto observado. prospectivo vs retrospectivo.

Por un lado, están las crı́ticas que apuntan a la definición


3.3 Crı́tica de los enunciados de las hipótesis nula y alternativa,
abordado por las pruebas de bioequivalencia ofreciendo
La estimación del poder estadı́stico de forma retrospecti- una propuesta alternativa.
va es un tema controvertido, tanto en Steidl (2001) como
en Hoenig (2001) se realizan fuertes crı́ticas al respecto. Por otro lado, están las crı́ticas sobre las pruebas de
hipótesis que proponen enfocar las conclusiones en el
Si bien hay investigadores defensores del método que análisis de los intervalos de confianza y no tanto en el
apoyan realizar el cálculo de poder post-experimento resutlado de la prueba de hipótesis en si.
porque afirman que puede ayudar en la interpretación
de los resultados experimentales, hay investigadores que Pruebas de Bioequivalencia.
consideran que es una práctica inválida.
Algunas de las crı́ticas realizadas a las pruebas de hipóte-
En Steidl (2001) [7] se considera que el análisis de poder sis tradicionales se basan en la consideración de que la
estadı́stico retrospectivo puede llegar a tener lugar de hipótesis nula nunca llegue a ser cierta en algunos casos,
forma informativa, pero no conluyente y recomiendan y por lo tanto la realización de la prueba pierde sentido
un abordaje alternativo en las situaciones de rechazo de e interés.
la hipótesis nula que consta en el uso de intervalos de
confianza. A partir de esta crı́tica, se realiza una propuesta alter-
nativa dada por las pruebas de bioequivalencia que se
Plantean 4 problemas asociados a esa práctica que habi- utilizan habitualmente en estudios farmacéuticos e inves-
tualmente no son tomados en cuenta: tigaciones ambientales y sobre ecologı́a.

Las pruebas de bioequivalencia básicamente lo que ha-


1. Se asume que la estimación del poder estadı́stido cen es intercambiar los roles de la hipótesis nula y la
para un tamaño de efecto dado, puede traducirse alternativa, de forma que en vez de testear si el tratamien-
en una aseveración sobre la confianza del tamaño to tiene efecto nulo, se considera que el tratamiento tiene
del efecto verdadero, cuando no es es posible ha- efecto a no ser que se tenga evidencia de lo contrario.
cerlo.
Primero, se define un tamaño del efecto mı́nimo que se
2. Realizar los cálculos de poder de forma retrospec- considera “biológicamente” importante: ∆crit .
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 8/10

Luego se fija una hipótesis nula que establece que el si el tamaño del efecto es biológicamente importante.
verdadero tamaño del efecto es mayor o igual a ese valor
de tamaño del efecto mı́nimo. En este caso el intervalo de confianza representa al ran-
go de datos generados por la muestra que no pueden
Por último, se establece una hipótesis alternativa que excluirse como posibles valores del verdadero tamaño
establece que el verdadero tamaño del efecto es menor del efecto con probabilidad (1 − α).
al ∆crit . Estas hipótesis se pueden establecer como:
Si el 100(1 − α) % del intervalo de confianza del efecto
observado no incluye el valor establecido en la hipótesis
H0 : |µT − µC | ≥ ∆crit , que representa al caso en que nula, se puede concluir con un 100(1 − α) % de con-
existe un efecto biológicamente importante. fianza que la prueba de hipótesis es estadı́sticamente
significativa a un nivel α.
Ha : |µT − µC | < ∆crit , que representa al caso en que
no existe un efecto biológicamente importante. Adicionalmente, los intervalos de confianza proveen más
información que una prueba de hipótesis, dado que es-
tablece los lı́mites aproximados dentro de los cuales es
En este contexto, el Error del Tipo I ocurre cuando el probable que se encuentre el verdadero valor del tamaño
investigador conlcuye incorrectamente que no hay una del efecto. En promedio, el 100(1 − α) % de los interva-
diferencia importante cuando realmente hay, siendo este los de confianza van a contener el verdadero valor del
el error de tipo II definido como poder estadı́stico en el parámetro estimado el 100(1 − α) % de las veces.
análisis de pruebas de hipótesis tradicional. Sin embargo,
en ésta reformulación de las hipótesis, el error de tipo II Por lo tanto, en situaciones en las que la hipótesis nula
se da cuando el investigador concluye incorrectamente no serı́a rechazada en la prueba de hipótesis, se puede
que existe una diferencia de tamaño importante cuando utilizar el intervalo de confianza para evaluar sı́ el efecto
en realidad no existe. biológicamente importante es realmente posible.

Por lo tanto, la tasa de error de concluir que no hay efecto Si el intervalo de confianza no incluye un valor suficien-
cuando realmente hay se puede controlar a través de la temente grande como para ser considerado biológica-
fijación del nivel de α y ya no es β como en las pruebas mente importante, se puede concluir con una confianza
tradicionales. de 100(1 − α) % que no se dio ningún efecto biológica-
mente importante.
Intervalos de Confianza.
Sin embargo, si el intervalo de confianza incluye valores
Otra crı́tica realizada al análisis y conclusiones derivados que son biológicamente importantes, el resultado no es
a partir de pruebas de hipótesis está dado por el hecho de concluyente, Steidl (2001).
que un test tenga resultado estadı́sticamente significativo
no necesariamente refleja la importancia biológica del
Figura 3. Análisis de una prueba de hipótesis a través
resultado.
de intervalos de confianza.
Por ejemplo, un resultado estadı́sticamente significativo
puede ser encontrado para un tamaño de efecto biológi-
camente trivial, cuando el tamaño de la muestra es lo
suficientemente grande o las varianzas suficientemente
pequeñas.

Para evaluar la hipótesis nula también pueden utilizarse


los intervalos de confianza para la estimación de un nivel
observado de tamaño de efecto.

El análisis de poder estadı́stico se enfoca en la probabili-


dad de obtener resultados estadı́sticamente significativos Fuente:Steidl (2001).
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 9/10

En la Figura 3 se presenta un ejemplo del tipo de in- hipótesis que se vaya a hacer. Si la diferencia de me-
terpretación que se puede hacer a partir del análisis de dias es de la variable en niveles, o es una variable en
intervalos de confianza. porcentajes.

Los circulos muestran los efectos observados hipotéticos También varı́a de acuerdo al tipo de muestreo que se
asociados aun intervalo de confianza de 100(1 − α) %. vaya a hacer en los datos, si es por cluster, por estratos
La lı́nea horizonal central representa el efecto cero, y o muestreo simple, y también influye si al momento del
las lı́neas punteadas representan los efectos mı́nimos cálculo del impacto del tratamiento se incluyen variables
biológicamente importantes. explicativas en las regresiones que mejoren la capacidad
explicativa del modelo.
Caso A. El intervalo de confianza para el efecto esti-
mado no incluye el cero e incluye solamente a efectos El objetivo del presente documento no es el desarrollo
biológicamente importantes. Por lo tanto, el estudio es de todos los tipos de formulaciones posibles, sino que se
estadı́sticamente y biológicamente importante. enfoca en la comprensión de la importancia de considerar
el poder estadı́stico en las evaluaciones experimentales
Caso B. El intervalo de confianza excluye el efecto cero y las diferentes opiniones que hay respecto a este tema.
(el estudio es estadı́sticamente significativo), pero inclu-
ye valores que están por debajo de los que se pensó que Se presenta a modo de ejemplo, el desarrollo de las
eran biológicamente importantes. Por lo tanto, el estudio ecuaciones necesarias para el cálculo en el caso de que
no es biológicamente concluyente. se realicen test en dos muestras a dos colas, y asumiendo
que los estadı́sticos que se van a usar son Z o t.
Caso C. El intervalo de confianza incluye al efecto cero
y efectos importantes biológicamente. Por lo tanto, el es- En estos casos el poder estadı́stico (1 − β ) es calculado
tudio no es concluyente ni biológica ni estadı́sticamente. como la probabilidad de que el test estadı́stico sea mayor
o igual al lı́mite superior de los valores crı́ticos de la
Caso D. El intervalo de confianza incluye al efecto cero distribución aproximada.
pero excluye los efectos considerados biológicamente
importantes, por lo tanto la hipótesis nula de que no hay 
efectos biológicamente importantes puede ser aceptada (1 − β ) = 1 − FZ (z1−α/2 − Zhyp ) + FZ (zα/2 − Zhyp ) ,
con un 100(1 − α) % de confianza.

Caso E. El intervalo de confianza excluye el efecto cero


pero no incluye efectos considerados biológicamente donde FZ (x) es la función de distribución acumulada
importantes, por lo tanto el estudio es estadı́sticamente de una distribución normal en el punto x, z1−α/2 es el
pero no biológicamente importante. cuantil (1 − α/2) de la distribución normal y Zhyp es
el percentil 100p de una distribución normal estándar,
Por lo tanto, cuando el intervalo de confianza excluye calculado como:
al tamaño del efecto cero, es equivalente a rechazar la
hipótesis nula con un nivel α. Entonces, la probabilidad r
∆ nT nC
de que el intervalo de confianza excluya el tamaño del Zhyp = ,
σ nT + nC
efecto nulo, dado un tamaño de efecto especificado, es
equivalente al poder estadı́stico del test.
siendo ∆ la diferencia entre la media de los grupos, σ la
desviación estándar conjunta, y nT y nC son los tamaños
4. Forma de Cálculo de las muestras de cada grupo.

Las fórmulas necesarias para calcular cualquiera de las Para un t − test el poder estadı́stico esta dado por:
tres variables que se mencionaron a lo largo del docu-
mento: poder estadı́stico β , tamaño de la muestra n y 
tamaño del efecto δ , varı́an de acuerdo a la prueba de (1 − β ) = 1 − Ft (t1−α/2,v |v, δ ) + Ft (tα/2,v |v, δ ) ,
Análisis de Poder Estadı́stico
y su Aplicación a Evaluaciones Experimentales — 10/10

donde Ft (x|v, δ ) es la función de densidad acumulada de errores de implementación en el experimento que lleven
una distribución no central t con v grados de libertad y a que los resultados no sean buenos para la inferencia
parámetro no central δ , evaluado en x. por no haber tomado determinadas precauciones previo
al levantamiento de datos.
El t p,v es el percentil 100p de una distribución central t
con v grados de libertad. En cuanto al análisis retrospectivo, dadas las numerosas
crı́ticas al respecto, no parece ser el análisis más adecua-
El parámetro no central δ está dado por: do cuando quiere validarse los resultados obtenidos.
Sin embargo, las propuestas de interpretar los resultados
r a través de pruebas de bioequivalencia, o a través de in-
∆ nT nC
δ= , tervalos de confianza parecen ser propuestas adecuadas
σ nT + nC
y más robustas.

siendo ∆ la diferencia entre la media de los grupos, σ la


desviación estándar conjunta, y nT y nC son los tamaños Referencias
de las muestras de cada grupo.
[1] Bloom, H. (1995). Minimum Detectable Effects: A
En Rosner (2006) [5] se presenta el tamaño de muestra
simple way to report the statistical power of experi-
requerido en un test de igualdad de medias como los
mental designs. Evaluation Review 19(5): 547-56.
presentados previamente para un grupo de tratamiento
[2] Bloom, H. (2006). The Core Analytics of Randomi-
y control en una evaluación experimental (asumiendo
normalidad) como: zed Experiments of Social Reserch. Manpower De-
mostration Reserch Corporation - MDRC Working
2 Papers on Research Methodology.
(σT2 + σC2 )/r

z1−α/2 + z1−β [3]
nT = , Cohen, J. (1988). Statistical Power Analysis for the
2
(µT − µC ) Behavioral Sciences. Second Edition. New Jersey:
Lawrence Erlbaum.
[4] Hoenig, J.M. and Heisey, D.M. (2001). Te Abuse of
siendo r = nC /nT .
Power. The American Statistician, 55:1,19-24.
[5] Rosner, B. (2010). Fundamentals of Biostatis-
5. Conclusión tics. Harvard University. 7ma Edición. 2011, 2006
Brooks/Cole, Cengage Learning.
A partir del desarrollo previo, se puede concluir que el [6] Spybrook, J. and Bloom, H. et.al. (2011). Optimal
análisis de poder estadı́stico es una herramienta funda-
Design Plus Empirical Evidence. William T. Grant
mental en el análisis prospectivo.
Foundation.
Permite hacer una comparación de escenarios de acuerdo [7]Steidl, R.J and Thomas, L. (2001). Power Analysis
a los tamaños de muestra y tamaños de efectos a detec- and Experimental Design. pág. 14-36 in Scheiner,
tar, de forma de orientar al investigador en el momento S.M. and Gurevitch Design and Analysis of Ecolo-
de la definición de la metodologı́a del experimento, la gical Experiments. 2nd Edition. Oxford University
logı́stica y cálculo de costos, previniendo de posibles Press, New York.

View publication stats

Вам также может понравиться