PoderEstadstico Gesto

See
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/289672217
Análisis de Poder Estadístico y su Aplicación a

Evaluaciones Experimentales
Research · January 2016

DOI: 10.13140/RG.2.1.1545.7366
CITATIONS READS
0 161
1 author:
Nora Gesto Giannattasio

Oficina de Planeamiento y Presupuesto, Presidencia, Uruguay.
6 PUBLICATIONS 3 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Evaluación de Impacto View project
All content following this page was uploaded by Nora Gesto Giannattasio on 09 January 2016.
The user has requested enhancement of the downloaded file.

Maestrı́a en Ingenierı́a Matemática - Udelar.
Octubre 2015
Análisis de Poder Estadı́stico

y su Aplicación a Evaluaciones Experimentales
Nora Gesto1 *
Resumen
El cálculo y análisis del poder estadı́stico es un paso relevante al momento de concluir en una
evaluación experimental, dado que se puede estar rechazando la presencia de un efecto derivado de
un tratamiento, cuando en realidad no hay suficiente poder estadı́stico para arribar a dicha conclusión.
En este documento se presentan los conceptos claves del análisis de poder estadı́stico, un ejemplo de
su forma de cálculo y el análisis crı́tico respecto a su implementación desde un análisis prospectivo
versus uno retrospectivo.
Keywords
Poder estadı́stico, Evaluación de Impacto, Pruebas de Hipótesis.
*Contacto: noragesto@hotmail.com
Índice ambientales, etc) se deben de tomar importantes decisio-

nes, Steidl (2001)[7]:
Introduction 1 i) en cuanto a la cantidad de tratamientos a aplicar, ii)
1 Poder Estadı́stico y Nivel de Significación. 2 la forma en que cada unidad es asignada en el experi-
2 Tamaño del Efecto (Effect Size - ES). 4 mento al grupo de tratamiento, y iii) la forma en que se
selecciona la muestra de la población de interés.
3 Análisis Prospectivo vs Retrospectivo 5
3.1 Análisis Prospectivo . . . . . . . . . . . . . . . . . . 5 Al tener que tomar este tipo de decisiones, es importante
3.2 Análisis Retrospectivo . . . . . . . . . . . . . . . . . 6 tener una herramienta que permita comparar los distin-
3.3 Crı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 tos y potenciales diseños, siendo el análisis de poder
4 Forma de Cálculo 9
estadı́stico una herramienta adecuada [7].
5 Conclusión 10 En este sentido, el cálculo de poder estadı́stico es valioso
Referencias 10 en la planificación de un experimento dado que, si la
prueba de hipótesis da como resultado que es no signifi-
cativa estadı́sticamente, no es suficiente para establecer
Introduction que hay falta de impacto o efecto.
Es utilizado en áreas de investigación sobre impactos

Para evaluar los efectos de la aplicación de determinado
ambientales, seguridad de productos, bienestar público y
tratamiento a una población dada, se diseñan experimen-
otro tipo de diseños de evaluación experimental donde
tos donde se asignan unidades aleatoriamente a grupos
se busca encontrar el efecto o impacto de determinado
de tratamiento y de control. Ésto permite inferir que las
tratamiento aplicado.
diferencias futuras en la variable de resultados es un es-
timador insesgado de las diferencias en los impactos del
Es un tipo de test llevado a cabo por los investigadores
tratamiento ofrecido, Bloom (2006)[2].
para evitar concluir falsamente que determinado trata-
miento tiene efectos, cuando en los hechos no los tiene,
En el diseño de estudios y/o experimentos, donde se
por lo cual se quiere proteger a las personas de con-
quiere determinar el efecto de la aplicación de un trata-
cluir que no hay impactos cuando pueden existir serios,
miento (tanto en ciencias biológicas, médicas, sociales,
y su Aplicación a Evaluaciones Experimentales — 2/10
peligrosos o dañinos efectos. tado y un grupo de control, la hipótesis nula más común
indica que no hay diferencia entre las medias poblacio-
Hay gran cantidad de literatura que promueve que se nales de la variable de resultados entre los grupos de
hagan los cálculos de poder cada vez que uno realiza una tratamiento y control. La hipótesis alternativa afirma
prueba estadı́stica de una prueba de hipótesis y obtiene que hay una diferencia entre los grupos, y dicha dife-
de resultado que es estadı́sticamente no significativa. Los rencia puede ser expresada como un efecto positivo del
defensores de tales cálculos de poder post-experimento tratamiento, un efecto de tratamiento negativo, o simple-
afirman que los cálculos se debe utilizar para ayudar en mente significa que el tratamiento no es igual a la media
la interpretación de la resultados experimentales. del grupo de control.
El hecho de no rechazar la hipótesis nula de no efecto

puede ser el resultado de la baja potencia estadı́stica H0 : µT = µC (caso de medias poblacionales iguales).
cuando realmente existe efecto y la hipótesis nula de
no efecto es de hecho falso. Esto es conocido como Ha : µT 6= µC (caso de medias poblacionales distintas).
el dilema del no rechazo de la hipótesis nula, Hoenig
(2001)[4].
Para esta prueba de hipótesis se puede utilizar un t-test
Cohen (1988) [p.16] [3] afirma que si se diseña un es- para generar el estadı́stico t.
tudio para que tenga alto poder (1 − β ) para detectar
alejamientos ∆ de la hipótesis nula (siendo ES[effect µ¯T − µ¯C
size]=∆), y no se rechaza H0 , entonces la conclusión de t= σ ,
√
n
que el verdadero valor del parámetro se encuentra en ∆
unidades del valor de la hipótesis nula, es significativo
al nivel β . Por lo cual, usando la misma lógica con la siendo µ¯T la media de la variable de resultados en el gru-
que se rechaza la hipótesis nula con un riesgo de α, la po de tratados, µ¯C la media de la variable de resultados
hipótesis nula puede ser aceptada en preferencia respecto en el grupo de control, σ el error estándar y n la cantidad
a la que mantiene que ES=∆ con riesgo igual a β . de casos en la muestra.
Después que las hipótesis están claramente establecidas

1. Poder Estadı́stico y Nivel de y los datos se han recogido y analizado, el investigador
Significación. debe decidir si hay suficiente evidencia para rechazar la
hipótesis nula.
El análisis de poder estadı́stico está vinculado a discusio-
nes sobre prueba de hipótesis y niveles de significación. En el cuadro 1 se presentan los posibles tipos de error
que pueden darse en las pruebas de hipótesis. El nivel
En un estudio comparativo de dos grupos realizado me- de significación denotado con α, es la probabilidad de
diante un experimento aleatorio perfectamente imple- rechazar la hipótesis nula cuando es verdadera (Prob
mentado, el poder es la probabilidad de descubrir un (rechazar H0 |H0 cierta) = α). Esto se conoce como una
efecto causal del tratamiento cuando tal efecto realmente tasa de Error de Tipo I, el cual se produce cuando el
existe. investigador encuentra una diferencia significativa entre
los dos grupos cuando en los hechos no son diferentes.
Es la posibilidad de rechazar la hipótesis de que los dos Por lo tanto, la probabilidad de tomar la decisión correcta
grupos comparten una media poblacional común y por es Prob (no rechazar H0 |H0 cierta) = (1 − α).
lo tanto significan que no hay una diferencia entre las
medias de la población de los dos grupos, cuando en Por otro lado, cuando la hipótesis nula es falsa la decisión
realidad hay una diferencia de una magnitud dada. Es correcta es rechazar H0 . En este caso, la probabilidad
por lo tanto, la oportunidad de tomar la decisión correcta de realizar la decisión correcta es la definición de poder
de que los dos grupos son diferentes entre sı́. estadı́stico y está dada por: Prob (rechazar H0 |H0 falsa) =
(1−β ). El Error de tipo II es la probabilidad de mantener
En un diseño de evaluación donde se tiene un grupo tra- una hipótesis nula cuando ésta es falsa y está denotado
Cuadro 1. Tipos de Error en Pruebas de Hipótesis.
No Rechazo la Rechazo la
Hipótesis Nula Hipótesis Nula
Hipótesis Nula No hay Error Error de Tipo I

Verdadera Probabilidad = 1 − α Probabilidad = α
Hipótesis Nula Error de Tipo II No hay Error

Falsa Probabilidad = β Probabilidad = 1 − β
Fuente: Spybrook (2011) [6].
con β = Prob (no rechazar H0 |H0 falsa). En este caso, tamaño de muestra dado.
el investigador pasa por alto una diferencia significativa
cuando en realidad existe. En la figura 1 se ilustra que el efecto mı́nimo detectable
de un estimador de impacto es un múltiplo de su error
Como no es deseable cometer ninguno de los dos tipos estándar. En la campana de distribución de la izquierda
de errores, se va a querer tener un alto poder estadı́stico se representa la distribución t para una hipótesis nula
(por ejemplo, (1 − β )=0.8), de forma que la probabilidad de cero impacto. Para que una estimación de impacto
de poder detectar correctamente la diferencia entre la positiva sea estadı́sticamente significativa al nivel de α
media de las dos poblaciones sea de un 80 %. en un test a una cola (o α/2 en un test a dos colas), la
estimación debe de caer a la derecha del valor crı́tico tα
Si un estudio tiene poco poder, una diferencia que sea pe- (o tα/2 ) de la primer distribución.
queña y apenas significativa posiblemente no podrá ser
detectada, y éste es el factor importante al momento La campana de distribución a la derecha representa a la
del diseño del estudio o experimento. Dado que la reali- distribución t para una hipótesis alternativa de que el ver-
zación de los experimentos esta asociada a inversiones dadero impacto es igual a un efecto mı́nimo detectable.
costosas, que no se pueda concluir sólo debido a una Para tener una probabilidad de (1 − β ) 1 de detectar el
carencia de poder estadı́stico implica una debilidad im- efecto mı́nimo detectable, éste debe encontrarse a una
portante en el diseño. distancia de t1−β a la derecha del valor crı́tico t de la
hipótesis nula.
El análisis de poder estadı́stico puede hacerse desde 2
enfoques: Por lo tanto, el efecto mı́nimo detectable debe de encon-
trarse a una distancia total de tα + t1−β (o tα/2 + t1−β )
El enfoque de determinación del poder (“power deter- de la hipótesis nula. Dado que los t-valor son múltiplos
mination”) asume un tamaño de efecto dado producido de los errores estándar del estimador de impacto,el efec-
por la intervención, y el objetivo es poder calcular el to mı́nimo detectable es por lo tanto tα + t1−β veces
poder estadı́stico con el cual se puede detectar ese efecto el error estándar (para el test a una cola) o tα/2 + t1−β
para un tamaño de muestra dado. veces el error estándar (para el test a dos colas).
En el enfoque de tamaño del efecto (“effect size”) se Dados los conceptos manejados, el análisis de poder
toma como dado el nivel de poder estadı́stico y el objeti- estadı́stico esta directamente vinculado al diseño de ex-
vo es calcular el mı́nimo efecto que puede ser detectado perimento seleccionado. Los parámetros a considerar
para ese nivel de poder y tamaño de muestra. en el cálculo difieren dependiendo de si en el diseño la
aleatorización fue por individuo y/o con estratos o por
Bloom (1995) [1] define el Efecto Mı́nimo Detectable clusters, y si constó de una o más etapas.
(Minimum Detectable Effect Size - MDES) como el
mı́nimo efecto que puede ser detectado para un nivel 1 En la figura 1 se representa con una B a β , por lo tanto (1 − β )
de poder y nivel de significación especificado, para un es equivalente a (1 − B).
Figura 1. Efecto Mı́nimo Detectable.
Fuente: Bloom (2006)[2]
Adicionalmente la inclusión de covariables en las esti- cluster sean similares respecto a la variable de resultados.
maciones afecta a los cálculos de poder y/o tamaños de Esto reduce la heterogeneidad dentro de los bloques,
muestra, por lo cual es una forma utilizada para incre- incrementando la precisión de la estimación del efecto
mentar la precisión del estudio y reducir el tamaño de la en los tratados.
muestra. El uso de covariables requiere que se cumplan
dos supuestos: i) que la covariable tenga una asociación
lineal fuerte con la variable de resultados, ii) que di- 2. Tamaño del Efecto (Effect Size - ES).
cha asociación sea similar dentro de cada condición del
tratamiento. El concepto de tamaño del efecto puede ser usado para
cuantificar la respuesta al tratamiento en el experimento,
La estratificación en la aleatorización es utilizado habi- o el grado en que el fenómeno de interés está presente
tualmente en los diseños experimentales para mejorar la en la población de interés (en estudios observacionales).
validez y/o la precisión y poder estadı́stico del experi-
mento. El concepto usado en el análisis de poder no es un
parámetro poblacional, sino que es un valor hipotético
En la aleatorización de individuos, la idea de aleatorizar que está determinado por el investigador en las hipóte-
en estratos es encontrar bloques donde los individuos sis nula y alternativa. Hay varias formas de medir el
dentro de cada bloque o estrato sean muy similares entre ES y por lo tanto en cada caso debe de especificarse
sı́ respecto a la variable de resultados, luego se aleatoriza explicitamente cual va a utilizarse, Steidl (2001)[7].
a tratamiento y control dentro de cada estrato.
La varianza entre los bloques no afecta el error estándar Efecto simple. Cuando la pregunta de interés puede ser
de las estimaciones del efecto en los tratados, inclusi- reducida a un único parámetro, como la pregunta
ve si dicha varianza es grande la estratificación logra sobre la diferencia entre las medias de dos pobla-
incrementar el poder estadı́stico. ciones o la diferencia de la media de una población
con un valor fijo.
Los mismos argumentos se aplican a la aleatorización de
Efecto absoluto. Establecido como alejamientos de la
clusters, donde el objetivo es encontrar bloques donde los
hipótesis nula y tiene la misma unidad que el
parámetro de interés. En una regresión lineal sim- 2 muestras, el tamaño del efecto (parámetro no central)
ple, una medida del tamaño del efecto absoluto que puede ser tomado como una medida del tamaño del
es la diferencia entre la pendiente de la linea de efecto estandarizado es2 :
regresión y una pendiente cero.
|µT − µC |
r
Efecto relativo. Representa el cambio en la variable de nT nC
δ= .
resultados debido al tratamiento relativo al valor σ nT + nC
en el grupo de control (µT − µC )/µC . En general
son expresados en porcentaje, p.ej. el porcenta-
je de incremento en el tamaño de una población 3. Análisis Prospectivo vs Retrospectivo
debido al tratamiento.
3.1 Análisis Prospectivo
Efecto estandarizado. Es una medida del efecto abso-
luto escalado con la varianza, y por lo tanto com-
El análisis prospectivo es el que se realiza cuando se esta
bina dos componentes a testear en la hipótesis.
planificando un estudio experimental. Tiene una natura-
Una medida del tamaño del efecto estandarizado
leza exploratoria y provee la oportunidad de investigar
está dado por |µT − µC | /σ , donde σ es el error
como los cambios que se hagan al diseño del estudio
estándar agrupado de la población. Las medidas
y sus componentes de análisis de poder estadı́stico (ta-
estandarizadas no estan expresadas en ninguna
maño de la muestra n, tamaño del efecto ES, y varianza
unidad de medida, por lo tanto son comparables
de la población σ 2 ) pueden influir en la capacidad del
a través de varios estudios. Pueden ser útiles al
estudio de hacer inferencia y alcanzar los objetivos.
momento de la planificación de la investigación
como una forma de especificar el tamaño del efec- El análisis prospectivo de poder estadı́stico es usado
to cuando no se dispone de datos preexistentes al principalmente para determinar:
respecto (por ejemplo cuando no se tiene conoci-
miento de σ ).
1. el tamaño de muestra n necesario para asegurar
Efectos complejos. Se consideran cuando hay varios un nivel determinado de poder en el test de hipóte-
tratamientos simultáneos. Una hipótesis nula de sis nula, dado un nivel especificado de ES, α y
un experimento en estos casos podrı́a ser H0 : µ1 = varianza.
µ2 = ... = µk , donde µ1 es la media de los con-
troles y de µ2 a µk son las medias de los (k − 1) 2. el poder que puede tenerse en el test de hipótesis
niveles de tratamiento nula cuando estan dados el ES, α, varianza y un
nivel máximo de tamaño de muestra previamente
definido por cuestiones logı́sticas o de costos del
Las funciones de distribución de los parámetros que ha- experimento.
bitualmente se utilizan para las pruebas de hipótesis son
conocidas como distribución central, las cuales forman 3. el efecto mı́nimo detectable, dado un nivel pre-
parte de un tipo de distribución más general conocida visto de poder, α, varianza y tamaño de muestra.
como distribución no central.
En la Figura 2 se presentan las relaciones entre tamaño
La distribución central describe la distribución del es-
de muestra y poder estadı́stico que se darı́an para un
tadı́stico bajo el supuesto de que la hipótesis nula es
ejemplo de tres niveles de tamaño de efecto considerados:
cierta. La distribución no central está dada para cual-
pequeño δ = 0,09, mediano δ = 0,23 y grande δ = 0,36.
quier hipótesis alternativa definida.
Es notorio como el tamaño de efecto esperado está muy
Por lo tanto, en el caso de la distribución no central se tie-
vinculado al poder estadı́stico y tamaño de la muestra.
ne un parámetro adicional a considerar, que corresponde
Cuanto menor tamaño del efecto que se quiere detectar
a la medida del tamaño del efecto.
2 Para dos muestras con igual varianza σ 2 . En caso de tener dis-
En una distribución t no central, asumiendo un t-test con tintas varianzas se debe contemplar en el cálculo.
es necesario tamaños de muestra más grandes para poder Figura 2. Estimación de tamaño de muestra y poder
tener un poder estadı́stico adecuado. La varianza de los para cada nivel de δ .
datos también afecta mucho a estos cálculos, siendo
las varianzas altas o muy dispares entre ambos grupos
lo que determina la necesidad de tamaños de muestra
mayores para poder obtener conclusiones con niveles
adecuados de poder estadı́stico. Este tipo de factores es
importante tenerlos en cuenta al momento de definir un
estudio porque puede llegar a afectar notablemente los
costos del mismo.
En cada uno de los casos es necesario para el cálculo

conocer la varianza poblacional, lo cual es altamente im-
probable y hace necesario poder estimar dicha varianza.
El método más utilizado para tener estimaciones de la

varianza a priori es a través de las los estudios piloto.
No solo habilitan a tener una estimación de la varianza
con intervalos de confianza, sino que además permiten
testear en campo el diseño de evaluación propuesto. Fuente:Elaboración propia con software Optimal Design. Tamaños
de ES considerados: pequeño δ = 0,09, mediano δ = 0,23 y grande
Otra forma de estimar esa varianza poblacional es a δ = 0,36.
través del uso de ese dato obtenido de estudios previos
con similares caracterı́sticas, en este caso también es
recomendable realizar la estimación considerando es-
cenarios de máxima y mı́nima de poder estadı́stico en 3.2 Análisis Retrospectivo
función del intervalo de confianza de la varianza.
El análisis retrospectivo se realiza luego de que el estudio
Por último, si no se dispone de ningún dato a priori que experimental fue realizado y se han analizado los datos.
permita estimar la varianza, la única opción que queda En este momento toda la información necesaria para
es realizar análisis de sensibilidad utilizando un rango realizar los cálculos de poder estadı́stico están disponi-
posible de valores para la varianza esperando que el bles: el diseño del experimento, el tamaño de muestra
verdadero valor de la varianza esté dentro de ese rango y n, el nivel de significación α y el tamaño del efecto
por lo tanto tener un escenario de máxima y mı́nima de y la varianza observados en la muestra que proporcio-
poder estadı́stico estimado. nan una estimación del tamaño del efecto y la varianza
poblacional.
En varias ocaciones el diseño del estudio es más comple-
jo que simplemente comparar dos muestras de población. El análisis de poder retrospectivo habitualmente se lleva
En estos casos hay que considerar alternativas adicio- a cabo cuando el test estadı́stico falla en proporcionar
nales para aumentar el poder estadı́stico cuando hay un suficiente evidencia para rechazar la hipótesis nula. En
presupuesto fijo que implica restricciones en el tamaño esa situación es importante poder distinguir las posibles
de muestra. razones:
Las formas de hacerlo pueden ser a través de [7]: i)

incrementos en el tamaño del efecto que puede obtenerse el verdadero tamaño del efecto no es importante y
a partir de incremento de tratamiento o de intensidades por lo tanto la hipótesis nula es verdadera
en los niveles de tratamiento, ii) reducir el error del
experimento a través de la estratificación en el proceso el verdadero tamaño del efecto es importante, pe-
de aleatorización, o iii) incorporar covariables en las ro se falla en rechazar la hipótesis nula (p.ej se
estimaciones. comete el Error del Tipo II).
Para identificar la razón se calcula el poder estadı́stico de tiva solo cuando la hipótesis nula no es rechazada
detectar un efecto mı́nimo, dado el tamaño de la muestra, compromete todo el análisis realizado.
el nivel de α y la varianza estimada en el estudio.
3. Los intervalos de confianza sobre las estimaciones
Si el poder para ese efecto mı́nimo es grande, entonces de poder estadı́stico o del tamaño del efecto son
el verdadero tamaño del efecto de magnitud mı́nima muy conservadores (muy amplios) siendo poco
deberı́a tener resultados estadı́sticamente significativos. útiles en el análisis posterior de los resultados.
Pero, dado que el test dio no significativo, se puede 4. La inferencia realizada a partir del análisis retros-
inferir de que el verdadero tamaño del efecto puede pectivo de poder (que no usa información sobre
ser pequeño o grande, por lo tanto el resultado no es el tamaño del efecto observado) es ineficiente res-
concluyente y no se deberı́a hacer inferencia a partir de pecto a la utilización de intervalos de confianza
ese resultado. del tamaño del efecto estimado.
Otra aproximación puede hacerse a través de la estima-

ción del Efecto Mı́nimo Detectable para un nivel dado Otras crı́ticas se han desarrollado en el análisis de prue-
de poder, o la estimación del tamaño de muestra que bas de hipótesis y cálculos del poder estadı́stico que no
hubiese sido necesario para poder detectar ese tamaño apuntan exclusivamente a la comparación de análisis
de efecto observado. prospectivo vs retrospectivo.
Por un lado, están las crı́ticas que apuntan a la definición

3.3 Crı́tica de los enunciados de las hipótesis nula y alternativa,
abordado por las pruebas de bioequivalencia ofreciendo
La estimación del poder estadı́stico de forma retrospecti- una propuesta alternativa.
va es un tema controvertido, tanto en Steidl (2001) como
en Hoenig (2001) se realizan fuertes crı́ticas al respecto. Por otro lado, están las crı́ticas sobre las pruebas de
hipótesis que proponen enfocar las conclusiones en el
Si bien hay investigadores defensores del método que análisis de los intervalos de confianza y no tanto en el
apoyan realizar el cálculo de poder post-experimento resutlado de la prueba de hipótesis en si.
porque afirman que puede ayudar en la interpretación
de los resultados experimentales, hay investigadores que Pruebas de Bioequivalencia.
consideran que es una práctica inválida.
Algunas de las crı́ticas realizadas a las pruebas de hipóte-
En Steidl (2001) [7] se considera que el análisis de poder sis tradicionales se basan en la consideración de que la
estadı́stico retrospectivo puede llegar a tener lugar de hipótesis nula nunca llegue a ser cierta en algunos casos,
forma informativa, pero no conluyente y recomiendan y por lo tanto la realización de la prueba pierde sentido
un abordaje alternativo en las situaciones de rechazo de e interés.
la hipótesis nula que consta en el uso de intervalos de
confianza. A partir de esta crı́tica, se realiza una propuesta alter-
nativa dada por las pruebas de bioequivalencia que se
Plantean 4 problemas asociados a esa práctica que habi- utilizan habitualmente en estudios farmacéuticos e inves-
tualmente no son tomados en cuenta: tigaciones ambientales y sobre ecologı́a.
Las pruebas de bioequivalencia básicamente lo que ha-

1. Se asume que la estimación del poder estadı́stido cen es intercambiar los roles de la hipótesis nula y la
para un tamaño de efecto dado, puede traducirse alternativa, de forma que en vez de testear si el tratamien-
en una aseveración sobre la confianza del tamaño to tiene efecto nulo, se considera que el tratamiento tiene
del efecto verdadero, cuando no es es posible ha- efecto a no ser que se tenga evidencia de lo contrario.
cerlo.
Primero, se define un tamaño del efecto mı́nimo que se
2. Realizar los cálculos de poder de forma retrospec- considera “biológicamente” importante: ∆crit .
Luego se fija una hipótesis nula que establece que el si el tamaño del efecto es biológicamente importante.
verdadero tamaño del efecto es mayor o igual a ese valor
de tamaño del efecto mı́nimo. En este caso el intervalo de confianza representa al ran-
go de datos generados por la muestra que no pueden
Por último, se establece una hipótesis alternativa que excluirse como posibles valores del verdadero tamaño
establece que el verdadero tamaño del efecto es menor del efecto con probabilidad (1 − α).
al ∆crit . Estas hipótesis se pueden establecer como:
Si el 100(1 − α) % del intervalo de confianza del efecto
observado no incluye el valor establecido en la hipótesis
H0 : |µT − µC | ≥ ∆crit , que representa al caso en que nula, se puede concluir con un 100(1 − α) % de con-
existe un efecto biológicamente importante. fianza que la prueba de hipótesis es estadı́sticamente
significativa a un nivel α.
Ha : |µT − µC | < ∆crit , que representa al caso en que
no existe un efecto biológicamente importante. Adicionalmente, los intervalos de confianza proveen más
información que una prueba de hipótesis, dado que es-
tablece los lı́mites aproximados dentro de los cuales es
En este contexto, el Error del Tipo I ocurre cuando el probable que se encuentre el verdadero valor del tamaño
investigador conlcuye incorrectamente que no hay una del efecto. En promedio, el 100(1 − α) % de los interva-
diferencia importante cuando realmente hay, siendo este los de confianza van a contener el verdadero valor del
el error de tipo II definido como poder estadı́stico en el parámetro estimado el 100(1 − α) % de las veces.
análisis de pruebas de hipótesis tradicional. Sin embargo,
en ésta reformulación de las hipótesis, el error de tipo II Por lo tanto, en situaciones en las que la hipótesis nula
se da cuando el investigador concluye incorrectamente no serı́a rechazada en la prueba de hipótesis, se puede
que existe una diferencia de tamaño importante cuando utilizar el intervalo de confianza para evaluar sı́ el efecto
en realidad no existe. biológicamente importante es realmente posible.
Por lo tanto, la tasa de error de concluir que no hay efecto Si el intervalo de confianza no incluye un valor suficien-
cuando realmente hay se puede controlar a través de la temente grande como para ser considerado biológica-
fijación del nivel de α y ya no es β como en las pruebas mente importante, se puede concluir con una confianza
tradicionales. de 100(1 − α) % que no se dio ningún efecto biológica-
mente importante.
Intervalos de Confianza.
Sin embargo, si el intervalo de confianza incluye valores
Otra crı́tica realizada al análisis y conclusiones derivados que son biológicamente importantes, el resultado no es
a partir de pruebas de hipótesis está dado por el hecho de concluyente, Steidl (2001).
que un test tenga resultado estadı́sticamente significativo
no necesariamente refleja la importancia biológica del
Figura 3. Análisis de una prueba de hipótesis a través
resultado.
de intervalos de confianza.
Por ejemplo, un resultado estadı́sticamente significativo
puede ser encontrado para un tamaño de efecto biológi-
camente trivial, cuando el tamaño de la muestra es lo
suficientemente grande o las varianzas suficientemente
pequeñas.
Para evaluar la hipótesis nula también pueden utilizarse

los intervalos de confianza para la estimación de un nivel
observado de tamaño de efecto.
El análisis de poder estadı́stico se enfoca en la probabili-

dad de obtener resultados estadı́sticamente significativos Fuente:Steidl (2001).
En la Figura 3 se presenta un ejemplo del tipo de in- hipótesis que se vaya a hacer. Si la diferencia de me-
terpretación que se puede hacer a partir del análisis de dias es de la variable en niveles, o es una variable en
intervalos de confianza. porcentajes.
Los circulos muestran los efectos observados hipotéticos También varı́a de acuerdo al tipo de muestreo que se
asociados aun intervalo de confianza de 100(1 − α) %. vaya a hacer en los datos, si es por cluster, por estratos
La lı́nea horizonal central representa el efecto cero, y o muestreo simple, y también influye si al momento del
las lı́neas punteadas representan los efectos mı́nimos cálculo del impacto del tratamiento se incluyen variables
biológicamente importantes. explicativas en las regresiones que mejoren la capacidad
explicativa del modelo.
Caso A. El intervalo de confianza para el efecto esti-
mado no incluye el cero e incluye solamente a efectos El objetivo del presente documento no es el desarrollo
biológicamente importantes. Por lo tanto, el estudio es de todos los tipos de formulaciones posibles, sino que se
estadı́sticamente y biológicamente importante. enfoca en la comprensión de la importancia de considerar
el poder estadı́stico en las evaluaciones experimentales
Caso B. El intervalo de confianza excluye el efecto cero y las diferentes opiniones que hay respecto a este tema.
(el estudio es estadı́sticamente significativo), pero inclu-
ye valores que están por debajo de los que se pensó que Se presenta a modo de ejemplo, el desarrollo de las
eran biológicamente importantes. Por lo tanto, el estudio ecuaciones necesarias para el cálculo en el caso de que
no es biológicamente concluyente. se realicen test en dos muestras a dos colas, y asumiendo
que los estadı́sticos que se van a usar son Z o t.
Caso C. El intervalo de confianza incluye al efecto cero
y efectos importantes biológicamente. Por lo tanto, el es- En estos casos el poder estadı́stico (1 − β ) es calculado
tudio no es concluyente ni biológica ni estadı́sticamente. como la probabilidad de que el test estadı́stico sea mayor
o igual al lı́mite superior de los valores crı́ticos de la
Caso D. El intervalo de confianza incluye al efecto cero distribución aproximada.
pero excluye los efectos considerados biológicamente
importantes, por lo tanto la hipótesis nula de que no hay
efectos biológicamente importantes puede ser aceptada (1 − β ) = 1 − FZ (z1−α/2 − Zhyp ) + FZ (zα/2 − Zhyp ) ,
con un 100(1 − α) % de confianza.
Caso E. El intervalo de confianza excluye el efecto cero

pero no incluye efectos considerados biológicamente donde FZ (x) es la función de distribución acumulada
importantes, por lo tanto el estudio es estadı́sticamente de una distribución normal en el punto x, z1−α/2 es el
pero no biológicamente importante. cuantil (1 − α/2) de la distribución normal y Zhyp es
el percentil 100p de una distribución normal estándar,
Por lo tanto, cuando el intervalo de confianza excluye calculado como:
al tamaño del efecto cero, es equivalente a rechazar la
hipótesis nula con un nivel α. Entonces, la probabilidad r
∆ nT nC
de que el intervalo de confianza excluya el tamaño del Zhyp = ,
σ nT + nC
efecto nulo, dado un tamaño de efecto especificado, es
equivalente al poder estadı́stico del test.
siendo ∆ la diferencia entre la media de los grupos, σ la
desviación estándar conjunta, y nT y nC son los tamaños
4. Forma de Cálculo de las muestras de cada grupo.
Las fórmulas necesarias para calcular cualquiera de las Para un t − test el poder estadı́stico esta dado por:
tres variables que se mencionaron a lo largo del docu-
mento: poder estadı́stico β , tamaño de la muestra n y
tamaño del efecto δ , varı́an de acuerdo a la prueba de (1 − β ) = 1 − Ft (t1−α/2,v |v, δ ) + Ft (tα/2,v |v, δ ) ,
donde Ft (x|v, δ ) es la función de densidad acumulada de errores de implementación en el experimento que lleven
una distribución no central t con v grados de libertad y a que los resultados no sean buenos para la inferencia
parámetro no central δ , evaluado en x. por no haber tomado determinadas precauciones previo
al levantamiento de datos.
El t p,v es el percentil 100p de una distribución central t
con v grados de libertad. En cuanto al análisis retrospectivo, dadas las numerosas
crı́ticas al respecto, no parece ser el análisis más adecua-
El parámetro no central δ está dado por: do cuando quiere validarse los resultados obtenidos.
Sin embargo, las propuestas de interpretar los resultados
r a través de pruebas de bioequivalencia, o a través de in-
∆ nT nC
δ= , tervalos de confianza parecen ser propuestas adecuadas
σ nT + nC
y más robustas.
siendo ∆ la diferencia entre la media de los grupos, σ la

desviación estándar conjunta, y nT y nC son los tamaños Referencias
de las muestras de cada grupo.
[1] Bloom, H. (1995). Minimum Detectable Effects: A
En Rosner (2006) [5] se presenta el tamaño de muestra
simple way to report the statistical power of experi-
requerido en un test de igualdad de medias como los
mental designs. Evaluation Review 19(5): 547-56.
presentados previamente para un grupo de tratamiento
[2] Bloom, H. (2006). The Core Analytics of Randomi-
y control en una evaluación experimental (asumiendo
normalidad) como: zed Experiments of Social Reserch. Manpower De-
mostration Reserch Corporation - MDRC Working
2 Papers on Research Methodology.
(σT2 + σC2 )/r

z1−α/2 + z1−β [3]
nT = , Cohen, J. (1988). Statistical Power Analysis for the
2
(µT − µC ) Behavioral Sciences. Second Edition. New Jersey:
Lawrence Erlbaum.
[4] Hoenig, J.M. and Heisey, D.M. (2001). Te Abuse of
siendo r = nC /nT .
Power. The American Statistician, 55:1,19-24.
[5] Rosner, B. (2010). Fundamentals of Biostatis-
5. Conclusión tics. Harvard University. 7ma Edición. 2011, 2006
Brooks/Cole, Cengage Learning.
A partir del desarrollo previo, se puede concluir que el [6] Spybrook, J. and Bloom, H. et.al. (2011). Optimal
análisis de poder estadı́stico es una herramienta funda-
Design Plus Empirical Evidence. William T. Grant
mental en el análisis prospectivo.
Foundation.
Permite hacer una comparación de escenarios de acuerdo [7]Steidl, R.J and Thomas, L. (2001). Power Analysis
a los tamaños de muestra y tamaños de efectos a detec- and Experimental Design. pág. 14-36 in Scheiner,
tar, de forma de orientar al investigador en el momento S.M. and Gurevitch Design and Analysis of Ecolo-
de la definición de la metodologı́a del experimento, la gical Experiments. 2nd Edition. Oxford University
logı́stica y cálculo de costos, previniendo de posibles Press, New York.
View publication stats

PoderEstadstico Gesto

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

PoderEstadstico Gesto

Загружено:

Авторское право:

Доступные форматы

See

Análisis de Poder Estadístico y su Aplicación a

Research · January 2016

Nora Gesto Giannattasio

Evaluación de Impacto View project

The user has requested enhancement of the downloaded file.

Análisis de Poder Estadı́stico

Índice ambientales, etc) se deben de tomar importantes decisio-

Es utilizado en áreas de investigación sobre impactos

El hecho de no rechazar la hipótesis nula de no efecto

Después que las hipótesis están claramente establecidas

Cuadro 1. Tipos de Error en Pruebas de Hipótesis.

Hipótesis Nula No hay Error Error de Tipo I

Hipótesis Nula Error de Tipo II No hay Error

Figura 1. Efecto Mı́nimo Detectable.

Fuente: Bloom (2006)[2]

En cada uno de los casos es necesario para el cálculo

El método más utilizado para tener estimaciones de la

Las formas de hacerlo pueden ser a través de [7]: i)

Otra aproximación puede hacerse a través de la estima-

Por un lado, están las crı́ticas que apuntan a la definición

Las pruebas de bioequivalencia básicamente lo que ha-

Para evaluar la hipótesis nula también pueden utilizarse

El análisis de poder estadı́stico se enfoca en la probabili-

Caso E. El intervalo de confianza excluye el efecto cero

siendo ∆ la diferencia entre la media de los grupos, σ la

View publication stats

Вам также может понравиться