Вы находитесь на странице: 1из 52

Bioestadística

Apunte 4. Test de Hipótesis y Asociación de Variables

1. Introducción a los Test de Hipótesis

Un test de hipótesis, también llamado dócima de hipótesis, es un procedimiento


estadístico que permite determinar la veracidad de una hipótesis planteada
respecto a parámetros poblacionales, usando para esto los resultados de una
muestra obtenida de la o las poblaciones en estudio.

Al igual que en estimación puntual e intervalos de confianza, los test de hipótesis


son una manera de hacer inferencias a una población a partir de una muestra
aleatoria. A diferencia de aquellos, en test de hipótesis las preguntas no se
refieren al valor de un parámetro, sino si éste es mayor o menor que un
determinado valor, o si un parámetro medido en dos poblaciones toma o no el
mismo valor.

Los pasos que se deben seguir para llevar a cabo una dócima de hipótesis los
provee el método científico:

• Comienza con la elaboración de una hipótesis estadística que refleje la


creencia del investigador acerca del parámetro poblacional de interés.

• Se toma una muestra aleatoria de la población en estudio y se obtienen las


medidas resumen apropiadas para el parámetro de interés.

• Se contrastan los resultados muestrales con lo planteado en la hipótesis.

• De acuerdo a la distancia entre los resultados muestrales y lo planteado en la


hipótesis, se calcula la probabilidad de que la hipótesis sea correcta o
incorrecta.

• Termina con la aceptación o rechazo de la hipótesis planteada, de acuerdo a la


probabilidad obtenida.

El contraste de los resultados muestrales con la hipótesis de interés se hace


mediante cálculo de probabilidades, como se verá más adelante.

1
1.1 Hipótesis Estadísticas

El problema se formula a través de dos hipótesis estadísticas: una hipótesis nula


(H0) y una hipótesis alternativa (H1).

• La Hipótesis nula H0 es la hipótesis que generalmente se quiere rechazar y refleja el


conocimiento actual del problema. Es decir, generalmente plantea que no hay cambios
en el estado de las cosas.

• La Hipótesis alternativa H1 muestra un enunciado en desacuerdo H0, al plantear un


cambio en el actual conocimiento sobre el problema. Esta hipótesis suele reflejar lo
que el investigador sospecha es verdadero.

Las hipótesis H0 y H1 deben ser exhaustivas (deben cubrir todos los posibles
resultados) y excluyentes (no deben compartir ningún resultado).

Ejemplo. Un investigador sostiene que las mujeres que fuman durante el embarazo
tienen guaguas con menor peso promedio que la media nacional  = 3,400 y desviación
estándar  = 550. Los pasos a seguir para determinar si el investigador está en lo correcto
o está equivocado se muestran en el esquema siguiente.

2
Las hipótesis estadísticas pueden ser bilaterales o unilaterales. Algunos ejemplos
de hipótesis estadísticas son:

Las hipótesis bilaterales deben su nombre a que se rechaza la hipótesis nula para
valores muy grandes o muy pequeños de x (o pˆ ) . En las hipótesis unilaterales,
en cambio, sólo se rechaza H0 para valores de x (o pˆ ) en un sentido.

Ejemplo. En la hipótesis H0:P=0.5 versus H1:P≠0.5, se rechaza H0 si se observa un


estimador p̂ mucho menor o mucho mayor que 0.5. En cambio, en la hipótesis H0:μ≥100
versus H1:μ<100, se rechaza H0 sólo si el estimador x es mucho menor que 100.

Nótese que se pueden plantear hipótesis en las cuales se compara un parámetro


con un valor constante, el cual es obtenido generalmente de la literatura. En otros
casos, interesa comparar el mismo parámetro entre dos o más poblaciones.

Por su estructura, los test de hipótesis se utilizan para encontrar diferencias entre
dos parámetros y para plantear hipótesis unilaterales. Cuando se quiere probar si
dos parámetros son iguales, se utilizan los llamados test de hipótesis de
equivalencia, los cuales no son vistos en este curso.

3
1.2 Posibles situaciones al contrastar los datos con la realidad

Supongamos que las únicas decisiones posibles de tomar, en base a los datos
muestrales, son aceptar que H0 es verdadera o que H1 es verdadera. Pero podría
ocurrir que los datos indiquen, por ejemplo, que H0 es verdadera, cuando en
realidad es falsa, o viceversa.

Por supuesto que nosotros desconocemos esa realidad (si la supiéramos, no


tendríamos que hacer test de hipótesis), pero al menos debemos tener en cuenta
que podemos equivocarnos al tomar una decisión.

Luego, al tomar una decisión en base a una muestra se tendrá una de las
siguientes situaciones:

Las cuatro situaciones en la tabla se miden como una probabilidad.

• La probabilidad de cometer un error tipo I (de rechazar H0 cuando es verdadera) se


denomina nivel de significación y se denota .

• La probabilidad de cometer un error de tipo II (de aceptar H0 cuando la hipótesis


alternativa es verdadera) se denota .

• La potencia es la probabilidad de rechazar H0 cuando la hipótesis alternativa es


verdadera. Es decir, es la probabilidad de encontrar diferencias cuando efectivamente
existen. La potencia se denota 1-.

• La confianza es la probabilidad de aceptar H0 cuando ésta es verdadera. Es decir, es


la probabilidad de no encontrar diferencias cuando no las hay. Se denota 1-.

La confianza y el error tipo I son probabilidades de sucesos complementarios, por


lo que suman 1. Lo mismo ocurre con la potencia y el error tipo II.

4
Ejemplo: Al comparar PA y PB, el porcentaje de pacientes que mejora con tratamientos A
y B, se plantean las hipótesis H0:PA=PB versus H1:PAPB, entonces:

• El error  equivale a la probabilidad de concluir que PAPB (los tratamientos difieren)


cuando en realidad los dos tratamientos tienen el mismo efecto.
• El error  equivale a la probabilidad de concluir que PA=PB (los tratamientos son
iguales) cuando en realidad uno de ellos es mejor que otro.
• La confianza 1-  equivale a la probabilidad de no encontrar diferencias entre
tratamientos A y B cuando no las hay.
• La potencia 1- equivale a la probabilidad de encontrar diferencias reales entre los
tratamientos A y B.

Nótese que todas las probabilidades anteriores son condicionales. Estas pueden
escribirse como:

P (aceptar H 0 | H 0 es V )  1   P(rechazar H 0 | H 0 es V )  
P (rechazar H 0 | H 0 es F )  1   P(aceptar H 0 | H 0 es F )  

El objetivo del Test de Hipótesis es maximizar las probabilidades 1- y 1-, lo que
a su vez minimiza las probabilidades de error.

Tradicionalmente se considera más grave cometer un error  que un error .


Luego, se fija el máximo error  que se está dispuesto a cometer. Luego, se
quiere:
P(rechazar H 0 | H 0 es V )  

Generalmente se fija la significancia  en 5%. Cuando se cuenta con tamaños


muestrales reducidos se suele usar =10% y cuando se tienen tamaños
muestrales grandes se puede usar =1%.

Ejemplo. En el ejemplo en página 2, para averiguar si μ≠3400 el argumento comienza


asumiendo que H0 es verdadera (o sea, μ=3400). Así, lo que se hace es construir la
condición “H0 es V” en la probabilidad condicional.

Luego, usando x , el estimador muestral de μ, se calcula la probabilidad de rechazar H0


(erróneamente, ya que se asumió que H0 es V). Si esta probabilidad calculada es menor
que α, significa que la probabilidad de que estemos rechazando erróneamente H0 es muy
baja, por lo que podemos rechazar H0. Pero si la probabilidad calculada es mayor que α,
significa que la probabilidad de error es muy alta, por lo que no rechazamos H0. Esta
probabilidad calculada se llama valor p.

La significancia α se fija antes de hacer la dócima de hipótesis (a priori). El valor p


se calcula después de tomar una muestra de la población en estudio (a posteriori).

5
1.3 Concepto de Valor p

El valor p es la probabilidad de observar un valor igual o más extremo que el


obtenido en nuestro experimento, asumiendo que la hipótesis nula es verdadera.

Ejemplo. Consideremos nuevamente el ejemplo de las madres fumadoras. Para


averiguar si el peso promedio de nacimiento de niños de madres fumadoras es menor que
3400 gramos, se plantean las siguientes hipótesis unilaterales:

H0: μ ≥ 3400
H1: μ < 3400

Asumamos un nivel de significancia α=0.05 (5%); es decir, queremos que la probabilidad


de rechazar erróneamente H0 sea a lo más 0.05.

Supongamos que en una muestra aleatoria de n=100 recién nacidos de madres


fumadoras se obtiene x  2950  550 . La pregunta es si este resultado es compatible con
lo planteado en H0.

Para hacer la dócima es necesario asumir que H0 es verdadera. Para esto, basta con
asumir que μ=3400, ya que éste o cualquier valor superior pertenece a H0. Luego, como el
tamaño muestral es grande, bajo H0 se cumple que:

x ~ N (3400, 
2
)
100

El valor p se define como “la probabilidad de encontrar un igual o más extremo que el
obtenido en nuestro experimento, asumiendo que H0 es verdadera”. Es decir:

valor p  P( x  2950 | H 0 es V )

Nótese que la condición “H0 es Verdadera” está implícita en la distribución asumida para
x , ya que su media es μ=3400. Al calcular el valor p, se tiene:

x   2950   2950  3400


P ( x  2950 | H 0 es V )  P (  )  P (t ( 99 )  )  P (t ( 99 )  8.18)  0.0005
s n s n 550 100

La estandarización es “t” y no “z”, ya que σ2 es desconocida. Luego, el valor p < 0.0005.


Como este valor es bastante menor que α=0.05, se rechaza H0 a favor de la alternativa.
Se concluye que el investigador tiene razón: las madres fumadoras tienen niños con peso
promedio inferior a la media nacional 3400 gramos (p<0.0005).

Nótese que si la hipótesis fuera bilateral (H0:μ=3400 versus H1:μ≠3400), el valor p se


calcularía como P(t(99)<-8.18 ó t(99)>8.18) = P(t(99)<-8.18) + P(t(99)>8.18), ya que se
rechaza H0 para valores muy grandes o muy pequeños de x . En este caso, se obtiene
valor p < 0.001, el cual sigue siendo muy significativo.

6
Esquemáticamente, la relación entre la significancia α y el valor p es la siguiente:

El diagrama incorpora un elemento adicional no descrito en el ejemplo en página


previa: el valor de x que acumula una probabilidad 0.05 ( x =3261). Luego, basta
con comparar el x muestral con este límite. Si x es menor que 3261, entonces
acumula una probabilidad menor que 0.05 y por lo tanto es significativo (permite
rechazar H0). Si x es mayor que 3261, entonces acumulará una probabilidad
mayor que 0.05 y no permitirá rechazar H0.

Aún cuando siempre es posible determinar el x o pˆ límite entre H0 y H1, siempre


es preferible calcular directamente el valor p, ya que el límite sólo nos permite
saber si valor p < α, pero el cálculo del valor p nos permite saber la probabilidad
real de rechazo de H0.

Ejercicio. En una localidad se determinó el porcentaje de alcoholismo crónico,


encontrándose 98 alcohólicos en 1500 encuestados (6.5% de los casos). Interesa
determinar si esta prevalencia es distinta al 5% reportado en población general.

7
2. Test de Hipótesis para una Proporción (test “z”)

Cuando se estudia una sola población, en ocasiones interesa determinar si la


proporción P de personas con una determinada característica es distinta, mayor o
menor que un valor conocido p0. Este valor conocido puede ser el valor que toma
P en población general, un valor reportado en la bibliografía, etc.

En este caso, las hipótesis posibles de plantear son:

(a) H0:P=p0 vs H1:Pp0 (Cuando interesa determinar si P  p0)


(b) H0:Pp0 vs H1:P<p0 (Cuando interesa determinar si P < p0)
(c) H0:Pp0 vs H1:P>p0 (Cuando interesa determinar si P > p0)

Donde p0 es el valor de referencia y se asume que es conocido.

Asumiendo que H0 es verdadera y si el tamaño muestral es grande, la proporción


estimada en la muestra cumple (por TCL):
^
p  p0
^
p 0 (1  p 0 ) z0  ~ N (0,1)
P ~ N ( p0 , ) p0 (1  p0 )
n
n

Nótese que la distribución de p̂ está centrada en p0, que es el valor que toma P
asumiendo que H0 es verdadera.

De acuerdo a la definición en página 6, el valor p es la probabilidad de encontrar


un valor tan extremo o más que el observado en la muestra, asumiendo H0
verdadera.

Por ejemplo, si la hipótesis planteada es bilateral (hipótesis (a)), entonces se


rechaza H0 para valores muy grandes o muy pequeños de p̂ . Equivalentemente,
si estandarizamos p̂ , se rechaza H0 si z0 toma valores muy grandes o muy
pequeños.

Luego, para cada hipótesis planteada el valor p corresponde a:

Para las hipótesis: el valor-p es:


(a) H0:P=p0 vs H1:Pp0 (a) p = P(z <-z0 o z> z0 ) = 2*P(z |z0|)
(b) H0:Pp0 vs H1:P<p0 (b) p = P(z<z0)
(c) H0:Pp0 vs H1:P>p0 (c) p = P(z>z0)

Finalmente, se rechaza H0 si el valor-p calculado es menor que la significancia 


fijada a priori.

8
Ejemplo. En una localidad se determinó el porcentaje de alcoholismo crónico,
encontrándose 98 alcohólicos en 1500 encuestados (6.5% de los casos). Interesa
determinar si esta prevalencia es similar al 5% reportado en población general.

Hipótesis. La hipótesis es bilateral. p0 es igual a 0.05. Luego,

H0: P=0.05
H1: P0.05.

Muestra Aleatoria. En la muestra de n=1500 personas se encontraron 98 alcohólicos


(6.5%). Luego, pˆ  0.065 . Asumiendo H0 verdadera y por TCL:

p 0 (1  p 0 ) 0.05(0.95)
pˆ ~ N ( p 0 , )  N (0.05, )
n 1500

Luego, estandarizando se tiene

pˆ  p0 0.065  0.05 0.015


z0     2.67
p0 (1  p0 ) 0.05(1  0.05) 0.0056
n 1500

Valor-p. Dado que la hipótesis es bilateral, rechazamos H0 para valores muy grandes o
muy pequeños de z0. Luego,

Valor p = P(z < - z0 o z > z0) = 2P(z >|z0|) = 2P(z>2.67) = 2*0.00379 = 0.00758

Conclusión. Con p=0.0076 se rechaza H0. Por lo tanto, la prevalencia de alcoholismo en


la localidad estudiada es distinta de la prevalencia observada a nivel nacional.

Ejercicio. A continuación se muestran los pesos de nacimiento de 30 niños cuyas madres


aumentaron más de 12 kilos de peso durante su embarazo. Los datos se muestran
ordenados de menor a mayor:

2100 2230 2420 2820 3000 3050 3080 3140 3180 3220
3280 3310 3330 3370 3410 3410 3460 3480 3500 3520
3610 3730 3840 3920 3970 3990 4100 4120 4200 4220

Interesa determinar si la proporción de niños con peso superior a 4000 es distinto del 10%
reportado en la literatura.

9
3. Test de Hipótesis para un Promedio (test “t”)

En forma análoga al caso de una proporción, podría ser de interés determinar si el


promedio poblacional μ de una variable aleatoria X es distinto, mayor o menor que
un valor conocido μ0, donde el valor de referencia μ0 es conocido.

En este caso, las hipótesis posibles de plantear son:

(a) H0:=0 vs H1:0 (Cuando interesa determinar si   0)


(b) H0:0 vs H1:<0 (Cuando interesa determinar si  < 0)
(c) H0:0 vs H1:>0 (Cuando interesa determinar si  > 0)

Donde μ0 es el valor de referencia y se asume conocido.

Cualquiera sea la hipótesis de interés, es necesario tomar una muestra aleatoria


tamaño n de la población en estudio y calcular x (el estimador muestral de μ).
Asumiendo que H0 es verdadera y que la media muestral tiene distribución
Normal, (ya sea porque la distribución de la variable X es Normal o por TCL), se
tiene:

X  0
t0  ~ t (n  1)
s
n

Lo cual significa que t0, la estandarización “t”, tiene distribución t de Student con n-
1 grados de libertad. Nótese que se asume que x ~ N (  0 ,  2 n) . Es decir, la
distribución de x está centrada en μ0, ya que se asume que H0 es verdadera.

Luego, siguiendo la misma lógica que en test de hipótesis para una proporción
(página 8), para cada hipótesis planteada el valor p es:

Para las hipótesis: el valor-p es:


(a) H0:μ=μ0 vs H1:μμ0 (a) p = P(t(n-1) <-t0 o t(n-1)> t0 ) = 2*P(t(n-1) |t0|)
(b) H0:μμ0 vs H1:μ<μ0 (b) p = P(t<t0)
(c) H0:μp0 vs H1:μ>μ0 (c) p = P(t>t0)

Finalmente, se rechaza H0 si el valor-p calculado es menor que la significancia 


fijada a priori.

10
Ejemplo. Resolvamos el problema planteado varias veces antes: determinar si el peso de
nacimiento de niños de mujeres fumadoras es menor que la media nacional de 3400
gramos.

Hipótesis. La hipótesis es unilateral. La media de referencia μ0 es igual a 3400. Luego,

H0: μ ≥ 3400
H1: μ < 3400

Muestra Aleatoria. En una muestra aleatoria de 100 niños recién nacidos de madres
fumadoras se obtuvo: x  2950 grs. y s  550 grs. Asumiendo que H0 es verdadera
(μ=3400 gramos) y que x tiene distribución Normal (TCL), se tiene:

2950  3400
X ~ N (3400, 
2
)  t0   8.18 ~ t(99 )
100 550
100

Valor-p. Dado que la hipótesis es unilateral, rechazamos H0 para valores muy pequeños
de t0. Luego,

Valor-p = P(t(99) <t0) = P(t (99) <-8.18) <0.0005

Conclusión. Con p<0.0005 se rechaza H0. Se concluye que el peso promedio de


nacimiento de niños de madres fumadoras es menor que la media nacional de 3400
gramos.

Ejercicio. Considere nuevamente los pesos de nacimiento de 30 niños cuyas madres


aumentaron más de 12 kilos de peso durante su embarazo (ejercicio propuesto en página
9). Los datos se muestran ordenados de menor a mayor:

2100 2230 2420 2820 3000 3050 3080 3140 3180 3220
3280 3310 3330 3370 3410 3410 3460 3480 3500 3520
3610 3730 3840 3920 3970 3990 4100 4120 4200 4220

Interesa determinar si en la población de mujeres que aumentan más de 12 kilos durante


el embarazo, el peso promedio de nacimiento es mayor de 3200 gramos.

(Nota: para los 30 casos descritos, el peso de nacimiento promedio muestral fue
x  3400 grs. con una desviación estándar s  540 grs. )

11
4. Introducción a la Asociación de Variables

Se dice que entre dos variables aleatorias existe asociación si éstas no son
independientes. La determinación de si existe o no asociación se realiza
mediante test de hipótesis.

Ejemplo. Se piensa que un nuevo medicamento para controlar la presión arterial en


pacientes hipertensos (medicamento A) es mejor que uno de uso estándar (medicamento
B). Para probarlo, 150 pacientes fueron asignados al azar a cada medicamento. Al final
del estudio se determinó que el 42% de los pacientes con A y el 41.3% de los pacientes
con B logró controlar la presión arterial (63 y 62 pacientes, respectivamente).

Desde el punto de vista de la asociación de variables. Se observa que hay dos


variables involucradas en el estudio: “medicamento” (que toma valores A y B) y “control de
presión arterial” (con valores si y no).

El resultado del estudio muestra que el porcentaje de control de presión arterial es


prácticamente el mismo usando medicamento A o B. Es decir, la mejoría es independiente
del medicamento administrado. Se concluye que no hay asociación entre el medicamento
y el control de presión arterial. En consecuencia, la hipótesis del investigador era falsa.

Desde el punto de vista probabilístico. Si definimos los sucesos A=”El paciente toma el
medicamento A”, B=” El paciente toma el medicamento B” y C=” El paciente controla su
presión arterial”, se observa que:

63  62
P (C )   0.417
300
P (C | A)  0.42  P (C ) y P (C | B )  0.413  P (C )

Es decir, la probabilidad de que el paciente controle su presión arterial dado que tomó el
medicamento A, que es P(C |A), es 0.42, es igual a la probabilidad de que el paciente
controle su presión arterial P(C). Lo mismo ocurre con P(C | B) = P(B). Luego, el control
de la presión arterial es independiente del medicamento administrado.

Desde el punto de vista de los test de hipótesis. Si llamamos PA y PB al porcentaje de


pacientes que controla su presión con medicamento A y B, respectivamente, entonces las
hipótesis estadísticas podrían ser:

H0: PA = PB
H1: PA ≠ PB

La dócima requiere fijar un nivel de significancia (por ejemplo, α=5%) y hacer el test
usando los resultados muestrales n A  150, pˆ A  0.42 y n B  150, pˆ B  0.413 . El
resultado de esta dócima será que no hay diferencias significativas entre PA y PB.

12
4.1 Variable Explicada y Explicatoria

El objetivo de un estudio suele ser el buscar una explicación a un determinado


fenómeno, medido a través de una variable, la cual es llamada variable explicada,
dependiente o respuesta. Generalmente se usa la letra Y para denotar la
variable aleatoria que identifica el fenómeno en estudio.

Por otra parte, la búsqueda de una explicación para el fenómeno se hace a través
de un conjunto de variables que podrían estar asociadas al problema. Estas son
llamadas variables explicatorias, independientes o factores. Se usa la letra X
para identificar una variable explicatoria, o las letras X1, X2, …, Xk para identificar
un conjunto de k posibles variables explicatorias del fenómeno en estudio.

Ejemplo. Interesa determinar variables asociadas a la presencia de litiasis vesicular. La


planilla siguiente muestra las variables en estudio para algunos individuos.

La planilla tiene el formato necesario para ser utilizada como base de datos: cada
columna representa una variable aleatoria en estudio y cada fila representa un individuo.

Dado que el fenómeno en estudio es la litiasis vesicular, la variable respuesta


corresponde a la última columna de la planilla. Todas las otras variables son posibles
explicatorias del fenómeno, con excepción del número de identificación (variable ID).

Nótese que la variable respuesta en el ejemplo anterior es categórica y entre las


explicatorias hay variables categóricas y numéricas. El tipo al que pertenecen las
variables X e Y define el camino metodológico para determinar si existe asociación
entre las variables.

13
4.2 Camino metodológico según el tipo de variable

Hay cuatro situaciones posibles de encontrar al determinar la asociación, las


cuales se identifican según el tipo al que pertenece cada variable. Los siguientes
planteamientos de problemas de investigación ejemplifican estas situaciones.

Problema X Y
Interesa determinar si la pertenencia a un grupo étnico se Grupo étnico Cálculos
asocia con la presencia de cálculos vesiculares. (categórica) (categórica)
Se quiere saber si la presencia o ausencia de hipertensión HTA Ganancia peso
arterial influye sobre la ganancia de peso durante el embarazo (categórica) (numérica)
(en kilos).
Se quiere saber si el valor de un score de gravedad (que varía Score gravedad Mortalidad
entre 0 y 100 puntos, con un mayor puntaje indicando mayor (numérica) (categórica)
gravedad) es predictor de mortalidad cardiaca.
Se quiere determinar si el peso del recién nacido (en gramos) Edad materna Peso RN
está asociado con la edad de la madre (en años). (numérica) (numérica)

De esta forma, la variable explicada y cada una de las explicatorias pueden ser
clasificadas como categórica o numérica. En la asociación de ambas se tiene sólo
una de las siguientes alternativas:

Situación Explicatoria (X) Explicada (Y)


1 categórica categórica
2 categórica numérica
3 numérica categórica
4 numérica numérica

En la práctica las situaciones 2 y 3 se resuelven usando los mismos métodos


estadísticos, por lo que pueden ser vistas como una sola situación. Luego, el
camino metodológico a seguir depende de si (i) X e Y son categóricas; (ii) X e Y
son numéricas; o (iii) X es categórica e Y es numérica o viceversa.

Ejercicio. Un grupo de 200 personas obesas se dividió aleatoriamente en 3 grupos: un


grupo de 80 personas recibió una dieta baja en calorías; a un grupo de 70 personas se le
prescribió ejercicio físico y a otro grupo de 50 personas se les prescribió un medicamento.
Todas las personas fueron pesadas al principio del estudio y después de 6 meses de
tratamiento, registrándose la diferencia (en kilos) entre el peso inicial y final.

¿Cuántas variables identifica usted en este estudio?


¿Cuál es la variable explicada y la(s) explicatoria(s)?
¿A cuál situación metodológica corresponde, según la tabla previa?

14
5. Asociación Categórica – Categórica

Ejemplo. Interesa determinar si existe asociación entre el sexo del paciente


(masculino/femenino) y la presencia de cálculos vesiculares (codificado como 0=No y
1=Si), para un total de 965 personas.

Cuando las variables X e Y son ambas categóricas, con 2 o más niveles cada una,
se puede construir una tabla de contingencia para resumir el resultado conjunto
de las variables.

Una tabla de 2x2 como la siguiente es la más reducida posible de construir. La


presentación estándar de la tabla consiste en poner la variable X como fila y la
variable Y como columna. Además, la presencia del factor (X presente)
corresponde a la primera fila y la ausencia a la segunda; mientras que la presencia
de la enfermedad corresponde a la primera columna y la ausencia a la segunda.

La tabla anterior muestra en cada celda el número de casos en cada combinación


de X e Y. En la tabla es necesario calcular porcentajes por fila o por columna
(dependiendo del tipo de estudio: prospectivo, retrospectivo o de prevalencia1).

1
Para una descripción de los tipos de estudio mencionados, vea el anexo “Estudios Transversales,
Prospectivos y Retrospectivos” al final de este apunte.

15
Las figuras siguientes muestran los porcentajes que interesa calcular (y comparar)
en estudios de cohorte y caso – control.

Ejemplo (caso – control). En un estudio de factores de riesgo de enuresis infantil, se


eligieron al azar 400 niños que habían mojado sus camas por lo menos una vez durante
los 3 meses precedentes y 420 niños que no las habían mojado. Se determinó que los
niños con enuresis eran más pequeños, más niños que niñas y con niveles más elevados
de sufrimiento psicológico que los que no mojaban sus camas.

Ejemplo (cohorte). Un estudio de cohorte muy conocido es el estudio de Framingham de


enfermedad cardiovascular. Este estudio se inició en 1948 para investigar factores
relacionados con el desarrollo de enfermedad cardiovascular (Gordon y Panel, 1970).
5127 hombres y mujeres con edades entre 30 y 62 años de Framingham, Massachussets,
estuvieron de acuerdo en participar inicialmente en este estudio que incluyó entrevistas y
exámenes físicos de seguimiento cada 2 años. Actualmente ya se estudia la tercera
generación de esta cohorte inicial.

16
5.1 Dócima de Hipótesis: Test Chi-cuadrado y Exacto de Fisher

Cualquiera sea el tipo de estudio (prospectivo o retrospectivo), las hipótesis


estadísticas de interés son:

H0: P1 = P2
H1: P1 ≠ P2

Si el estudio es de prevalencia (estudio transversal), las hipótesis estadísticas se


plantean como:

H0: No hay asociación entre X e Y


H1: Hay asociación entre X e Y

Nótese que H0:P1=P2 es equivalente a H0:No hay asociación entre X e Y. Por


ejemplo, si el estudio es de cohorte, P1 = P2 significa que el porcentaje de
personas que enferma con y sin el factor de riesgo es el mismo. Es decir, el
porcentaje de enfermos no se modifica al estar X presente. Luego, no hay
asociación entre la aparición de la enfermedad y la presencia del factor.

Para docimar la hipótesis se toma una muestra de expuestos y no expuestos o de


casos y controles, según si el estudio es de cohorte o caso – control, y se calculan
los porcentajes muestrales pˆ 1 y pˆ 2 .

En tablas de 2x2, se comparan los porcentajes con test Chi-cuadrado (si el


tamaño muestral es suficientemente grande) o Test exacto de Fisher (cuando n
es pequeño). Si la tabla tiene más de 2 filas o columnas, sólo se puede calcular
test Chi-cuadrado.

En tablas de 2x2, el valor de Chi-cuadrado se puede obtener con la fórmula:

n(ad  bc) 2
 
2
0 ~  (21)
(a  c)(b  d )(a  b)(c  d )
Dado que la tabla es de 2x2, el estadístico χ20 tiene distribución chi-cuadrado con
1 grado de libertad (ver propiedades de la distribución en página siguiente).

En general, si una tabla tiene I filas y J columnas, entonces χ20 tiene distribución
Chi-cuadrado con (I-1)x(J-1) grados de libertad.

17
Distribución Chi-cuadrado

La fórmula para calcular χ20 en tablas de 2x2 es una simplificación de la siguiente


fórmula, que se usa para calcular χ20 para tablas de cualquier dimensión:

(Oi  Ei ) 2
  
2
0 ~  (2I 1)( J 1)
 celdas Ei

Donde Oi es el valor observado y Ei es el valor esperado en cada celda de la tabla


asumiendo que H0 es verdadera (o sea, asumiendo independencia entre X e Y).

El valor esperado en cada celda se calcula como el producto de los 2 márgenes


de la tabla dividido por el total de casos tabulados. Por ejemplo, si la tabla es de
2x2, para la celda (1,1) se tienen O1=a casos observados y E1  (a  b)  (a  c) n .

La distribución Chi-cuadrado es asimétrica, sesgada hacia la derecha y siempre


toma valores positivos (noten que al calcular χ20 no hay sumandos negativos). La
forma de la distribución depende de sus grados de libertad (como la t de Student).

El estadístico χ20 tiene distribución Chi-cuadrado si n es suficientemente grande.


En la práctica, se requiere que no más del 20% de las celdas tengan valor
esperado menor que 5. Si esto no se cumple, se debe usar Test Exacto de Fisher
(si la tabla es de 2x2) o juntar categorías (si la tabla es de dimensión mayor a 2x2)

Nótese que la fórmula de χ20 se basa en la diferencia entre lo observado y lo


esperado asumiendo que H0 es verdadera (independencia). Luego, si los Oi son
muy distintos de los Ei, será evidencia de que lo observado no es similar a lo
esperado bajo H0. En consecuencia, se rechaza H0 para valores grandes de χ20.

Luego, cualquiera sea la dimensión de la tabla, el valor p se calcula como:

valor p  P (  (2I 1)( J 1)   02 )

18
Ejemplo de uso de la tabla. Supongamos que en una tabla de contingencia de
dimensión 3x4 (una tabla con 3 filas y 4 columnas), al calcular el valor del test chi-
2
cuadrado se obtiene χ 0 = 15.3.

Como la tabla tiene I=3 filas y J=4 columnas, los grados de libertad son (I-1)x(J-1)=2x3=6.
2
Como la hipótesis nula H0:No hay asociación, se rechaza para valores grandes de χ 0, el
valor p es: p = P(χ2(I-1)x(J-1) > χ20) = P(χ2(6) > 15.3).

Dado que la tabla Chi-cuadrado entrega probabilidades acumuladas (como la tabla t de


Student), se observa en la fila de 6 grados de libertad que la probabilidad acumulada
hasta 14.4 es: P(χ2(6)<14.4) = 0.975. Luego, P(χ2(6)>14.4) = 0.025.

Como el valor 15.3 está más a la derecha que 14.4, se deduce que P(χ2(6) > 15.3) < 0.025.
Como el valor p es menor que 0.025, se rechaza la hipótesis H0.

19
Ejemplo: Interesa determinar si hay diferencias en el porcentaje de personas con
depresión entre dos poblaciones A y B. Para esto, se tomó una muestra de 150 personas
de la población A y 200 de la población B, encontrándose 48 y 50 personas con
depresión, respectivamente. La tabla siguiente resume los resultados:

Depresión
Si No Total
A a=48 b=102 a+b=150
Población B c=50 d=150 c+d=200
Total a+c=98 b+d=252 n=350

48 50
Luego, de la tabla se tiene: pˆ A   0.32 (32%) y pˆ B   0.25 (25%)
150 200
El test es:
n(ad  bc) 2 350  (48  150  50  102) 2
 02    2.08
(a  c)(b  d )(a  b)(c  d ) 98  252  150  200

Valor-p: Se rechaza H0 para valores grandes de χ20. Luego, el valor p está dado por:

p = P(2(1) > 20) = P(2(1) > 2.08) > 0.1.

Dado que el valor p es mayor que α=5%, se concluye que no hay suficiente evidencia en
los datos para rechazar H0.

Ejemplo. Usando los datos en la tabla previa, calculemos χ20 mediante la fórmula general.
Para esto, tenemos que usar los valores observados y esperados en cada celda.

Siguiendo el orden a, b, c y d de las celdas de la tabla, los valores observados son:

O1  48 O2  102 O3  50 O4  150
Los valores esperados en las celdas a, b, c y d, respectivamente, son:

150  98 150  252 200  98 200  252


E1   42 E2   108 E3   56 E4   144
350 350 350 350

Luego, el valor χ20 está dado por:

(Oi  Ei ) 2 ( 48  42) 2 (102  108) 2 (50  56) 2 (150  144 ) 2


 02  
celdas Ei

42

108

56

144
 2.08

El valor calculado χ20 es el mismo usando esta fórmula y la fórmula reducida (dada en
página 17). La diferencia es que en tablas de 2x2 es más fácil usar la fórmula reducida,
pero si la tabla es de dimensión mayor a 2x2, sólo se puede calcular χ20 a través de la
diferencia entre valores observados y esperados.

20
5.2 Caso especial en tablas de 2x2: Riesgo Relativo (RR) y Razón de
Chances (Odds ratio, OR)

Una limitación de los test Chi-cuadrado y Fisher es que estos sólo indican si existe
asociación entre X e Y (o diferencia entre dos proporciones p1 y p2), pero no
permiten cuantificar el grado de asociación.

Indirectamente, el valor p nos indica qué tan importante es la asociación existente


(a menor valor p, mayor es la asociación), pero no es útil como indicador del grado
de asociación.

En esta sección estudiaremos 2 indicadores de riesgo: el odds ratio (OR) el cual


se usa en estudios retrospectivos y el riesgo relativo (RR) que se usa en estudios
prospectivos.

Consideremos la relación entre una variable que indica la exposición a un factor


(variable de exposición, con niveles presente/ausente) y una enfermedad (también
con niveles presente/ausente). La relación se puede tabular como:

Enfermedad
Si No Total
Si a b a+b = n1
Exposición
No c d c+d = n2
Total a+c = m1 b+d = m2 n

Riesgo Relativo (RR)

Si la tabla previa es el resultado de un estudio prospectivo (de cohorte), entonces


interesa determinar p1 y p2, el porcentaje de personas que enferma en grupos
expuesto y no expuesto, respectivamente.

El riesgo relativo se define como RR = p1/p2. Un estimador puntual de RR está


dado por RRˆ  pˆ 1 / pˆ 2 , e indica cuántas veces más riesgo hay de enfermar en
presencia del factor de exposición comparado con la ausencia del factor.

El RR siempre es positivo, y se puede interpretar de la siguiente forma:

 Si RR<1, entonces el factor de exposición es un factor protector de la enfermedad.


 Si RR=1, significa que la proporción de enfermos es igual en expuestos y no
expuestos, por lo que el factor de exposición no se asocia con la enfermedad.
 Si RR>1, entonces el factor de exposición es factor de riesgo de la enfermedad.

21
Generalmente el estimador del riesgo se presenta junto a un intervalo de
confianza. Se puede demostrar que un intervalo de confianza 1-α para RR está
dado por la siguiente expresión:

 ln( RRˆ )  z1 / 2 b



d
ln( RRˆ )  z1 / 2
b

d

e an1 cn 2
, e
an1 cn 2

 
Donde “e” es la base de los logaritmos naturales (e≈2.718).

Nótese que si no hay asociación entre X e Y, entonces p1 = p2 y por tanto RR=1.


Luego, RR=1 indica de ausencia de asociación entre X e Y. En consecuencia,
para determinar si un estimador de RR es significativo (distinto de 1) con
significancia α, basta con observar si el intervalo de confianza (1-α) incluye el valor
1 o no. Si el intervalo no incluye el valor RR=1, entonces el RR es significativo.

Ejemplo. Mediante un estudio prospectivo, se quiere determinar el riesgo de morir a 30


días en una muestra de 441 pacientes que entran al hospital por una neumonía, según
compromiso de conciencia al ingreso.

Compromiso de conciencia al examen fisico * Estado a 30 dias


Crosstabulation

Count
Estado a 30 días
Muerto Vivo Total
Compromiso de Si 27 84 111
conciencia al
examen fisico No 18 312 330
Total 45 396 441

De la tabla se tiene:
27 / 111
RR   4.46
18 / 330

Luego, el riesgo de morir es 4.46 veces más alto entre los pacientes que presentan
compromiso de conciencia al ingreso.

Un intervalo de confianza de 95% para RR es (2.6, 7.8). Es decir, con confianza 95% el
riesgo de morir cuando hay compromiso de conciencia varía entre 2.6 y 7.8 veces más
que cuando no hay compromiso de conciencia.

22
Odds Ratio (Razón de Chances)

Si el estudio es retrospectivo (caso – control), entonces no podemos calcular la


proporción de personas que enferma en expuestos y no expuestos, como en un
estudio prospectivo.

En este caso, recurriremos a la definición de chance de enfermar: si p es la


probabilidad de ocurrencia de un evento de interés, entonces la chance a favor del
evento se define como p/(1-p). Luego, Si p1 y p2 son las probabilidades de
ocurrencia del evento en dos grupos, entonces la chance a favor del evento en
cada grupo son Odd1=p1/(1-p1) y Odds2=p2/(1-p2).

Luego, la razón de las chances Odds1 y Odds2 es lo que denominamos Odds


Ratio,
p1
Odds1 (1  p1 )
OR  
Odds2 p 2
(1  p2 )
El OR provee una medida para relacionar dos proporciones, como el RR. Nótese
que si p1 y p2 son pequeñas, entonces 1-p1 y 1-p2 serán cercanas a 1 y el OR
tomará un valor cercano a RR. Luego, el OR es usado como una aproximación del
riesgo relativo para enfermedades raras.

Dado que el estudio es retrospectivo, el OR se estima mediante:

ORˆ 
a /(a  c)/c /(a  c)  ad
b /(b  d ) /d /(b  d ) bc
Una observación importante es que si el OR se calculara en forma prospectiva, se
tendría:
pˆ 1
ORˆ 
(1  pˆ 1 )

a /(a  b) d /(c  d )  ad
pˆ 2 c /(c  d ) b /(a  b) bc
(1  pˆ 2 )
Es decir, el OR calculado en forma retrospectiva es el mismo que al calcularlo en
forma prospectiva. Esta relación es muy útil en estudios caso – control, ya que nos
provee de una estimación del riesgo relativo en estudios retrospectivos.

Al igual que en el caso del RR, el Odds Ratio se presenta habitualmente con un
intervalo de confianza (1-α). Se puede demostrar que este intervalo es de la forma:

 ln(ORˆ ) z1 / 2 1 1 1 1
   n ( ORˆ )  z1 / 2
1 1 1 1
   
e a b c d
,e a b c d 
 
 

23
La interpretación de un OR es similar a la interpretación de un RR:

 Si OR<1, entonces el factor de exposición es un factor protector de la enfermedad.


 Si OR=1, significa que la proporción de exposición es igual en casos y controles, por
lo que el factor de exposición no se asocia con la enfermedad.
 Si OR>1, entonces el factor de exposición es factor de riesgo de la enfermedad.

Aunque en estricto rigor el OR estima cuántas veces más chance hay de tener el
factor de exposición en los casos respecto a los controles, éste se interpreta
generalmente como cuántas veces más chance hay de enfermar en el grupo
expuesto respecto al grupo no expuesto. Esto es posible gracias a que el cálculo
del OR no cambia al hacerlo en forma prospectiva o retrospectiva.

Ejemplo. Interesa determinar si el consumo de leche durante la infancia y la adolescencia


disminuye el riesgo de fractura de cadera en adultos mayores. Para esto, se tomó una
muestra aleatoria de 180 adultos mayores de 65 años con fractura de cadera y se
comparó con 180 adultos sin fractura. El resultado del estudio fue el siguiente:

Fractura(+) Fractura(-) Total


Consumía leche 78 106 184
No consumía leche 102 74 176
Total 180 180 360

El OR estimado es igual a (78x74)/(102x106)=0.53. Es decir, hay un 47% menos de


riesgo de fractura al consumir leche durante la infancia y la adolescencia.

Un intervalo de 95% de confianza para OR está dado por:

1 1 1 1 1 1 1 1
ln( 0.53 ) 1.96    ln( 0.53) 1.96   
(e 78 106 102 74
,e 78 106 102 74
)  (0.35 , 0.81)

Se observa que el consumo de leche es un factor protector significativo de fractura de


cadera, ya que el intervalo no incluye el 1.

Nótese que es importante el orden en que se ponga el consumo y no consumo de leche


en la tabla. Por ejemplo, si se tabula como:

Fractura(+) Fractura(-) Total


No consumía leche 102 74 176
Consumía leche 78 106 184
Total 180 180 360

En este caso, el OR es 1.87, con un intervalo de confianza de 95% igual a (1.23, 2.85),
que muestran que el no consumo de leche es factor de riesgo de fractura de cadera.

24
5.3 Caso especial en tablas de 2x2: Concordancia y Discordancia

La metodología descrita hasta ahora nos permite saber si existe asociación entre
dos variables dicotómicas (chi-cuadrado, test exacto de Fisher) y determinar el
grado de asociación (OR, RR).

Sin embargo, hay muchas situaciones en que las variables están correlacionadas
por construcción. Es decir, se espera que exista asociación entre ellas porque
fueron diseñadas para ello.

Ejemplo. Un cuestionario sobre consumo de alimentos fue administrado por correo a 537
enfermeras en Estados Unidos en dos ocasiones separadas por varios meses. El
cuestionario consultaba por el consumo de más de 100 alimentos diferentes. La tabla
siguiente muestra la cantidad de carne de vacuno consumida en los dos tiempos.

Encuesta-2

1 vez/sem >1 vez/sem Total


1 vez/sem. 136 92 228
Encuesta-1
>1 vez/sem. 69 240 309
Total 205 332 537

Usando chi-cuadrado, se concluye que existe asociación entre ambos cuestionarios


(2=77.4, p<0.0001). Sin embargo, el resultado más importante es determinar si existe
concordancia entre las dos encuestas.

Ejemplo. Interesa determinar si dos observadores clasifican de la misma forma (como


positivo o negativo) a un conjunto de 50 observaciones.

En este caso tampoco interesa determinar si existe asociación entre los observadores,
sino si son concordantes o discordantes.

Un ejemplo clásico de esta tabla es el análisis de resultados de “telemedicina”. Por


ejemplo, determinar si un radiólogo clasifica de la misma forma un conjunto de
radiografías (como patología presente o ausente) al observarlas “en directo” o a través de
la pantalla de un computador. Si hay concordancia entre la observación in situ y la
observación a distancia, entonces se valida el procedimiento a distancia.

25
Para determinar la concordancia o discordancia entre los resultados de ambas
encuestas, se puede utilizar el Test Kappa (que se centra en la concordancia de
las dos variables) y Test de McNemar (que se centra en las discordancias).

El Test Kappa.

Para determinar el grado de concordancia se calcula el estadígrafo Kappa (Қ) que


varía entre -1 y +1. Mientras más cercano a 1, mayor es la concordancia. Si es
cercano a -1, mayor es la discordancia. El valor Қ=0 indica que ni siquiera existe
asociación entre X e Y. Si hay concordancia entre las variables se dice
generalmente que hay reproducibilidad.

Қ se calcula en tablas cuadradas de cualquier dimensión (deben tener el mismo


número de filas y columnas) y siempre que los 2 observadores tengan las mismas
categorías de respuestas (por ejemplo, si un observador tiene respuestas “bien”,
“regular” y “mal”, el otro observador debe presentar esos mismos niveles).

Aunque se pueden docimar las hipótesis H0: Қ=0 versus H1: Қ≠0, nótese que H0
se rechazaría cuando Қ sea muy negativo o muy positivo. Si se rechaza H0 y Қ es
negativo, basta con cambiar el “criterio” de clasificación de uno de los
observadores para tener un valor Қ positivo. Luego, es habitual que este cambio
se haga antes de hacer el test, de modo que las hipótesis de interés sean:

H0: Қ≤0
H1: Қ>0
p0  p e
El valor de Қ está dado por 
1  pe
Donde p0 es la proporción de concordancias observadas y pe es la proporción de
concordancias esperadas asumiendo que las respuestas de los dos observadores
son independientes. El cálculo de pe sigue el mismo camino que el cálculo de Ei en
el test Chi-cuadrado.

Además, se puede probar que el error estándar de Қ está dado por

1  c

se ( ) 
n (1  pe ) 
2
  p e  p 2
e  
i 1
ai bi ( ai  bi ) 

Luego, para docimar H0:Қ=0 versus H1:Қ>0 se usa el test z 0   .


se( )
Se rechaza H0 para valores grandes de z0. Es decir, valor p = P(z > z0).

26
Independiente de su significancia estadística, el valor de Kappa en ocasiones es
evaluado de la siguiente forma:

 Un valor Қ>0.75 denota una excelente reproducibilidad.


 Un valor 0.4Қ0.75 denota una buena reproducibilidad.
 Un valor Қ<0.4 denota una reproducibilidad marginal.

Ejemplo. Calculemos el valor de Қ para los datos sobre consumo de alimentos (página
25). Las concordancias entre ambas encuestas son 136 y 240 (en la diagonal principal de
la tabla). Luego, la concordancia observada es:
136  240
p0   0 .7
537

Por otra parte, para calcular la concordancia esperada se requiere calcular primero el
número esperado de concordancias (como el producto de los 2 márgenes de la tabla
dividido por el total de casos tabulados). Los valores esperados para las 2 celdas de la
diagonal principal son:

228  205 309  332


e1   87 y e2   191
537 537
Luego, teniendo el número esperado de concordancias, podemos calcular la proporción
esperada de concordancias como:

87  191
pe   0.518
537
Luego,

0.70  0.518 0.182


   0.378
1  0.518 0.482

Se puede verificar que el error estándar de Қ es se(Қ)=0.043.

 0.378
Luego, el valor de z0 está dado por z 0    8.8 .
se( ) 0.043

El valor p es P(z>8.8) < 0.001. Se rechaza H0 y se concluye que hay concordancia entre
las dos encuestas. Sin embargo, aún cuando Қ es significativamente distinto de cero, el
grado de concordancia es más bien bajo (Қ <0.4).

27
El Test de McNemar

El Test de McNemar se usa sólo en tablas de 2x2 y se basa en las discordancias


de la tabla.

El interés del test se centra en determinar si el número de discordancias se


distribuye uniformemente entre las 2 celdas discordantes. Nótese que si la
distribución es uniforme (la mitad de las discordancias están en una de las celdas
y la otra mitad en la otra), entonces no hay un patrón de error sistemático.

Luego, las hipótesis de interés son

H0: Las discordancias se distribuyen uniformemente


H1: Las discordancias no se distribuyen uniformemente

Nótese que si llamamos nA al número de casos discordantes en una de las celdas


de la diagonal secundaria (por ejemplo la celda “b”) y nB al número de
discordantes en la otra celda (la celda “c”), entonces lo que se espera (bajo H0) es
que la proporción de discordantes en cada una de las 2 celdas sea p = ½.

Luego, las hipótesis previas las podemos escribir como: H0:p=½ versus H1:p½.

El test estadístico usado para docimar la hipótesis es el test chi-cuadrado de


McNemar (χ2MN) dado por

 2

n A  n B  1
2

MN
n A  n B 
El estadístico 2MN ~ 2(1).

Nótese que si H0 es verdadera, entonces p=½ y por lo tanto debiera cumplirse que
nA ≈ nB (las discordancias se distribuyen uniformemente). Luego, en el numerador
de χ2MN debiera ocurrir que |nA - nB| ≈ 0. En consecuencia, se rechaza H0:p=½
para valores grandes de 2MN.

Ejemplo. Usando los datos sobre consumo de alimentos (página 25), las discordancias
son: nA=92 y nB=69. Luego, el test de McNemar es

 92  69  1 2

 2
  3.01 ~  (21)
92  69
MN

Luego, de tabla chi-cuadrado se tiene valor p = P(2(1)>2MN) = P(2(1)>3.01) >0.05. Se


concluye que las discordancias se distribuyen uniformemente.

28
5.4 Caso especial en tablas de 2x2: Sensibilidad y Especificidad

Cuando se mide la concordancia y discordancia entre dos test diagnóstico, el


resultado no aporta información sobre la efectividad de estos test. Por ejemplo,
dos test alternativos para diagnosticar fiebre tifoidea podrías ser totalmente
concordantes, pero al ser confrontados con el verdadero estado de los pacientes
que clasificaron, podrían arrojar pésimos resultados.

Cuando se conoce el “verdadero estado” de un paciente (generalmente sano o


enfermo), es de interés determinar si uno o más test diagnósticos clasifican en
forma correcta a estos sujetos. Estas pruebas diagnósticas pueden ser
dicotómicas (clasifican a cada sujeto como positivo o negativo) o numéricas.

Ejemplo. En un estudio del Centro de Control de Enfermedades de Estados Unidos


(CDC, 1985), se desea valorar la precisión de 13 laboratorios en el análisis de orina para
diversos medicamentos. Cada laboratorio recibió 100 muestras de orina; en 30 a 40% de
éstas se agregó una concentración conocida de un medicamento. La tabla siguiente
muestra el número de muestras positivas (con medicamento) y el número de muestras
negativas (sin medicamento) que fueron correctamente identificadas por los laboratorios.

Muestras positivas Muestras negativas


Correctamente Correctamente
Medicamento Total identificadas Total identificadas
Barbitúricos 455 187 689 689
Anfetaminas 572 177 637 618
Metadona 533 469 663 583
Cocaína 416 150 793 785
Codeína 481 216 715 708
Morfina 468 178 728 713

Se observa que los laboratorios identificaron mejor la ausencia de un medicamento que la


presencia de éste. La identificación correcta de una muestra positiva se denomina
sensibilidad y la identificación correcta de una muestra negativa se denomina
especificidad.

Ejemplo. El “detector de mentiras” es un aparato que registra los cambios fisiológicos


sufridos por un individuo como respuesta a una lista de preguntas en la que, con algunos
temas neutros e inofensivos, se intercalan cuestiones relacionadas con un delito.

Según sus detractores, aunque el detector es capaz de identificar correctamente a un alto


número de sujetos culpables (tiene una alta sensibilidad), su principal problema es que
podría clasificar como culpable también a un alto número de personas inocentes (tiene
una baja especificidad).

29
En general, la sensibilidad y especificidad se obtienen de una tabla de 2x2 en la
que se clasifica el verdadero estado del paciente (como columnas) y el test
diagnóstico (como filas). La tabla resultante tendrá la siguiente forma:

Enfermedad

Presente Ausente
a b
Positiva Verdaderos Positivos Falsos Positivos
Prueba o
(VP) (FP)
Test
c d
Diagnóstico
Negativa Falsos Negativos Verdaderos Negativos
(FN) (VN)

La sensibilidad (S) es la proporción o porcentaje de casos positivos clasificados


como positivos por el test.
a VP
S 
a  c VP  FN

La especificidad (E) es la proporción o porcentaje de casos negativos clasificados


como negativos por el test.
d VN
E 
b  d VN  FP

También se define la tasa de falsos negativos (TFN) y de falsos positivos (TFP)


como 1-S y 1-E, respectivamente.

Ejemplo. La tabla siguiente resume el resultado de la capacidad de los laboratorios para


detectar la presencia de cocaína en las muestras.

Cocaína en la Muestra
Presente Ausente Total
Prueba de Cocaína (+) 150 8 158
Laboratorio Cocaína (-) 266 785 1051
Total 416 793 1209

De la tabla se tienen los siguientes resultados:

Sensibilidad = 150/416=36% Especificidad = 785/793=99%


Tasa Falsos(-) = 266/416=64% Tasa Falsos(+) = 8/793=1%

30
La elección de un test diagnóstico depende de la gravedad de la enfermedad. Si la
enfermedad es grave, se prefiere un test que tenga alta sensibilidad (o sea, una alta
probabilidad de detectar un enfermo). En cambio, si la enfermedad no es grave, se
prefiere un test que sea más específico (o sea, una alta probabilidad de detectar un sano).

En la práctica, lo que se quiere es tener un test diagnóstico que permita identificar


precozmente una persona enferma y descartar una sana. Para determinar si un
test diagnóstico tiene estas cualidades, se planifica un estudio “prospectivo”, en el
que se seleccionan a+b individuos con test diagnóstico positivo y c+d individuos
con test diagnóstico negativo.

Luego, la capacidad predictiva del test se determina mediante su valor predictivo


positivo y su valor predictivo negativo.

El valor predictivo positivo (VPP o VP(+)) es la fracción de verdaderos positivos


respecto al total de casos clasificados como positivos por el test.

a VP
VP   
a  b VP  FP

El valor predictivo negativo (VPN o VP(-)) es la fracción de verdaderos


negativos respecto al total de casos clasificados como negativos por el test.

d VN
VP   
c  d VN  FN

El resultado de los valores predictivos está relacionado directamente con la


prevalencia de la enfermedad.

Nótese que durante el proceso de construcción de una prueba diagnóstica, el


investigador fija el número de enfermos y sanos a considerar en el estudio (o sea,
a+c y b+d). Este diseño permite estimar la sensibilidad y especificidad del test y no
los valores predictivos.

31
Ejemplo. Los valores predictivos positivo y negativo en la detección de cocaína por parte
de los laboratorios son:

VP+ = 150/158 = 94.9% VP- = 785/1051 = 74.7%

Pero, ¿qué habría ocurrido si el CDC hubiese enviado un número 10 veces mayor de
muestras sin cocaína a los laboratorios? En ese caso, y suponiendo que la sensibilidad y
especificidad se mantienen, la tabla habría sido la siguiente:

Cocaína en la Muestra
Presente Ausente Total
Prueba de Cocaína (+) 150 80 230
Laboratorio Cocaína (-) 266 7850 8116
Total 416 7930 8346

Se observa que S y E no cambian (36% y 99%), pero ahora VP+=150/230=65.2% y VP-


=96.7%.

Este ejemplo muestra que cuando se quiere validar el test construido, se clasifica primero
a los pacientes según el test diagnóstico (como “positivo” o “negativo”) y se determina
posteriormente el verdadero estado de los pacientes. Este procedimiento “prospectivo” es
el que permite estimar los valores predictivos positivo y negativo.

Ejemplo (VP+ y VP- por “Método de la Abuelita”). Un nuevo test diagnóstico para cierta
enfermedad tiene sensibilidad 80% y especificidad 50%. Si la prevalencia de la
enfermedad es 5%, ¿Cuál es el valor predictivo positivo y negativo del nuevo test?

R. La prevalencia 5% indica que de cada 1000 personas, 50 tienen la enfermedad. Luego,


al tabular 1000 personas (ficticias) de acuerdo a la información disponible de sensibilidad,
especificidad y prevalencia, se tendrá:

Enfermedad
Presente Ausente Total
(+) 40 475 515
Test
(-) 10 475 485
Total 50 950 1000

De la tabla se obtiene VP+ = 40/515=7.8% y VP- =475/485= 97.9%. Esto muestra que,
cuando el test resulta negativo, virtualmente descarta la enfermedad. Sin embargo,
cuando resulta positivo, sólo en el 7.8% de los casos la enfermedad está presente.

En general, los procedimientos con sensibilidad elevada son útiles para descartar una
enfermedad en pacientes cuya probabilidad a proiri de tenerla sea baja (o sea, cuando la
prevalencia es baja).

32
Análisis de Pruebas Diagnósticas Numéricas.

Cuando los valores de la prueba diagnóstica se miden en una escala numérica, la


sensibilidad y especificidad dependen del punto de corte establecido en la variable
para clasificar los “positivos” y “negativos” del test.

En este punto surgen 2 preguntas respecto al test numérico: ¿Qué tan buen
predictor es este test diagnóstico para la enfermedad? ¿Cuál es el punto de corte
en la variable que arroja la mayor sensibilidad y especificidad?

La respuesta a ambas preguntas se puede obtener mediante las curvas ROC


(Receiver Operating Characteristic curve), que consiste en un gráfico de la
sensibilidad versus 1-especificidad calculada usando como punto de corte todos
los valores observados de la variable numérica.

Para ilustrar la forma de obtener una curva ROC e interpretarla, consideremos el


siguiente ejemplo.

Ejemplo. Se quiere construir un modelo predictivo de infección en una Unidad de


Cuidados Intensivos (UCI). Para esto, se tiene la información de 39 pacientes, 21 con
infección y 18 sin infección. Las variables que se cree están asociadas con la presencia
de infección son Sexo, Edad, PCR (resultado de un test precoz de infección), y Recuento
de glóbulos blancos (RCTOGB). Usando estas 4 variables se construyó un score de
riesgo de infección, con el siguiente resultado para los 49 pacientes:

Sin infección: 735.3, 658.92, 566.6, 844.49, 467.29, 1056.32, 416.55, 738.7, 954.02, 7.49, 564.82,
634.88, 688.12, 874.44, 483.9, 33.95, 684.81, 594.97

Con infección: 1696.21, 1115.21, 1093.48, 922.06, 917.09, 908.84, 700.59, 895.31, 787.9,
1799.1, 959.8, 584.2, 1013.03, 876.68, 340.33, 732.31, 897.43, 1020.87, 1442.85, 1095.81, 1217.8

Si se elige un punto de corte arbitrario en el score, se puede obtener la sensibilidad y


especificidad de ese punto de corte específico. Por ejemplo, usando corte ≤800 versus
>800 puntos, y asumiendo que un puntaje alto en el test es indicador de infección, se
obtiene:

Infección
Presente Ausente Total
>800 16 4 20
Test
≤800 5 14 19
Total 21 18 39

Se observa que la sensibilidad es 16/21=76.2% y la especificidad es 14/18=77.8%.

33
Si se repite el proceso de cálculo de la sensibilidad y especificidad para todos los valores
del score, se tiene la tabla siguiente. Al graficar la sensibilidad versus 1-especificidad (en
escala de 0 a 1) se obtiene la curva ROC.

Nótese que el área máxima que puede cubrir una curva ROC es 1. Este valor sólo se
puede obtener si existiera un punto de corte “perfecto” en el test diagnóstico (un valor que
arrojara sensibilidad y especificidad iguales a 1).

La línea diagonal (en verde) acumula un área bajo la curva igual a 0.5. Si una variable
tiene área 0.5, significa que no es mejor que el azar para hacer la clasificación de los
pacientes (por ejemplo, no es mejor que clasificarlos lanzando una moneda al aire).
Luego, la hipótesis de interés es:

H0: El área bajo la curva ROC = 0.5


H1: El área bajo la curva ROC ≠ 0.5

Usando un programa estadístico se puede obtener el área bajo la curva ROC y el error
estándar del área. En el ejemplo, el área es 0.847 con un error estándar igual a 0.064.
Luego, con p<0.001 se rechaza la hipótesis nula y se concluye que usar el score es mejor
que el azar para determinar infección.

Nótese que si el área bajo la curva ROC es menor que 0.5, basta con cambiar el criterio
de clasificación para tener un área mayor que 0.5.

Finalmente, de la tabla con todos los puntos de corte se observa que el valor 874.44 del
score es el que arroja la mayor sensibilidad y especificidad (S = 76.2% y E = 88.9%). Sin
embargo, se debe tener en cuenta que elegir el punto de corte de modo que el test tenga
la más alta sensibilidad y especificidad, implica que se le da la misma importancia a los
falsos positivos (clasificar un sano como enfermo) y falsos negativos (clasificar un
enfermo como sano).

34
6. Asociación Categórica – Numérica

Ejemplo. Interesa determinar si existe asociación entre la edad del paciente (en años) y la
presencia de cálculos vesiculares (codificado como 0=No y 1=Si), para un total de 965
personas.

Cuando la variable X es numérica e Y categórica, o viceversa, se requiere obtener


medidas resumen (generalmente número de casos, promedio y desviación
estándar) de la variable numérica para cada nivel de la variable categórica.

Ejemplo. Para determinar la


asociación entre la edad del paciente
y la presencia de cálculos vesiculares,
en base a una muestra de 965
personas, se obtuvieron los siguientes
resultados (la planilla muestra los
primeros 14 datos):

Ejemplo. Para evaluar la eficacia de


un fármaco contra la hipertensión
arterial, se seleccionaron 45
hipertensos y se asignaron a un grupo
sin tratamiento, otro con una dieta sin
sal y un tercero con el fármaco (15
casos al azar en cada grupo). Interesa
comparar los resultados de presión
arterial sistólica al final del tratamiento
(la planilla muestra los primeros 15
datos).

35
Para determinar si existe asociación entre X e Y se comparan los promedios de
la variable numérica entre los niveles de la variable categórica. Como se muestra
en los ejemplos en página previa, el número de promedios a comparar depende
del número de niveles de la variable categórica.

o Si la variable categórica tiene 2 niveles, se comparan los promedios de la


numérica con test t de Student para muestras independientes. Las hipótesis
posibles de plantear en este caso son:

(a) H0:A=B vs H1:AB (Cuando interesa determinar si AB)


(b) H0:AB vs H1:A<B (Cuando interesa determinar si A<B)
(c) H0:AB vs H1:A>B (Cuando interesa determinar si A>B)

o Si la variable categórica tiene más de 2 niveles, se comparan los promedios


con Análisis de la Varianza en una vía (one way ANOVA). En este caso, las
hipótesis son:

H0: μ1=μ2 =... = μk


H1: Algún μiμj

Si la ANOVA arroja diferencias entre los promedios, la conclusión es que al


menos uno de los promedios es distinto al resto. Para detectar cuál o cuáles
son los promedios distintos se usa un test de comparaciones múltiples. El test
más utilizado en la literatura biomédica es el test de Bonferroni.

Ejemplo (Corrección de Bonferroni). En la evaluación del fármaco contra la


hipertensión arterial comparado con grupos sin tratamiento y sin sal (página 35), el test
adecuado es ANOVA, ya que se comparan 3 promedios. ¿Es válido comparar todos los
pares de promedios usando test t de Student para muestras independientes?

R. Si en cada comparación se rechaza H0:μ1=μ2 con confianza 1-α, entonces en k


comparaciones la confianza es: (1-α)K. Luego, la probabilidad de que al menos una de las
k comparaciones sea significativa es 1-(1-α)K.

En el ejemplo, con α=5%, la probabilidad de rechazar erróneamente al menos una de las


3 comparaciones es 1-(1-0.05)3 = 0.1426. Es decir, la probabilidad de encontrar una
diferencia significativa por error es 0.14 en vez de 0.05.

Para solucionar este problema se usa la Corrección de Bonferroni.

Si se quieren hacer k comparaciones con significancia global α, entonces cada


comparación individual debe ser significativa al nivel  *    k  .
2
 
Por ejemplo, como se quieren k = 3 comparaciones, cada hipótesis debe ser significativa
al nivel α*=0.017, de modo que la probabilidad de error global es 1-(1-0.017)3=0.05.

36
6.1 Supuestos del test t de Student para muestras independientes y ANOVA

Para utilizar test t de Student para muestras independientes o ANOVA es


necesario que se cumplan los siguientes supuestos:

o Se requiere que los valores de la variable numérica sean independientes al


interior y entre los niveles de la variable categórica.

Una variable numérica medida en distintos individuos es casi siempre


independiente (es decir, el valor que toma la variable en un individuo no
depende del valor que toma en otro). Algunas excepciones ocurren cuando se
hacen mediciones genéticas en individuos de una misma etnia o familia, efecto
de mediciones ambientales en individuos de una misma comunidad, etc.

Más común es la falta de independencia entre los niveles de la variable


categórica.

Ejemplo. Se quiere evaluar el efecto de un fármaco para tratar la hipertensión arterial.


Para esto, se midió la presión arterial a un grupo de n personas hipertensas antes de
comenzar el tratamiento, después de 1 mes de iniciado el tratamiento y después de 6
meses de tratamiento.

Nótese que, aunque las presiones arteriales son independientes al interior de cada
tiempo, no son independientes entre tiempos, ya que se trata de las mismas personas
medidas en 3 tiempos.

o El promedio de la variable numérica debe tener distribución normal al interior


de cada nivel de la variable categórica.

Este supuesto se cumple cuando el número de observaciones en cada grupo


es grande (ya que los promedios muestrales tienen distribución Normal por
TCL) o cuando los datos tienen distribución Normal (ya que los datos
distribuidos normalmente generan promedios con distribución Normal.

Ejemplo. En el ejemplo de asociación de asociación edad – litiasis en página 35, los


promedios muestrales de edad tienen distribución Normal por TCL, por lo que se
puede usar t de Student para muestras independientes.

En el ejemplo de asociación tratamiento – presión arterial en página 35, es necesario


asumir que la presión arterial tiene distribución Normal, ya que hay sólo 15 casos en
cada grupo de tratamiento. Este supuesto es aceptable, ya que habitualmente se
considera que la presión arterial tiene distribución Normal o, al menos, que su
distribución es simétrica.

37
Ejemplo (uso de t de Student para muestras independientes). En el ejemplo de
asociación Litiasis – Edad (página 35), no hay inconveniente en usar test t de Student
para muestras independientes, ya que los promedios muestrales tienen distribución
Normal por TCL.

Usando MINITAB, se obtiene el siguiente resultado para la comparación de medias:

La última línea de la salida de MINITAB muestra el valor p (P-Value = 0.000). Luego, con
p<0.001 se rechaza la hipótesis de igualdad de medias. Se concluye que la edad
promedio de los litiásicos (45.8±13.9) es significativamente mayor que la edad promedio
de los no litiásicos (36.1±13.0). Equivalentemente, existe asociación entre edad y litiasis.

Ejemplo (uso de ANOVA). En la evaluación del fármaco contra la hipertensión arterial


comparado con grupos sin tratamiento y sin sal (página 35) se requiere comparar los
promedio con ANOVA.

Usando MINITAB, para la hipótesis H0:μ1=μ2=μ3 se obtiene p<0.001. Luego, se rechaza la


hipótesis de igualdad de medias. Usando test de Bonferroni, se concluye que existen
diferencias significativas entre todos los pares de promedios (p<0.05 para cada
comparación).

Nótese que, aunque se concluye que los promedios son distintos, con esta comparación
no se puede concluir que el grupo con tratamiento sea mejor para disminuir la presión
arterial que los otros grupos, ya que no sabemos cuál que la presión arterial inicial de
estos pacientes.

Un diseño adecuado debiera comparar los promedios de las diferencias de presión arterial
inicial – final entre los 3 grupos. Nótese que mientras más positivo sea el delta promedio,
indica una mayor disminución de la presión arterial. Luego, un delta promedio
significativamente mayor en el grupo tratado en comparación con el resto sería indicador
de un mayor efecto del tratamiento.

38
6.2. Test de Hipótesis para dos promedios

Cuando se quieren comparar dos promedios μA y μB que cumplen con los


supuestos planteados en 6.1, las hipótesis posibles de plantear son:

(a) H0:A=B vs H1:AB (Cuando interesa determinar si AB)


(b) H0:AB vs H1:A<B (Cuando interesa determinar si A<B)
(c) H0:AB vs H1:A>B (Cuando interesa determinar si A>B)

Cualquiera sea la hipótesis de interés, se toman muestras aleatorias tamaño nA y


nB de las poblaciones A y B, respectivamente, y se calcula el promedio y
desviación estándar de la variable numérica para cada muestra.

Asumiendo que el supuesto de independencia se cumple, el supuesto de


normalidad implica que x A ~ N (  A ,  A2 n A ) y x B ~ N (  B ,  B2 n B ) . Se puede
demostrar que x A  x B ~ N (  A   B ,  A2 n A   B2 n B ) . Luego, si se asume que H0 es
verdadera (A=B), entonces bajo H0 se tiene que x A  x B ~ N (0,  A2 n A   B2 n B ) .
Al estandarizar y reemplazar las varianzas poblacionales (que son desconocidas)
por las varianzas muestrales, se tiene:

(x A  xB )
t0  ~ t (n A  n B  2)
s A2 s B2

n A nB

Lo cual significa que t0 tiene distribución t de Student con nA-nB-2 grados de


libertad.

Siguiendo la misma lógica del test para una proporción (página 8) o para un
promedio (página 10), para cada hipótesis planteada el valor p es:

Para las hipótesis: el valor-p es:


(a) H0:μA=μB vs H1:μAμB (a) p=P(t(nA+nB-2)<-t0 o t(nA+nB-2)> t0 ) =2*P(t(nA+nB-2) |t0|)
(b) H0:μAμB vs H1:μA<μB (b) p = P(t(nA+nB-2)<t0)
(c) H0:μAμB vs H1:μA>μB (c) p = P(t(nA+nB-2)>t0)

Finalmente, se rechaza H0 si el valor-p calculado es menor que la significancia 


fijada a priori.

39
Ejemplo: Se calculó la disminución de peso (en kilos) de 18 pacientes sometidos a dos
tratamientos para la obesidad: 10 pacientes con tratamiento A y 8 con tratamiento B. Los
datos están expresados como

Delta = Peso al inicio de tratamiento - Peso al final del tratamiento

Interesa determinar si el tratamiento A es más efectivo que el tratamiento B.

R. Si se quiere usar test t de Student para muestras independientes es necesario asumir


que los datos de delta de peso poblacionales tienen distribución Normal.

Si μA y μB son los delta de peso promedio en poblaciones A y B, respectivamente,


entonces la hipótesis que plantea que A es más efectivo que B es H0:μA μB vs H1:μ A>μB.

De las muestras de A y B se obtiene: n A  10, x A  3.33  4.26 y n B  8, x B  0.61  3.89 .


Luego, el test estadístico es

(x A  xB ) 3.33  0.61 2.72


t0    1.41 ~ t (n A  n B  2)  t (16)
s 2
s 2 2
4.26 3.89 2
3.706
A
 B

n A nB 10 8

Dado que se rechaza para valores grandes de t0 (que es consistente con H1:μ A>μB), el
valor p es P(t(16) > 1.41)=1- P(t(16) < 1.41) > 0.05. No hay evidencia suficiente en los datos
para rechazar H0. Por lo tanto, el tratamiento A no es más efectivo que el B.

Nótese que x A  3.33 es bastante mayor que x B  0.61 y sin embargo no hay diferencias
significativas entre los promedios. Esto se debe a que las varianzas son muy grandes
( s A2  4.26 2 y s B2  3.89 2 ) y los tamaños muestrales son muy pequeños ( n A  10 y
n B  8 ), lo que hace que los errores estándar sean muy grandes.

40
6.3 Análisis de datos pareados (o medidas repetidas).

Como se mencionó en los supuestos del test t de Student para muestras


independientes y ANOVA (página 37), generalmente el valor que toma una
variable numérica en un individuo no depende del valor que toma en los demás.
Es decir, habitualmente existe independencia entre individuos.

Sin embargo, si la variable numérica es medida en los mismos individuos en dos o


más tiempos o condiciones experimentales (que corresponde a los niveles de la
variable categórica), entonces las observaciones son independientes al interior de
cada tiempo, pero no entre tiempos, ya que son los mismos pacientes. Es decir,
no hay independencia intra individuos.

Ejemplo. La tabla siguiente muestra el conteo de células T-CD4 (x mm3) en una muestra
aleatoria de 20 pacientes con diagnóstico primario de VIH. El valor basal corresponde al
conteo de células T antes de iniciar un tratamiento con terapia antiretroviral (TAR) y los
controles 1 al 4 corresponde al conteo en 4 controles sucesivos, separados
aproximadamente por 6 meses entre sí.

El gráfico muestra cómo evoluciona el conteo de células T CD4 entre los controles en esta
muestra. Interesa determinar si existe un aumento significativo en el conteo de células T
CD4 en el tiempo.

Nótese que se trata de la asociación de una variable numérica (CD4) y una categórica
(tiempo, con 5 niveles). Aunque el valor de CD4 de un paciente es independiente del valor
que toma en los otros pacientes, no hay independencia entre tiempos, ya que se trata de
los mismos pacientes.

41
Como en el caso de datos independientes (página 36), el test a utilizar depende
del número de condiciones experimentales o tiempos en que se mide la variable
numérica.

o Si la variable numérica se mide en dos tiempos o condiciones, se comparan los


promedios con test t de Student para muestras pareadas.

Dado que cada individuo tiene dos valores, las hipótesis se pueden plantear en
términos del promedio de diferencias entre los tiempos. Es decir, si y1i e y2i son
los valores en tiempo 1 y 2 del individuo i-ésimo, entonces para cada sujeto se
puede calcular di=y1i - y2i. Nótese que si no hay diferencias entre los tiempos,
entonces se espera que el promedio de las diferencias sea igual a cero.

En general, si llamamos μ al promedio de las diferencias en la población,


entonces las hipótesis posibles de plantear son:

(a) H0:μ=0 vs H1:μ0 (Cuando interesa determinar si μ  0)


(b) H0:μ0 vs H1:μ<0 (Cuando interesa determinar si μ < 0)
(c) H0:μ0 vs H1:μ>0 (Cuando interesa determinar si μ > 0)

Nótese que estas hipótesis son un caso particular de las planteadas en Test de
Hipótesis para un Promedio, con μ0=0 (ver páginas 10 y 11).

o Si la variable numérica se mide en más de dos tiempos o condiciones, se


comparan los promedios con Análisis de la Varianza para medidas
repetidas. En este caso, las hipótesis son:

H 0 :  tiempo 1   tiempo  2     tiempo  k


H 1 : Algún  tiempo i   tiempo j

Si la ANOVA para medidas repetidas arroja diferencias entre los promedios, se


recurre nuevamente a los test de comparaciones múltiples (por ejemplo,
Bonferroni) para determinar cuál o cuáles son los promedios distintos.

Supuestos del análisis


Al igual que en el caso de muestras independientes, se requiere que el promedio
de la variable numérica tenga distribución Normal al interior de cada tiempo o
condición experimental. También se requiere que la variable numérica sea
independiente al interior de cada condición.

42
Ejemplo. Interesa comparar el peso promedio entre dos tiempos: al inicio y al final de un
tratamiento para la obesidad. Los datos disponibles son los siguientes:

Para cada paciente se calcula la diferencia entre el peso inicial y el peso final. En este
caso los deltas son: 6, 4, 6, 11, 0, 1, -1, 5, 11, -2. En este esquema, plantear que no hay
diferencias entre los valores PRE y POST equivale a plantear que el delta promedio es
igual a cero. Si llamamos μ al delta promedio poblacional, entonces las hipótesis son:

H0 :   0
H1 :   0

De los datos se obtiene: n  10 d  4.1  4.63 . Como la hipótesis es un caso particular


del test para un promedio descrito en página 10 (con μ0=0), el test es:

X  0 4 .1  0
t0    2.8 ~ t (n  1)  t (9)
s 4.63
n 10

Dado que la hipótesis es bilateral, se rechaza para valores muy grandes o muy pequeños
de t0. Luego, el valor p es P(t(n-1) <-t0 o t(n-1)> t0 ) = 2*P(t(n-1) |t0|) = 2*P(t(9) 2.8) < 0.01. Se
concluye que existen diferencias significativas entre el peso PRE y POST. Luego, como la
diferencia promedio es positiva, se concluye que el tratamiento es efectivo.

Ejemplo. Para los datos de conteo de células T-CD4 (x mm3) en pacientes con
diagnóstico primario de VIH, se utiliza ANOVA para medidas repetidas, ya que esta
variable se mide en 5 tiempos. La hipótesis de interés es:

H 0 :  basal   control 1     control  4


H 1 : Algún  tiempo i   tiempo j

Usando MINITAB, se obtiene p<0.001 para la hipótesis. Se concluye que al menos un


tiempo tiene un promedio distinto al resto. Usando test de Bonferroni, se observa que el
tiempo basal tiene un promedio significativamente menor que el resto (p<0.001 en cada
par de comparaciones) y el promedio en control 4 es significativamente mayor que en
control 1 (p=0.003).

43
6.4 Transformaciones y Test no paramétricos

Los test t de Student y ANOVA, en sus versiones independientes y pareadas,


requieren que los promedios muestrales tengan distribución Normal al interior de
cada nivel de la variable categórica.

Si los datos no son normales y el tamaño muestral es insuficiente para asumir


normalidad por TCL, hay dos alternativas para hacer un análisis de los datos
mediante test de hipótesis: usar transformaciones de los datos o usar test no
paramétricos.

Transformaciones
Si X es una variable aleatoria numérica no normal, una transformación de X podría
lograr el efecto de simetrizar los datos, de modo que podríamos utilizar los test
paramétricos estudiados sobre los datos transformados. Las conclusiones que
obtengamos para los test de hipótesis planteadas con los datos transformados
serán válidas para los datos originales.

Aunque teóricamente cualquier función f que sea monótona (creciente o


decreciente) y uno-a-uno puede usarse para transformar los datos, en la práctica
se utilizan sólo algunas funciones.

La transformación más utilizada es el logaritmo natural. Si el logaritmo de una


variable numérica tiene distribución normal, se dice que la variable original tiene
distribución log-normal. Nótese que el logaritmo sólo se puede usar cuando X>0.
Si X puede tomar el valor 0, en ocasiones se usa la transformación log(X+1).

Cuando la variable es un conteo (por ejemplo, número de personas, número de


hijos, etc.) una transformación usada con frecuencia es la raíz cuadrada. Cuando
la variable numérica es una proporción, generalmente se usa arcoseno(p).

44
Test no paramétricos
Cuando se asume normalidad, en el fondo se está asumiendo que se conoce la
forma de la distribución de los datos, la cual esta basada en parámetros (como la
media μ y la varianza σ2 de la distribución Normal). Por este motivo, estas
distribuciones se llaman paramétricas, y los test basados en estas distribuciones
se denominan test paramétricos.

Una alternativa al análisis de datos asumiendo normalidad (u otra distribución,


como Poisson, Binomial, etc.) son los test no paramétricos, los cuales hacen
pocos supuestos acerca de la forma de la distribución.

Dado que en este curso el énfasis está puesto en los test paramétricos, sólo se
mencionan a continuación cuáles son los test no paramétricos equivalentes a los
test paramétricos estudiados.

Si el test paramétrico adecuado para la El test no paramétrico equivalente


hipótesis es … es…
t de Student para muestras independientes Test de rangos de Wilcoxon
ANOVA en una vía Test de Kruskal-Wallis
Test de Bonferroni Test de Dunn

t de Student para muestras pareadas Test de rangos signados de Wilcoxon


ANOVA para medidas repetidas Test de Friedman

45
7. Asociación Numérica – Numérica

Ejemplo. Interesa determinar si existe asociación el peso (en kilos) y el nivel de colesterol
total en una muestra de 965 personas, constituida por individuos litiásicos y no litiásicos.

Cuando las variables X e y son ambas numéricas, se determina si existe


asociación lineal entre las variables mediante al correlación muestral de
Pearson (si ambas variables tienen origen intervalar) o la correlación por rangos
de Spearman (si al menos una de ellas es de origen ordinal). La correlación
muestral se denota generalmente con la letra “r”, mientras que la correlación
poblacional (que es la que queremos estimar) se denota con la letra ρ (rho).

En forma complementaria al cálculo de la correlación se debiera hacer un gráfico


de dispersión de X versus Y, el cual puede arrojar (entre otras) alguna de las
siguientes tendencias:

46
Los gráficos superiores (gráficos 1 y 2) muestran asociaciones lineales directa e
inversa, respectivamente. Estas tendencias debieran ser detectadas por el
coeficiente de correlación.

Los gráficos inferiores (gráficos 3 y 4) en cambio, no muestran asociación lineal,


pero con resultados muy distintos: el gráfico 3 no muestra ningún tipo de
tendencia, mientras el gráfico 4 muestra una clara tendencia de tipo exponencial.

Las características de la correlación muestral (y poblacional) son las siguientes:

• La correlación varía entre -1 y +1.


• Si r es cercano a 1, significa que existe asociación lineal directa entre X e Y.
• Si r es cercano a -1, significa que existe asociación lineal inversa entre X e Y.
• Si r es cercano a 0, indica que no hay asociación lineal entre X e Y.

Estas características las comparten la correlación de Pearson y de Spearman.

Nótese que si la correlación es cercana a cero, sólo podemos concluir que no


existe asociación lineal. Sin embargo, observando sólo el valor de r no podemos
diferenciar entre una falta total de asociación de una asociación no lineal (como en
los gráficos 3 y 4). Para esto es necesario hacer el gráfico de dispersión.

Las hipótesis de interés en este caso son:

H0 :   0
H1 :   0

En una muestra de tamaño n los datos observados de X e Y forman pares


ordenados del tipo (x1,y1), ..., (xn,yn). La correlación de Pearson se calcula como:
_ _

r
 ( x  x)( y  y)
i i
_ _

 ( x  x)  ( y  y )
i
2
i
2

Se puede demostrar que la siguiente transformación de r tiene distribución Normal:


1 1 r
ln( )
z0  2 1  r ~ N (0,1)
1
(n  3)

Y el valor p para docimar la hipótesis H0:ρ=0 se calcula como p=2*P(z z0). Se


rechaza H0 si el valor-p es menor que la significancia  fijada a priori.

47
Ejemplo: Interesa determinar si hay asociación
lineal entre el porcentaje de personas que lee
(literacy) y mortalidad infantil (por cada 1000
nacidos vivos) para una muestra de 25 países
(datos 1995).

Al aplicar la fórmula para calcular “r”, se obtiene


una correlación muestral de Pearson r = -0.931

El estadígrafo z0 es:

1 1  0.931
ln( )
z0  2 1  0.931  7.81 ~ N (0,1)
1
(25  3)

El valor-p es 2*P(z z0)=2*P(z 7.81) < 0.001. Se


concluye que existe una asociación lineal inversa
significativa entre alfabetización y la mortalidad
infantil.

Una desventaja de la correlación muestral es que tiende a ser más significativa a


medida que aumenta el tamaño muestral. Luego, un r significativo no permite
determinar si la variable X es un buen predictor de Y (sólo permite decir que existe
una asociación lineal significativa). Para saber si X es un buen o mal predictor de
Y generalmente se usa el siguiente criterio, el cual se usa en forma independiente
del valor p.

Si la correlación varía entre … Entonces …

X es un mal predictor de Y

X es un pobre predictor de Y

X es un buen predictor de Y

X es un excelente predictor de Y

48
ANEXO
Estudios Transversales, Prospectivos y Retrospectivos

Estudio Transversal

Estos estudios, denominados también estudios de prevalencia, estudian


simultáneamente la exposición y la enfermedad en una población bien definida, en
un momento determinado.

Esta medición simultánea no permite conocer la secuencia temporal de los


acontecimientos y no es por tanto posible determinar si la exposición precedió a la
enfermedad o viceversa.

La realización de estos estudios requiere definir claramente:


 La población de referencia sobre la que se desea extrapolar los resultados.
 La selección y definición de las variables por las que se va a caracterizar el
proceso.
 Las escalas de medida a utilizar.
 La definición de “caso”.

Los estudios transversales se utilizan fundamentalmente en dos situaciones:

1. Para conocer la prevalencia de una enfermedad o de un factor de riesgo. Es


decir, el porcentaje total de casos que tiene una enfermedad determinada.
2. Para conocer la incidencia de una enfermedad. Es decir, el porcentaje de
nuevos casos portadores de una enfermedad determinada.

Ejemplo. “Estudio de Prevalencia de Factores de Riesgo en una cohorte de 412 mujeres


mayores de 15 años en la Región Metropolitana” (Ximena Berríos et.al. 1992). El estudio
arrojó los siguientes resultados:

Factor de Riesgo 1992 (%)


Tabaquismo 44.6
Consumo de Alcohol 29.8
Sedentarismo 80.1
Hipertensión 17.6
Obesidad 39.9
Colesterol > 200 mg 46.1

En este caso se podría hacer una tabla de contingencia para determinar, por ejemplo, la
asociación de sedentarismo y obesidad. Sin embargo, no nos permitiría concluir que el
sedentarismo produce la obesidad, ya que no se sabe cuál de los dos factores ocurrió
primero (¿podría ser que debido a la obesidad una persona se puso sedentaria?).

49
Características de un Estudio Retrospectivo (Caso – Control)

Este tipo de estudio identifica un grupo de personas que es portador de la


enfermedad en estudio (o de otra característica de interés) y lo compara con un
grupo apropiado de personas que no tenga la enfermedad.

El grupo portador de la enfermedad se denomina generalmente como casos, y el


grupo sin la enfermedad se llama grupo control. Por este motivo a estos estudios
se les denomina estudio caso – control. Por otra parte, el hecho de que la
enfermedad ya haya ocurrido le da al estudio su carácter retrospectivo.

Generalmente es de interés determinar la relación de la enfermedad con uno o


más factores (de riesgo o protectores de la enfermedad), comparando la
frecuencia de exposición al factor entre casos y controles.

Casos Controles Total


Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n

El margen fijo en la tabla previa corresponde a las columnas a+c y b+d. Por lo
tanto, los porcentajes de interés se calculan usando estos denominadores.

La función del grupo control es estimar la proporción de exposición esperada en


un grupo que no tiene la enfermedad. Este grupo debe ser representativo de la
población de donde provienen los casos. Es decir, los casos y controles no deben
entenderse como dos grupos representativos de poblaciones distintas, sino como
dos grupos que provienen de la misma población.

Ejemplo. Se condujo un estudio para determinar la asociación del uso de anticonceptivos


orales (ACO) y enfermedad cardiaca en mujeres de 40 a 44 años de edad. Para esto, se
tomó una muestra de 180 mujeres que fueron atendidas en un hospital por infarto al
miocardio (IAM) y un grupo de 250 mujeres sanas. Al revisar sus antecedentes de uso de
ACO, se encontraron los siguientes resultados:

Infarto al Miocardio
Si No Total
Uso de Si 105 120 225
ACO No 75 130 205
Total 180 250 430

Los porcentajes de interés en este caso son el porcentaje de uso de ACO en los casos (el
grupo con infarto) y en los controles (el grupo sin infarto).

50
Características de un Estudio Prospectivo

En este tipo de estudio los individuos son identificados en función de la presencia


o ausencia de exposición a un determinado factor. En el momento de la selección,
todos los sujetos están libres de la enfermedad de interés y son seguidos durante
un período de tiempo para observar la frecuencia de aparición del fenómeno que
nos interesa.

Estos estudios se denominan también estudios de cohorte (la cohorte es el


grupo de sujetos que es observado en distintos instantes de tiempo) o estudios
de seguimiento.

Enfermos Sanos Total


Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n

El margen fijo en esta tabla son las filas a+b y c+d. Por lo tanto, los porcentajes de
interés se calculan usando estos denominadores.

Se debe tener certeza de que la enfermedad está ausente al inicio del estudio. Por
otra parte, es necesario considerar posibles pérdidas de seguimiento (sujetos que
no vuelven a control, cambian su condición de expuesto o no expuesto, mueren,
etc.). Los no expuestos deben ser representativos de la población de donde
provienen los expuestos. Como en estudios Caso – Control, estos grupos deben
entenderse como representativos de la misma población.

Ejemplo. Se condujo un estudio para determinar el efecto del uso de anticonceptivos


orales (ACO) sobre enfermedad cardiaca en mujeres de 40 a 44 años. Se encontró que
entre 5000 usuarias actuales de ACO, 13 tuvieron un infarto al miocardio (IAM) en un
período de 3 años, y entre 10000 no usuarias de ACO, 7 tuvieron un IAM en 3 años.

IAM No IAM Total


Grupo con ACO 13 4987 5000
Grupo sin ACO 7 9993 10000
Total 20 14980 15000

Los porcentajes de interés en este caso son el porcentaje de IAM en los expuestos (el
grupo con ACO) y en los no expuestos (el grupo sin ACO).

Nótese que al inicio del estudio es necesario verificar que ninguna de las 15000 personas
seleccionadas haya tenido un infarto al miocardio.

51
Ventajas de los Estudios Caso – Control y Cohorte

Estudio Caso – Control Estudio de Cohorte


Menos costosos que los estudios de Aceptados como el tipo de estudio que
seguimiento aporta más evidencia de asociación entre
un factor y una enfermedad
Habitualmente son estudios de corta La secuencia temporal entre exposición y
duración enfermedad se puede establecer más
claramente
Útiles para el estudio de enfermedades Permiten estimar incidencias
raras
Permite el análisis de varios factores de Permite el examen de múltiples efectos
riesgo para una determinada enfermedad ante una exposición determinada

Desventajas de los Estudios Caso – Control y Cohorte

Estudio Caso – Control Estudio de Cohorte


Son considerados estudios exploratorios Elevado costo y dificultad en la ejecución
(no confirmatorios)
La secuencia temporal entre exposición y
No son útiles para el estudio de
enfermedad no es fácil de establecer enfermedades raras
No permiten estimar incidencias Requieren generalmente tamaños
muestrales elevados
Hay facilidad de introducir sesgos de Posibilidad de pérdida de seguimiento
selección y/o información

52

Вам также может понравиться