Академический Документы
Профессиональный Документы
Культура Документы
bayesianas para la
investigación en salud
Una polémica
escamoteada
Feinstein (1985)
Si la demanda crítica hubiera sido que la investigación
produjese ambos tipos de significación (la que concierne
al área estocástica y la que se vincula con los atributos
cualitativos) entonces la alienación intelectual de hoy no
hubiera ocurrido. Desafortunadamente, sin embargo, la
palabra "significación" fue reservada solo en su con-
notación estocástica, y la palabra "estadística" le fue
adjuntada para crear la "significación estadística" como
paradigma de calidad e importancia en la investigación
médica... Usando *, **, y *** como símbolos para repre-
sentar que P<0.05, P<0.01 y P<0.001 respectivamente, el
investigador puede presentar tablas celestiales en las
cuales los datos han sido reemplazados por estrellas.
Yates (1951)
El énfasis en las pruebas de hipó-
tesis y la consideración de los
resultados de cada experimento sepa-
radamente han tenido la desafor-
tunada consecuencia de que los tra-
bajadores científicos han conside-
rado con frecuencia la ejecución de
una prueba de significación o un ex-
perimento como el objetivo último;
actúan sobre la base de que los re-
sultados o son o no son signifi-
cativos y de que éste es el fin de
todo.
Neyman y Pearson(1933)
Ninguna prueba basada en la teoría de probabilidad puede por sí misma
generar índices válidos sobre la verdad o la falsedad de una hipóte-
sis. Las pruebas de hipótesis deben ser miradas desde otra perspecti-
va. Siguiendo la regla de aceptar o rechazar una hipótesis no estamos
diciendo nada definitivo sobre si la hipótesis es o no verdadera... Lo
que se puede demostrar es que si somos consecuentes con esa regla, a
la larga, la rechazaremos cuando sea cierta no más, digamos, que una
de cada 100 veces; adicionalmente, la rechazaremos con alta frecuencia
cuando sea falsa.
Savage (1957)
Con mucha frecuencia se sabe de antemano que las hipótesis de nulidad
son falsas antes incluso de recoger los datos; en ese caso el rechazo
Statistics:
A Bayesian Perspective
D. Berry, 1996, Duxbury Press.
Referencias más avanzadas
Bayesian Biostatistics
D. Berry & D. Stangl, 1996,
Marcel Dekker Pub.
Bayesian Data Analysis
A. Gelman, J. Carlin, H. Stern,
D. Rubin, 1995, Chapman & Hall.
Las tareas de la estadística
A B
A∩B
A ~A∩B
A∩B B
20 pacientes con cáncer de mama
localmente avanzado; unas eran
receptoras de estrógenos y las
otras receptoras de progesterona
Progesterona
+ -
Estr+ 8/20 4/20
Estr- 1/20 7/20
A es el evento de tener un tumor
receptor de estrógeno
B es el evento de tener un tumor
receptor de progesterona
Probabilidad de A?
Probabilidad de B?
Probabilidad de A y B?
Son A y B independientes?
Ley de probabilidad total
P(B|A)
P(B|no A)
C: Al menos una lo es G1
3/4
B2 1 1/4
G2 1 1/4
B1
P(CD)
P(D | C) = B2 0 1/4
P(C)
P(G1G2) 1 / 4 1
= = =
P(C) 3/4 3
Condicionado a G2:
¿Cuántas niñas?
Primer
First Segundo
Second Número
Number
hijo hijo degirls
niñas
Familia con 2 hijos child child of Prob.
G2 2 1/4
D: Ambas niñas
G2: La segunda es niña G1 1/2
B2 1 1/4
G2 1 1/4
B1
P(D | G2) =
P(G2)
P(G1 G2) 1 / 4 1
= = =
P(G2)
1/ 2 2
Un problema de urnas
5R 4R 3R 2R 1R 0R
0G 1G 2G 3G 4G 5G
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6
Probabilidades actualizadas de
elegir un disco verde
Se observa G, un disco verde
Verosimilitudes:
P(G|0) P(G|1) P(G|2) P(G|3) P(G|4) P(G|5)
0 1/5 2/5 3/5 4/5 1
Probabilidades a posteriori:
P(0|G) P(1|G) P(2|G) P(3|G) P(4|G) P(5|G)
0 1/15 2/15 3/15 4/15 5/15
5R 4R 3R 2R 1R 0R
0G 1G 2G 3G 4G 5G
Probabilidad de que el próximo
disco sea verde (sin reemplazo)
G: 0 1 2 3 4 5
P(G|G1) 0 1/15 2/15 3/15 4/15 5/15
P(G2|G) 0 0/4 1/4 2/4 3/4 4/4
Producto 0 0/60 2/60 6/60 12/60 20/60
10B 9B 8B 7B 6B 5B 4B 3B 2B 1B 0B
0A 1A 2A 3A 4A 5A 6A 7A 8A 9A 10A
D={ABB}
¿Cuál es la probabilidad de gane A teniendo en cuenta estos
datos? ¿Cuánto menos que 0.6?
P(D | M6) P(M6)
P(M6 |D) =
P(D)
P(M6) =0.2
P(D | M6)= P(ABB|M6)=P(A|M6) P(B|M6) (B|M6) =(0.6)(0.4)(0.4)=0.096
(0.096) (0.2)
P(M6 |D) = = 0.01920
08616
Con probabilidades a posteriori
Modelos
M0 M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0 0.02 0.04 0.09 0.17 0.22 0.22 0.28 0.06 0.01 0
10P 9P 8P 7P 6P 5P 4P 3P 2P 1P 0B
0M 1M 2M 3M 4M 5M 6M 7M 8M 9M 10M
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
10P 9P 8P 7P 6P 5P 4P 3P 2P 1P 0B
0M 1M 2M 3M 4M 5M 6M 7M 8M 9M 10M
X 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11
Y 1/55 2/55 3/55 4/55 5/55 6/55 7/55 8/55 9/55 10/55 11/55
Z .001 .001 .001 .001 .001 0.99 .001 .001 .001 .001 .001
10P 9P 8P 7P 6P 5P 4P 3P 2P 1P 0B
0M 1M 2M 3M 4M 5M 6M 7M 8M 9M 10M
0 1 2 3 4 5 6 7 8 9 10
k
probabilidades predictivas
para una observación
Beta(5,2)
Beta(4,2) 4/6
Exito
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p
Fallo Beta(4,3)
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p
2/6
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p
Tasa de graduados expuestos a
plomo
Para prior uniforme,
Para prior beta(9,1),
a posteriori es Beta(23,8):
a posteriori es Beta(31,8):
p30 (1-p)7
p22 (1-p)7
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p p
Beta(4,2)
Exito.
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p
Beta(4,3)
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p Fallo
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p
Problema de la leucemia
Dr. X Beta (19,4)
0.5 19/23=0.826 (antes 0.826)
r = a/ (a+b)
y probabilidad de un segundo éxito dado
que se produjo el primero: r+
r+ = (a+1)/ (a+b+1)
a=r(1-r+)/(r+-r)
b=(1-r )(1-r+)/(r+-r)
Ejemplo
Probabilidad de éxito:
r=0.70
Probabilidad de un segundo éxito dado
que se produjo el primero:
r+=0.75
a=(0.70)(1-0.75)/(0.75-0.70)=3.5
b=(1-0.70)(1-0.75)/(0.75-0.70)=1.5
Areas aproximadas e intervalos de
probabilidad
r = a/ (a+b)
r+ = (a+1)/ (a+b+1)
t= {r (r+-r)}1/2
Z correspondiente a cierto valor ϕ
entre 0 y 1 es igual a z=(ϕ - r) / t
r = 0.70 r+ = 0.72 t= 0.118
Para ϕ=0.9 entonces z=(0.9 - 0.7) / 0.118=1.69
0.9
22 7
p (1-p)
95%
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
p
Intervalo de probabilidad al 95 %
(z 1-α /2=1.96):
0.2519 ; 0.3554
Intervalos de probabilidad para
los doctores X, Y y Z
r r+ t E Intervalo
Verosimilitudes
P(Datos p) = p s (1-p) f
/
,,j
I I I I I j /
o 0,2 0,4 0,6 0,8 1
~
/~1~-1~_
1~1~_1~_
1 ~'~~~-J/
o 0,2 0,4 0,6 0,8 1
Comparación de proporciones
con 2 muestras
15 portadores de sickle-cell (hetero-zigóticos) y 15 no
portadores; todos fueron inyectados con parásitos de
malaria. 2 de los 15 portadores y 14 de los 15 no
portadores contrajeron malaria. Las verosimilitudes son:
pC2(1–pC)13 y pN14(1–pN). Al considerar 11 modelos para
cada caso; hay 121 modelos conjuntos (121 pares).
pC2(1–pC)13pN14(1–pN)
pN
pC
Probab de un no
ciclémico es menor que
de un ciclémico
pN
Probab de un ciclémico
es mayor que de un no
ciclémico
pC
Verosimilitudes (multiplicadas por 10 elevado a la 7)
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
0 0 0 0 0 0 0 0 0 0 0 0
.2 0 224 193 77 18 3 0 0 0 0 0
.3 0 52 45 18 4 1 0 0 0 0 0
.4 0 8 7 3 1 0 0 0 0 0 0
.5 0 1 1 0 0 0 0 0 0 0 0
.6 0 0 0 0 0 0 0 0 0 0 0
.7 0 0 0 0 0 0 0 0 0 0 0
.8 0 0 0 0 0 0 0 0 0 0 0
.9 0 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 0
Probabilidades a priori
distribuidas uniformemente entre
las 121 posibilidades
pN
pC
Probabilidades a posteriori para los
PC 121 modelos según Dr. Abierto
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 Pr
1 0 0 0 0 0 0 0 0 0 0 0 0
PN .5 0 0 1 0 0 0 0 0 0 0 0 0
.4 0 0 0 0 0 0 0 0 0 0 0 0
.3 0 0 0 0 0 0 0 0 0 0 0 0
.2 0 0 0 0 0 0 0 0 0 0 0 0
.1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0
1 .040 .040 .040 .030 .021 .010 .008 .006 .004 .001 .040 .240
.9 .040 .034 .034 .032 .016 .010 .008 .006 .004 .030 .001 .215
.8 .040 .034 .034 .032 .020 .010 .008 .006 .024 .001 .001 .210
.7 .010 .020 .020 .012 .005 .005 .005 .020 .001 .001 .001 .100
.6 .004 .006 .006 .003 .002 .005 .020 .001 .001 .001 .001 .050
.5 .002 .002 .002 .002 .002 .020 .001 .001 .001 .001 .001 .035
PN .4 0.01 0.01 0.01 0.01 .020 .001 .001 .001 .001 .001 .001 .030
.3 .001 .001 .001 .020 .001 .001 .001 .001 .001 .001 .001 .030
.2 .001 .001 .020 .001 .001 .001 .001 .001 .001 .001 .001 .030
.1 .001 .020 .001 .001 .001 .001 .001 .001 .001 .001 .001 .030
0 .020 .001 .001 .001 .001 .001 .001 .001 .001 .001 .001 .030
Pr .160 .160 .160 .135 .090 .065 .065 .045 .040 .040 .050 1
Ahora se constriuiría la tabla con las
verosimilitudes de manera parecida a como
se hizo en el caso anterior y de inmediato se
multiplican ambas tablas para obtener las
probabilidades a posteriori de todos los
pares de modelos según el Dr. Informado.
Probabilidades a posteriori para los
PC
121 modelos según Dr. Informado
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 Prob
0 0 0 0 0 0 0 0 0 0 0 0 .0
PN .5 0 0 .0 0 0 0 0 0 0 0 0 0
.4 0 0 0 0 0 0 0 0 0 0 0 0
.3 0 0 0 0 0 0 0 0 0 0 0 0
.2 0 0 0 0 0 0 0 0 0 0 0 0
.1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0
ciclémicos
Probabilidad 0.180 0.174
predictiva para
unos y otros no
ciclémicos 0.859 0.866
1 0 0 0 0 0 0 0 0 0 0 0 0
Para el caso del Dr. .9 0 .292 .252 .100 .024 .004 0 0 0 0 0 .672
Abierto y x=0.6, PdAL.6 .8 0 .112 .097 .039 .009 .001 0 0 0 0 0 .258
es la suma del área .7 0 .026 .022 .009 .001 0 0 0 0 0 0 .060
marcada en la tabla : .6 0 .004 .004 .001 0 0 0 0 0 0 0 .009
.292+.232+.100+....+.001 .5 0 0 1 0 0 0 0 0 0 0 0 0
=.879 .4 0 0 0 0 0 0 0 0 0 0 0 0
.3 0 0 0 0 0 0 0 0 0 0 0 0
.2 0 0 0 0 0 0 0 0 0 0 0 0
.1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0
X 0 .5 .6 .7 .8 .9
Abierto 1 .968 .879 .656 .292 0
Informado 1 .988 .922 .702 .312 0
P(pN – pC > 0.6 | datos)
Densidad beta (15,2)
PN14(1-pN) PC2(1-pC)13
PC2(1-pC)13
PdALx = P(pN – pC > x)
(exacta, usando Minitab o soft
equivalente)
x PdALx x PdALx
0 1.00 0.5 0.96
0.1 1.00 0.6 0.82
0.2 1.00 0.7 0.52
0.3 1.00 0.8 0.21
0.4 0.99 0.9 0.05
PdALx (Probabilidad de que la
diferencia sea al menos x) en
forma gráfica:
1
PdALx
.8 0.816 = PdAL.6
.6
.4
.2
0
0 .2 .4 .6 .8 1
x
Intervalos de probabilidad para
diferencias de proporciones
pT es beta (aT,bT) pC es beta (aC,bC)
d − ( rT − rC )
Z =
t −t
2
T
2
C
Intervalo de probabilidad para d
= p T - pC
( rT − rC ) Z α t +t
2
T
2
C
1−
2
(rL − rH ) Z α t +t
2
L
2
H = .149 .221
1−
2
2. Evidencia usada:
• Frecuentismo mide la específica de
un experimento.
• La distribución depende de toda la
información disponible.
3. Depende de las probabilidades
de resultados que podrían o no
ocurrir:
• Mediciones frecuentistas (e.g., valores
p,intervalos de confianza) incorporan
probabilidades de datos que podrían no
haber ocurrido.
• Probabilidades a posteriori dependen
solo de los datos a través de la
verosimilitud, que se calcula a partir de
datos observados.
4. Flexibilidad:
• Las mediciones del frecuentismo
dependen del diseño, el cual debe
cumplirse como se previó.
• Bayesianismo: continúa la actualización
siempre que haya nuevos datos. El
tamaño muestral no ha de establecerse
antes. Un experimento puede detenerse
en cualquier momento y por cualquier
razón .
5. Probabilidades predictivas
• Frecuentismo: asume valores
particulares de parámetros o hipótesis.
• Bayesianismo: promedia sobre los
parámetros.
6. Toma de decisiones
• Frecuentismo: históricamente las evita
• Bayesianismo: se pronuncia sobre
pérdidas y ganancias de cada decisión
de modo explícito.
Los controles son esenciales
E.E. Peacock, Medical World News, Sept 1, 1972:
Un día, cuando yo era aún estudiante de medicina, un
importante cirujano de Boston visitó nuestra escuela y
ofreció una conferencia sobre un estudio basado en un
gran número de pacientes que habían sido objeto de
operación vascular reconstructiva. Al fin de la charla, un
joven estudiante que estaba atrás preguntó
tímidamente: ¿Tenía Ud.. controles? El gran cirujano
sonrió y dijo ”Quiere Ud.. decir si yo dejé de operar a la
mitad de los pacientes?" La audiencia estaba en vilo.
La voz de atrás respondió quedamente: ”Sí, en eso
estaba pensando?”. El puño del visitante sonó como un
trueno. “Desde luego, no. Ello hubiera matado a la mitad
de ellos”. En medio del silencio se pudo escuchar la
pregunta casi inaudible del estudiante: “¿Cuál mitad?”