Академический Документы
Профессиональный Документы
Культура Документы
Principios Generales
Septiembre 2014
Principios generales
Principios generales
Presentación ....................................................................................................................... 3
1. Principios generales............................................................................................. 4
1.1. Conjeturas y refutaciones ....................................................................................... 4
1.2. Guías ...................................................................................................................... 5
1.3. Propiedad intelectual de los datos .......................................................................... 7
1.4. Inducir frente a deducir .......................................................................................... 8
1.5. Explorar frente a confirmar .................................................................................... 8
1.6. Asociación frente a casualidad ............................................................................... 9
1.7. Intervención frente a pronóstico .......................................................................... 10
1.8. Medidas del efecto frente a medidas de reducción de la incertidumbre .............. 11
2. Tipos de estudios ............................................................................................... 12
2.1. Objetivos sanitarios .............................................................................................. 12
2.2. Preguntas de seguimiento frente a preguntas instantáneas .................................. 12
2.3. Variables iniciales frente a finales ....................................................................... 13
2.4. “Hacer” frente a “ver” .......................................................................................... 15
2.5. Preguntas sobre efectos frente a preguntas sobre causas ..................................... 17
2.6. Prospectivo y retrospectivo son ambiguos ........................................................... 17
2.7. Causas frente a condiciones ................................................................................. 19
3. Principios estadísticos ....................................................................................... 20
3.1. Niveles de evidencia ............................................................................................ 20
3.2. Determinismo frente a variabilidad...................................................................... 20
3.3. Objetivos frente a hipótesis .................................................................................. 21
3.4. Hipótesis frente a premisas .................................................................................. 22
3.5. Estimación de parámetros frente a contraste de hipótesis.................................... 23
3.6. Multiplicidad ........................................................................................................ 24
3.7. Enmascarar ........................................................................................................... 24
3.8. Error aleatorio frente a error sistemático ............................................................. 25
3.9. Saber (ciencia) frente a hacer (técnica) ................................................................ 26
Soluciones a los ejercicios.................................................................................................. 29
2
Bioestadística para no estadísticos
Presentación
Este capítulo ofrece claves generales y básicas para interpretar los estudios empíricos. Incluye
principios científicos, metodológicos, clínicos y estadísticos que permitirán al lector situar cada
estudio en su contexto.
Diferentes preguntas médicas requieren distintos y específicos diseños. La ciencia progresa gracias
al contraste entre ideas y datos.
Figura 1.1. Las hipótesis deben ser previas a los resultados del estudio
Contribuciones: (1) versión original de marzo 2013, EC, autor, y JC, editor, con la colaboración de JAG,
MV y R; (2) revisado en julio de 2013 por LR, HR, JC y EC para incorporar mejoras y atender sugerencias
anónimas de los participantes en la primera edición del curso; y (3) revisado en julio de 2104 por NB y EC.
3
Principios generales
1. Principios generales
Recuerde
La ciencia conecta ideas y datos.
Para poder ser considerado científico, un modelo debe poder entrar en conflicto con datos futuros
observables futuros.
Ejemplo 1.1: “los marcianos existen” es una expresión hoy por hoy infalible, en el sentido
de que, como es imposible recorrer todo el universo y mostrar que no existen, no puede
entrar en conflicto con datos concebibles.
Recuerde
La ciencia quiere ser refutable o falsable.
Este contraste empírico implica que los modelos científicos son constantemente abandonados en
beneficio de otros nuevos que los mejoran o matizan. En consecuencia, no se pretende que sean
definitivamente ciertos, pero sí que sean útiles y ofrezcan claves para interpretar, mejorar y disfrutar
nuestro entorno.
Ejemplo 1.2: Las leyes de Newton son falsas: fueron refutadas por Einstein, que las
modificó para abarcar también largas distancias.
Contra-Ejemplo 1.3: Los modelos de Newton se siguen usando para hacer casas ¡que se
aguantan!
Recuerde
La ciencia no pretende escribir las leyes del universo: tan sólo modelos que lo
reproduzcan.
4
Bioestadística para no estadísticos
Ejercicio 1.1
Ponga algún otro ejemplo (diferente del de Newton) en el que usamos “leyes de..”
pero sería más apropiado “modelo de…”.
Cita: Todos los modelos son erróneos, pero algunos son útiles. (George Box, 1987)
Recuerde
Hable de modelos en lugar de leyes.
Figura 1.2. Ni los cromosomas deben obedecer a Mendel, ni las piedras a Newton.
Ejercicio 1.2
La entrada scientific modelling de Wikipedia además de los matemáticos, incluye
también modelos…
1.2.Guías
El mejor artículo publicado en la mejor revista se diseñó con los mejores métodos, pero se preparó
hace tiempo. Ha sido aceptado porque es el mejor que han recibido, pero no porque tenga el nivel
futuro deseado.
5
Principios generales
Para facilitar su evolución, las mejores revistas biomédicas, reunidas en Vancouver, impulsaron
primero los requisitos de forma y luego los de fondo. Estos últimos están contenidos en las guías de
publicación recopiladas por la red EQUATOR.
Recuerde
Las guías de publicación muestran el modelo de artículo deseado.
Ejercicio 1.3
Entre en el sitio http://www.equator-network.org/ y encuentre qué 2 propiedades
definen la finalidad de Equator.
Ejercicio 1.4
En el mismo sitio, diga qué guías han sido traducidas al castellano y qué tipo de
estudios contemplan cada una.
Ejercicio 1.5
Los 25 puntos de la guía CONSORT requieren combinar habilidades y
conocimientos tanto clínicos como estadísticos. Diga 3 puntos que sean
eminentemente clínicos y 3 estadísticos.
Las guías de Buena Práctica en estudios Clínicos (BPC) contienen los principios y procesos para
garantizar la autenticidad de los datos obtenidos, y la calidad de su análisis y de su comunicación.
Definición
BPC es el conjunto de normas éticas y científicas que deben regir el diseño,
realización, gestión de datos e informe de estudios clínicos.
Además, las autoridades reguladoras de Estados Unidos, Canadá, Unión Europea y Japón
impulsaron en 1989 la Conferencia Internacional de Armonización para el Registro de Productos
Farmacéuticos para Uso Humano, que generó las guías ICH (International Conference on
Harmonization).
Recuerde
Hay guías científicas distintas para publicar y para registrar.
6
Bioestadística para no estadísticos
Excluidos (n = )
• No cumplen los criterios de selección (n = )
• Renuncian a participar (n = )
• Otras razones (n = )
Aleatorizados (n = )
Asignación
Analizados (n = ) Analizados (n = )
• Excluidos del análisis (dar motivos) (n = ) • Excluidos del análisis (dar motivos) (n = )
Ejercicio 1.6
Algunas de las “n” que figuran en el diagrama de flujo () de la CONSORT
reflejan pérdidas que podrían comprometer la credibilidad de los resultados. Diga,
para un estudio ideal, ¿cuáles de estas pérdidas le gustaría que fueran cero?
Quizás el financiador del estudio pueda desear para él sólo todo el posible beneficio de unos datos
generados gracias a su aportación. Incluso un mal autor podría temer las conclusiones alcanzadas
por otros con sus propios datos. Pero un buen clínico querrá obtener el máximo beneficio para sus
pacientes —¡que aportan los datos! También es nuestro punto de vista: los pacientes, que se
benefician de investigación previa basada en voluntarios como ellos, ofrecen sus propios datos para
el beneficio de futuros pacientes como ellos. De hecho, un comité de ética puede no autorizar un
estudio si no le satisface su política de publicaciones y acceso a los datos.
Para la sociedad, unos datos públicos permitirán más análisis, más credibilidad y más consistencia
de los resultados. Más transparencia, en suma.
7
Principios generales
Para un buen investigador, publicar los datos originales es una oportunidad para aumentar el
impacto y la transportabilidad de sus resultados. Prevemos un futuro en el que la valoración del
impacto de la investigación de un autor incluya el número de estudios con acceso a los datos.
Mientras tanto, revistas como BMJ, The Lancet o Trials invitan al autor a hacer públicos sus datos:
“seguir los consejos del editor siempre aumenta las posibilidades de aceptación”.
Toda publicación de datos debe respetar la confidencialidad del paciente, lo que requiere
anonimizarlos. Es decir, no publicar ninguna variable que permita ella sola una identificación
directa (p,e,, nombre y apellidos o DNI); ni tampoco combinaciones de variables (p,e, iniciales más
fechas de nacimiento más institución sanitaria) que permitan una identificación indirecta.
Pero para aprender y evolucionar, la Ciencia y la Técnica también requieren observar. El método
científico parte del conocimiento disponible para (1), deducir consecuencias contrastables; y luego
(2) observar éstas en unos pocos casos y usar la inferencia estadística para inducir los resultados a
una población más amplia.
Historieta: Un bioestadístico es un profesional que niega que Colon descubriera América porque no
estaba en el protocolo de su viaje. [En realidad, un bioestadístico le pediría a Colon lo mismo que los
Reyes Católicos: “Qué interesante. Ande, vuelva y confírmelo”. El primer viaje fue una atractiva novedad
(“I”), pero se necesitaron más antes de abrir una nueva vía comercial (“D”).]
8
Bioestadística para no estadísticos
Historieta: Mire de nuevo la viñeta de las dianas (Fig. 1.1) que abre este capítulo.
Ejercicio 1.7
De los dos puntos previos, cuál constituyó el mérito definitivo de Fleming,
¿interpretar (“entender”) porqué pasó (1) o ser capaz de replicarlo (2)?
Recuerde
Un estudio exploratorio aporta ideas nuevas.
Uno confirmatorio ratifica o descarta ideas previas.
Lectura: Ioannidis modela que estudios confirmatorios con resultados positivos tienen una probabilidad
de ser ciertos del 85%, que baja al 0.1% en los exploratorios. Jager y Leek estiman que son ciertos un
84% de los resultados positivos de 5 revistas médicas punteras que podríamos clasificar como
confirmatorias.
Asociación y causalidad son conceptos diferentes. La causalidad requiere asociación, pero muchas
relaciones entre variables no son causales.
9
Principios generales
Recuerde
Asociación NO es causalidad.
Un Ensayo Clínico bien diseñado, ejecutado y analizado, pretende estimar el efecto causal de una
intervención. Por su parte, un estudio observacional etiológico pretende lanzar hipótesis sobre
posibles causas. Otros estudios, como los diagnósticos o pronósticos, no requieren hablar de causa-
efecto.
Historieta (cont): Como una gran salida de bomberos permite prever un número alto de damnificados, un
servicio de urgencias lo ha incluido como un punto predictivo en su escala sobre el nivel de alerta.
Recuerde
Diferentes objetivos, diferentes diseños.
1) En primer lugar, por su ambición, tenemos los modelos de intervención, que pretenden
cambiar la evolución de los pacientes y requieren una relación de causa-efecto que
permitirá, mediante intervenciones en la variable causa, modificar el valor futuro de la
variable respuesta (outcome, endpoint) o desenlace que sirve para medir el efecto.
2) Por otra parte, tenemos los modelos de relación o predictivos. A diferencia de los anteriores
no precisan una relación de causa-efecto. Son utilizados, por ejemplo, en el diagnóstico y en
el pronóstico médico.
Ejemplo 1.5: Cuando David me lleva a pescar me pide que observe dónde está agitada el
agua en la superficie. Saber que los peces mayores empujan los menores hacia arriba y que
éstos baten la superficie, le permite predecir una mayor probabilidad de pesca allí donde el
agua está agitada. Usa la agitación como un ‘chivato’.
Contra-Ejemplo 1.6: David no sugiere intervenir sobre la agitación del agua para aumentar
la probabilidad de pesca.
Tanto la intervención como el pronóstico hacen predicciones sobre relaciones que luego deben ser
contrastadas.
10
Bioestadística para no estadísticos
Ejemplo 1.7: En la ciudad de Framingham recogieron datos iniciales de una gran cohorte
que siguieron muy fielmente durante décadas para observar eventos cardiovasculares
(ECV). Con la ayuda del modelado estadístico, establecieron grupos con diferente riesgo de
presentar ECV.
Recuerde
Un estudio de cohortes cuantifica la calidad de un pronóstico.
Entre las variables que contribuían al pronóstico estaba la presión arterial (PA). Una
interpretación causal (“los que hoy tienen las arterias a reventar, mañana les revientan; ergo,
si bajo hoy la PA, bajaré mañana los ECV”) abrió la vía a intervenciones para bajar la PA,
cuyos efectos fueron estimados en ensayos clínicos.
Recuerde
Un estudio de cohortes puede lanzar interpretaciones causales.
Lectura: Hernán explica la diferencia entre asociación y causalidad con la ayuda de diagramas causales.
Ejercicio 1.8
“A más horas de ejercicio moderado, menos ECV”. ¿Es una frase de predicción o
de intervención? ¿Afirma relación causal entre ejercicio y ECV?
Para cuantificar cuánto cambiamos la variable respuesta, recurrimos a medidas de la magnitud del
efecto.
Ejemplo 1.9: “por cada kilo de peso que pierda, bajará 1 mm Hg su PAS”.
Para cuantificar cuánto anticipamos de otra variable (presente o futura), recurrimos a medidas de
reducción de la incertidumbre.
Ejemplo 1.10: “si desconozco la altura de un hombre mi predicción sobre el peso se centra
en su media, 70Kg, con una desviación típica (o error esperado) de 10Kg, pero si conozco
que mide 150 cm, mi predicción cambia a 50Kg y la desviación típica alrededor de esta
predicción baja a 6Kg.”
11
Principios generales
Ejercicio 1.9
Relacione el tipo de medida (efecto, reducción incertidumbre) con el objetivo del
estudio (predicción, intervención).
2. Tipos de estudios
El diagnóstico pretende una clasificación fina, en la que los casos de un mismo grupo son similares
entre sí pero diferentes de los otros grupos. Los estudios de la precisión diagnóstica de un indicador
lo enfrentan con una variable de referencia (gold estándar). Cuanto mayor es la correspondencia
entre indicador y referencia, mejor capacidad diagnóstica. Lo mismo aplica al pronóstico, cuanto
mayor es la correspondencia entre la escala pronóstica y la referencia futura.
12
Bioestadística para no estadísticos
intervalo de tiempo. Cuando las dos variables en estudio se observan en el mismo momento, se
habla de estudios transversales. En cambio, cuando una acontece previamente a la otra, de
longitudinales.
La relación causal también precisa un lapso de tiempo para que se manifieste el efecto.
Ejercicio 2.1
¿Qué tipo de estudios (diagnóstico, pronóstico, intervención) requieren un lapso
de tiempo (longitudinales)?
Recuerde
Un estudio diagnóstico relaciona variables simultáneas, pero los pronósticos y los
de intervención precisan un lapso de tiempo entre ellas.
Historieta: Los modelos de causa-efecto requieren este orden: primero causa y luego efecto; pero las
creencias podrían estar libres de esta restricción física. BMJ publicó en su número de Navidad un estudio
sobre los efectos retro-activos de la oración: “Remote, retroactive intercessory prayer said for a group is
associated with a shorter stay in hospital (…)”.
Lectura: una evaluación del efecto ‘prospectivo’ de la oración, distinguiendo si el paciente conocía esta
intervención, concluyó “Intercessory prayer itself had no effect on complication-free recovery (…), but
certainty of receiving intercessory prayer was associated with a higher incidence of complications”.
En los estudios de cohortes, el criterio para incluir a un paciente se basa en variables iniciales:
criterios de inclusión, de elegibilidad o de selección.
13
Principios generales
NOTA: Una vez iniciado un estudio, se desea conocer la evolución de todos los casos que cumplen los
criterios de selección o de elegibilidad.
Lectura: El NEJM recuerda a sus autores que cualquier exclusión, pérdida o dato ausente aumenta la
incertidumbre y por tanto debería, o ser prevenida, o ser tratada con un buen análisis.
Recuerde
En un ‘estudio de cohortes’ los casos se seleccionan por una variable inicial
Los estudios que validan un índice pronóstico o cuantifican los efectos de una intervención, tienen
una variable final que indica la evolución o resultado. Al ser desconocida al inicio es ‘aleatoria’ en
términos estadísticos.
Ejercicio 2.2
Diga si es cierto o falso:
Los estudios de cohortes y los ensayos clínicos esperan en el tiempo hasta la
aparición de la respuesta.
En algunos estudios etiológicos, que buscan causas, puede ‘invertirse’ el orden de recogida de las
variables. La evolución (variable final o respuesta) determina la inclusión del individuo. Y luego, se
investiga, en el pasado, el valor de las exposiciones previas. Así, al seleccionar los individuos, se
conoce ya la evolución pero las posibles causas son las variables en estudio (‘aleatorias’ en
términos estadísticos). Así, en un estudio de casos y controles, se selecciona a unos casos con la
enfermedad en estudio y a unos controles que no la tienen y se averigua su exposición previa a
posibles causas hipotéticas.
Ejemplo 2.2: Objetivo del estudio: examinar la relación entre el consumo de tabaco y
cáncer de pulmón. Los casos fueron pacientes con diagnóstico nuevo de cáncer de pulmón
(casos incidentes) y los controles procedían de los servicios quirúrgicos. Se incluyeron en el
análisis 197 casos y 196 controles (Gaceta Sanitaria).
Recuerde
En un ‘estudio de casos y controles’ los individuos se seleccionan en función de
una variable final (enfermo/sano).
14
Bioestadística para no estadísticos
Ejercicio 2.3
Diga si es cierto o falso: Los estudios de cohortes y los de casos y controles tienen
en común el tipo de variables inicial (causa) y final (efecto); pero difieren en que
su estrategia de muestreo parte de la inicial (cohortes) o de la final (casos y
controles).
Recuerde
La variable que determina la inclusión del individuo puede ser inicial (cohortes y
ensayos clínicos) o final (casos/controles).
Ejemplo 2.2 (cont.): los controles de este ejemplo no tienen cáncer; pero en un ensayo
clínico, los “controles” no reciben el tratamiento en estudio.
Recuerde
‘Control’ aplica a una variable inicial (tratamiento) en un ensayo clínico; y a una
final (respuesta) en un estudio de casos y controles.
Recuerde
La asignación permite distinguir entre experimentos y observaciones.
Nota: Por respeto al principio de no maleficencia, sólo las intervenciones que pretendan mejorar el estado
de salud son asignables. Por ejemplo, un adolescente no puede asignarse al grupo «fumador de tabaco
desde los 15 hasta los 50 años». De aquí, la predilección de la epidemiología por la observación. En
cambio, la pregunta habitual de la farmacología (¿mejora este tratamiento la evolución?) permite la
15
Principios generales
asignación del tratamiento y, por tanto, el diseño experimental. Para recurrir a la asignación, la
epidemiología primero debe redefinir la causa en estudio para convertir en positivos los efectos. Por
ejemplo, ¿qué pasará si introduzco esta ayuda para dejar de fumar?
Recuerde
Sólo las causas positivas son asignables.
La asignación permite utilizar las herramientas del diseño de experimentos para minimizar errores.
Pero además, también permite evaluar si, cuando se asigne la causa en estudio, los pacientes
seguirán el consejo.
Recuerde
La asignación es crucial para valorar una intervención:
(1) minimiza errores por el diseño de experimentos, y
(2) permite observar si los asignados siguen las recomendaciones.
Pero los estudios experimentales no siempre ofrecen ventajas: para valorar la capacidad predictiva
de un indicador pronóstico, un seguimiento no experimental (“cohortes”) con muestreo aleatorio
representativo es mejor que un ensayo clínico con selectivos criterios de elegibilidad. Para valorar
la capacidad diagnóstica de un indicador, uno transversal es suficiente.
Recuerde
Los mejores diseños para valorar las capacidades diagnóstica y pronóstica son
observacionales, transversales y de seguimiento, respectivamente.
Ejercicio 2.4
¿En qué estudios el investigador “hace” y en qué estudios “ve”: cohortes, casos-
controles, ensayos clínicos, diagnósticos?
16
Bioestadística para no estadísticos
Ejercicio 2.5
Las dos siguientes preguntas ¿son sobre efectos o sobre causas?: (1) Si me tomo
una aspirina, ¿se me irá el dolor de cabeza? Y (2) se me ha ido el dolor de cabeza,
¿será porque me tomé una aspirina?
El establecimiento de la relación causal suele comportar dos pasos sucesivos. El primero, dado un
determinado efecto (una enfermedad, por ejemplo), desea explorar sus posibles determinantes, sus
causas. En el segundo paso, identificada una causa asignable, es decir, susceptible de ser
intervenida, desea confirmar y cuantificar el efecto que origina dicha intervención.
Nota: Tras relatar el paciente sus síntomas, la médica pregunta “¿Y Vd. a qué lo achaca?”. Tras proponer
la médica una intervención, el paciente pregunta: “Si sigo su consejo, ¿cómo cambiará mi evolución?”
Recuerde
Puede explorar posibles causas o etiologías con estudios de cohortes o de casos y
controles bien diseñados.
Un segundo uso considera la estrategia de muestreo y recogida de datos, según la variable que
determina la inclusión en el estudio sea inicial (P: cohortes, ensayo clínico) o bien final (R: casos y
controles).
17
Principios generales
La segunda acepción implica una tercera: que los datos sean futuros (P) o pasados (R); lo que
implica recoger cada variable en el momento en el que sucede (P), o bien buscando en el pasado la
variable inicial (R).
Finalmente, un cuarto uso distingue si puede documentarse una hipótesis independiente (o previa)
de los datos (confirmatorios, P) o no (exploratorios, R).
Historieta: Feinstein ya alertó de esta ambigüedad y que especificar el estudio como “prospectivo
retrospectivo prospectivo” no ayuda mucho...
Ejercicio 2.6
Busque los términos ‘…pectivo’ en STROBE.
Ejercicio 2.7
¿Aconseja Strobe titular el estudio como retrospectivo o prospectivo?
1. Sí 2. No
Ejercicio 2.8
En su “BOX 1”, Strobe dice que los tipos de diseños cubiertos son:
1. Longitudinales y transversales
2. Prospectivos y retrospectivos
3. Cohortes, transversales (“cross-sectionals”) y casos-controles
4. Todos ellos
Recuerde
Strobe aconseja usar cohorte, caso-control y transversal.
Así, los términos ‘prospectivo’ y ‘retrospectivo’ tienen varios usos y concepciones, lo que
quebranta un principio fundamental de la ciencia: “un término, un significado”.
Recuerde
Evite, por su ambigüedad, los términos ‘prospectivo y retrospectivo’. En su lugar,
en los estudios observacionales especifique:
(1) la variable o criterio que desencadena la inclusión de un caso, y
(2) el momento de obtención de las demás variables.
Además, aclare:
(1) si había hipótesis previa (confirmatorio o exploratorio), y,
(2) en caso de pregunta causal, si es sobre causas o sobre efectos
18
Bioestadística para no estadísticos
Ejercicio 2.9
En un ensayo clínico, la causa es la intervención, pero ¿qué variables son las
condiciones?
Recuerde
Ensayo clínico (Clinical trial): asigna voluntarios al azar a la intervención o a su
control y les sigue en el tiempo para evaluar diferencias en su evolución.
19
Principios generales
3. Principios estadísticos
Ejercicio 3.1
Argumente razones para esta jerarquía.
Recuerde
Esta gradación de la evidencia aplica sólo a la intervención.
Nota: Agregar una estrategia diagnóstica o pronóstica a una guía clínica es una intervención que debería
evaluarse mediante un ensayo clínico. P.ej., a unos centros se asigna la guía clásica y a otros la guía con
el nuevo indicador; y luego se mide la respuesta en los pacientes.
Meta-análisis es la técnica estadística para agregar información de varios estudios. Una revisión
sistemática, que incluye además una búsqueda formal y reproducible, aporta una visión más global
que la de estudios separados.
Recuerde
Revisión sistemática = búsqueda + meta-análisis (ambos protocolizados)
Ejemplo 3.2: ¿Lloverá mañana? Ahora, también hay que asumir igualdad entre pasado y
futuro, pero además necesitamos: (1) modelar de qué depende la lluvia; (2) tratar la
variabilidad; y (3) cuantificar la duda.
20
Bioestadística para no estadísticos
Recuerde
Si no hay variabilidad, puede olvidar la Estadística.
Ejemplo 3.3: nuestro objetivo es demostrar el efecto hipotensor del ejercicio suave
sostenido; y la hipótesis, que la intervención conjunta, definida en el protocolo, de
enfermería más entrenamiento deportivo, comparados con el consejo de la guía clínica de
nuestro centro, baja el promedio de la presión sistólica durante el sexto mes en 10 mm Hg.
Ejemplo 3.4: nuestra finalidad es establecer que una pauta de 5 días es equivalente a la
habitual de 7 días. Nuestra hipótesis es que las proporciones de cultivos positivos difieren a
los 10 días, como mucho, en un 5%.
Ejercicio 3.2
¿Cuál de las siguientes NO es buen ejemplo de hipótesis?
1. Estimar el efecto en la PAS a las 2 semanas.
2. La PAS a las 2 semanas es 15 mmHg más baja en tratados que en controles.
3. La diferencia de la PAS a las 2 semanas entre ambos tratamientos activos es
menor de 5 mmHg.
21
Principios generales
Ejemplo 3.6: Para estudiar el efecto de un nuevo tratamiento es usual asumir (1) que el
efecto es el mismo (‘constante’) en todos los pacientes de la población objetivo; y (2) que la
respuesta es independiente de un paciente a otro. La primera premisa podría estar
comprometida en un ensayo clínico con criterios de elegibilidad excesivamente amplios. Y
la segunda, en una intervención grupal, como un consejo profiláctico en una clase de
adolescentes; o en los efectos de una vacuna, donde la probabilidad de contagio depende del
efecto en otros casos.
Ejemplo 3.7: La premisa de no interacción del efecto con diferentes condiciones puede ser
analizada mediante el estudio de subgrupos.
Ejemplo 3.9: cierto estudio concluye que la dieta baja la proporción de pacientes con PAD
alta –definida según un umbral de 90 mm Hg. Es relevante justificar las razones de este
punto de corte. Pero es más importante comprobar que la elección de otros umbrales hubiera
llevado a la misma conclusión.
Recuerde
Más relevante que saber si las premisas son ciertas, es comprobar si se llega a la
misma conclusión partiendo de otras premisas.
Ejemplo 3.10: asumir normalidad permite recurrir a ciertas pruebas ‘paramétricas’ que
proporcionan medidas del efecto fáciles de interpretar y comunicar. Aquí, la pregunta clave
no es si dicha normalidad es cierta, sino “si se hubiera llegado a la misma conclusión si se
hubiera partido de otra premisa”.
22
Bioestadística para no estadísticos
Recuerde
La pregunta relevante sobre las premisas es si las conclusiones alcanzadas
dependen, “son sensibles”, a las premisas.
Ejercicio 3.3
Ordene de más a menos confirmatorio:
a) “Primero pondremos a prueba la normalidad de la variable según Saphiro
Wilk y según el resultado, haremos un T-test o un test de Wilcoxon Mann
Whitney”.
b) “Como en nuestra experiencia la respuesta sigue una distribución Normal, el
análisis principal es un T-test. Estudiamos la estabilidad de la conclusión con
un test de WMW”.
23
Principios generales
Ejemplo 3.12: Asignados al azar 400 pacientes o bien a la guía clínica actual más un
simulador del tratamiento, o bien a la misma guía más el nuevo tratamiento en estudio, se
rechaza la hipótesis de no efecto adicional con un valor de p=0.0024.
Ejercicio 3.4
Las guías de publicación (Consort, Prisma, Strobe,…) ¿qué aconsejan: valores de
P o intervalos de confianza? ¿En qué puntos lo hacen?
Recuerde
Anteponga el IC al valor de p.
3.6. Multiplicidad
Para controlar la posibilidad de obtener resultados simplemente por azar, el proceso usual consiste
en definir una sola hipótesis que se contrastará en una variable respuesta con un único método de
análisis.
Nota: Una “expedición de pesca” en busca de hipótesis es muy loable, pero debe quedar clara la finalidad
exploratoria (“podría ser que…”) y evitar sentencias confirmatorias (“hemos rechazado la hipótesis de no
efecto”).
La existencia de un protocolo público, escrito antes de acceder a los resultados, garantiza que se ha
respetado el orden requerido en los estudios confirmatorios: primero la hipótesis y el plan
estadístico, luego los datos y finalmente el análisis.
3.7. Enmascarar
La estadística pretende cerrar cualquier otro camino que pueda explicar la relación entre las
variables de interés. Por eso, el punto 11 de CONSORT pide aclarar a quiénes, de todos los
participantes en el estudio, se les ocultó la intervención durante el estudio mediante alguna máscara
(p.e. un placebo o una simulación de una intervención quirúrgica). También el punto 11 de STARD
pide aclarar si los lectores de ambas pruebas diagnósticas conocían el resultado de la otra prueba.
STROBE no lo pide en ninguno de sus puntos, pero dice en su caja 3 dedicada a sesgos que “a
menudo es valioso enmascarar.”
Recuerde
Enmascarar dará más credibilidad a sus resultados
24
Bioestadística para no estadísticos
Recuerde
La estadística proporciona instrumentos para cuantificar la incertidumbre
originada por un proceso aleatorio.
Si la muestra no es aleatoria, hay que recordar que existen otras fuentes de error no contempladas
por las herramientas estadísticas.
Ejemplo 3.13: se observa que un 50% (50/100) de casos de Botulismo registrados en cierta
comunidad en cierto periodo fallecieron. Para cuantificar la incertidumbre de esta
estimación es necesario considerar las dos fuentes de incertidumbre, aleatoria y no aleatoria,
en dos pasos sucesivos. Para el primero, se asume que todos los habitantes de esa
comunidad tienen la misma probabilidad de contraer botulismo. Si además se asume que
dichas probabilidades son independientes entre sí, ya se dispone de los mecanismos que
hubieran originado una muestra aleatoria simple y puede cuantificarse el error aleatorio
mediante un intervalo de confianza. Por ejemplo, cierto cálculo adecuado para muestras
pequeñas (basado en la D. Binomial) dice que, si los 100 casos proceden al azar de una
población, observar 50 muertes es compatible con probabilidades de fallecer en la población
comprendidas entre 39.83 y 60.17% —con una confianza del 95%. El segundo paso consiste
en cuestionar si todos los casos de Botulismo fueron detectados. Si, por ejemplo, cabe
esperar que la mitad de las muertes por Botulismo no fueran diagnosticadas como tales,
deberíamos añadir 50 casos al numerador y al denominador, subiendo la mortalidad al 66%
(100/150). En cambio, si lo que cabía esperar es que los casos leves no se diagnosticaran y
su número se estima igual al de los casos diagnosticados, ahora deben añadirse 50 casos,
pero sólo al denominador, resultando en una mortalidad del 33% (50/150).
El ejemplo anterior muestra que la incertidumbre (del 33.33% al 66.67%) debida al error
sistemático por imprecisiones en la recogida de los datos puede ser mayor que el error contemplado
por un proceso aleatorio puro (IC95%: 39.83% al 60.17%).
25
Principios generales
Ejercicio 3.5
Explique porqué es preferible una encuesta electoral basada en 100 personas al
azar de la lista de votantes que en 1000 amigos del autor.
Recuerde
Una muestra aleatoria es representativa.
Recuerde
Los estudios sin proceso aleatorio adolecen de un “sesgo impredecible” que debe
ser resaltado en la discusión.
26
Bioestadística para no estadísticos
Ejemplo 3.14: Tras el desastre de la Talidomida, la Food and Drug Administration (FDA)
incorporó un mecanismo de decisión para autorizar medicamentos que limita las
probabilidades de dos actos erróneos: (I) poner en el mercado un fármaco no eficaz; y (II)
“devolver a I+D” uno eficaz. Al riesgo de cometer el primer error se conoce como y se
desea que no supere un 2.5% (unilateral); y al riesgo de cometer el segundo, , con un
máximo del 20%.
Nota: Veremos en el módulo 3 cómo limitar los riesgos ( y ) de tomar decisiones erróneas (errores tipo
I y II).
Recuerde
Distinga entre almacenes de conocimiento (revistas, bibliotecas, colaboraciones
Cochrane o Campbell) y órganos de decisión (agencias reguladoras o de salud
pública, departamentos de farmacia).
Lo que hacemos debe basarse en lo que sabemos, pero también en las posibles consecuencias. El
proceso de decisión incluye la inferencia, pero también las opiniones sobre los posibles resultados:
utilidad, coste, preferencias, o cualquier función de pérdida.
Ejemplo 3.15: Antes de usar el paracaídas en un salto desde mil metros de altura, nadie
preguntaría por el ensayo aleatorizado y enmascarado que aporte las pruebas científicas
sobre el efecto beneficioso del paracaídas.
Recuerde
El conocimiento en sí mismo no tiene implicaciones, pero las acciones y las
decisiones que se toman en base al mismo, sí.
Como las consecuencias (utilidades, beneficios, costes, etc.) de las alternativas en consideración y
su valoración por los destinatarios de la misma pueden variar de un entorno a otro, es más fácil
establecer un conocimiento común, que recomendar acciones comunes. La teoría de la decisión
racionaliza el paso desde un artículo científico “universal” a una guía de práctica clínica ‘local’.
Recuerde
El conocimiento aspira a ser universal, las decisiones son locales.
27
Principios generales
Ejercicio 3.6
El ejemplo del paracaídas, ¿a qué tipo de intervenciones sanitarias hace
referencia? ¿Por qué cree que evita hacer analogía con intervenciones
farmacológicas?
Recuerde
Las reglas formales de la Ciencia para adquirir conocimiento (inferencia) son
diferentes de las de la Técnica para adoptar medidas (decisión).
Ejercicio 3.7
La evidencia empírica que se pide a un fármaco nuevo para poder ser aplicado a
todos los pacientes es de mayor calidad que la disponible sobre los efectos
negativos del tabaco. ¿En qué se basa la decisión de poner en las cajetillas “el
tabaco mata”?
La técnica usa los métodos estadísticos para proponer sistemas que mejoren nuestro entorno. La
parte final del I+D de un producto requiere probar empíricamente y documentar a los usuarios sus
propiedades.
Recuerde
La ciencia quiere ser contrastable y la técnica, documentable.
28
Bioestadística para no estadísticos
1.1. Las leyes de Mendel. La ‘independencia’ en las transmisiones es un modelo al que se ajustan, más o
menos, diferentes genes.
1.3. Calidad y transparencia: En su cabecera, aclara que su finalidad es “Mejorar la calidad y la transparencia
de la investigación en salud”.
1.4. En la versión en español, en la pestaña ‘biblioteca’ facilita el acceso a Consort (Ensayos clínicos), Strobe
(estudios observacionales), Prisma (revisiones sistemáticas), Squire (mejora de la calidad asistencial) y
Trend (ensayos de intervención no aleatorizados).
1.5. Por ejemplo, las más clínicas son: 2a, 4a, 4b, 5, 14b, 19, 21 y 22. Y las más estadísticas son: 2b, 3a, 3b,
7a, 7b, 8a, 8b, 9, 10, 12a, 12b, 16, 17a y 17b. El resto combinan habilidades de ambas disciplinas.
1.6. Todas son peligrosas. Como se verá más adelante, las pérdidas después de la asignación de la
intervención (excluidos del análisis, pérdidas de seguimiento, o que no recibieron la intervención)
atentan a la comparabilidad de los grupos; mientras que las pérdidas previas (rechazaron participar)
amenazan a la integridad de la población objetivo.
1.7. No, Fleming lanzó una muy interesante hipótesis, que pudo confirmar al replicarlo. Los empiristas
sostenemos que es más importante (1) saber cómo cambiar el futuro sin, quizás, acabar de entender las
razones; qué (2) tener una completa y coherente construcción teórica que no permita cambiar el futuro.
Por supuesto, tener un modelo conceptual que explique las razones es muy útil para proponer
intervenciones nuevas y mejores.
1.8. Por prudencia, no debemos sustituir la coma ‘,’ de la primera frase por un verbo causal: “ejercicio
moderado disminuye ECV”. Como no lo dice explícitamente, más vale interpretar como simple
asociación (“ejercicio y ECV están relacionados / van juntos”) que como relación causal. Por tanto, la
predicción sería correcta, pero no la intervención.
2.2. Cierto.
2.3. Cierto. Atención a los términos ‘causa’ y ‘efecto’ que deberán ser definidos.
29
Principios generales
2.4. En los estudios de cohortes, casos-controles y diagnósticos el investigador “ve” y en los ensayos clínicos
el investigador “hace”.
2.5. La primera pregunta es sobre los efectos de la “causa” aspirina, en cambio la segunda es sobre las causas
de la desaparición del “efecto” dolor de cabeza.
2.6. Aparecen desaconsejando su uso en las explicaciones del punto 4, pero NO en las recomendaciones
contenidas en los puntos de la guía. Por tanto, no hay que recurrir a estos términos para explicar el
diseño del estudio. [Pero los autores no siguen sus recomendaciones ya que: (1) en el punto 6a escogen
un ejemplo que usa el término ‘retrospectivo’ para aclarar el diseño (¡de un estudio transversal!); y (2)
en el punto 10 de tamaño muestral, al alertar del absurdo de los cálculos de potencia post-estudio, los
llaman ‘retrospectivos’. A su favor, nótese que sus 2 usos no conducen a ninguna ambigüedad.]
2.7. No, Strobe evita estos términos. De hecho, el punto 3 dice: “We recommend that authors refrain from
simply calling a study 'prospective' or 'retrospective' because these terms are ill defined”
2.9. Los criterios de selección o elegibilidad del paciente y las variables del entorno y de los investigadores.
3.1. En otros módulos se explica a fondo. Digamos que (4) < (3) porque los casos anecdóticos no permiten un
análisis estadístico que incluya medidas de incertidumbre; que (3)<(2) porque los transversales no
permiten ver el orden natural entre efecto y causa (y por tanto queda la duda de qué variable “tira” de
qué variable); y que (2)<(1) porque los ensayos clínicos, al asignar la intervención, pueden conseguir
grupos comparables; y al asignar de forma aleatoria tienen una base lógica para la inferencia estadística
recuerde el sesgo impredecible: si no hay azar, ¿qué mide el error estándar?
3.2. La respuesta correcta es: “estimar el efecto diferencial en la PAS a las 2 semanas entre tratados y
controles”, ya que no pretende contrastar una hipótesis sino conocer la magnitud de un efecto, quizás
con un IC95% [por supuesto, este IC contestará también a la pregunta de si su diferencia es 0].
3.3. La b), ya que pre-especifica completamente el análisis, mientras que la primera, los resultados guían, de
alguna manera, el análisis. Además, la b) es más ambiciosa, ya que requiere más resultados
convincentes.
Nota técnica: Además la a) carece de fundamento estadístico: la prueba de Shapiro Wilk dará más veces
significativo cuanto mayor sea el tamaño del estudio, que es cuanto menos importante es la premisa de
normalidad para hacer el t-Test.
30
Bioestadística para no estadísticos
3.5. En la aleatoria podemos cuantificar la influencia del azar. En la de los amigos, no sabemos cómo
cuantificar sus ‘tendencias’. Una muestra será ‘representativa’ si es al azar [Nada que ver con su
tamaño.]
3.6. Hace referencia a intervenciones preventivas sobre hábitos de vida. Al hacer el balance beneficio/riesgo,
considera que no tiene las mismas consecuencias (riesgos, costes) aconsejar algo “habitual” en cierta
parte de la población (p.e., disponemos de datos de generaciones enteras sobre la seguridad de la dieta
mediterránea), que aconsejar ingerir un nuevo producto —inexistente en el pasado y, por tanto, con
limitada información sobre su seguridad. Sugiere que no necesitamos el mismo nivel de evidencia para
poner en una guía de práctica clínica un fármaco que hábitos saludables bien conocidos.
3.7. En las consecuencias. La decisión sobre el tabaco puede llevar a 2 posibles errores: (1) no tomar medidas
preventivas cuando el tabaco sí que tiene efectos negativos; y (2) tomar dichas medidas cuando en
realidad el efecto está, por ejemplo, en otro producto que va junto al tabaco. Las consecuencias del
primer error se cifran en unas 50.000 muertes anuales sólo en España. Las posibles consecuencias del
segundo no son comparables. La “función de pérdida” lleva a tomar la decisión que evite el primer error.
Por supuesto, el balance entre decisiones colectivas y personales es delicado.
31
Capítulo 2:
Introducción a R:
Primeros pasos
Septiembre 2014
Principios generales
Introducción a R
Presentación.................................................................................................................................... 3
1. Visión general ......................................................................................................................... 4
1.1. Instalación ............................................................................................................................ 5
1.1.1. Instalación de R...................................................................................................................... 5
1.1.2. Instalación de RStudio ........................................................................................................... 5
1.2. Interfaz de RStudio .............................................................................................................. 6
1.3. Primeros pasos ..................................................................................................................... 8
1.3.1. Instrucciones .......................................................................................................................... 8
1.3.2. Objetos ................................................................................................................................... 9
1.3.3. Funciones ............................................................................................................................. 10
1.3.4. Instalar paquetes ................................................................................................................... 11
1.3.5. Ayuda ................................................................................................................................... 12
1.3.6. Cierre de la sesión. ............................................................................................................... 13
2. Organizarla información ..................................................................................................... 14
3. Acceder y modificar datos ................................................................................................... 16
4. Importar datos ...................................................................................................................... 18
4.1. Lectura ............................................................................................................................... 19
4.2. Vista ................................................................................................................................... 20
4.3. Descriptiva global y tipos de variables .............................................................................. 20
4.4. Datos ausentes: “missings” ................................................................................................ 22
4.5. Validación .......................................................................................................................... 23
5. R-Comander ......................................................................................................................... 24
6. Referencias ............................................................................................................................ 24
Soluciones a los ejercicios ............................................................................................................ 25
2
Bioestadística para no estadísticos
Presentación
Este capítulo le ayudará en sus primeros pasos con el nuevo líder de los paquetes estadísticos. El
código de R es público: todo el mundo puede usarlo, revisarlo, criticarlo y mejorarlo. Así, con R,
los resultados de su investigación son más transparentes. Nuestra Universidad apuesta, tan fuerte
como puede, por programas libres.
Por supuesto, habituarse a un nuevo programa requiere paciencia. No se desespere, piense que
profundizará en R a lo largo del curso.
Algunos consejos son: (1) siga las instrucciones, instale los programas y haga los ejercicios; (2)
revise los vídeos “iniciáticos” de la página web del curso; (3) consulte a su tutor o cuelgue sus
dudas en la web; (4) como con otros programas, intercambie experiencias con sus colegas; y (5)
vaya aplicando las intrucciones a sus propios datos.
Contribuciones: (1) versión original de marzo 2013, JC, autor, y JAG, editor, con la colaboración de MV y
RP; y (2) revisado en agosto de 2014 por NB y EC.
3
1. Visión general
Lecturas: Dicen Rius y Gonzalez en Medicina Clínica: “Que el software sea libre o privativo es una
cuestión legal. Decimos que un determinado programa es libre si quien lo usa ostenta 4 derechos
específicos sobre éste. A saber, el derecho a usar el programa con cualquier finalidad, el derecho a
estudiar el programa, el derecho a compartir el programa y, finalmente, el derecho a mejorar el programa
y distribuir la nueva versión.. Un software sobre el cual los usuarios no ostentan alguno de los derechos
anteriores es un software privativo”.
Nace en la segunda mitad de los años noventa y ha ganado popularidad ya que: 1) su adquisición es
gratuita; 2) se pueden llevar a cabo los mismos análisis estadísticos que con S+; 3) estadísticos de
todo el mundo contribuyen con paquetes que permiten realizar análisis cada vez más específicos y
sofisticados; y 4) posee una versatilidad gráfica única destacando su variedad y facilidad de
adaptación.
Funciona por comandos, lo que requiere introducir instrucciones que Vd. debe conocer
previamente. Ello garantiza que cada uno hace lo que sabe y sabe lo que hace. Así, al inicio es algo
farragoso, pero a larga garantiza mayor fiabilidad de los resultados.
Existen interfaces que facilitan trabajar con R: RStudio abre y edita más códigos y más opciones
que el R convencional. Por ejemplo, permite comprobar rápidamente si existe algún paréntesis sin
cerrar; o ver el contenido de unos datos con un solo clic de ratón.
Bioestadística para no estadísticos
1.1. Instalación
1.1.1. Instalación de R
Ejecute ahora los siguientes pasos para instalar R.
Instalación de R
NOTA: De esta manera instala la versión básica de R con los paquetes básicos. Cuando sea preciso,
explicaremos cómo instalar algún otro de los más de mil paquetes contribuidos.
Instalación de RStudio
5
Introducción a R
A C
B D
6
Bioestadística para no estadísticos
b. Plots (Gráficos). Contiene todos los gráficos realizados durante la sesión. Con las
flechas puede ir adelante y atrás en la búsqueda de gráficos.
c. Packages (Paquetes). Ventana destinada a la instalación de paquetes.
d. Help (Ayuda). Ventana donde aparece la ayuda de R cuando se solicita.
NOTA: Esta interfaz puede modificarse de forma sencilla a través de Tools → Options → PaneLayout.
Permite redistribuir o eliminar las ventanas según sus preferencias.
Al ver esta interficie diferente de la de otros paquetes estadísticos pueden surgir algunas dudas:
Si trabaja por menús, los análisis realizados no siempre se almacenan. Al guardar todo el proceso de
análisis en un fichero de texto con extensión .R podrá reproducir y documentar en todo momento el
análisis realizado.
En ocasiones, conviene disponer de variables o funciones creadas por uno mismo; o de de datos
complementarios. En el workspace aparecen enumerados todos estos ítems y se puede acceder a su
contenido clicando sobre ellos.
En la subventana de historial se guardan todos los comandos ejecutados en la sesión. Es útil para
ver cómo se ha llegado hasta cierto punto. En la consola también se dispone del historial de
instrucciones, pero mezclado con los resultados obtenidos.
Si se requiere ver el gráfico en un tamaño mayor del que ofrece la subventana de gráficos, la opción
windows ( ) permite abrir una nueva ventana del tamaño deseado.
7
Introducción a R
1.3.1. Instrucciones
Puede ejecutar las instrucciones directamente de la consola o a través de un script o programa.
Consola. El indicador o prompt del sistema es el signo >. A continuación del mismo, se escriben
las instrucciones seguidas de un Enter. En ese momento, el programa examinará la sentencia y: (1)
si es correcta, la ejecutará; (2) si no lo es, mostrará un mensaje de error; y (3) si es incompleta,
mostrará el signo +, indicando que espera que complete la orden en la línea siguiente.
Ejercicio 1.1
Ejecute los siguientes comandos en la consola y describa que ocurre:
> 2+3
> 2 + "a"
> 2 +
NOTA: Es posible navegar entre los comandos ejecutados previamente mediante las teclas ↑ y ↓. La tecla
Esc permite reiniciar la actual línea en edición y la combinación 'Ctrl+C' interrumpe la edición o
ejecución en curso.
Script. Es más práctico y eficiente crear un código que contenga las instrucciones. Se abre un script
nuevo desde la barra de herramientas mediante: File → New → R script. Diferentes comandos irán
en distintas líneas o bien separados por ";". Para ejecutarlos, se tienen que seleccionar y clicar en el
botón (o bien con la combinación de teclas 'Ctrl+R' o 'Ctrl+Enter'). Los resultados
aparecerán en la consola.
Ejercicio 1.2
Cree el siguiente script y ejecute línea por línea con 'Ctrl+Enter'
pi
5*3 ; 6/2
3 + 4 # debería dar 7
NOTA: El signo # indica la introducción de un comentario que puede ser útil para clarificar algún
comando.
8
Bioestadística para no estadísticos
1.3.2. Objetos
¿Qué son? En R, todo es un objeto: un conjunto de datos, una variable, un valor, una función.
Sobre estos objetos se aplican operaciones.
NOTA: La “programación orientada a objetos” tiene muchas ventajas, por ejemplo, que se pueden
‘heredar’ operaciones entre diferentes objetos. Vea esta entrada en Wikipedia.
Nombre. El nombre de un objeto de R puede ser cualquier cadena alfanumérica formada por letras
(R distingue entre mayúsculas y minúsculas), dígitos del 0 al 9 (nunca en primera posición del
nombre) y los signos "." y "_" (punto y guion bajo). Por ejemplo, Exp1289 o muestra.ini son
nombres válidos.
NOTA: mejor no usar ciertas palabras que R se reserva, como los nombres de las instrucciones de su
lenguaje de programación (break, for, function, if, in, next, repeat, return, while) o los de las funciones
incorporadas.
Asignaciones. Puede dar valor a un objeto con los signos "=", "<-", y"->".
Ejercicio 1.3
Realice las siguientes asignaciones:
Ejemplo R
> n
[1] 22
> m ; p
[1] 2
[1] 24
> log
function (x, base = exp(1)) .Primitive("log")
NOTA: para algunos objetos, también puede clicar sobre su nombre en la ventana Workspace
9
Introducción a R
Ejemplo R
> ls()
[1] "n" "m" "p"
1.3.3. Funciones
Las funciones son instrucciones que realizan operaciones sobre objetos.
Ejemplo R
> log(n)
[1] 3.091042
NOTA: ‘log’ se refiere al logaritmo natural, con base e=2.71, no al decimal, con base 10.
Nota técnica: los objetos que necesita una función para ejecutarse se denominan parámetros o
argumentos de entrada. En el caso de la función log tiene un parámetro obligatorio (el número del cual se
desea calcular el logaritmo) y uno opcional (la base en la que se calcula, que si no se especifica, se
sobrentiende que es el logaritmo natural de base e)
Sintaxis. Se escribe el nombre de la función seguida de un paréntesis que contiene los parámetros
(separados por comas) con la información necesaria para que se ejecute.
Ejemplo R
Creación. Puede crear funciones propias con la instrucción function: introduzca entre paréntesis los
parámetros de entrada (objetos necesarios para que se ejecute) y a continuación, entre llaves, los
comandos a realizar.
10
Bioestadística para no estadísticos
Ejemplo R
NOTA: Si desea que proporcione (“retorne”) un resultado, finalice con la instrucción return( ) y el
resultado entre paréntesis.
Ejercicio 1.4
Construya una función llamada IMC que calcule el 'Indice de Masa Corporal a
partir del peso (en Kg) y la altura (en m).
Para usar un paquete se hacen 2 pasos: 1) Instalarlo (desde CRAN) y 2) Cargarlo (ponerlo) en
memoria. La pestaña Packages (Paquetes) de la ventana D contiene la lista y una breve descripción
de todos los paquetes instalados. El símbolo indica que, además, está cargado. Si desea cargar un
paquete ya instalado, marque con un el paquete en cuestión. Clicando en el icono ,
se instalan otros paquetes especificando el nombre del mismo. Por ejemplo, el paquete survival
contiene funciones para el análisis de supervivencia.
NOTA: En el menú Packages de la página http://cran.r-project.org/ están todos los paquetes disponibles.
NOTA: La primera vez que instale un paquete, R le preguntará el país desde dónde desea descargarlo
(aunque el tiempo de descarga no difiere en exceso). Una vez instalado un paquete en un ordenador, no se
necesitará instalarlo más, pero sí que se deberá cargar clicando en el paquete. Una alternativa para
instalar y cargar los paquetes por comandos es con las instrucciones install.packages y library.
11
Introducción a R
Ejemplo R
# Instalación de un paquete
1.3.5. Ayuda
Vídeos. Encontrará muchos en la red. Los de nuestra página están pensados para Vd.
Manuales. R dispone de manuales a los cuales se accede vía la barra de herramientas: Help → R
Help. En la subventana de ayuda aparecerá, entre otras cosas, una lista de manuales.
Ejemplo R
> help(log)
> ?ls
Paquetes. El comando library( )abre una ventana con información sobre los paquetes instalados en
R. Para obtener más información sobre estos paquetes, use las funciones library y help
conjuntamente.
Ejemplo R
> library(help="foreign")
NOTA: Otra posibilidad para obtener esta información es accediendo a ella desde la barra de
herramientas Help → R Help y después, en la página que se abre, hacer clic en 'Packages' y en el paquete
correspondiente.
Temas. La función help.search busca ayuda sobre un tema concreto entre todos los paquetes
instalados.
Ejemplo R
12
Bioestadística para no estadísticos
Foros. La función RSiteSearch busca las palabras de interés entre todos los mensajes enviados a las
listas de ayuda de correo electrónico de R; por ejemplo, para hallar información sobre la prueba de
Hosmer Lemeshow.
Ejemplo R
Ejercicio 1.5
(1) Instale el paquete survival, (2) busque la ayuda sobre la instrucción plot.survfit
y (3) ejecute las instrucciones que aparecen en el ejemplo (al final de la ayuda)
NOTA: Otra posibilidad es guardar y cargar el historial con las instrucciones savehistory y loadhistory,
respectivamente.
Guardar/Cargar área de trabajo. Si quiere volver a utilizar los objetos de R en uso, guarde el
contenido de la sesión clicando en el icono del disco ( ) en la pestaña Workspace de la ventana
C.Y cárguelos con el icono de la carpeta ( ).
NOTA: Otra posibilidad es guardar y cargar el área de trabajo con las instrucciones save.image y
load.image, respectivamente.
NOTA: Si desea guardar solamente algunos de los elementos, por ejemplo los objetos x e y, tiene 2
opciones: o eliminar primero los demás objetos con la función rm() y después usar la función
save.image(); o usar la función save:
> save(x,y,file="nombredearchivo.RData")
Salir del programa. Con la orden q( ) abandona R. Antes de cerrarse, R pregunta al usuario si
quiere guardar el actual espacio de trabajo en el fichero .RData en la carpeta de trabajo actual –
conjuntamente con el histórico de la sesión.
13
Introducción a R
Indicar el directorio. Para hacer referencia a algún fichero de disco debe utilizar la dirección entre
comillas con la barra / o las barras \\ entre subcarpetas.
Ejemplo R
> save.image
("C:/Archivos de programa/R/nombre.RData")
2. Organizarla información
Los datos son la materia prima de la Estadística. Este punto muestra estructuras para almacenar
datos, vectores y data.frames en R.
Vectores. Se usan para almacenar el contenido de una variable. Es un conjunto de elementos del
mismo tipo (numérico o carácter). Se crean con la instrucción c ( ) poniendo en el interior del
paréntesis todos sus elementos separados por comas.
Ejemplo R
NOTA: El [1] que aparece al principio de la salida indica la posición (orden) que ocupa el primer
elemento de la fila. Es útil cuando la variable es muy larga. Para crear variables de caracteres, se deben
poner los valores entre comillas simples (') o dobles (").
Data.frames. Son los conjuntos de datos habituales que constan de varias variables, sean numéricas
o categóricas. Normalmente, las filas representan los individuos y las columnas, las variables. Es el
tipo por defecto cuando se lee un fichero de datos. También es posible crearlo con la instrucción
data.frame.
14
Bioestadística para no estadísticos
Ejemplo R
La instrucción edit permite introducir directamente los datos en las celdas de un data.frame. Puede
asignar el resultado al mismo objeto o a uno nuevo.
Ejemplo R
NOTA: Existen otras formas de almacenar los datos:(1) Matrices (matrix), similares al data.frame, pero
sólo con variables numéricas; (2) Arrays (array), útiles para datos con más de dos dimensiones (por
ejemplo, repeticiones de variables); y (3) Listas (list), que contienen una combinación de cualquiera de las
anteriores y otras no mencionadas.
Ejercicio 2.1
Cree un data.frame (con valores inventados) de 4 individuos con las variables:
nombre, peso, altura y IMC.
15
Introducción a R
Acceda a una observación concreta de un vector (variable) poniendo la posición entre corchetes, y
modifíquela asignando un valor a la posición.
Ejemplo R
# Consultas
> Edad
[1] 64 52 61 150
> Edad[3]
[1] 61
# Modificación
> Edad[4] <- 50
> Edad
[1] 64 52 61 50
Ejemplo R
# Valor concreto por la posición
> df[4,1]
[1] 73
# Valor concreto por los nombres
> df["4","Edad"]
[1] 73
16
Bioestadística para no estadísticos
Ejemplo R
Los niveles (Levels) que apararecen al final de la salida en una variable alfanumérica hacen
referencia a los diferentes niveles (categorias) de la variable.
Ejemplo R
Ejemplo R
Para modificar un data.frame, al igual que pasaba con los vectores, asigne un valor o varios a la
posición o posiciones que quiera modificar. Tenga en cuenta que las variables categóricas
17
Introducción a R
(factores), sólo permiten valores ya existentes. Si se desea modificar todos los valores de una
variable completa, use la instrucción levels.
Ejemplo R
Ejercicio 3.1
En el data.frame del Ejercicio 2.1, cambie el nombre del tercer individuo y
elimine las cifras decimales del IMC con la función round
4. Importar datos
R permite importar datos desde casi cualquier formato. La siguiente tabla enumera las
instrucciones para los formatos más habituales.
18
Bioestadística para no estadísticos
Nota: Las instrucciones read.table, read.csv y read.csv2 vienen con el paquete utils, ya instalado por
defecto. Con read.table o read.delim puede “pegar” desde el portapapeles después de hacer un “copiar”
en un conjunto de datos.
Nota: Las instrucciones read.csv y read.csv2 se utilizan en ficheros de texto, según las columnas estén
separadas por ‘,’ (comas) y ‘;’ (puntos y comas) —respectivamente.
Nota: En general, la lectura de un fichero Excel es posible pero complicada y el mismo R la desaconseja.
En este caso, es mejor guardar la hoja de cálculo con un formato csv: Archivo → Guardar como → csv. Y
leerlo en R con read.csv2.
A continuación verá un posible proceso de lectura y validación de un mismo conjunto de datos con
tres formatos distintos.
4.1. Lectura
El primer parámetro es el nombre del fichero a importar. Su directorio (carpeta) se especifica junto
al nombre, o se fija con la instrucción setwd.
Para poder ver el ejemplo, descargue primero los datos GPT de la página web del curso
(http://bioestadistica.upc.edu/node/30). Guarde los tres ficheros (txt, csv y sav) en la carpeta
'C:/Documents'.
Ejemplo R
> install.packages('foreign')
> library(foreign)
# Fijar el directorio donde estan los ficheros
> setwd('C:/Documents') # Debe cambiarse!
# Lectura en las tres extensiones
> datos1 <- read.table('GPT.txt',header=TRUE)
> datos2 <- read.csv2('GPT.csv',header=TRUE)
> datos3 <- read.spss('GPT.sav',to.data.frame = TRUE)
NOTA: El header=TRUE indica que la 1ª fila del archivo de origen contiene los nombres de las
variables. El to.data.frame=TRUE indica que lo importe como data.frame (ya que, por defecto, lo
importa como lista).
Para leer los ficheros de texto (no otros formatos) directamente desde una página web, únicamente
se debe especificar la dirección dentro de la función url.
19
Introducción a R
Ejemplo R
4.2. Vista
Una vez obtenidos los datos, se debe verificar que se han leído correctamente. Si el data.frame es
largo, la instrucción head enseña únicamente las primeras filas (6, por defecto).
Ejemplo R
> head(datos1)
> head(datos2)
> head(datos3)
id sex age gpt hiv colester
1 58 Male 36 High HIV+ 170
2 172 Male 33 High HIV- 116
3 190 Male 30 High HIV+ 139
4 239 Male 33 Normal HIV+ 166
5 312 Male 40 High HIV- 155
6 313 Male 32 High HIV- 221
Nota: Una vez comprobado que los 3 conjuntos de datos están correctamente leídos y son idénticos,
trabajará únicamente con uno de ellos.
Ejemplo R
> summary(datos1)
id sex age
20
Bioestadística para no estadísticos
Nótese que la descriptiva es distinta para las variables numéricas (sean enteras o contínuas) que
para las categóricas. Para las primeras (id, age y colester), proporciona mínimo, máximo, media y
cuartiles; y para las segundas (sex, gpt y hiv), las frecuencias de cada categoría.
Nota: R interpreta que una variable con caracteres alfanuméricos es categórica, como debe ser. Pero las que
contienen sólo números pueden ser también categóricas. Por ejemplo, R interpreta que la variable id
(identificador del paciente) es numérica, por lo que calcula la media, lo que no tiene sentido. Ver las
frecuencias permite comprobar que no existan dos casos con el mismo identificador, pero no sirve para nada
más. El parámetro colClasses en la instrucción read.table comunica a R el tipo de variable: “numeric”
(contínuas), “integer” (enteras), “factor” (categóricas), “character” (cadena de caracteres), “boolean”
(lógica)… Definirlo correctamente permite a R calcular las funciones aplicables a ese tipo de variables.
La instrucción sapply, sobre cierto data.frame, y con la función class, informa sobre el tipo de la
variable.
Ejemplo R
> sapply(datos1,class)
id sex age
"integer" "factor" "integer"
gpt hiv colester
"factor" "factor" "integer"
La instrucción hist.data.frame ( ) del paquete Hmisc realiza el histograma para variables numéricas
e indica las frecuencias de las categóricas.
21
Introducción a R
Ejemplo R
> install.packages("Hmisc")
> library (Hmisc)
> hist.data.frame(datos1)
20 40 60
60
Frequency
Frequency
Male
30
Female
0
100 200 300
20 40 60
0
Frequency
High HIV+
60
Normal HIV-
0
185 195 180 200 220
Frequencies for gpt Frequencies for hiv 0 100 250
colester
n:398 m:0
Nota: Los espacios en blanco también son interpretados como datos ausentes dentro de variables
numéricas. En las variables categóricas se consideran como una categoría más.
La instrucción is.na( ) retorna TRUE o FALSE dependiendo de si ese valor de la variable tiene un
missing. La instrucción which( ) identifica cuál es la posición en el vector de los casos que cumplen
una condición lógica —como ser faltante.
Ejemplo R
> is.na(datos1$gpt)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[8] FALSE FALSE FALSE FALSE FALSE TRUE FALSE
22
Bioestadística para no estadísticos
También puede ver los datos en otras variables de los individuos con datos ausentes en una
concreta.
Ejemplo R
# Guarda en gpt.na los individuos con missings
> datos1[gpt.na,]
id sex age gpt hiv colester
13 1458 Male 29 <NA> HIV+ 0
71 1580 Male 31 <NA> HIV+ 0
76 1587 Male 29 <NA> HIV+ 0
104 1650 Male 38 <NA> HIV+ 0
144 1730 Male 30 <NA> HIV+ 0
231 1876 Male 29 <NA> HIV- 205
295 1969 Male 37 <NA> HIV+ 0
300 1976 Male 35 <NA> HIV+ 0
332 2040 Female 37 <NA> HIV+ 116
360 2101 Male 32 <NA> HIV+ 159
4.5. Validación
La instrucción which( ) permite detectar datos incongruentes. Suponga que uno de los criterios de
selección fuese tener una edad comprendida entre 18 y 65 años.
Ejemplo R
> datos1[age.val,]
id sex age gpt hiv colester
281 1950 Male 67 High HIV- 128
23
Introducción a R
5. R-Comander
El paquete Rcmdr o R Commander ofrece un sistema de ventanas y menús que hace R más
amigable. No obstante, es menos flexible, ya que limita el uso de opciones de muchas funciones.
Para activar R Commander, instale el paquete Rcmdr con install.packages ('Rcmdr') y después
cárguelo mediante library (Rcmdr).
Haga clic en las ventanas que no sabe qué es lo que hacen para aprender, no para analizar los datos.
6. Referencias
Existen múltiples guías para el uso de R. Aquí enumeramos algunas de las más útiles:
24
Bioestadística para no estadísticos
> pi
[1] 3.141593
> 5*3;6/2
[1] 15
[1] 3
[1] 7
> n
[1] 22
> m = 4^0.5
> m
[1] 2
> n + m -> p
> p
[1] 24
p es la suma de n y m
25
Introducción a R
return(imc)
> IMC(peso=75,altura=1.75)
[1] 24.4898
> IMC(75,1.75)
[1] 24.4898
1.5 La instalación por menús se puede realizar con los siguientes pasos:
> ?plot.survfit
26
Bioestadística para no estadísticos
Obsérve que obtiene 2 gráficos. Uno para las curvas de supervivencia y otro para las curvas de riesgo de unos
datos almacenados en la memoria de R.
2.1 Primero cree las variables y luego únalas con la instrucción data.frame. Use la función creada en el Ejercicio
1.4.
> datos
>datos
1 Juan 75 1.75 24
2 Pedro 85 1.76 27
3 Marta 69 1.64 26
4 Luisa 56 1.61 22
Note que para modificar el nombre de María se ha tenido que cambiar el tercer nivel de la variable Nombre. No
se hubiese podido modificar directamente esta observación.
27
Capítulo 3:
Variabilidad:
El proceso de cuantificar la
observación
Septiembre 2014
Variabilidad
Presentación ....................................................................................................................... 2
1. Medida .................................................................................................................. 3
1.1. Escala nominal ....................................................................................................... 3
Presentación
Sin variabilidad no hay vida. Y como “visto un caso, vistos todos”, tampoco información. Dicho en
positivo: sabemos distinguirnos porque sabemos procesar la variabilidad.
La Estadística aborda cómo recoger la información (“proceso de medida”) y cómo representarla con
gráficos y con números.
Contribuciones: (1) la versión original de marzo 2013 descansa en el libro de Bioestadística para No
estadísticos de Elsevier de EC, JAG y PM, editada por JC y revisada por MV y R; (2) la de julio de 2013 fue
revisada por MV, JC y EC para incorporar mejoras y sugerencias anónimas; y (3) la de septiembre de 2104
por NB y EC.
2
Bioestadística para no estadísticos
1. Medida
Una primera definición puede ser “medir es asignar números a objetos siguiendo reglas”.
Historieta: Malditas etiquetas que nos encasillan. Dice el Dr. Vives que él no es médico, que él es un
corredor de fondo que trabaja como médico. Y yo digo que él es un gran médico.
Quedémonos con la idea de que esta asignación necesita reglas que la hagan reproducible. El
proceso científico requiere establecer un lenguaje común, con idéntico significado para cualquier
observador.
Historieta: En el lenguaje popular una misma frase puede tener diferentes perspectivas, matices o
significados. Un popular “doble sentido” es saludar al amigo preocupado por su imaginaria calvicie con
un: “¡Cuánto tiempo sin verte el pelo!”
Lecturas: El inicio de este tema sigue la línea de Stevens. Para una definición más formal, consulte la
versión inglesa de Wikipedia.
Ejemplo 1.3: Una burda y primera clasificación de las personas las dividiría en enfermos y
sanos. Dos enfermos compartirán ciertas características comunes que los hacen diferentes de
los sanos.
Definición
La escala nominal clasifica a las unidades en grupos o categorías.
Nota: si todas las unidades fueran iguales, entonces todas pertenecerían a la misma categoría y no tendría
sentido ni clasificarlas, ni medirlas.
Historieta: Un buen profesor consigue que todos sus estudiantes sean excelentes. Un mal evaluador pone
a todos los estudiantes la misma nota.
3
Principios generales
Ejemplo 1.4: Los códigos de identificación personal pertenecen a la escala nominal. Incluso
los formados por cifras, porque no tienen significado de número, ya que un valor ‘mayor’ no
implica nada. El DNI solo “clasifica” y por tanto está en escala nominal –aunque especial:
cada categoría sólo tiene 1 caso.
Ejercicio 1.1
Proponga ejemplos de otras clasificaciones posibles.
Definición
La escala ordinal cumple las propiedades de la escala nominal y, además,
permite ordenar las categorías.
Ejemplo 1.5: El indicador BK de la tuberculosis puede valorarse en una escala ordinal que
va desde 0 a 3 cruces (0 / + / ++ / +++).
Ejercicio 1.2
Proponga algún otro ejemplo de variable en escala ordinal.
4
Bioestadística para no estadísticos
Definición
La escala de intervalo cumple las propiedades de la escala ordinal y, además,
dispone de unidad de medida.
En la escala de intervalo, las categorías se han convertido en cifras que disfrutan de una unidad que
aplica por igual a todos ellos: ya tienen significado de número. Como todos ‘contienen’ las mismas
unidades, se pueden restar entre ellos, lo que permite, por ejemplo, comparar la amplitud de varios
intervalos, dando nombre a la escala.
Ejemplo 1.6: Se puede decir que entre dos cuerpos, uno a 19ºC y otro a 20ºC, hay la misma
diferencia que entre uno a 29ºC y otro a 30ºC. O incluso, que el intervalo entre 10ºC y 20ºC
es 5 veces mayor que entre 30ºC y 32ºC.
Ejercicio 1.3
Proponga algún otro ejemplo de variable en escala de intervalo.
Historieta: Dice “¿qué tiempo hace?” y contesta: “Ni frío, ni calor: 0º C”.
Cuando hay unidad de medida conviene preguntar si el cero es absoluto. Es decir, si el valor 0 de la
escala tiene significado de “ausencia total (absoluta) de …”. En la temperatura en grados
centígrados, ¿significa 0º C ausencia de temperatura?
Lectura: Kelvin relacionó la temperatura con cierta cantidad de movimiento de las partículas y encontró
que éste cesaba a -273ºC, proponiendo este valor como 0 absoluto para una nueva escala de temperatura.
Ejemplo 1.7: Se puede decir que un cuerpo que está a 400º Kelvin tiene el doble de
temperatura (cantidad de movimiento) que un cuerpo a 200ºK.
Ejercicio 1.4
La variable “¿tiene cefalea?” admite las categorías “nunca”, “a veces” “muchas
veces” y “siempre”. ¿En qué escala de medida se encuentra?
5
Principios generales
Ejercicio 1.5
La variable “fracción de eyección cardíaca”, ¿en qué escala está?
Nota: La escala de razón permite hacer divisiones (razones, cocientes o proporciones) entre los valores, la
de intervalo también permitía divisiones pero entre las diferencias de valores, los intervalos.
Escala Propiedades
Nominal Equivalencia
Ordinal Orden
Intervalo Unidad
Razón Cero absoluto
Tabla 1.1 Tipos de escala y propiedades acumulativas
Lectura: Las escalas de medida no se deben interpretar como un proceso automático para decidir el
análisis estadístico.
Otra clasificación divide a las variables en cualitativas y cuantitativas -con unidad de medida. La
escala ordinal puede corresponder a ambas, ya que las propiedades de orden podrían aplicarse a
categorías (como la clase social) o a expresiones numéricas (como los puntos obtenidos en una
escala o ‘score’ como el índice de Apgar).
Otra división es en discretas o continuas. Un recuento (el número de hermanos, por ejemplo) es una
variable discreta ya que sólo puede tomar un número limitado de valores. La escala nominal debe
ser discreta, pero las otras escalas pueden ser tanto discretas como continuas.
Nota: No se debe confundir la naturaleza de una variable con su nivel de redondeo. Por ejemplo, aunque
podemos dar la altura de forma discreta en cm, en esencia es continua.
6
Bioestadística para no estadísticos
Lectura: En este punto seguimos a Bollen. Guardia introduce el tema en la Sociedad Catalana de
Estadística.
Las escalas nominal, ordinal y de intervalo corresponden a una visión ‘operativa’ de la medida: se
define una variable por la forma de medirla. Esta visión permitiría definir ‘el cociente de
inteligencia (CI)’, como la variable con la que se cuantifica la inteligencia. Pero nunca permitiría
definir el concepto de inteligencia —intangible en sí mismo.
Definición
Medida es el proceso que conecta un concepto con una variable latente y ésta,
con variables observables.
Es decir, existe por un lado un atributo latente que no es directamente observable (por ejemplo, la
inteligencia) y por otro lado, una o varias variables que pretenden cuantificar dicho atributo (por
ejemplo, el CI). El CI será tanto mejor medida de la inteligencia cuanto más intensa sea su relación
con la misma y menor dependencia tenga de otros factores.
7
Principios generales
inteligencia no han de tener idéntica inteligencia, pero cabe esperar que sea más similar que la de
dos casos con valores alejados.
Hay 2 propiedades que hacen a la variable observable (el CI en el ejemplo) una buena medida de la
latente (la inteligencia en sí misma): son la validez y la fiabilidad. Si un proceso de medida es
válida y fiable, la variabilidad de la variable observada depende exclusivamente de la variabilidad
de la variable latente (el objeto de medida o el concepto latente). Al no depender de otras variables,
no tendrá error sistemático y se dirá que es válida; y al no tener error aleatorio de medida, se dirá
que es muy fiable o repetible.
Definición
Se dice que una variable mide de manera válida un concepto representado por
una variable latente si está relacionada con esta variable latente y sólo con ella.
Definición
Se dice que una variable mide de manera fiable si sus variaciones están muy
relacionadas con variaciones en el concepto —y, por tanto, dependen poco del
proceso de medida.
Validez requiere ausencia de error sistemático; y fiabilidad, error aleatorio pequeño. Así, validez
implica que se esté valorando el concepto y nada más: que variaciones en el concepto comporten
variaciones en la medida. Por su parte, fiabilidad requiere obtener valores próximos en medidas
repetidas en el mismo individuo en las mismas condiciones.
Ejemplo 1.9: Los logros sanitarios en la cantidad de vida han desplazado el objetivo hacia
la calidad de vida. Para muchos pacientes, es un objetivo pertinente y relevante, es decir:
válido. Pero para un clínico es incómoda, ya que cambios en un mismo paciente no son
explicables por variaciones en sus parámetros clínicos. Dicho de otra manera, no es fiable
porque determinaciones repetidas en un paciente estable no dan la misma puntuación.
Lectura: Para saber algo más, consulte Wikipedia y las revisiones formales de Hand. En 1996 y 2002.
2002, 165: 233-261).
8
Bioestadística para no estadísticos
Ejercicio 1.6
La variable “recuento de limfocitos CD4” suele emplearse en el seguimiento del
SIDA ¿En qué escala de medida se encuentra? ¿Cree que encaja en una sola
escala?
Ejercicio 1.7
El proceso de aprendizaje universitario, como unos estudios de Medicina,
pretende que aquellos que lo finalicen sean capaces de ejercer como
profesionales. ¿En relación a la validez y fiabilidad, qué le parece el examen MIR
comparado con, por ejemplo, la observación de su trabajo delante de un paciente
real?
2. Descriptiva
La escala de medida ayuda a escoger el estadístico y el gráfico para resumir los datos.
En este punto se introducirán los comandos de R que permitirán realizar un análisis descriptivo,
Para ello, se empleará el conjunto de datos 'births' del paquete 'Epi', que contiene los pesos de 500
recién nacidos en un hospital de Londres.
Ejemplo R
> names(births)
[1] "id" "bweight" "lowbw" "gestwks"
[5] "preterm" "matage" "hyp" "sex"
9
Principios generales
La instrucción names aplicada a nuestro conjunto de datos, permite ver los nombres de las variables.
La explicación de cada una de las variables está en la ayuda: ?births.
Lectura: José Antonio González y Lluís Jover: Cuando las relaciones entre variables son complejas o el
componente aleatorio enmascara los procesos en estudio, la representación gráfica deviene una
herramienta imprescindible. (…) Los gráficos, bien utilizados, permiten una aproximación nueva y
enriquecedora a la información disponible.
En R, con la instrucción pie puede realizar un diagrama de pastel habiendo realizado previamente la
tabla de frecuencias con el comando table. Con los parámetros labels y col puede especificar las
etiquetas y los colores del gráfico.
Nota: Recuerde que puede acceder a una variable de un data.frame por su nombre separado por el
símbolo $; o bien accediendo a la posición que ocupa la columna.
Si carga los datos en memoria con la instrucción attach, podrá prescindir del nombre del conjunto
de datos y bastará con escribir el nombre de la variable.
10
Bioestadística para no estadísticos
Nota: Al utilizar el attach, todas las variables pasan a ser objetos en memoria —lo que podría provocar
ambigüedades con algún objeto con el mismo nombre. La instrucción detach elimina los datos de la
memoria.
Ejemplo R
Lectura: La ayuda de la instrucción pie desaconseja este tipo de gráfico: “Pie charts are a very bad way
of displaying information. The eye is good at judging linear measures and bad at judging relative areas. A
bar chart or dot chart is a preferable way of displaying this type of data”
Emplee el diagrama de barras para variables discretas –nominales y ordinales. Los distintos
valores se representan en el eje horizontal (abscisas) y con rectángulos de altura proporcional a la
frecuencia del valor. Para que el gráfico proporcione una correcta impresión visual la escala del eje
vertical (ordenadas) va desde 0 hasta, como mínimo, la frecuencia del valor modal. De no ser así,
debe alertarse al lector.
Ejercicio 2.1
Rafael Ramos: “La Figura 2.2 muestra la proporción de tratados según las
distintas recomendaciones para la hipercolesterolemia.” ¿Es un diagrama de
barras?
11
Principios generales
Una forma habitual de transmitir información errónea consiste en cambiar la escala de algún eje sin
avisar al lector.
Recuerde
Antes de mirar el contenido de un gráfico, lea detalladamente el pie de figura y las
unidades de los ejes, observando si empiezan en 0.
12
Bioestadística para no estadísticos
Ejercicio 2.2
¿Qué opina del siguiente gráfico?
En R, el comando barplot realiza un diagrama de barras, siendo una tabla su primer parámetro. El
argumento legend=TRUE añade una leyenda al gráfico. Con una tabla con 2 variables se obtiene,
por defecto un gráfico de barras apiladas, pudiendose adosar las barras asignando TRUE al
parámetro beside.
Ejemplo R
1
0
200
150
100
50
0
1 2
13
Principios generales
> par(las=1)
> barplot(T1,main="Proporción de hipertensos según sexo",
col=c("darkblue","lightblue"),space=.5,
xlab="Sexo")
#Leyenda central
>legend('top',c('No','Si'),fill=c("darkblue","lightblue"))
No
Sí
200
150
100
50
0
Hombres Mujeres
Sexo
Ejemplo R
# Diagrama de mosaico
>rownames(T1)=c("Hombres", "Mujeres")
>colnames(T1)=c("No", "Sí")
>mosaicplot(T1,xlab="Hipertensión",ylab="Género",
col=c("darkblue","lightblue"),main="Diagrama
mosaico", cex.axis=1.2)
14
Bioestadística para no estadísticos
Diagrama mosaico
Hombres Mujeres
No
Género
Sí
Hipertensión
Nota: el carácter ~ empleado para separar las dos variables que intervienen en el mosaicplot se obtiene
pulsando a la vez la tecla “Alt Gr” (a la derecha de 'espacio') y la tecla “4”.
Ejercicio 2.3
A) Realice un mosaicplot de las variables peso mayor/menor de 2500 g (lowbw) y
periodo de gestación mayor/menor a 37 semanas (preterm).
Recuerde
La moda es la categoría más repetida.
Ejemplo 2.3: Miguel Martín et al para describir a los pacientes de su estudio dicen: “Los
tumores de estadio II fueron los más frecuentes (55.5%)”. Nótese que dan la moda pero que,
además, concretan a cuántos casos representa.
15
Principios generales
Ejemplo R
> table(sex)
sex
1 2
264 236
Es posible hacer tablas de dos dimensiones incluyendo las dos variables categóricas separadas por
una coma dentro de la instrucción table.
Ejemplo R
> table(sex,hyp)
hyp
sex 0 1
1 221 43
2 207 29
Esta tabla 2x2 contiene las frecuencias según el género del bebé (filas) y si la madre es hipertensa
(0: No ; 1: Sí). La instrucción addmargins añade los marginales de la tabla. Primero se debe crear
un objeto que contenga la tabla.
Ejemplo R
La instrucción prop.table devuelve las proporciones de una tabla. Por defecto las calcula sobre el
total; si añade un 1, sobre la fila; y si añade un 2, sobre la columna.
16
Bioestadística para no estadísticos
Ejemplo R
Recuerde
La mediana es aquél valor que divide en dos grupos con igual frecuencia.
Ejemplo R
> median(bweight)
[1] 3188.5
Las instrucciones tapply y by permiten calcular un estadístico estratificado por una variable
categórica. La sintaxis es: tapply (var. numérica, var. categórica, función).
17
Principios generales
Ejemplo R
Nota: Los bebés niño tienen una mediana de peso casi 200 gramos superior a los bebés niña.
Ejercicio 2.4
Obtenga la mediana de peso de los niños según si el período de gestación fue
inferior o superior a 37 semanas.
Existen más medidas basadas en el orden de las observaciones. Los cuantiles (con ‘n’) son valores
que dividen la población en cierto número k de grupos. El ejemplo de cuantiles más popular son los
percentiles, que dividen la muestra en 100 partes. Los deciles lo hacen en 10; los quintiles en 5; y
los cuartiles (con ‘r’) en 4.
Nótese que los cuantiles son los límites que dividen los grupos, no los grupos resultantes. Así, para
dividir la muestra en cuatro partes con la misma frecuencia, bastan tres cuartiles, el 1, el 2 y el 3.
Recuerde
Hay 99 percentiles, 9 deciles, 4 quintiles y 3 cuartiles.
Ejemplo 2.4: La edad de los pacientes incluidos en un estudio tiene la distribución que
muestra la figura 2.4. Por debajo de 43 años hay un 20% de las observaciones. Por tanto, el
percentil 20, el 2º decil y el 1r quintil son todos ellos el mismo valor: 43 años.
Figura 2.4. El percentil 20, el decil 2, y el quintil 1 son todos ellos 43 años
18
Bioestadística para no estadísticos
Ejercicio 2.5
La mediana, ¿a qué percentil corresponde? ¿Y a que cuartil?
Ejercicio 2.6
¿Qué percentil es el cuartil 1? ¿Y el cuartil 2? ¿Y el cuartil 3?
Ejemplo R
Ejemplo R
> summary(bweight)
Min. 1st Qu. Median Mean 3rd Qu. Max.
628 2862 3188 3137 3551 4553
Nota: Las variables gestwks (semanas de gestación) y preterm (periodo de gestación inferior a 37
semanas) tienen 10 valores ausentes. Este summary no informa sobre el dato más importante: el número
de casos resumido. Recuerde que R codifica los datos ausentes (missings) con NA (Notavailable).
Ejercicio 2.7
Obtenga la media, la mediana, el primer y tercer cuartil, el IQR y la desviación
típica de los de los datos: 115, 117, 124, 135 y 142.
19
Principios generales
Las observaciones más extremas se marcan (p.e. “*”) pero no se conectan. Este gráfico es muy útil,
entre otros aspectos, para valorar la simetría y detectar valores atípicos (“outliers”).
Un histograma (Fig. 2.4 (der)) es un gráfico de variable continua dividida en intervalos de los que
se eleva un rectángulo con área proporcional a su frecuencia –lo que permite intervalos de diferente
amplitud.
Nota: Si la variable es discreta puede convenir marcarlo con rectángulos separados. Especialmente si la
variable tiene muy pocos valores (p.e., número de asignaturas suspendidas”).
A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de
línea consisten en unir con rectas los puntos medios de los intervalos contiguos, construyendo así
un polígono de frecuencias.
Las instrucciones para realizar histogramas y diagramas de cajas son hist y boxplot, respectivamente.
20
Bioestadística para no estadísticos
Ejemplo R
> hist(bweight)
> boxplot(bweight)
Histogram of bweight
4000
150
Frequency
3000
100
50
2000
0
1000
1000 2000 3000 4000 5000
bweight
A cada uno se le pueden añadir parámetros para adaptarlos. La instrucción par permite fijar
características a todos los gráficos.
Ejemplo R
> windows(20,10)
> par (mfrow=c(1,2),las=1)
> hist(bweight,col="blue",
main="Peso de los bebés",xlab="gramos")
> boxplot(bweight,col="lightblue",
main="Peso de los bebés", xlab="gramos",
horizontal=TRUE)
Peso de los bebés Peso de los bebés
150
Frequency
100
50
gramos gramos
21
Principios generales
Nota: La instrucción windows (20,10) abre una ventana de tamaño 20x10 píxeles. El parámetro mfrow
define la posición de los gráficos en la ventana (en este caso, con 1 fila y 2 columnas); las indica la
orientación de los números de los ejes (las=1 los escribe siempre horizontales). Para más detalles, véase
la ayuda: ?par.
Nota: En el histograma y el boxplot, el parámetro col especifica el color; main, el título; xlab, la etiqueta
del eje "x"; y horizontal dibujará el boxplot horizontal si es igual aTRUE. Vea más opciones con la ayuda
?hist o ?boxplot.
Nota: En el caso de boxplot, puede estratificar por una variable categórica añadiendo su nombre
precedido de '~'.
Nota: Dispone de otros boxplots más sofisticados en otros paquetes.
Ejemplo R
>install.packages('vioplot')
>library(vioplot)
>windows(20,10)
> par (mfrow=c(1,2),las=1)
> boxplot(bweight~sex,col=2,names=c("H","M"))
> vioplot(bweight[sex==1],bweight[sex==2],col=2,
names=c("H","M"))
> title("Peso de los bebés según género",
outer=TRUE,line=-2)
4000 4000
3000 3000
2000 2000
1000 1000
H M H M
Nota: Para estratificar, la sintaxis del vioplot es diferente, porque requiere nombres de variables
diferentes para cada estrato (primero el nombre de la variable con los pesos de los bebés y luego la de las
bebés). La instrucción title crea un título común si outer=TRUE. El line = -2 coloca el título dos líneas
por debajo del margen superior.
22
Bioestadística para no estadísticos
Ejercicio 2.8
Obtenga un boxplot de las edades de las madres
Ejemplo R
> plot(bweight~gestwks)
4000
3000
bweight
2000
1000
25 30 35 40
gestwks
> plot(bweight~gestwks,
4000
Peso del bebé (g)
3000
2000
1000
25 30 35 40
Semanas de gestación
23
Principios generales
Con el argumento pch se indica el tipo de punto (el código 15 es un cuadrado sólido) y con el
parámetro cex se indica su tamaño (por defecto, vale 1).
Ejemplo 2.5: El grupo “Asistencia Médica Integrada Continua de Cádiz” dice: “la media de
pruebas por paciente es [...] menor [...] que en el grupo control”.
Estudiemos la media con la ayuda de un ejemplo. Se ha preguntado a los 5 últimos pacientes que
han entrado en la consulta por el número de parejas que han tenido en los últimos 48 meses y han
contestado que 1, 3, 4, 5 y 7 parejas respectivamente.
Nota: i=1,5 Xi representa la suma de los valores de la variable X en los individuos 1 a 5: es el “sumatorio
desde i=1 hasta i=5 de X sub i”.
En R, la media se calcula con la instrucción mean.
Ejemplos R
> mean(bweight)
[1] 3136.884
24
Bioestadística para no estadísticos
meses. ¡Qué sorpresa para el de 1 pareja! Y qué forma de decir mentiras. Veamos cuánto valen
estas mentiras.
Dicen ellos Se les asigna Mentira resultante
1 4 +3
3 4 +1
4 4 0
5 4 -1
7 4 -3
Suma 20 0
Tabla 1.2 Mentira resultante si se mal-interpreta que cada paciente tiene exactamente el valor de la media
La media representa al centro de la distribución, pero ¿hasta qué punto representa a cada individuo?
No todas las observaciones se sitúan en la media. Además, la diversidad puede ser riqueza. Por ello,
la siguiente medida de interés estudia cuál es la distancia de las observaciones respecto la media.
Definición
La desviación típica o desviación estándar (DE) representa el alejamiento
prototípico con el centro.
Hemos visto que, si se les dice que cada uno ha tenido 4 parejas, las mentiras respectivas son +3,
+1, 0, -1 y -3. Ahora bien, como suman 0, el investigador descuidado podría insistir en que su
cálculo es acertado, porque el promedio de sus mentiras es 0. La media, como centro de gravedad,
tiene esta propiedad: se compensan los desvíos positivos con los negativos. Para evitar este efecto
no deseado y poder valorar la dispersión, elevamos estas distancias al cuadrado antes de sumarlas:
Ahora, la suma de las mentiras cuadradas es 20 parejas². Si las mentiras² que han tenido entre todos
se reparten “equitativamente” en los 5 casos, se observa una “mentira² promedio” de 4 parejas²,
cálculo conocido por el nombre de varianza. Para evitar hablar de ‘mentiras cuadradas’ y ‘parejas
cuadradas’ se elimina ese engorroso “cuadrado” con una raíz cuadrada, y se obtiene que la mentira
25
Principios generales
prototípica es de 2 parejas. Este valor, 2 parejas, representa la distancia o desvío (con la media)
típico de todas las observaciones. Por esta razón recibe el nombre de desviación típica.
Ejemplo 2.6: Uso de la media y de la desviación típica. Cien niños tratados han tenido
fiebre durante una media de 3 días. La desviación típica (o estándar) ha sido de 1 día. Se
están describiendo los resultados obtenidos en la muestra: el centro se ha situado en 3 días y
los niños se alejaban de este centro, en promedio, 1 día (se entiende que se alejaban por
arriba y por abajo).
Para interpretar si la desviación típica es grande o pequeña es útil el siguiente truco. Al ser
promedio de distancias (cuadradas), habrá distancias mayores y menores, que se equilibrarán
mutuamente. Así, para “compensar” a un valor que coincida exactamente con la media, es decir,
que tenga un desvío igual a 0, se necesita otro valor que tenga un desvío de 2: así, grosso modo, los
casos estarán a una distancia de 2 desviaciones típicas, tanto por encima como por debajo de la
media.
Ejemplo 2.7: Si la media de la fiebre era de 3 días y la desviación típica de 1 día, puede
aproximarse que los niños han tenido fiebre entre 1 y 5 días.
Ejemplo 2.8: Soriano et al (Med Clín 2003;121:81-5, datos redondeados): “la edad media
(desviación típica) de los 11 pacientes con infección de PTC era de 70 (10) años”. El centro
de la distribución está en 70 años, pero no significa que todos los pacientes tengan 70 años,
sino que están a su alrededor. La distancia o desviación típica que mantienen con el centro
vale 10. Esta cifra representa el alejamiento “típico”. En una primera aproximación, cabe
imaginar que estos pacientes tienen edades comprendidas entre 50 y 90 años.
Nota: Esta aproximación puede hacerse al revés: un primer cálculo de la desviación típica en una variable
simétrica, divide por 4 la distancia entre el valor más alto y el más bajo.
Recuerde
La varianza es el promedio de las distancias con la media elevadas al cuadrado.
La desviación típica es su raíz cuadrada y valora el promedio de las distancias con
la media: representa la distancia típica o esperada de una observación con la
media.
26
Bioestadística para no estadísticos
Ejercicio 2.9
El personal de cierto hospital camina a una velocidad media de 3km/h, siendo los
extremos de velocidad 2km/h y 4km/h aproximadamente ¿Qué valor aproximado
cree que puede tener la desviación típica?
Ejercicio 2.10
Los 21 pacientes con infección de la HAC tenían una edad media (DE) de 82 (8)
años. Interprete la media y la desviación típica. ¿Entre qué márgenes aproximados
cabe esperar que fluctúe la edad de estos pacientes?
Ejemplo R
La desviación típica es el estadístico por excelencia para valorar las dispersiones, pero requiere que
exista escala de intervalo.
Nota: se ha visto que existe escala de intervalo cuando hay unidad de medida. Es decir, cuando siempre
significa lo mismo un aumento de una unidad. Esta situación es verosímil cuando la variable es simétrica.
Un ejemplo de asimétrica es el salario: no significa lo mismo un aumento mensual de 100€ para quien
gana 500€ que para quien gana 5000€. Tampoco significa lo mismo aumentar las GOT de 10 a 40 que de
310 a 340. Las variables salario y GOT tienen una marcada asimetría, con una cola muy larga en el
extremo superior (Figura 2.6). En esta situación, la desviación típica pierde sentido, ya que no puede
interpretarse de la misma forma en ambas colas de la distribución.
27
Principios generales
Figura 2.6. Si la distribución es asimétrica, la desviación típica no puede representar simultáneamente las
distancias superiores e inferiores a la media
Recuerde
Una distribución simétrica facilita interpretar el valor de la desviación típica.
Si las variables son muy asimétricas puede renunciarse a la unidad de medida. Para valorar la
dispersión en la escala ordinal hemos visto la distancia intercuartil.
Ejemplo R
La Tabla 1.4 muestra las propiedades mínimas que requiere cada estadístico. Así, por ejemplo, la
media requiere escala de intervalo, pero la moda puede ser empleada en cualquier escala.
Ejercicio 2.11
Suponga que ha medido la presión arterial sistólica a 5 pacientes, 115, 117, 124,
135 y 142 mmHg.
a) Sin hacer el cálculo, diga qué valor aproximado le parece correcto para la
media:
28
Bioestadística para no estadísticos
b) Suponga ahora que el resultado observado en los 5 pacientes ha sido 100, 125,
130, 135 y 160 mmHg, con una media de 130 mmHg. Sin hacer el cálculo, diga
qué valor aproximado le parece correcto para la desviación típica:
15 mmHg 20 mmHg 25 mmHg
Recuerde
Definición
Si xi es el valor de la observación i-ésima y , la media muestral.
Varianza muestral
Fórmulas abreviadas
Digamos, para terminar, que la variabilidad no tiene porqué ser molesta. Al contrario, puede ser
fuente de información o de mejora.
29
Principios generales
Ejemplo 2.9: los “errores” en la duplicación del DNA introducen ciertas variaciones que se
traducen en individuos de diferentes características. La evolución de las especies se produce
porque el entorno selecciona a las unidades mejor adaptadas. La selección natural precisa,
por tanto, de la existencia de variabilidad.
Ejemplo 2.10: ciertas rutinas de programación generan, al azar, muchas posibles soluciones
de un problema. Luego se seleccionan las mejores y se vuelve a añadir ruido para reiniciar
este pequeño ciclo.
Historieta: en el paradigma de la uniformidad, las diferencias con el patrón se llaman desvíos, pero en la
sociedad de la información se abre paso el paradigma biológico de la diversidad y las diferencias
empiezan a ser un valor positivo. Demos pues la bienvenida a la diversidad y olvidemos las
connotaciones negativas del término ‘desviación’. Un término más positivo, especialmente en el ejemplo
de las parejas, podría ser “diversión típica”. Seguiremos buscando…
Ahora bien, podría ser que en dicho poblado existiera una gran dispersión y nuestro
conocido pasara desapercibido dentro de los altos. O podría ser que todos los habitantes
estuvieran muy cerca de la media y nuestro conocido enseguida resaltara. Ahora queremos
saber cuánto vale la desviación típica. Si fuera de 20 cm, nuestro conocido sería alto, pero
sin destacar entre los altos: sería un “alto típico”. En cambio, si la desviación típica fuera de
2 cm, sabemos que la altura de nuestro conocido resaltará mucho entre las de sus vecinos.
30
Bioestadística para no estadísticos
Definición
El procedimiento estadístico de tipificar o estandarizar el valor de una variable
consiste en restarle la media y dividirlo por la desviación típica.
valor observado - media
z = desvío tipificado = -----------------------------------
desviación típica
Valores de z alrededor de 1 ó –1 representan distancias típicas al valor central. Valores cercanos a 0
representan valores muy próximos al centro de la distribución. Y valores de z mayores que 2 (o
menores que –2) representan individuos que se están alejando más del doble de lo que se aleja el
individuo típico.
En cambio, si la desviación típica del poblado fuera 2 cm, el desvío tipificado de nuestro
amigo sería 10:
Ejercicio 2.13
En cierta población, el colesterol HDL tiene una media de 45 mg/dl y una
desviación típica de 10 mg/dl. Un paciente con colesterol de 70, ¿qué desvío
tipificado tiene? ¿Cómo interpreta este valor? ¿Y para un paciente con 35 mg/dl?
Ejemplo 2.11 (cont): El hipotético desvío tipificado de nuestro amigo de 1 indica que
nuestro amigo es un alto típico. En cambio, el desvío de 10 indica que nuestro amigo tiene
una altura atípica. Desde un punto de vista estadístico, se trata de un caso “raro”, extremo.
Recuerde
Un caso que se aleje más de 2 DT está fuera de la banda (“outlier”).
Ejemplo 2.12: Un outlier sería un señor que mida más de 210 cm (criterio univariante) o un
señor de 180 cm que pese 55 Kg (criterio bivariante).
Nota: dónde ponemos la banda o límite es arbitrario. Evite sacar conclusiones precipitadas.
31
Principios generales
Historieta: Un caso fuera de límites (outlier) puede ser un elemento extra-ordinario que sí pertenece
a esa población (Figura 2.7 (izquierda)); pero también puede ser una contaminación en la muestra
(Figura 2.8 (derecha)).
Figuras 2.7 y 2.8: Dos tipos diferentes de outlier: el de la izquierda pertenece a la población, el de la derecha, no.
Conviene distinguir entre situaciones imposibles (p. ej., 300 cm) o situaciones raras pero posibles
(p. ej., 227 cm). Un outlier alerta sobre posibles errores de trascripción, o posibles contaminaciones
de la muestra, pero no es ninguna prueba definitiva de dato erróneo, por lo que se deben consultar y
revisar estas anomalías. No se aconseja eliminar un caso por criterios de “rareza” estadística.
Ejercicio 2.14
La variable RFS tiene una media de 400 y una desviación típica de 150. Defina
criterios para detectar datos “sospechosos” en las semanas 0, 6, 12 y 24 del
estudio. ¿Qué hará con estos casos?.
Ejercicio 2.15
Si consulta al investigador que generó los datos, ¿cuándo le parece más oportuno?
32
Bioestadística para no estadísticos
criterios de selección. Por ello, hay que mirar la descripción de los pacientes incluidos, usualmente
en las tablas o en el texto.
Ejemplo 2.13: Bobes: “Los 168 sujetos incluidos en el estudio (52 pacientes estables, 116
inestables) … fueron en su mayoría mujeres (85 y 82%, respectivamente), con una media
(DE) de edad de 47 (12) y 45 (13) años, respectivamente, y nivel de estudios primario. En
ambos grupos, la mayoría de pacientes estaba en situación laboral activa (el 35 y el 47%), si
bien también fue importante el porcentaje de amas de casa incluidas (el 29 y el 35%).”
Las guías de publicación (p.e. CONSORT punto 15) explican con detalle cómo se han de presentar
los datos tanto de las variables continuas como de las variables discretas.
Nota técnica: Observe que esta directriz dice que el error estándar y los intervalos de confianza (todavía
no estudiados) no sirven para describir las condiciones iniciales de los casos.
Ejercicio 2.16
¿Cómo representaría los resultados de las siguientes variables?
a) Glicemia en ayuno en personas sanas
b) Transaminasas en enfermos
c) Grado de cardiopatía (nivel I a IV) según NYA
d) Presión arterial sistólica
En general, por eficiencia, las revistas sugieren dar la descriptiva detallada en tablas. Aunque
permiten resaltar algo en el texto, no les gustan las repeticiones.
33
Principios generales
34
Bioestadística para no estadísticos
1.2 La clase social, en alta, media y baja es otro ejemplo de escala ordinal. Un “score”, tipo test de Apgar, entre 0
y 10, cumple las propiedades de orden: un recién nacido con valor de 10 está mejor que otro con 9 y así
sucesivamente.
1.3 El peso de un paciente está en escala de intervalo: la diferencia entre un sujeto con 65 y otro con 70 Kg. es la
misma que la que existe entre otros dos de 85 y 90 Kg.
1.5 Físicamente, la fracción de eyección tiene unidad de medida y cero absoluto; pero en su interpretación clínica,
como nivel de rendimiento cardíaco, no somos nosotros los que debemos decidir si significa lo mismo subir de
28 a 32%, que de 52 a 54%: un clínico debe valorar si estos cambios se interpretan de la misma forma para
decidir la escala y la mejor forma de resumirla (media y SD si acepta unidad de medida, mediana y rango
intercuartil, en caso contrario).
1.6 Desde el punto de vista de escala de medida, el recuento de CD4 posiblemente estaría en una escala
cuantitativa de intervalo, con un mismo significado del incremento al pasar de 150 a 200 que de 550 a 600.
Una primera dificultad aparece si el aparato de medida precisa un valor mínimo, pongamos 20, para poder
detectar los linfocitos. Si fuera así, tendríamos que se trataría de una variable “censurada”, en la que todos los
valores inferiores a 20 han sido reconvertidos en un único valor “no detectado”. De esta forma, se dispondría
de una variable parcialmente de intervalo y parcialmente nominal u ordinal. Otra dificultad es si esta variable
se pretende utilizar como indicadora de una variable subyacente, no directamente observable, como podría ser
la evolución de ese paciente ante su enfermedad. ¿Aún significa lo mismo un incremento de 150 a 200 que de
550 a 600? ¿O de 375 a 425? Posiblemente no. Todo apunta a que debamos ‘movernos’ desde la visión
operativa de la medida hacia la visión representativa y preguntarnos, no por la escala, sino por la validez y la
fiabilidad. Esta última será posiblemente alta en el sentido de que, repetida la determinación de CD4 se
obtienen valores similares. Pero esta fiabilidad será no tan alta si lo que se pretende que sea similar es la
evolución, por lo que deberá matizarse también cómo se define la fiabilidad. En cuanto a la validez, se trata de
estudiar cómo ayudan los valores de CD4 a predecir esta evolución, lo que puede estudiarse, por ejemplo, con
la ayuda de términos como sensibilidad y especificidad estudiados más adelante.
1.7 El examen MIR es menos válido, ya que mide la capacidad de contestar unas preguntas, no la de actuar
profesionalmente. En cambio, es mucho más fiable, en el sentido de que si se repite la evaluación de un mismo
individuo (con otras preguntas) se obtendrán puntuaciones mucho más similares (sea quien sea el evaluador)
que si se cambia el paciente-caso o el examinador. [Y no olvidemos que el evaluador puede estar sometido a
muchos sesgos, pero eso es quizás otra discusión.]
2.1. No. No suma el 100%. Es decir, no es el gráfico de una sola variable sino de varias: está poniendo en la misma
figura el porcentaje de pacientes que cumplen cada uno de esos criterios. Como cada paciente puede tener más
de uno, están recogidos en variables diferentes. En resumen, no es un histograma ni un diagrama de barras ya
que éstos representan una sola variable.
35
Principios generales
2.2. Que engaña: la impresión visual del tamaño viene por el área, no por la altura. Pero en este gráfico la
proporcionalidad parece ser con la altura no con el área.
B) Esta segunda pregunta es muy difícil. El capítulo 4 aborda a fondo está cuestión. Digamos, por ahora, que el
porcentaje de bajo peso (variable posterior) según nivel de periodo (variable inicial) es más interpretable.
2.4. Se obtiene que la mediana de los bebés prematuros es más de 800 g. inferior.
>tapply(bweight,preterm,median)
0 1
3282 2404
2.6. El cuartil 1 equivale al percentil 25; el cuartil 2, al percentil 50 y el cuartil 3, al percentil 75.
2.7. Todos los estadísticos se toman de la función summary a excepción de la desviación típica.
>valores<- c(115, 117, 124, 135, 142)
>summary(valores)
Min. 1st Qu. Median Mean 3rd Qu. Max.
115.0 117.0 124.0 126.6 135.0 142.0
>sd(valores)
[1] 11.63185
La media es 126.6; la mediana, 124; el primer y tercer cuartil son 117 y 135 respectivamente; el IQR vale 18
(135 – 117); y la desviación típica es 11.6.
36
Bioestadística para no estadísticos
25 30 35 40
Edad de la madre
2.9. Si podemos aceptar que alguien que camina muy despacio va a 2 Km/h y alguien muy rápido a 4 Km/h, cabe
esperar una desviación típica próxima al valor 0.5 Km/h, dado que (4-2)/4 es 0’5.
2.10. El doble de la desviación típica es 16, que restado y sumado de 82, da 66 y 98. Se trata de una población
anciana (82 años) pero que cubre un amplio margen, ya que posiblemente fluctúa entre 66 y 98.
b) 15 (en este caso, dados los pocos datos, la aproximación de dividir el rango entre 4 no es tan buena. El valor
real es 21.5 mmHg.)
2
2.12. a) Media x = 120 mmHg; variancia S 1000 / 4 = 250 mmHg, y desviación típica S =
16 mmHg.
c) La desviación típica del segundo enunciado es muy inferior, ya que sólo incluye las oscilaciones debidas a
las fluctuaciones intra-caso, que pueden ser debidas a cambios en el individuo pero también a errores en el
procedimiento de medida. En el primer caso, además de estas oscilaciones, también aparecen las debidas .a las
diferencias entre individuos.
2.13. Al paciente con un valor de 70 mg/dl le corresponde un desvío típico de +2.5, lo que indica que está por
encima y de forma marcada, ya que tiene 2.5 veces la distancia habitual de los valores con la media. El
paciente con un valor de 35mg/dl tiene un desvío típico de -1, lo que indica que está por debajo, pero ahora de
forma típica. Estadísticamente, el primer caso podría ser considerado como un caso extremo. Ello requiere
ahora una discusión clínica.
2.14. Con esta media y desviación típica, los casos deberían estar comprendidos entre:
Valores = media 2 desviación típica = 400 2·150 400 300 = [100, 700]
Así, los valores que fueran inferiores a 100 o superiores a 700 serían ‘sospechosos’ de acuerdo con este criterio
univariante. [De forma simple, un criterio bivariante podría establecer como sospechoso a un paciente que
sufriera variaciones de su CD4 superiores al 50%.]
37
Principios generales
Estos casos deberían ser contrastados con mucho cuidado, de acuerdo con su historia clínica, a la búsqueda de
posibles errores de trascripción. Si no se encuentran errores, el valor debe darse por bueno.
Al estudiar la distribución Normal veremos que este intervalo (cambiando 2 por 1.96) contiene el 95% de las
observaciones si la distribución tiene forma de campana.
2.15. Por supuesto, lo más próximo al momento en el que se generó el dato. De lo contrario, puede llegar a ser
imposible verificarlo.
2.16. a) Media y desviación típica, ya que por experiencia previa cabe esperar una distribución simétrica.
b) Mediana y cuartiles 1 y 3 (o percentiles 25 y 75, que son lo mismo), ya que no parece simétrica.
38
Capítulo 4:
Probabilidad,
riesgo, odds y tasa
Septiembre 2014
1
Bioestadística para no estadísticos
Presentación ......................................................................................................................................... 2
1. Probabilidad ........................................................................................................................... 3
1.1. Introducción a la probabilidad .................................................................................................. 3
3.7 Relación entre HR y las medianas de los tiempos hasta el evento. ........................................ 26
Soluciones a los ejercios 27
* Indica tema más avanzado que conviene mirar pero no es crucial para los ejercicios.
1
Presentación
No es ningún secreto que muchos fenómenos son inciertos. A las mentes más deterministas les
gusta pensar que esta incertidumbre es el resultado de la falta de conocimiento: si se supieran cuáles
son todas las fuerzas que actúan en un momento dado y cómo lo hacen, se podría predecir
exactamente el resultado.
El modelo estadístico divide a estas causas en dos grandes grupos: el primero lo forman un número
limitado con suficiente entidad para que su efecto pueda ser estimado y modelado de forma clásica.
En cambio, el segundo grupo es ilimitado y con influencia reducida: son tantas, y con efectos tan
pequeños, que la única manera de modelar el resultado de su influencia es mediante las teorías de
combinatoria y de probabilidad.
En este capítulo se introducen, con la ayuda de ejemplos, conceptos necesarios para interpretar los
resultados de una prueba diagnóstica, la capacidad predictiva de un indicador, el concepto de riesgo
o las medidas de comparación de riesgos. Para aquellas situaciones en las que varía el tiempo de
seguimiento, se introducen las tasas.
2
1. Probabilidad
Definición
La probabilidad, desde el punto de vista subjetivo es la expectativa de que ocurra
un suceso.
Lectura: Varias definiciones de probabilidad han sido propuestas. La primera definía la probabilidad
como el “cociente entre casos favorables y casos posibles”. Dada su circularidad, (exige
equiprobabilidad) enseguida se propuso sustituirla por “la frecuencia de aparición de un suceso”. En el
fondo, ambas definiciones son métodos para asignar valores a la probabilidad, es decir para conocer sus
valores, pero no definiciones formales de lo que es en sí misma la probabilidad. En el siglo pasado se
propusieron, casi al mismo tiempo, dos definiciones muy interesantes. Una de ellas, abstracta y
axiomática, permitió un desarrollo formidable de toda la teoría de probabilidad. La otra, subjetiva,
expresa en términos de probabilidad el grado de creencia en una afirmación científica, y también la
expectativa de (la ocurrencia de) un suceso. Su influencia en los conceptos de ciencia y de conocimiento
está por desarrollarse plenamente.
La Figura 1.1 representa la probabilidad del suceso A, P(A), dónde su valor concreto es
directamente el cociente entre el área sombreada (A) y el área total ( .
Definición
La probabilidad de un evento es el número de casos favorables dividido por el
número de casos posibles.
Como que las unidades del numerador son las mismas que las del denominador, éstas se cancelan y
la probabilidad no tiene unidades de medida.
Recuerde
Si el denominador de la medida de frecuencia es el número total, hablamos de
probabilidad.
3
Si representamos por “no A” al complementario de A: P(no A) = 1 – P(A).
Una gran cantidad de factores pueden modificar esta probabilidad. Para considerarlas es preciso
realizar la siguiente definición.
Definición
Probabilidad del suceso A condicionado al suceso B es la probabilidad de
aparición del suceso A sabiendo que B es cierto.
Se representa por P(A|B).
Ejemplo 1.2: La probabilidad de nacer con los ojos azules en España (suceso A) es de
aproximadamente 1/6, pero si se conoce que ambos progenitores tienen los ojos azules (suceso
B), está probabilidad condicionada se incrementa hasta 0.99 (99%).
Definición
P (A | B) = =
La probabilidad de A condicionada a B, P(A|B), estudia sólo los casos que cumplen la característica
B.
A A˄ B B
Recuerde
P(A|B) representa la probabilidad del suceso A ‘dentro’ del total de casos que
cumplen B.
4
Ejercicio 1.1
¿Qué sería en el gráfico P(B|A)? ¿Cuál sería su definición?
Ejemplo 1.3: Stephen Senn recuerda la probabilidad de que un católico sea Papa es muy
baja, pero la de que el Papa sea católico es muy alta.
Ejemplo 1.4: la probabilidad de que alguien que ha parido sea mujer es altísima, quizás 1,
pero la probabilidad de que una mujer haya parido no es tan alta.
Ejemplo 1.5: Podemos interpretar que la probabilidad de contraer cáncer (C) de pulmón si
se es fumador (F) es elevada P(C|F); pero la probabilidad de haber sido fumador si se tiene
cáncer P(F|C) es mayor.
Nota técnica: como hay más gente que fuma que con cáncer, P(F)>P(C), y como ambos
tienen el mismo numerador, P(F∩C), P(F|C)> P(C|F).
Ejercicio 1.2
Sea C tener cáncer de Mama y M ser mujer. ¿Qué es mayor, P(M|C) o P(C|M)?
1.3. Independencia
La idea de eventos independientes está ligada a la de la información que uno aporta sobre el otro: A
y B son independientes cuando la probabilidad de A es la misma indiferentemente de lo que pase
con B (B no informa sobre la probabilidad de A).
5
Ejemplo 1.6: Miopía (Sí/No) y Género (Masculino/Femenino) son independientes:
Ejercicio 1.3
Explique porqué son independientes: ¿qué números compara para decirlo?
Por simplicidad, supónga que debe diagnosticar una sola enfermedad con dos únicos posibles
estados, enfermo (E) y sano (S); y que se dispone de un único indicador con dos posibles valores,
positivo (+) y negativo (-).
Lectura: Bossuyt, Reitsma, Bruns ponen como ejemplo de una buena definición de objetivos en el
resumen de un original: “Purpose: To determine the sensitivity and specificity of computed tomographic
colonography for colorectal polyp and cancer detection by using colonoscopy as the reference standard.”
Recuerde
La primera dificultad es definir las variables: (1) la referencia o gold standard
mide “perfectamente y sin error”, enfermo/sano; y (2) el resultado del test,
indicador o prueba que se desea estudiar.
Definición
Sensibilidad (Sens): tendencia o propensión de los enfermos a dar positivo (en
esta prueba).
6
Valor predictivo negativo (VP-): confianza o credibilidad de un resultado
negativo.
Ejemplo 1.7: Una prueba sería muy-muy sensible si, aplicada a un conjunto de enfermos,
casi el 100% dan positivo. Y tendrá un elevado valor predictivo positivo si casi el 100% de
los que dan positivo están realmente enfermos. ¡Parecen lo mismo, pero no lo son!
Ejercicio 1.4
Relaciones estas 4 probabilidades condicionadas con los 4 conceptos anteriores de
sensibilidad, especificidad y valores predictivos positivo y negativo.
Tabla 1.1. Probabilidades diagnósticas en una muestra con un 13.2% de enfermos. Sensibilidad y Especificidad
son los porcentajes de fila, pero los VP son los porcentajes de columna.
A pesar de que los valores de sensibilidad y especificidad son muy similares, los valores
predictivos se alejan considerablemente entre sí: la probabilidad de que un paciente que dé
negativo esté sano (VP-) es alta, pero la probabilidad de que un paciente que dé positivo esté
7
enfermo (VP+) es baja. La razón es muy simple: hay más sanos (86.8%) que enfermos
(13.2%) y al calcular los VP, que son proporciones sobre el total de la columna, la segunda
fila ‘pesa’ más que la primera.
Ejercicio 1.5
Reconstruya la siguiente tabla si sensibilidad = especificidad = 100%. ¿Se cumple
que ambos valores predictivos son del 100%?
Recuerde
Si la sensibilidad y la especificidad son ambas del 100%, no hay duda: un caso
positivo está enfermo y un negativo está sano.
Ejercicio 1.6
Mirando a la tabla construida en el ejercicio anterior, para que el valor predictivo
positivo sea perfecto (VP+ = 100%), ¿qué necesita que sea del 100%, la
sensibilidad o la especificidad?
Recuerde
Sensibilidad perfecta implica VP- perfecto (100%).
Especificidad perfecta implica VP+ perfecto (100%).
Ejercicio 1.7
Intente explicar con sus propias palabras lo que miden la sensibilidad, la
especificidad y ambos valores predictivos.
Ejercicio 1.8
Un signo es patognomónico si su presencia asegura definitivamente la
enfermedad: ¿alguna de las probabilidades diagnósticas es del 100%?
8
Ejemplo 1.9: Tal y como puede observarse en la Tabla 1.2, si cambiamos P(E) de 0.132 a
0.75, aunque mantengamos la sensibilidad y la especificidad iguales a las anteriores, los
valores predictivos cambian.
Tabla 1.2 Probabilidades diagnósticas en un entorno muy especial, con un 75% de enfermos
Un observador poco atento podría olvidar las condiciones del entorno y esperar que, si un 70% de
los enfermos dan positivo, aproximadamente un 70% de los positivos estarían enfermos.
Ejercicio 1.9
Repita los cálculos, suponiendo que dispone de 2 muestras de 1000 casos, una par
a enfermos y otra para sanos. (Tabla 1.3)
+ - Total
Enfermo 712 288 1000
Sano 248 752 1000
Total 960 1040
En el ejercicio anterior ambas filas pesan lo mismo ya que ambas filas se han fijado
‘artificialmente’, por lo que estos valores predictivos sólo aplicarían a la irreal situación en la que
ambas filas fueran igual de frecuentes.
Recuerde
Muchos diseños se basan en 2 muestras (enfermos y sanos) obtenidas por
separado. Como sus números de casos los decide el investigador, no permiten
calcular directamente los valores predictivos.
9
Cuando el número de enfermos y de sanos está fijado por muestreo, el cálculo de los VP debe usar
el método explicado en el siguiente apartado.
Recuerde
La sensibilidad y la especificidad quizás puedan ser transportables de una
población a otra, pero los valores predictivos seguro que no, ya que dependen de
la frecuencia de la enfermedad en cada población.
Ejemplo 1.10: suponga dos poblaciones diferentes: (1) prisioneros con hábitos de riesgo y
(2) profesionales sanitarios. Asumamos que, en la primera población, la frecuencia de SIDA
es mucho mayor. Y supongamos que 2 casos, uno de cada entorno han dado positivo.
¿Tienen la misma probabilidad de tener el SIDA?
El teorema de Bayes permite resolver este problema, ya que combina ambas piezas de información
(la proporción de enfermos de la población con el rendimiento del indicador, resumido en sus
valores de sensibilidad y especificidad) para obtener los valores predictivos.
Definición.
10
El teorema de Bayes permite invertir condicionante y condicionado: a partir de P(A|B) se obtiene
P(B|A) y por tanto, a partir de P(+|E) se llega a P(E|+).
Ejemplo 1.11: Sea A = “Estar infectado por el virus de la Gripe A” y B = “Tener fiebre
superior a 38ºC”, entonces dicha fórmula permite conocer la proporción de Gripe A entre
los que tienen fiebre, o P(A|B), a partir de la proporción de fiebre entre los de Gripe A, o
P(B|A); y la prevalencia, o P(A).
P( A B)
P( A B) P( A B) P( A B)· P( B)
P( B)
Y entonces P( A B) P( A B)·P( B)
P( B A)
P( A) P( A)
Nota: la fórmula de Bayes se puede expresar también mediante la descomposición del denominador A en
los dos sucesos A˄ B y A˄ (no B) que lo componen .
Recuerde
P( E )·P( E ) 0.712·0.132
P( E ) 0.304
P( E )·P( E ) P( S )·P( S ) 0.712·0'132 0.248·0.868
Ejercicio 1.10
Compruebe que sabe calcular el valor predictivo negativo.
Recuerde
El teorema de Bayes, a partir de la proporción de enfermos, la sensibilidad y la
especificidad proporciona los valores predictivos.
11
El teorema de Bayes permite ir actualizando la información: su fórmula “mezcla” la información
previa, disponible “a priori” P(E), con los nuevos resultados (+ ó -).
Ejercicio 1.11
Volvamos al ejemplo del resultado positivo del SIDA en un recluso con hábitos
de riesgo y en un colega. Suponga que en el primer colectivo, la proporción de
SIDA es un 80% y en el segundo un 1%. Además, tanto sensibilidad como
especificidad valen 0.95. Calcule VP+ en ambos casos.
Recuerde
Información a priori + nueva información = Información a posteriori.
2. Riesgos y tasas
2.1. Riesgo
Definición
En sentido amplio, riesgo es la probabilidad de que algo desfavorable (un evento
negativo) ocurra.
Ejemplo 2.1: según Baños et al (3), la Food and Drug Administration (FDA) considera
lícito someter a los voluntarios de estudios sin beneficio terapéutico, a un riesgo “mínimo o
insignificante”, que define como una probabilidad de entre 1 y 100 por mil de sufrir una
complicación menor; o de entre 10 y 1000 por millón de sufrir una grave.
Nota: En Medicina, riesgo y probabilidad suelen ser sinónimos. Pero la definición de función de riesgo
en teoría de la decisión incluye también las consecuencias (“pérdidas”). Así, aunque (supongamos) las
probabilidades de padecer en cierto tiempo gripe y cáncer sean iguales, para matemáticos, estadísticos y
economistas el “riesgo” de la segunda es mayor. En esta línea, la definición anterior de “mínimo o
insignificante” por la FDA, baja la frecuencia cuando sube la gravedad. Sin embargo en lo que queda de
capítulo, usaremos el término riesgo por su acepción usual en Medicina y Epidemiología, es decir, como
sinónimo de frecuencia, sin considerar las consecuencias.
12
Ejemplo 2.2: Suponga que una enfermedad (Y) y su Factor de Riesgo (X) sólo pueden
tomar dos valores: presente (+) y ausente (-). Así, Y+ representará tener la enfermedad; y
X-, que no está expuesto al factor de riesgo.
En la tabla 2.1 puede leerse que de 1000 casos, 15 presentaban la enfermedad, de los que 7
estaban expuestos y 8 no.
Y+ Y- Total
X+ 7 125 132
X- 8 860 868
Total 15 985 1000
Tabla 2.1 Presencia de la enfermedad (Y) ydel factor de riesgo (X) en 1000 casos
Ejercicio 2.1
Carmina R. Fumaz compara 2 grupos de pacientes tratados, uno con Efavirenz
(EFV, n=51) y otro con Inhibidores de la Proteasa (PI, n=49), habiendo observado
respectivamente, 36 y 9 acontecimientos adversos relacionados con el sistema
nervioso central. Construya la tabla 2x2 y calcule los riesgos respectivos.
Ejemplo 2.3: así, mientras nosotros diríamos que cierto caballo tiene 7 números sobre (un
total de) 8 de ganar una carrera, los anglosajones suelen decir que los números de este
caballo están 7 a favor frente a 1 en contra.
Recuerde
Si el denominador de la medida de frecuencia es el número de “casos en contra”,
hablamos de odds.
Ejemplo 2.4: en los ambientes de apuestas (pelota vasca, carreras de galgos,…) se dice, por
ejemplo, que las apuestas por el pelotari A están 7 momios a 1. Su gran ventaja es que
13
facilita el cálculo del premio: además de recuperar su inversión, los que apuestan por A
obtendrían 7, pero los que lo hagan por B, 1/7 (además de recuperar su inversión).
Recuerde
Usar odds permite calcular rápidamente el momio o beneficio potencial de una
apuesta.
Definición
La odds de A es la probabilidad de que se presente el suceso A dividida por la
probabilidad de que no se presente A.
Ejercicio 2.2
¿Cuánto valen la probabilidad y la odds de sacar un “3” en el lanzamiento de un
dado? En un juego de apuestas “justo” ¿Cuánto debería pagarse si saliera un 3?
(¿A cuánto estará el momio?)
Nota: si la probabilidad de enfermedad es muy pequeña, la probabilidad de sano será muy próxima a 1,
por lo que la odds tendrá un valor muy similar a la probabilidad:
P (enfermo) P (enfermo)
Odds (enfermo) P (enfermo)
P ( sano ) 1
Recuerde
En el caso de enfermedades “raras”, riesgo y odds dan resultados similares.
Ejemplo 2.5 (continuación): La odds en los expuestos vale 0.056 [O(Y+|X+) = 7/125
0.056], muy similar al 0.053 anterior del riesgo en los expuestos.
14
En los no expuestos la similitud es aún mayor: la odds vale 0.0093 y el riesgo 0.0092.
Ejercicio 2.3
El dolor lumbar o la gripe son enfermedades comunes en el sentido de que a lo
largo de la vida es fácil padecerlas al menos en una ocasión. Pongamos que sus
probabilidades respectivas son 0.5 y 0.8. Calcule sus odds. La esclerosis Múltiple,
en cambio, es muy poco frecuente. Pongamos que la probabilidad de padecerla a
lo largo de la vida vale 0.001 (uno por mil). Calcule la odds. Interprete.
De la misma forma que los valores predictivos no podían calcularse si el diseño implicaba dos
muestras, una de enfermos y una de sanos, el siguiente ejercicio muestra que según el diseño del
muestreo tampoco pueden calcularse los riesgos.
Ejercicio 2.4
Repita los cálculos en con la tabla 2, con los datos de dos muestras de 1000 casos,
una de fumadores y otra de no fumadores.
Repita una vez más, suponiendo ahora que las dos muestras de 1000 casos
corresponden, una a bronquíticos y otra a no bronquíticos (Tabla 3).
Recuerde
Si se fija por diseño el número total de casos con la enfermedad y el número de
casos sin la enfermedad, ya no puede calcular ni los riesgos ni las odds de
desarrollar la enfermedad (ni en los expuestos, ni en los no expuestos).
15
2.3. Odds y Bayes
Trabajar con odds en lugar de con probabilidades simplifica Bayes: la odds a posteriori de enfermo
a sano es la odds a priori por la razón de verosimilitud (likelihood ratio).
Recuerde
Odds a posteriori = Odds a priori * razón de verosimilitud
P( E | ) P( | E ) P( E ) / P( ) y P( S | ) P( | S ) P( S ) / P( )
Recordando la definición de la odds, Odds(E) = P(E) / P(S) y aplicándola a las probabilidades
condicionadas anteriores, se pueden obtener las odds “a posteriori” entre enfermo (E) y sano (S), una vez
conocido el resultado positivo de la prueba:
P( E | ) P( | E ) P( E ) / P( ) P( | E ) P ( E )
= = ·
P( S | ) P( | S ) P( S ) / P( ) P( | S ) P ( S )
Ejemplo 2.6: A partir de los datos del Ejemplo 1.8, RV+ (razón de verosimilitud) vale
Así, deberá multiplicar las odds a priori por 2.87 (aproximadamente 3) para obtener las odds
a posteriori. Si en cierta consulta privada hay 1 enfermo por cada 3 sanos (odds a priori);
una vez haya dado positivo el indicador diagnóstico, habrá 1 enfermo por cada 1 sano:
En cambio, si en urgencias hay 7 enfermos por cada sano (odds a priori = 7), entre los que
den positivo, habrá 20 enfermos por cada sano:
16
Recuerde
Odds a priori: razón enfermo/sano propia de un entorno
Odds a posteriori: razón enfermo/sano en un entorno tras un resultado positivo
Razón de verosimilitud: razón de las probabilidades de positivo entre enfermos y
sanos
Ejercicio 2.5
Suponga que el resultado de la prueba en el ejemplo anterior ha sido negativo,
¿Cuánto vale la RV de un resultado negativo? ¿Cuánto vale la odds a posteriori de
un resultado negativo?
En resumen, la odds conduce a cálculos más simples y directos. Ésta representa su principal ventaja y el
motivo de su aplicación en la práctica clínica: En el libro de Guyat et al. puede ver numerosas
aplicaciones clínicas.
log( Odds posteriori) log( LR * Odds priori) log( LR ) log( Odds priori)
Es decir, los logodds a priori más la información aportada por el resultado empírico (“función soporte”),
proporcionan los logodds a posteriori.
2.4. Tasa
En muchas ocasiones, los casos se observan durante un tiempo variable que conviene tener en
cuenta. La tasa incluye en el denominador este tiempo de seguimiento. El riesgo así calculado es el
cociente entre un número de eventos y una suma de tiempos de seguimiento, por lo que ya no se
trata de una probabilidad (casos posibles entre casos totales).
Definición
Tasa es una relación entre 2 magnitudes. En nuestro caso, la frecuencia de un
evento relativa, en general, al tiempo.
Ejemplo 2.7: Regidor E et al. En 1998 se produjeron en España 360511 defunciones, lo que
supone una tasa de mortalidad de 915.7 por 100000 habitantes en un año de seguimiento —
17
o, como generalmente se interpreta, por 100000 habitantes seguidos durante 1 año. En la
Tabla 2.2 aparecen ordenadas jerárquicamente, en virtud del número de fallecimientos, las
12 causas de muerte estudiadas.
Tabla 2.2 Principales causas de muerte en España en 1998. Número de defunciones, tasas anuales de mortalidad,
mortalidad proporcional y porcentajes de cambio de 1995 a 1998 y de 1980 a 1998. (Modificada)
Recuerde
El término “por” en la expresión “tantos casos por tantos años de seguimiento”
significa “dividido por”, no “multiplicado por”.
Si el riesgo es constante a lo largo del seguimiento, basta con un único valor para representarlo: la
tasa de riesgo anterior. Pero si va cambiando a lo largo del seguimiento, necesitamos especificar
cuánto vale este riesgo en cada momento del tiempo, lo que llamamos “riesgo en función del
tiempo” o, más brevemente, función de riesgo. Como analogía, podemos decir que la tasa
representa cierta velocidad promedio de aparición de eventos: igual que en un viaje, esta velocidad
puede ser más o menos variable. Cuanto menos varíe (“más constante”), más útil será una tasa
global; pero cuanto más varíe, más información aporta conocer su valor exacto en cada momento
mediante la función de riesgo. En “supervivencia” volveremos a verlos.
Recuerde
Si el denominador de la medida de frecuencia incluye el tiempo de seguimiento,
hablamos de tasa.
18
2.5. Incidencia y prevalencia
Definición
La incidencia estudia el número de casos nuevos durante un período de tiempo.
Ejemplo 2.8: Cohn et al. Sostienen que la incidencia de la combinación de eventos que
definían la respuesta de interés fue un 13.2% menor con Valsartán que con placebo.
Definición
La prevalencia estudia el número de casos en un momento de tiempo.
Ejemplo 2.9: Martín et al. La prevalencia de asma varía entre países de Europa, con cifras
que oscilan entre un 8% en el Reino Unido y un 2% en Grecia. También existen amplias
diferencias entre zonas de un mismo país, encontrándose en España cifras entre el 5 y el 1%.
Recuerde
Incidencia valora casos nuevos y prevalencia, los existentes.
Una analogía habitual para explicar estos flujos es la fuente de la figura 2.1.
19
Figura 2.1: El flujo que llega a la fuente es la incidencia de nuevos casos, mientras que lo acumulado en el depósito es
la prevalencia, que disminuye por las tasas de curación y de letalidad.
3. Asociación
Conviene estudiar qué características previas son independientes de la evolución y cuáles están
asociadas y pueden, por tanto, ayudar a predecirla.
Ejemplo 3.1. Veamos un ejemplo sencillo: el riesgo o probabilidad en los expuestos era de
un 5.3% [P(Y+|X+) = 7 / 132 0.053], mientras que en los no expuestos era del 0.9%
[P(Y+|X-) = 8 / 868 0.009]: ¿Cuán distintos son 5.3 y 0.9%?
Nota: tradicionalmente se usaba el nombre riesgo atribuible, pero da a entender que este incremento del
riesgo viene originado, causalmente, por la exposición al factor; por lo tanto mejor evitarlo para impedir
que se interprete que la relación es de causa-efecto.
Definición
La diferencia de riesgos (RA) es la diferencia entre las proporciones de casos en
expuestos y en no expuestos
20
Recuerde
La diferencia de riesgos debe valorarse únicamente a nivel predictivo: los
expuestos tienen ese mayor riesgo que los no expuestos.
Historieta: el riesgo de accidente es mayor en los coches rojos. Y aceptamos que los coches rojos paguen
un seguro más caro. Pero, para bajar los accidentes, no prohibimos los coches rojos.
La diferencia de riesgos puede tomar el valor máximo de 1 (ó 100%) si todos los expuestos
desarrollaran la enfermedad y, a la vez, ninguno de los no expuestos.
NOTA: Si la presencia del factor tuviera menos riesgo de enfermedad, se observarían valores negativos
(hasta –1 o –100%).Para facilitar la interpretación y expresar los resultados en positivo, basta con
intercambiar las definiciones de expuesto y no expuesto.
Definición:
El número necesario de pacientes a tratar para evitar un evento (NNT) es el
inverso del diferencia de riesgos: NNT=1/RA.
21
Nota: NNT es muy interpretable, pero que no es tan sencillo si el seguimiento es variable o si cada
paciente puede presentar más de 1 evento. Tampoco es cómodo el intervalo de incertidumbre si el de la la
diferencia de riesgos pasa por 0.
Recuerde
NNT expresa el esfuerzo para evitar 1 evento.
Definición
El riesgo en los expuestos relativo a los no expuestos es el cociente entre “riesgo
en expuestos” y “riesgo en no expuestos”.
Ejemplo 3.1(continuación): la razón entre 0.053 y 0.009 es 6, lo que indica que los
expuestos tienen un riesgo 6 veces superior (a los no expuestos).
NOTA: Los límites superior e inferior son infinito ( ) y cero (0), para las 2 situaciones extremas en las
que no hubiera ningún evento o en los no expuestos, o en los expuestos, respectivamente.
Recuerde
El RR valora la razón de riesgos.
Ejemplo 3.2: La tabla Tabla 3.1 de Banegas et al. muestra cómo aumentan los RR de
muerte cardiovascular en los pacientes con mayores presiones arteriales respecto al grupo de
referencia formado por los individuos con menores valores, “<120/80” —al que, por
definición, le corresponde un RR = 1. La interpretación del grupo con mayores presiones es:
un 3.3% de hombres tuvo cifras >180/100 y presentaron el evento con una frecuencia 3.4
veces superior que el grupo de referencia (tuvieron un 340% de eventos más que el grupo de
menor presión, <120/80). Es decir, el grupo de presión más alta tiene una probabilidad más
de 3 veces mayor de presentar un evento que el grupo de menor presión.
22
Hombres
Presión arterial (mmHg) Todas las
% causas (RR)
<120/80 20.1 1
120-129/80-84 18.1 1.2
130-139/85-89 17.2 1.3
140-155/90-99 29.1 1.6
160-169/100-109 17.2 2.2
>180/110 3.3 3.4
TOTAL 100
Definición
El odds ratio es el cociente entre la odds en los expuestos y la misma odds en los
no expuestos.
Ejemplo 3.1(continuación): la razón entre 0.056 y 0.009 es 6.2, indicando que la odds en
los expuestos es 6.2 veces superior a la odds en los no expuestos.
Como hemos dicho, si la enfermedad es poco frecuente, odds y probabilidad son similares y por
tanto también odds ratio y riesgo relativo, en este ejemplo 6.2 y 6. Ambas medidas se interpretan de
forma similar.
Ejercicio 3.1
Calcule RR, RA y OR en las tablas del Ejercicio 2.4. A pesar de que se ha dicho
que no tenía sentido calcular los riesgos ni las odds en la tercera tabla, haga
también en ella todos estos cálculos y observe qué sucede con el valor del odds
ratio.
Una gran ventaja del odds ratio sobre las medidas basadas en riesgos es que puede ser calculado en
cualquier tabla 2x2, independientemente del plan de muestreo.
Nota técnica: ello es así porque, de la misma forma que se definió el OR como el cociente entre
expuestos y no expuestos de las odds enfermo / sano [(a/b)/(c/d)] también podría haberse definido como
el cociente entre enfermos y sanos de las odds expuesto / no expuesto [(a/c)/(b/d)]. Dado que ambas
definiciones son equivalentes, el odds ratio se puede utilizar en cualquier tabla de dos filas y dos
columnas, independientemente del plan de muestreo: (a/b)/(c/d) = (a/c)/(b/d) = ad/bc [a, b, c y d
representan los cuatro valores de una tabla 2x2 – con exposición en filas y enfermedad en las columnas
— de arriba abajo y de izquierda a derecha] .
23
Recuerde:
El odds ratio tiene la gran ventaja de que se puede utilizar en cualquier estudio,
independientemente del plan de muestreo.
Ejercicio 3.2
Imagine un diseño casos-controles, en los que se escoge una muestra de enfermos
(casos) y una muestra de sanos (controles), por lo que se deja fija la variable
enfermo / sano. ¿Cuáles de las medidas anteriores (RR, RA o OR) pueden
aplicarse?
Ejercicio 3.3
¿Qué relación existe entre el riesgo relativo y el odds ratio?
Recuerde:
No puede calcular riesgos, ni su diferencia, ni su cociente en estudios casos-
control.
Nótese que la muerte no se puede evitar, tan sólo atrasar, lo que hace muy delicada la interpretación
del HR. En los puntos siguientes daremos 2 pistas para su interpretación, primero comentado que
los valores del HR ocupan un lugar intermedio entre los de OR y RR; y segundo, facilitando su
relación con el incremento de vida.
Antes, recopilemos las medidas de riesgos. La Tabla 3.2 resume las medidas más usuales,
distinguiendo por columnas entre las que se emplean para describir 1 grupo y las que se usan para
comparar 2 grupos. Por filas, distingue entre estudios transversales y longitudinales; y estos
últimos, según si el tiempo de seguimiento es fijo o variable.
24
Descripción 1 grupo Comparación 2 grupos
Prevalencia Puntual
(casos existentes) (un instante) Riesgo relativo (RR) Odds
Riesgos Odds Diferencia de riesgos (RA) ratio
Seguimiento
Número necesario (NNT) (OR)
idéntico
Ejercicio 3.4
Al decidir usar una tasa en lugar de un riesgo o una odd, la clave es…
Si el riesgo es constante a lo largo del seguimiento, basta con un único valor para representarlo: es
la tasa de riesgo que ya hemos visto antes. En cambio, si va cambiando a lo largo del seguimiento,
necesitamos especificar cuánto vale este riesgo para los diferentes momentos del tiempo: lo
llamamos función de riesgo.
Analogía: La tasa representa la velocidad de aparición de eventos: igual que un viaje, esta velocidad
puede ser variable o constante. Una tasa global puede ser útil, pero si la tasa instantánea varía, conocerla
aporta más información.
Ejercicio 3.5
La clave para usar una tasa o una función de riesgo es …
Nota: El punto de supervivencia (3) del capítulo 11 estudia más a fondo el HR.
Desgraciadamente, los artículos suelen ser creativos en el término empleado para referirse a estas 3
medidas. Si el estudio que Vd. desea interpretar usa un término parecido pero diferente, recurra al
artículo de Lisa Schwartz para ver su equivalencia con las medidas comentadas.
NOTA: Algunos autores emplean el término riesgo relativo para estas 3 medidas: RR, HR y OR.
Existe una gradación entre sus valores: OR muestra siempre mayores valores de relación que HR; y
éste mayores que RR.
25
Nota técnica: Symons MJ et al. Como valores ‘mayores’ debe interpretarse como más alejados de 1, sea
por encima o sea por debajo, la expresión formal de esta desigualdad es:
OR ≤ HRR ≤ RR ≤ 1 para factores con menor riesgo (p.e., intervenciones)
1≤ RR ≤ HRR ≤ OR para factores con mayor riesgo (p.e., exposiciones)
Ejercicio 3.6
¿Qué medida ‘realza’ el efecto de una intervención?
Los tres proporcionan valores más similares cuanto más pequeños son (1) el riesgo considerado, (2)
el efecto diferencial y (3) el periodo de seguimiento.
Dada esta similitud, algunos autores emplean de forma amplia los términos riesgo relativo y risk
ratio para referirse tanto al RR, como al OR o el HR.
Recuerde:
El cociente de riesgos más realza la relación es OR y la que menos, RR, quedando
HR entre ellas.
Recuerde:
26
Soluciones a los ejercicios
1.1 Dado que P(B|A) debe representar la probabilidad del suceso B ‘dentro’ del total de casos que cumplen A, se trata
de dividir la probabilidad de ser a la vez A y B, es decir P(A B), por la probabilidad de ser A, es decir P(A). En
P( A B)
resumen, tiene el mismo numerador que P(A|B), pero cambia el denominador. P( B | A)
P( A)
Gráficamente sería el cociente entre la zona A∩B y la zona A.
1.2 Es más grande P(M|C), dado que P(M|C) representar la probabilidad de ser Mujer del total de casos que tienen
cáncer de Mama.
1.3 0.25=P(Sí|M)=P(Sí|H)
+ - Total
1.6 Para que VP+ = 100% se requiere que los casos positivos provengan todos de los enfermos, es decir: que ningún
sano dé positivo. Por tanto, se requiere que la especificidad sea del 100% para tener un VP+ del 100%.
[Similarmente, para que el VP- sea del 100% se requiere que la sensibilidad sea del 100%.]
1.7 Una prueba sería muy-muy específica si, aplicada a un conjunto de sanos, casi el 100% dan negativo y muy-muy
sensible si, aplicada a un conjunto de enfermos, casi en su totalidad dan positivo. Un resultado tendrá un elevado
valor predictivo negativo si casi el 100% de los que dan negativo están realmente sanos y un valor predictivo de
casi el 100% si de los que dan positivo, casi todos están enfermos.
27
1.10
1.11
Población 1
Población 2
EFV: 36 15 51
PI: 9 40 49
Total 45 55 100
2.3 Odds (dolor lumbar) = P(dolor lumbar) / P(no dolor lumbar) = 0.5 / 0.5 = 1 (la odds de padecer dolor lumbar a lo
largo de la vida están “1 a 1”).
Odds (gripe) = 0.8 / 0.2 = 4 (la odds de gripe están 4 a 1: por cada persona que no padecerá gripe, hay 4 que si la
tendrán).
Odds (esclerosis múltiple) = 0.001 / 0.999 = 0.001001001 ≈ 0.001 (la odds de esclerosis múltiple está 1 a 1000).
2.4 Los resultados que figuran a continuación muestran que los riesgos y las odds de la última tabla no coinciden con
los anteriores. ¿Qué ha pasado? Nótese que la variable respuesta (bronquitis) de la tercera tabla ya no depende de
las observaciones, pues, por diseño, se ha dejado fija: se ha construido una tabla que tiene, porque así lo hemos
querido, la mitad de bronquíticos y la mitad de no bronquíticos. Estos datos, obtenidos de dos muestras de la
variable respuesta ya no sirven para calcular ni los riesgos ni las odds de desarrollar una bronquitis. Nótese que en
la segunda tabla, en la que había una muestra de fumadores y una de no fumadores sí que podían calcularse los
riesgos y las odds condicionados a fumador o a no fumador.
Riesgos Odds
Tabla 1 Tabla 2 Tabla 3 Tabla 1 Tabla 2 Tabla 3
En los expuestos: X+ 0.71 0.71 0.85 2.47 2.47 5.53
En los no expuestos: X- 0.25 0.25 0.42 0.33 0.33 0.74
28
2.5 Para calcular el RV de un resultado negativo procederemos:
P( | E ) 1 0'712
RV 0'38
P( | S ) 0'752
3.1 Como cabía esperar, la tercera tabla, en la que se había dejado fijo el número de casos con y sin la enfermedad, no
permite calcular ni el riesgo relativo (2.87 2.00) ni la diferencia de riesgos (0.46 0.42). Pero sí que permite
calcular el odds ratio: se obtienen los mismos valores (7.51) ya que el odd ratio puede obtenerse con cualquier
diseño, independientemente de las restricciones impuestas en el diseño.
Riesgos Odds
Tabla 1 Tabla 2 Tabla 3 Tabla 1 Tabla 2 Tabla 3
En los expuestos: X+ 0.71 0.71 0.85 2.47 2.47 5.53
En los no expuestos: X- 0.25 0.25 0.42 0.33 0.33 0.74
Diferencia de riesgos 0.46 0.46 0.42
Riesgo relativo 2.87 2.87 2.00
Odds ratio 7.51 7.51 7.51
3.2 Por lo dicho anteriormente, sólo el odds ratio (OR). El riesgo relativo y el diferencia de riesgos no tienen valor en
este tipo de diseños ya que sus valores dependerán del número de controles que se haya decidido seleccionar para
cada caso.
3.3 Son estimadores de la relación entre dos variables dicotómicas, una supuesta respuesta y una supuesta causa.
Cuando la proporción de la respuesta es muy pequeña, dan valores muy parecidos. Se interpretan igual.
3.5 Una única tasa global sólo escogerá toda la información cuando el riesgo instantáneo se mantenga constante
durante el periodo considerado.
3.6 El Odds ratio proporciona valores mayores, por lo que deberá estar atento: no es que hayan trampa ni sesgo, pero
es una medida diferente que proporciona valores más extremos. Y este efecto es más exagerado cuanto mayor sea
la frecuencia del evento considerado.
29
Capítulo 5:
Septiembre 2014
1
Modelos para variable discretas
* Indica tema más avanzado que conviene mirar pero no es crucial para los ejercicios.
2
Bioestadística para no estadísticos
Presentación
Ante un caso raro, un clínico veterano, o uno joven que sepa probabilidad condicionada, dirá: “es
más probable que sea una presentación curiosa de una patología frecuente, que la típica de una
rara”. Además, conscientes de la gran variabilidad de los resultados, interpretarán correctamente la
broma de que “sano es un paciente no suficientemente visitado”. También los buenos gestores de
los almacenes de repuestos y de farmacia sabrán que: “si controlas bien el 20% más frecuente de
piezas, satisfarán el 80% de clientes”. Estas afirmaciones muestran dominio de la probabilidad y de
la variabilidad.
La clasificación en variables discretas y continuas será crucial para estudiar su probabilidad. En las
primeras, tiene sentido preguntar por probabilidades tanto concretas como acumuladas. Por
ejemplo: ¿cuál es la probabilidad de tener 2 hijos? ¿Y la de tener 2 o menos hijos? Pero las
variables continuas pueden tomar cualquier valor y la probabilidad de uno concreto se hace
insignificante e irrelevante, diremos que 0. No tiene sentido preguntarse por la probabilidad de que
alguien pese exactamente 70 Kg., pero sí, por ejemplo, que pese entre 69 y 70. O menos de 70.
Pero no se asuste, no deberá aplicar fórmulas ni aprender a usar tablas. R acude en su ayuda y podrá
centrarse en su objetivo: aplicar correctamente los resultados y saber cuándo utilizarlos.
3
Modelos para variable discretas
Recuerde
En este tema estudiamos cómo representar poblaciones.
Lectura: Una variable aleatoria se define como el proceso de convertir un individuo o un objeto en un
número.
Recuerde
Una variable aleatoria es numérica, puede tomar más de un valor y lleva
probabilidades asociadas.
Una variable discreta puede tomar sólo determinados valores; pero una continua, entre dos posibles
valores, puede tomar cualquier otro entre ellos.
Nota: En la era digital, el final del proceso de medida siempre es discontinuo: la balanza del cuarto de
baño ha pasado de analógica, donde cualquier valor dentro del rango era posible, a digital, con cierto
redondeo. Pero la definición de continua hace referencia al concepto, no al resultado de medida. Así, la
supervivencia es continua y la trataremos como tal —aunque su valor final se redondee, quizás a meses o
días.
4
Bioestadística para no estadísticos
En las variables continuas no tiene sentido preguntarse por la probabilidad de un valor exacto, ya
que es tan pequeña que es irrelevante. Formalmente sería siempre cero, por lo que requiere un
tratamiento matemático especial. Empezaremos por estudiar las discretas.
Definición
La Función de probabilidad fX de una variable discreta X proporciona la
probabilidad de cada valor.
Nota muy técnica: Puede ‘cerrarse’ esta especificación aclarando que los restantes valores tienen
probabilidad 0: “Cualquier x diferente de 1, 2 o 3, tiene Función de probabilidad nula”, que
simbólicamente sería: x ≠ 1, 2, 3; fX(x) = 0.
La Figura 1.1 muestra la forma de esta Función de probabilidad y que sólo los valores 1, 2 y 3 son
posibles en este ejemplo.
5
Modelos para variable discretas
Ejemplo de R
# Gráfico de la Figura 1.1
>x <- 1:3
>fx <- c(0.72,0.26,0.02)
>par(las=1)
>plot(x, fx, type = "h", col = 2, lwd = 2,xaxp = c(1,3,2))
Ejercicio 1.1
Supongamos que emplear un número bajo de dispositivos sea un objetivo
sanitario deseable y se desea definir un indicador que permita al paciente valorar
la seguridad que le ofrece una institución. ¿Qué seguridad o confianza tiene el
paciente de que el servicio del ejemplo anterior empleará, como mucho 2
dispositivos?
Definición
Llamamos probabilidad acumulada de un valor xi de una variable discreta a la
suma de su probabilidad con la de todos los valores inferiores y lo representamos
por P(X xi).
Definición
La Función de Distribución FX de una variable discreta proporciona la
probabilidad acumulada para cada valor.
Nota: También puede ‘cerrarse’ aclarando los restantes valores: “para x menores de 1, FX(x)=0”; “para x
mayores de 3, FX(x)=1”; “si 1 x<2, FX(x)=0.72; si 2 x<3, FX(x)=0.98”.
6
Bioestadística para no estadísticos
Ejemplo de R
# Gráfico de la Figura 1.2
> x <- 0:3
> Fx <- c(0,0.72,0.98,1)
> par(las=1)
> plot(x,Fx,type="s",col=2,lwd=2,xaxp=c(0,3,3))
Recuerde
La Función de Probabilidad aplica a un valor concreto: fX(2) = P(X=2)
La Función de Distribución acumula probabilidades: FX(2) = P(X 2)
Ejercicio 1.2
Supongamos la variable X número de hijos puede tomar los valores 0, 1, 2, 3, …
k. ¿Cuál de las siguientes, a o b, es cierta en cada caso?
1.- a) P(X=3) = fX(3) b) P(X=3) = fX(2)
2.- a) P(X=3) = FX(4) – FX(3) b) P(X=3) = FX(3) – FX(2)
3.- a) P(X>3) = 1 – FX(2) b) P(X>3) = 1 – FX(3)
4.- a) P(X 3) = 1 – FX(2) b) P(X 3) = 1 – FX(3)
Y de forma simbólica, más difícil, pero con la pista de las anteriores:
5.- a) P(X=k) = fX(k) b) P(X=k) = fk-1
6.- a) P(X=k) = FX(k+1) – FX(k) b) P(X=k) = FX(k)– FX(k–1)
7.- a) P(X>k) = 1 – FX(k–1) b) P(X>k) = 1 – FX(k)
8.- a) P(X k) = 1 – FX(k–1) b) P(X k) = 1 – FX(k)
7
Modelos para variable discretas
Calculamos el centro poblacional igual que el muestral, promediando entre todos los valores.
Recuerde
La esperanza E(X)=μ es un parámetro poblacional; el promedio x , un resultado
muestral.
Nota: El promedio se realiza mediante la suma de cada valor ponderado por su probabilidad: μ=E(X)=
ixiP(X=xi).
Definición
Llamamos esperanza de una variable X a su centro poblacional y lo
representamos por E(X) o por μ.
Nota: La fórmula cambia para discretas y continuas, pero en ambos casos pondera por probabilidad.
Interpretamos μ=E(X) como el valor central en el sentido de “centro de gravedad”: punto que
mantiene “en equilibrio” la distribución de probabilidad.
Ejemplo 1.2 (cont.): La Figura 2.1 vuelve a mostrar la distribución del número X de
dispositivos y marca su esperanza: μ=E(X) = 1.3. Puede imaginar que el punto 1.3 coincide
con el fiel de una balanza que aguantara, en equilibrio, ambos brazos.
Nota: Aunque no lo parezca, la posición de equilibrio de un cuerpo no deja la misma masa a cada lado:
depende de cómo se distribuye esa masa (“ley de la palanca”). Tampoco la esperanza divide la
distribución en 50% y 50% (ese punto es la “mediana”).
8
Bioestadística para no estadísticos
Ejemplo de R
# Gráfico de la Figura 2.1. Se añade a la Figura 1.1
> abline(v=1.3,col=4,lwd=2)
> mtext("E(X)",1,at=1.3)
Nota: Observe cierto abuso del lenguaje al decir que μ=E(X) es el valor esperado de X, ya que no
esperamos observar un uso de 1.3 dispositivos en la próxima intervención: veremos 1 o 2 o 3, pero no 1.3.
Recuerde
En una discreta, la esperanza podría NO ser uno de los valores posibles.
E(X)=μ tiene 2 propiedades muy importantes, según la apliquemos a la población o a las unidades.
Ejemplo 1.2 (cont.): μ = 1.3 es propia de ese entorno: podríamos negar que 1.3 represente a
un paciente de esa población. Pero SÍ que representa a esa población: si desde un punto de
vista clínico y asistencial es relevante, μ = 1.3 podría ser una medida del rendimiento de esa
población.
Recuerde
E(X)=μ es un indicador de la situación de la población.
2) Aplicada a las unidades, E(X)=μ minimiza el error: si “esperamos” E(X)=μ, cometemos cierto
error; pero, a lo largo de todos los valores posibles y teniendo en cuenta su frecuencia, será el menor
error posible –tal como veremos en predicción en el curso de observacionales.
Ejemplo 1.2 (cont.): Si afirmamos que la intervención futura precisará exactamente 1.3
dispositivos, seguro que NO acertamos; en cambio, hacemos mínimo el error de predicción:
la suma de todos los posibles errores es mínima en el sentido de que predecir cualquier otro
valor conduce a una suma mayor de errores.
Recuerde
“Esperar” ver E(X)=μ en la próxima observación minimiza el error posible.
9
Modelos para variable discretas
Ejercicio 2.1
Diga para cada una si es cierta. Si fuera falsa, escríbala bien:
a. Tanto la esperanza [E(X) = μ] como el promedio [= media = x ] visto en
descriptiva indican cierto centro.
b. La esperanza, E(X) o μ, aplica a los resultados de una muestra; pero el
promedio, media o x , a la distribución poblacional.
Recuerde
La varianza V(X)= ² es un parámetro poblacional; la varianza S², un resultado
muestral.
Definición
2
Llamamos varianza al valor esperado de la distancia cuadrada con la media: =
V(X) = E (X-μ) 2.
2
Como “(X-μ)” es la distancia entre la variable X y su centro, =V(X) es precisamente el valor
esperado del error al cuadrado que cometemos al esperar μ cuando observamos X.
Nota: μ era el centro de gravedad de X. Por tanto, si no se elevara al cuadrado, los errores positivos y
negativos se compensarían y su suma daría 0.
La varianza está expresada en unidades de X, pero elevadas al cuadrado. Por ello, como en
descriptiva, definimos la desviación típica como su raíz cuadrada.
Definición
La raíz cuadrada de la varianza se denomina desviación típica o estándar y se
representa por = √V(X).
10
Bioestadística para no estadísticos
Ejercicio 2.2
Behar, Grima y Marco proponen un partido de basket entre marcianos y terrícolas.
Suponiendo que sus alturas tengan la misma μ, pero la de los marcianos mayor ,
¿quién espera que gane si ambos seleccionan a sus jugadores más altos?
Ejemplo 1.2 (cont.): La Figura 2.2 vuelve a mostrar la distribución del número X de
dispositivos. Ahora, además de indicar su esperanza: E(X) = 1.3, también marca su
desviación típica =0.5. Puede imaginar que la distancia promedio de todos los valores de X
2
al punto 1.3 vale 0,5. Su varianza es =0.25.
Ejemplo de R
# Gráfico de la Figura 2.2
> par(las=1)
> plot(x,fx,type="h",col=2,lwd=2,xaxp=c(1,3,2),
xlim=c(0.5,3.5))
> abline(v=1.3,col=4,lwd=2)
> mtext("E(X)",1,at=1.3)
> arrows(1.3-0.5, 0.6, 1.3+0.5, 0.6, col=4, lwd=2, code=3)
> text(c(1.1,1.5),0.62,expression(sigma))
11
Modelos para variable discretas
Nota: Observe que NO podríamos representar la varianza en ese gráfico, ya que tiene unidades diferentes
(son ‘cuadradas’).
Igual que E(X), V(X) o bien su raíz también resumen el comportamiento de una población.
Ejemplo 1.2 (cont.): La Figura 2.3 muestra la distribución del número X’ de dispositivos en
otra población: ahora han aumentado tanto los aciertos a la primera (fX’(1)=0.84) como la
necesidad de recurrir a una tercera (fX’(3)=0.14). Como resultado, su esperanza, μ=1.3, sigue
igual, pero ahora su desviación típica es mayor, =0.7. Aunque su rendimiento promedio es
el mismo, en global es menos similar: quizás podríamos decir menos igualitaria.
Recuerde
V(X) y indican la dispersión de la población.
Ejemplo 1.2 (cont.): X y X’ tienen la misma esperanza, en ambos caos tienen el mismo
centro, 1.3 dispositivos. Pero como X’ tiene dispersión mayor, debemos prepararnos para
ella.
Ejercicio 2.3
2
Compare la varianza (V(X) = ) de este tema con la vista en descriptiva (S2) y
explique sus similutudes y diferencias.
12
Bioestadística para no estadísticos
Ejemplo 2.1: pongamos que una compresión benigna de próstata pueda ser tratada médica
(M) o quirúrgicamente (Q). Y que ambas tienen un éxito del 100%, pero difieren en su
seguridad: M tiene un 20% de eventos adversos (EA), por un 10% de Q. Sin más
información, preferiremos Q. Pero quizás necesitemos profundizar más: ¿Qué pasa en
ambos casos si se presenta el EA? Supongamos que la variable de interés es la cantidad de
vida en años.
Recuerde
Un árbol de decisión contiene nudos para escoger entre opciones alternativas y
luego variables con sus probabilidades para cada valor.
Nota: Este simplista ejemplo anula la variabilidad dentro de cada resultado (p.e.: todos los Q sin
complicaciones viven 10 años), pero la discusión sería muy parecida si fuera más realista.
13
Modelos para variable discretas
Recuerde
E(X) valora, como criterio de decisión, el beneficio poblacioal.
Nota: La incertidumbre en Q es mayor que en M. De hecho, sus varianzas son 9 y 0.36 ( = 3 y 0.6). Así,
si quisiéramos disminuir al máximo el grado de “sorpresa” global, escogeríamos el valor mínimo de
V(X), que también conduce a M
Nota: ¿Y a nivel individual? Alguien podría decir que quiere evitar, como sea, la peor opción posible. O,
según sea su grado de aversión o amor al riesgo, todo lo contrario.
Ejemplo 2.1 (cont.): Cierto paciente recibirá el premio Nobel en unos meses. Sabe que
tiene que solucionar el tema o no aguantará toda la ceremonia. Sin duda, querrá evitar Q y la
probabilidad de quedarse sin recibir el premio.
Nota: ¿Y la calidad de vida? Por supuesto, elegir otro objetivo requiere recoger otra información, lo que
podría llevar a otra decisión. Por eso, lo más importante es “saber qué es lo que uno quiere”. Pero marcar
cuál es el propio objetivo, conocerse a uno mismo, es quizás lo más difícil de todo. Vea en Wikipedia la
pirámide de Maslow.
Ejemplo 3.1: Si definimos ‘éxito’ al evento “eliminar el trombo con el uso de un solo
dispositivo”, disponemos de una variable B1 que puede tomar el valor 1 con probabilidad:
P(X=1) = 0.72 =
y el valor 0, con probabilidad
P(X=0) = 0.28 = 1-
14
Bioestadística para no estadísticos
Ejercicio 3.1
Según la variabilidad de la Bernouilli, ¿qué es más incierto, un indicador con
=0.5 o con =0.1? ¿Cuadra este resultado teórico con su intuición previa de
incierto para valores de =0.5 o de =0.1? ¿Se atreve a decir qué valor de va
acompañado de mayor incertidumbre?
3.2. Binomial
Si repetimos ‘n’ veces el indicador de Bernouilli anterior y contamos el número de éxitos, aparece
el modelo Binomial (Bn) siempre que se cumplan las 2 condiciones siguientes: (1) las ‘n’
repeticiones tienen todas la misma probabilidad de éxito; y (2) todas ellas son mutuamente
independientes.
Definición
Representamos por B(n, ) a la variable discreta recuento de éxitos tras ‘n’
repeticiones independientes de indicadores B1 con probabilidad de éxito .
Instrucciones en R para fx y Fx
15
Modelos para variable discretas
1.0
0.25
0.8
0.20
0.6
0.15
F
f
0.10 0.4
0.05 0.2
0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
#Instrucciones de la Figura
par(mfrow=c(1,2), las=1)
x=0:10
f = dbinom(x, 10, 0.72)
F = pbinom(x, 10, 0.72)
plot(x, f, t='h', lwd=2, col='red')
plot(x, F, t='s', lwd=2)
Ejercicio 3.2
a) ¿Bajo qué premisas serían ciertos los cálculos anteriores?
b) ¿Le parecen razonables?
Notación:
Se indica que X se modela con una B(n, ) mediante: X~B(n, )
Ejemplo de R
>dbinom(7,10,0.72)
[1] 0.2642304
16
Bioestadística para no estadísticos
Ejercicio 3.3
Interprete el resultado anterior: ¿le parece bajo o alto que en 10 observaciones, la
probabilidad de observar 7 éxitos sea aproximadamente de ¼, siendo =0.7?
Ejercicio 3.4
Calcule con R la probabilidad de observar 8 y de observar 6. ¿Son mayores o
menores que las de 7? Interprete.
Ejemplo de R
Ejercicio 3.5
Calcule con R la probabilidad de observar 8 o menos. Y la de observar 5 o menos.
Deduzca la probabilidad de observar 6, 7 u 8: P(6 X 8). Interprete.
Ejercicio 3.6 *
Imagine ahora que los resultados se presentan por trimestres, donde se realizan
100 en lugar de 10 intervenciones, con la misma probabilidad =0.72. Calcule
con R P(X=70), P(X 70) y P(60 X 80). Compare con los resultados anteriores
teniendo en cuenta que la proporción observada es la misma en 7 de 10 y en 70 de
100. Interprete.
Recuerde
El modelo Binomial estudia la probabilidad de observar X eventos en n
repeticiones de un indicador con probabilidad π.
17
Modelos para variable discretas
Fórmulas
Si X~B(n, ), E(X) =n· y V(X) =n· ·(1- )
Ejercicio 3.7
Calcule E(X) y V(X) para X10 ~ B(10,0.72) y para X100 ~ B(100,0.72). Interprete
ambas. [Si hizo el ejercicio reto anterior, compare resultados].
En una Binomial, la definición de éxito y fracaso es pura convención. Imaginemos que lo que
preocupa es justamente lo contrario: que no se consiga la revascularización con el primer
dispositivo y queremos contar el número de veces que no se consigue.
Ejercicio 3.8
Especifique la distribución de la variable Y10: número de fracasos semanales (10
intervenciones). Ídem para Y100 (trimestrales). Calcule P(Y10 1) y la de
P(Y100 10).
Ejemplo 3.3: Suponga que una cierta analítica consta de 20 pruebas, cada una de ellas con
una especificidad del 95%, es decir, el 95% de los sanos da negativo en cada una de las
pruebas. Suponga también que son independientes entre sí, es decir que valoran entidades
diferentes y que el hecho de dar positivo una de ellas no aumenta la probabilidad de que otra
sea positiva. Es decir, que podemos modelar el número de resultados positivos (X) por una
B(n=20,π=0.05). El número de resultados que cabe resultar que sean positivos es algo
preocupante: E(X)=n·π=20·0.05=1. Pero mucho más preocupante es la probabilidad de que
un sano dé negativo en todos ellos: P(X=0)= dnorm(0,20,0.05)= 0.3584859. Es decir, sólo
un 36% de los sanos darán negativo en todas las pruebas. O peor aún ¡es más probable que
un sano tenga algún resultado positivo que todos negativos.
18
Bioestadística para no estadísticos
Recuerde
Valore con prudencia los resultados positivos inesperados tras la repetición de
pruebas con especificidad por debajo del 100%.
3.2.3. Cuantiles
Hasta ahora hemos aprendido a calcular probabilidades acumuladas a partir de los valores de X.
Pero podríamos tener justo el interés contrario: dada una probabilidad acumulada deseada, conocer
cuál es el valor que la proporciona.
Recuerde
Hay 2 tipos de problemas: saber el valor de X y buscar cierta probabilidad; o
conocer la probabilidad y buscar el valor de X.
Ejemplo 3.4: ¿Cuántos caben, sin doblar las piernas, en camas de 1.80 metros? Si queremos
que quepan un 99%, ¿qué longitud debe tener la cama?
Recuerde
En el tema 2 de descriptiva, al hablar de la mediana y los percentiles, definimos
los cuantiles como las proporciones muestrales acumuladas. También usaremos
cuantil, a nivel poblacional, para las probabilidades acumuladas.
Recuerde
Los cuantiles de uso más frecuente son los percentiles, los cuartiles y los
quintiles.
Ejemplo 3.5: Siguiendo con el ejemplo de los dispositivos y los resultados semanales con
10 intervenciones, interesa calcular el número máximo de fracasos que podemos garantizar
en el 90% de las semanas. Sabiendo que P(Y10≤4) = 0.882 [pbinom(4,10,0.28)] y que
P(Y10≤5) = 0.966 [pbinom(5,10,0.28)], el valor que garantiza una confianza del 90% es 5.
Se trata pues del percentil 0.90. En resumen, podemos garantizar que en el 90% de las
semanas como mucho 5 pacientes precisarán más de una intervención. Al ser discretas,
“salta” de 0.882 a 0.966, por lo que el percentil 90 coincide, p.e., con el percentil 95.
19
Modelos para variable discretas
Recuerde
En las discretas, los cuantiles también dan saltos. Para garantizar una cierta
probabilidad se toma el valor superior de la variable.
Ejercicio 3.9
Pasemos a los resultados trimestrales con 100 pacientes. Sabiendo que
P(Y100 33)=0.888 y P(Y100 34)=0.924. Calcule el percentil 90. Interprete.
Ofrezca una garantía del 90% sobre el rendimiento del servicio.
Ejemplo de R
> qbinom(0.90,100,0.72)
[1] 34
Ejercicio 3.10
Ejercicio 3.11
Suponga que está investigando una nueva intervención. Vd. recuerda los casos de
la talidomida y del TGN1412, dos productos de nueva creación, uno químico y
otro biológico, que tuvieron eventos adversos (EA) muy graves. Vd. está contento
porque no ha observado ningún EA grave en 10 pacientes. Y Vd. considera que,
dados sus grandes efectos positivos, el producto aún será útil incluso si la
probabilidad de un EA grave alcanza el 10% ( =0.1). Su recogida de información
le permite descontar la posibilidad de contagios y puede asumir la independencia
que requiere la Binomial. Bajo este modelo, si el producto tuviera una =0.1
común para todos los pacientes, ¿cuál sería la probabilidad de obtener 0 de 10
casos con un EA grave? Interprete. Repita para un resultado hipotético de 0 sobre
100. Interprete.
20
Bioestadística para no estadísticos
3.3. Poisson
El modelo de Poisson es un caso particular del Binomial especialmente útil cuando es más factible
obtener el valor del producto ·n que los valores exactos de y de n.
Ejemplo 3.6: El recuento del número diario de accidentados con lesiones craneoencefálicas
que requieren un neurocirujano de urgencias es una variable que puede aproximarse por una
Binomial. En cierta población es factible conocer la esperanza de esta variable, pero ‘n’ es
tan grande y (afortunadamente) es tan baja, que resulta complicado obtener n y con
precisión. En cambio, podemos conocer cuál es el promedio en el pasado de este número.
Ejercicio 3.12
Vamos a jugar un poco. Vamos a ver qué pasa con la probabilidad de observar 0
casos si cambiamos y n de forma que mantengamos constante su producto ·n.
Recupere del ejemplo anterior P(X=0) para B10 (10, 0.1) y obténga también
P(X=0) para B100(100, 0.01), B1000(1000, 0.001) y B1000000 (1000000, 0.000001).
Interprete. Calcule la esperanza de estas 4 variables. Interprete.
Notación
El producto ·n se llama tasa y se representa con la letra λ.
Expresamos el modelo de Poisson de tasa (o parámetro) λ mediante P(λ).
Ejemplo 3.7: En Barcelona quizás podríamos tener una esperanza de 1 caso diario. Es decir,
de 1 caso por día, donde este ‘por’ indica división: ‘/’.
Notación
La tasa λ suele indicar casos/tiempo (vea el tema 4).
Nota: λ es un número (real) positivo que representa la tasa media de casos por lapso de seguimiento
considerado. En general, se mide en tiempo (10 casos/semana, por ejemplo).
Ejemplo 3.8: Barcelona tiene en promedio 1 traumatismo craneoencefálico diario (o por
día, o “1 evento/día”).
Nota: Otros indicadores del denominador o nivel de exposición pueden ser el número de tomas (en el
caso del riesgo de un fármaco); o el número de pernoctaciones en un centro sanitario (en el caso de un
21
Modelos para variable discretas
riesgo de infección). [Si permite un ejemplo cotidiano en el límite de lo correcto, ciertos pseudo-hoteles,
podrían tener un promedio de pernoctaciones (o alquileres por día) de λ=5.3]
Ejemplo 3.9: El fármaco tal tiene 1 evento adverso grave cada 1000 tomas.
Ejemplo 3.10: El centro tal tiene 1 infección nosocomial por 1000 estancias.
Ejemplo de R
# Cálculo de fx: P(X=0) si X~P(1)
> dpois(0,1)
[1] 0.3678794
Ejercicio 3.13
¿Se parece este resultado a los del ejercicio anterior? ¿A cuáles se parece más?
Ejercicio 3.14
Si la tasa diaria de traumatismos craneoencefálicos vale 1, ¿ qué
probabilidadtienen 0, 1, 2, 3 y 4 traumatismos? ¿En qué proporción de días se
observarán 0, 1, 2, 3 y 4 traumatismos?
Ejemplo de R
# Cálculo de Fx: P(X 2) si X~P(1)
> ppois(2,1)
[1] 0.9196986
Ejercicio 3.15
Calcule con R las probabilidades de observar 3 o menos traumatismos. Si Vd.
dimensiona sus servicios para atender hasta 4, ¿qué garantías tiene de que un día
concreto cubra todas las necesidades?
Recuerde
El modelo de Poisson estudia la probabilidad de observar X eventos por unidad de
tiempo cuando su frecuencia de aparición es λ.
22
Bioestadística para no estadísticos
Fórmulas
Si X~P(λ), E(X) =λ y V(X) =λ
Ejercicio 3.16
En el modelo de Poisson, E(X) = V(X) = λ. ¿Cuánto vale V(X) en el caso de los
traumatistos? ¿Y ? Repita para λ=4. ¿Tiene sentido que la dispersión sea mayor
cuanto mayor sea el centro?
Recuerde
En Poisson, parámetro tasa λ, esperanza E(X)=μ y varianza V(X)= ² son iguales.
3.3.3. Cuantiles
Como en la Binomial, también podemos calcular los cuantiles para responder la pregunta inversa.
Ejemplo de R
23
Modelos para variable discretas
Ejercicio 3.17
Siguiendo con el caso de los traumatismos craneoencefálicos, si Vd. desea que sus
servicios estén preparados para atender todas las urgencias el 99% de los días,
¿para cuántos casos han de estar preparados?
Nota: El modelo Poisson es más exacto si n crece, pero n permanece fijo. De acuerdo con dos reglas de
oro, esta aproximación es buena si n ≥20 y ≤0.05, o si n ≥100 y n· ≤10.
3.3.4. Premisas *
La premisa más importante del modelo de Poisson consiste en asumir que λ es constante para las
unidades consideradas y que los eventos son independientes entre sí: que observar 1 caso no altera
las probabilidades de observar otro. Se dice que el proceso en estudio no tiene memoria.
Ejemplo 3.13: No haber tenido ningún evento adverso grave hasta la fecha no cambia su
expectativa futura.
Ejercicio 3.18
Es posible comparar las frecuencias predichas por el modelo de Poisson con los resultados
observados empíricamente. Cuánto más se parezcan, más creíbles serán las premisas en las que se
basa dicho modelo.
24
Bioestadística para no estadísticos
Ejemplo 3.15 Aberdein y Spiegelhalter observaron una media de 0.6 ciclistas muertos en
Londres cada 2 semanas. Como disponían de datos desde 2005 hasta 2012, pudieron contar
cuantos periodos de 2 semanas tuvieron 0 eventos, cuántos 1, etc. Las figuras 3.2 y 3.3 muestran
muy buen ajuste entre las probabilidades predichas por el modelo y las observadas.
120
120
100
100
Número de pares de semanas
80
60
60
40
40
20
20
0
0 1 2 3 o más 0 1 2 3 o más
En ocasiones, el ajuste entre las predicciones realizadas por el modelo teórico (quizás simple) y los
datos observados es muy bueno.
Recuerde
Sea prudente y hable de modelos en lugar de leyes.
Nota: La ‘n’ de Poisson era el número de soldados del ejército de Napoleón y, cómo el matemático
Poisson no disponía de R, propuso su modelo para ahorrar tiempo de cálculo.
Los dos siguientes ejemplos muestran que la similitud entre Poisson y Binomial es mayor cuanto
mayor es n.
Ejemplo 3.16: La Figura 3.4a muestra la Función de Distribución de dos variables con la
misma esperanza: una B(20, 0.5) y una P(10). Puede verse que al inicio crece más rápido P,
pero luego B. La discrepancia máxima se observa para x=7, ya que la probabilidad
acumulada para P es casi un 9% mayor que para B. En el primer caso, P[X 7|X~P(10)] =
25
Modelos para variable discretas
1.0
B(20, 0.5)
P(10)
0.8
0.6
0.4
0.2
0.0
0 5 10 15 20
Figura 3.4a. Discrepancia entre Poisson y Binomial de misma esperanza para n pequeña
1.0
B(100, 0.1)
1.0
P(10)
B(20, 0.5)
Ejemplo 3.17: Ahora repetimos el estudio de similitud para la misma P(10), pero con una
0.8
P(10)
0.8
B(100, 0.1). Se aprecia que el parecido es mucho mejor. Otra vez crece más primero P y
0.6
0.6
luego B. También ahora, el desajuste máximo es para X=7, pero ahora vale 0.014, un 1.4%
0.4
0.4
0.2
ya que, para la Binomial (P[X 7|X~B(100, 0.1)] = 0.206, mucho más cerca de la Poisson
0.2
0.0
(que es la misma). Para X=13, la diferencia es 1.2%. Así, el ajuste es mucho mejor, ya que
0.0
0 5 10 15 20
la mayor discrepancia ha 0bajado de5 8.9 a 1.4.10 15 20
1.0
B(100, 0.1)
P(10)
0.8
0.6
0.4
0.2
0.0
0 5 10 15 20
Figura 3.4b. Parecido entre Binomial y Poisson de misma esperanza para n grande.
Nota: Como la Binomial y la Poisson, la geométrica también asume que la probabilidad es siempre la
misma e independiente de los resultados previos.
Notación
G(π) representa la variable discreta número de fallos antes del primer éxito.
26
Bioestadística para no estadísticos
Ejemplo de R
Ejercicio 3.19
Vamos lanzando una moneda hasta observar una cara. ¿Cuál es la probabilidad de
que el número de cruces previas sea 0? ¿Y de que sea 1? ¿Cuál es la probabilidad
de observar una cara, como muy tarde, en 5 intentos? [Pista: eso implica 4 fallos
previos.]
Ejercicio 3.21
27
Modelos para variable discretas
Ejemplo 3.18: Suponga que al profesional anterior le piden 5 artículos en el primer cuartil
en lugar de 1.
Nota: La Poisson tiene la restricción de que la varianza es igual a la esperanza [V(X) = E(X)]. Para liberar
esta condición se puede substituir la Poisson por una binomial negativa (BN). La figura 3.5 muestra 3 BN
con la misma esperanza que la Poisson pero con una dispersión mayor.
1.0
Poisson (8)
BN (0.2, 2)
BN (0.5, 8)
0.8
BN (0.8, 32)
0.6
Fx
0.4
0.2
0.0
0 5 10 15 20
Si Vd. dispone de una ‘n’ muy grande y de las frecuencias observadas para todos los recuentos,
puede ahorrarse imponer un modelo de probabilidad y trabajar con los resultados observados.
28
Bioestadística para no estadísticos
Ejemplo 3.20: En los 47 años que llevamos recogiendo datos, el 45% de los días ha habido
0 intervenciones por traumatismos craneoencefálicos; el 30%, 1; el 16%, 2; el 2%, 3; el 3%,
4 y el 4%, 5.
3.5. Verosimilitud *
Hasta ahora hemos usado estos modelos para, dado un valor del parámetro, calcular las
probabilidades de observar ciertos resultados. Pero estos modelos pueden usarse al revés: habiendo
observado un cierto resultado, ¿qué valores del parámetro son razonables?
Ejemplo 3.21: Vd. ha observado 6 caras tras lanzar 10 veces la moneda. Si acepta el
modelo Binomial, puede calcular la probabilidad de observar esta muestra bajo diferentes
valores del parámetro.
Ejercicio 3.22
En el modelo Binomial, ¿cuál es la probabilidad de observar 6 caras de 10
lanzamiento si π=0.6? ¿Y si vale 0.5?
Ejemplo 3.21 (cont.): La Figura 3.6 representa las probabilidades de observar 6 caras de 10
lanzamientos para los valores del parámetro de la Binomial comprendidos entre 0<π<1.
Observe que el valor del parámetro para el que la verosimilitud de la muestra es mayor es,
precisamente, 0.6. Note también que la probabilidad de esta muestra no es muy grande
(0.25), ni cambia demasiado para otros valores muy próximos a 0.6, pero sí al alejarse.
29
Modelos para variable discretas
Nota: Si π fuera 1, sólo se podría observar 10 caras en 10 lanzamientos. Si se observan 6 caras de 10, se
pueden ya descartar valores de π igual a 0 o 1.
Tiene sentido estimar el parámetro con aquel valor más verosímil.
Recuerde
Ejemplo de R
30
Bioestadística para no estadísticos
2.1. a) Cierto.
b) Falso. El promedio, media o x , aplica a los resultados de una muestra; la esperanza, E(X) o μ, a la distribución
poblacional.
2.2. En los marcianos hay más diferencias entre sus alturas al tener una mayor σ, por lo que habrá marcianos con
alturas más extremas, tanto más altos como más bajos. Si ambos equipos seleccionan a lo más altos, el equipo de
marcianos tendrá jugadores más altos que en el equipo terrícola. Así que el equipo de los marcianos es el favorito
—asumiendo igualdad en el resto de factores. [Note que si los jugadores se hubieran seleccionado al azar, esto no
pasaría. Eliminar el azar en un proceso de selección suele llevar sorpresas. Veremos más ejemplos de sesgo de
selección en el curso de observacionales.]
2
2.3. La variancia poblacional y la muestral S2 se basan en el mismo principio: medir un promedio
de las distancias al cuadrado de los valores al respectivo centro y, por tanto,
disponer de un indicador para cuantificar la dispersión de los valores. La diferencia fundamental
está en que V(X) lo hace para todos los valores (que potencialmente podrían observarse o no) en base a
unas probabilidades conocidas; mientras que S2 se basa en los valores que se han observado.
3.2. a) Las premisas que deberían cumplirse son que las 10 intervenciones tienen la misma probabilidad de éxito (72%),
es decir, todos los pacientes provienen de una misma población con los mismos factores de riesgo. Y que las
intervenciones son independientes entre sí, es decir que el fracaso o éxito de una no condiciona la siguiente.
b) Parece razonable pensar que, si todos los pacientes vienen de la misma población, en cada intervención tenemos
la misma probabilidad de éxito. Para poder suponer que el resultado de una intervención no influya en una
intervención futura, quizá sea necesario que el equipo vaya cambiando o que sean inmunes al desaliento.
3.3. Como la probabilidad de la binomial es 0.72, que la probabilidad de observar 7 de 10 sea “solo” 0.264 parece un
número bajo. Aunque 7 es el valor más probable de observar, observar cualquier otros es más probable que
observar un 7: la suma de las probabilidades de obtener un número diferente de 7, 0.736, es mucho mayor.
31
Modelos para variable discretas
>dbinom(8,10,0.72)
[1] 0.2547936
>dbinom(6,10,0.72)
[1] 0.1798235
Parece que la probabilidad de obtener un número de éxitos determinado disminuye a medida que este número se
aleja del valor esperado (E=n·π=7.2).
>pbinom(8,10,0.72)
[1] 0.8169646
>pbinom(5,10,0.72)
[1] 0.1181171
En 10 intentos con una probabilidad de éxito de 0.72, 7 de cada 10 veces obtendremos un número de éxitos
comprendido entre 6 y 8. Tenemos cierta confianza (prob=0.699) de que, al obtener 10 observaciones de una
binomial con pi=0.72, el resultado estará cerca de su esperanza, entre 6 y 8).
3.6. En este caso, la n se ha multiplicado por 10, y también los valores de los que queremos hallar las probabilidades
(60, 70 y 80, en vez de 6, 7 y 8): aparentemente, las cosas no deberían ser muy distintas. Sin embargo:
>dbinom(70,100,0.72)
[1] 0.07869629
>pbinom(70,100,0.72)
[1] 0.3637841
La probabilidad de observar menos de 70 sobre 100 también ha bajado: 36% en vez de 56%.
>pbinom(80,100,0.72)-pbinom(59,100,0.72)
[1] 0.9706188
97% en vez de 70%. Es decir, la probabilidad de valores extremos, más de 80 sobre 100, es del 3%, en lugar del
30% para más de 8 sobre 10. Al aumentar la información, el número de casos disponible, bajan las probabilidades
de resultados extremos.
32
Bioestadística para no estadísticos
Y100 ~ B(100,0.28)
Recuerde que la notación científica centra la atención en las cifras significativas (en este caso, 1.017339) y luego
informa del cuantos ceros tendrá la división (en este caso, 5). Es decir, 1.017339 eventos cada 105 casos = cada
100000 = cada cien mil. 1.017339e-05 ≈ 0.00001 = 1 cada cien mil. De forma breve, este 5 marca cuantas
posiciones debe moverse el símbolo decimal.
3.9. El percentil 90 será 34. Como en el 92.4% de los trimestres, el número de fracasos será como mucho de 34,
podemos garantizar con una confianza del 90% (de hecho, algo superior) que el número de fracaso será 34 o
menos.
> qbinom(0.95,10,0.28)
[1] 5
> qbinom(0.95,100,0.28)
[1] 35
3.11. La probabilidad de EA grave, es =0.1 y la muestra de n=10 casos. Por lo tanto la variable X ~ B(10,0.1). R
calcula la probabilidad de 0 eventos en un total de 10 casos:
> dbinom(0,10,0.1)
[1] 0.3486784
La probabilidad de no obtener ningún evento de 10 posibles con una probabilidad del 10% es del 35%.
33
Modelos para variable discretas
> dbinom(0,100,0.1)
[1] 2.65614e-05
La probabilidad de no obtener ningún caso de 100 posibles con una probabilidad de “éxito” del 10% es
prácticamente 0: 0.0000265614.
Asumiendo que la probabilidad de evento sea del 10%, observar 0 eventos en 10 casos es bastante probable (35%),
pero observar 0 de 100 es casi imposible (aproximadamente 3 por 100000).
> dbinom(0,10,0.1)
[1] 0.3486784
> dbinom(0,100,0.01)
[1] 0.3660323
> dbinom(0,1000,0.001)
[1] 0.3676954
> dbinom(0,1000000,0.000001)
[1] 0.3678793
La probabilidad de observar 0 eventos es muy parecida. De hecho, a medida que aumenta n y disminuye , las
diferencias tienden a hacerse más pequeñas y las probabilidades sucesivas más similares.
En todos los casos en que el producto π·n es el mismo, siendo π pequeña y n grande, la esperanza es el mismo
valor. Y antes vimos que la probabilidad de observar 0 eventos es muy parecida.
De hecho, para un mismo valor del producto π·n = E(X), se parece más cuanto más pequeña es π y mayor es n.
3.14. X ~ P(λ=1). Utilizando R obtenemos l P(X=0), P(X=1), P(X=2), P(X=3) y P(X=4). Estas probabilidades las
podemos interpretar también como la frecuencia (“teórica, que cabe esperar”) de días en los que se observarán ese
número de eventos. Luego la buena o la mala suerte hará que oscilen alrededor de ese valor esperado. [Nota: esa
suerte, esa influencia del azar, se puede cuantificar. Por ejemplo, mediante una simulación informática; o modelando, por
ejemplo, la probabilidad de un valor concreto (sea 2) frente al resto (diferente de 2) como una nueva binomial.]
> dpois(0,1)
[1] 0.3678794
34
Bioestadística para no estadísticos
La probabilidad de que en un día no haya ningún caso es de 36.8%: cabe esperar que aproximadamente 1 de cada 3 días
no haya trabajo.
> dpois(1,1)
[1] 0.3678794
También cabe esperar que aproximadamente 1 de cada 3 días haya 1 caso de esta urgencia.
> dpois(2,1)
[1] 0.1839397
[1] 0.06131324
> dpois(4,1)
[1] 0.01532831
P(X ≤ 3):
> ppois(3,1)
[1] 0.9810118
P(X ≤ 4):
> ppois(4,1)
[1] 0.9963402
Las garantías de cubrir necesidades un día concreto con las dimensiones del servicio serán del 99.6%.
Tiene sentido ya que a mayor número de casos por unidad de tiempo, mayor rango de valores puede tomar la
variable y por lo tanto hay más dispersión. Por otro lado, note que de forma relativa, la dispersión es menor: una
σ = 1 para una μ=1 es ‘relativamente’ mayor que una σ = 2 para una μ=4; y ésta mayor que una σ = 3 para una μ=9.
[1] 4
3.18. A) Bueno, la crítica más importante en los 3 ejemplos es la independencia. Si alguien ha tenido un accidente o
una infección, quizás aumente la probabilidad de que otros también la tengan.
B) Si la tasa la hemos estimado por un buen proceso, sería correcta, lo que no sería correcto serían los valores
observados.
35
Modelos para variable discretas
C) Convendría comprobar empíricamente si aumenta o no aumenta. Una posibilidad sería comparar las frecuencias
observadas, empíricas, a lo largo de cierto periodo de tiempo con las predichas por el modelo de Poisson.
3.19. Si se trata de una moneda no trucada la probabilidad de éxito, definido como obtener cara, es de 0,5. Por lo tanto
la variable X ~ G(0.5).
P (X=0):
> dgeom(0,0.5)
[1] 0.5
P(X=1):
> dgeom(1,0.5)
[1] 0.25
La probabilidad de que salga cara a la primera es del 50%, mientras que la de tener que realizar justo dos
lanzamientos hasta que salga cara es del 25%.
[1] 0.96875
La probabilidad de obtener una cara al quinto lanzamiento o antes es muy alta, casi del 97%.
3.20. De los 10 artículos enviados, 9 previos deben ser rechazados y el décimo aceptado; como la probabilidad de
aceptar un artículo es de 0.15, por tanto X ~ G(0.15); y la P(X=9)=> dgeom(9,0.15)= 0.03474254.
Si queremos que sea aceptado en el décimo o antes, el número de fracasos ha de ser 9 o menos:
pgeom(9,0.15)= 0.8031256
3.21. En el primer caso, número de días que resiste sin infectarse, X 1 ~ G(0.05), y las probabilidades pedidas son
Estos resultados son coherentes con la intuición: a más días que pasan, más aumenta la probabilidad de que un paciente
adquiera una infección nosocomial. Esta es una razón importante para no alargar la estancia más de lo necesario.
> dbinom(6,10,0.6)
[1] 0.2508227
36
Bioestadística para no estadísticos
> dbinom(6,10,0.5)
[1] 0.2050781
Así, la verosimilitud de observar 6 caras en 10 lanzamientos es mayor para un valor del parámetro π=0.6 que π=0.5.
Así, π=0.6 es más verosímil que π=0.5.
37
Capítulo 6:
Septiembre 2014
Bioestadística para no estadísticos
Presentación ....................................................................................................................... 2
1. Distribuciones continuas............................................................................................. 3
1
Modelos para variable continuas
Presentación
Si la variable es continua, la probabilidad de un valor concreto no tiene interés, pero sí las
probabilidades acumuladas o las de un intervalo.
La distribución del Gauss-Laplace, llamada en campana o “Normal” es muy útil para representar
una gran cantidad de variables. Menos frecuentes, pero más simples, son la uniforme y la
exponencial. En este capítulo, mediante ejercicios de dificultad progresiva, el lector se habituará al
uso de la distribución Normal.
En Ciencias de la Vida, la variabilidad es la norma, y ciertas diferencias con el valor central son,
por definición, “normales”, en el sentido de no-patológicas. Por tanto, hay que aprender a valorar
qué distancias, por su magnitud, pueden ser sospechosas de patológicas.
2
Bioestadística para no estadísticos
1. Distribuciones continuas
Ejemplo 1.1: La altura es continua. Por tanto, entre 2 señores, uno de 180 y otro de 181 cm
siempre podremos encontrar otro. Cada vez intervalos más pequeños. Y así
indefinidamente. Por ello, la probabilidad de observar un valor concreto es “infinitamente
pequeña”.
Definición
La función de distribución FX de una variable continua para un cierto valor x
proporciona la probabilidad acumulada hasta ese valor x
Ejemplo 1.1 (cont.): Algún valor de la función de distribución FX de la altura podría ser:
FX(180) = P(X 180) = 0.82
FX(190) = P(X 190) = 0.96
Ahora, bien, como la probabilidad de un valor concreto es cero:
FX(190) = P(X 190) = 0.96 = P(X<190)
Es decir, no distinguimos entre “ ” y ”<”.
Recuerde
En las continuas, Función de distribución FX = P(X x) = P(X< x)
Nota: Esta función de distribución como acumulación de probabilidad que es, no puede disminuir, no
puede ser menor para valores mayores de X. Quizás no crezca, pero no puede disminuir. Crecerá más en
aquellas zonas o intervalos con mayor probabilidad. La derivada o primitiva de una función valora este
incremento en un punto concreto. La operación contraria a derivar es integrar. Y una integral es como una
suma pero aplicada a funciones continuas.
Tranquilo, no debe recordar los detalles técnicos. Sólo que la derivada de FX es la función de
densidad fX y valora cuánto crece la probabilidad acumulada FX.
3
Modelos para variable continuas
Definición
La función de densidad fX de una variable continua informa de la intensidad del
crecimiento de FX en un punto concreto de X.
Ejemplo 1.2: Un paciente ingresado sabe que su médico pasa visita entre las 8 y las 9 am y
que decide el orden al azar por dónde empezar, de forma que se espera la misma
probabilidad para cada momento del tiempo entre las 8 y las 9 am. La persona acompañante
del paciente debe irse a trabajar a las 8h40’: ¿Cuál es la probabilidad de que el médico haya
pasado antes? Como dispone de 40’ sobre un total de 60’, P(X<8h40’)= 2/3.
Definición
En una variable con distribución uniforme entre dos puntos a y b:
Ejemplo 1.2 (cont.): La Figura 1.1 muestra las formas de sus funciones de distribución y de
densidad.
1.0 1.0
0.8 0.8
0.6 0.6
Fx
Fx
0.4 0.4
0.2 0.2
0.0 0.0
6 7 8 9 10 11 12 6 7 8 9 10 11 12
X X
4
Bioestadística para no estadísticos
Ejercicio 1.1
La llegada de pacientes con la enfermedad E sigue una distribución Uniforme a lo
largo del día, entre las 0 y las 24h. Calcule la proporción de pacientes que serán
visitados antes de las 8 am y durante el turno de mañana (8 a 15h).
Ejemplo de R
> punif(7,5,10)
[1] 0.4
Recuerde
En la Normal, esperanza y desviación típica tienen interpretación visual: es el
centro; y su distancia al punto de máxima pendiente.
Nota: Recuerde que decir “una variable biológica sigue la distribución Normal” o “la variable es Normal”
implican un abuso de lenguaje. Lo correcto sería decir “el modelo Normal reproduce el comportamiento
de dicha variable”. Disculpen si, por brevedad, usamos expresiones como “variable Normal”.
5
Modelos para variable continuas
Ejemplo 1.3: La distribución Normal, en sus inicios, fue utilizada para representar la
distribución de los errores de medida. Pero no los errores groseros, pocos y evidentes; sino
los muchos, pequeños e inapreciables que acompañan ciertos procesos de medida, como la
balanza de fiel.
Nota: Las leyes de la combinatoria muestran que la probabilidad de que todos estos pequeños fenómenos
actúen en el mismo sentido, generando valores extremos, es muy pequeña. En general, estos efectos se
compensan unos con otros y los valores se acercan a una cierta media.
Ejemplo 1.4: la altura de los varones adultos y sanos de una determinada población puede
aproximarse, razonablemente bien, por la distribución Normal. Para decir que es Normal, ha
sido preciso especificar primero la edad, el género y la población, ya que éstas
características podrían originar diferencias notables, remarcables. Si, por ejemplo, se
mezclan ambos géneros, la distribución resultante tendría dos montañitas o jorobas que
marcarían los intervalos modales de hombres y mujeres.
Nota: La dispersión de los valores de la distribución Normal es, por tanto, el resultado de establecer un
modelo sobre el elevado número de fenómenos con muy pequeña influencia. Éstos son tantos y tan
pequeños que no aportan información y representan el “ruido”.
Recuerde
La media de la Distribución Normal representa la señal “relevante”; y la
desviación típica, las oscilaciones “irreproducibles”.
Notación
Representamos el modelo Normal de parámetros y σ por N( , σ)
Ejemplo 1.5: La altura de los varones adultos sanos es N(170 cm, 8 cm)
Historieta: Hubo épocas en las que aquí se explicaban tablas como éstas. Ahora, gracias a R, Vd. se las
ahorra.
6
Bioestadística para no estadísticos
Ejemplo de R
Ejercicio 1.2
a) Calcule con R las probabilidades de encontrar alguien que mida menos de
170; menos de 162, y menos de 154 cms.
Ejemplo de R
7
Modelos para variable continuas
Ejercicio 1.3
a) Suponga que N(170,8) es la distribución de la altura de las pacientes. Si quiere
garantizar que el 99% cabrán sin tener que doblar las piernas, las camas deben
medir…
Los ejemplos y ejercicios anteriores muestran que, si se toma una vez hacia arriba y una vez hacia
abajo el valor de la desviación típica (±1 ), se engloba el 68% de las observaciones. Y si en lugar
de hacer una vez el valor de la desviación típica, se toma dos veces dicho valor (±2 ), se incluye al
95% de las observaciones.
68%
95%
Figura 1.3 Representación de las regiones que contienen el 68% y el 95% de las observaciones en una distribución
Normal con media y desviación estándar .
Recuerde
Más y menos 2 veces alrededor de μ contiene el 95% de los casos.
8
Bioestadística para no estadísticos
Recuerde
Hay 2 usos recíprocos: (1) dado el valor X, calcular las probabilidades que
delimita; y (2) dadas ciertas probabilidades, calcular el valor X que las limita.
Ejemplo 1.6: ¿Cuál es el límite de la glicemia que deja por encima el 5% de los sanos?
5%
?
Figura 1.4 ¿Qué valor deja por encima el 5% de la distribución?
Ejemplo 1.7: Un paciente tiene, en cierta prueba, índice o escala (por ejemplo, de
inteligencia) una puntuación de 112 unidades. Este valor no aporta nada a un inexperto en
dicha prueba, pero sí que lo haría decirle que ocupa el percentil 70, es decir, que un 70% de
las unidades de su población tiene puntuaciones inferiores.
Ejercicio 1.4
Un estimulador tiene un umbral con cierta variabilidad: unos voluntarios
responden ante un estímulo de unos voltios; y otros, de tantos voltios. . La
distribución del umbral en los sanos es aproximadamente normal con una media
de 5 voltios y una desviación típica de 0.5.
Rellene los siguientes espacios en blanco:
a) El 95% de los voluntarios tienen un umbral que se sitúa entre __y__ voltios.
b) En el 95% de los voluntarios, el umbral se sitúa por encima de ___ voltios.
c) En el 95% de los voluntarios, el umbral se sitúa por debajo de ___ voltios.
d) El 90% de los voluntarios tienen un umbral que se sitúa entre _ y _ voltios.
9
Modelos para variable continuas
Ejercicio 1.5
En unidades del Sistema Internacional, el cloruro plasmático tiene unos límites de
“normalidad” de 95 y 105 mmol/l.
a) ¿Es posible que una persona sana supere estos límites?
b) ¿Cuál cree Vd. que es el valor de la media y de la desviación típica de esta variable
en los “normales”?
c) ¿Existe alguna condición (premisa) para este cálculo?
d) Para la Ferritina, estos límites son 15-200 g/l ¿Cómo se imagina su distribución?
Ejercicio 1.6
Busque variables relacionadas con su trabajo que presumiblemente sigan una
distribución normal.
Ejercicio 1.7
Invente aplicaciones “útiles” para las variables del punto anterior. Invente
condiciones o situaciones en las que sea razonable que las variables del ejercicio
anterior dejen de seguir una distribución normal.
Definición
El desvío tipificado Z se obtiene:
10
Bioestadística para no estadísticos
Historieta: Un marciano al que ha conocido por internet le cita en la plaza de su ciudad y le dice: “ya me
verás, mido 160 cms”. Primero Vd. piensa “será un marciano bajo”, pero luego cae en cuenta de que no
conoce la media de sus alturas. Se la pregunta y le dice que es 150 cms. “Vale, es un marciano alto”,
razona. Pero “¿sobresale o es un alto típico?”. Y ahora le pregunta , que resulta ser 2 cms. Y Vd.
interpreta: “destaca”. Así es: su mayor altura es 5 veces la distancia típica. Vamos, que si fuera terrícola,
donde =8, ¡se distanciaría 40 cms de la media!
Ejercicio 1.8
En la distribución Normal tipificada, Z~ N(0, 1) , ¿qué proporción de casos
quedan por encima de -1.96 y por debajo de +1.96?
Recuerde
En la Normal tipificada, Z, “±1.96” (o redondeado: “±2”) son los límites que
contienen el 95% de las observaciones.
Como Z tiene media 0, valores negativos representarán observaciones por debajo de la media; y
como su desviación típica es 1, una observación prototípica se aleja de la media, por arriba o por
debajo, en 1 unidad.
Ejercicio 1.9
¿Qué proporción de casos están por encima de z = 1.66? Es decir, ¿cuál es la
probabilidad de que Z > 1.66?
Ejercicio 1.10
Un gabinete psicológico valora los resultados de la inteligencia abstracta A según
una escala N(100, 15) y la emocional E según una escala N(1000, 10). Un
paciente tiene A=120 y B=1020. Vd. observa que ambas inteligencias están por
encima de la media. Pero relativo a sus conciudadanos, ¿destaca más en A o en E?
1.4. Exponencial
El modelo de Poisson permite, a partir de una tasa de eventos por unidad de tiempo, modelar la
probabilidad de observar x casos en esa unidad de tiempo: P(X=x). El modelo exponencial, a partir
de la misma tasa de eventos por unidad de tiempo, modela la probabilidad de que el tiempo T
hasta el próximo evento sea menor que un cierto valor t: P(T<t).
11
Modelos para variable continuas
Notación
Representamos el modelo Exponencial por E(λ)
Recuerde
Como en la Poisson, en el Exponencial la tasa λ indica casos/tiempo.
Ejemplo de R
Ejercicio 1.11
Si la tasa diaria de traumatismos craneoencefálicos vale 1, ¿qué proporción de
veces estaremos 3 o más días sin observar ninguno?
Ejemplo de R
Ejercicio 1.12
Cierto equipo anota 50 canastas por hora de juego. Si Vd. desea garantizar con
una seguridad del 95% que antes de un tiempo t ya habrán anotado 1 canasta,
¿cuánto vale este tiempo t?
12
Bioestadística para no estadísticos
Fórmulas
Si T~E(λ), E(T) = 1/λ y V(T) = 1/λ2
Ejercicio 1.13
En unidades por semana, la tasa del número de traumatismos craneoencefálicos es
7 casos/sem. ¿Cuál es el valor esperado del tiempo hasta el próximo?
Como en el modelo de Poisson, la premisa más importante del modelo Exponencial es que λ es
constante: el proceso no tiene memoria.
Ejemplo 1.9: El hecho de que llevemos tanto tiempo sin que nos toque la lotería no
aumenta ni disminuye la probabilidad de que nos toque en el siguiente sorteo.
Recuerde
El azar no tiene memoria.
1.5. Ajuste
Cita
Todos los modelos son falsos, pero algunos son útiles (George Box).
13
Modelos para variable continuas
Definición
La bondad del ajuste describe la similitud entre un modelo estadístico y unos
datos.
La Figura 1. superpone las funciones de densidad observadas (sombreado fuerte) con las teóricas
(sombreado claro) de una Normal con media y varianza igual a las observadas. En el primer caso
los datos provienen realmente de una Normal, pero en el segundo, de una variable muy asimétrica;
y en el tercero, de una uniforme.
Nota: Este gráfico es muy visual, pero poco estable y difícil de valorar.
También interesa disponer de medidas que permitan valorar la calidad del ajuste a nivel global, es
decir, a lo largo de toda la distribución. Disponemos de 2 medidas populares.
Definición
La distancia de Kolmogoroff es el valor máximo de la diferencia, para todos los
puntos de la variable, entre la Función de Distribución teórica y la probabilidad
acumulada observada.
El estadístico Shapiro-Wilks es la correlación entre el cuantil teórico y el
observado.
Ambos toman valores entre 0 y 1, pero el primero es una medida del desajuste, con mayores valores
cuanto menor es el ajuste.
Nota: Más adelante consideraremos su fluctuación en las muestras. Por ahora, veremos el significado de
estas medidas.
Un análisis gráfico más fino consiste en superponer las funciones de distribución, como hicimos
entre Binomial y Poisson. Ahora en lugar de 2 modelos teóricos, enfrentaremos modelo con datos.
14
Bioestadística para no estadísticos
Recuerde:
La diferencia máxima entre las probabilidades teóricas y las proporciones
observadas (ambas acumuladas) es la D de Kolmogoroff.
Definición
El gráfico QQ o QQ-plot enfrenta los cuantiles observados con los teóricos.
15
Modelos para variable continuas
Nota: Conocido originalmente por recta de Henry, cuando estudia el ajuste a la Normal, recibe también
los nombres de ‘gráfico de probabilidad normal’ y QQ-norm, como en la figura anterior.
Ejemplo 1.11: La Figura 1. muestra que el QQ-norm en este ejemplo ajusta muy bien a una
línea recta. Nótese la menor estabilidad en los extremos. La medida de Shapiro-Wilk
cuantifica esta correlación entre cuantiles observados y teóricos en W=0.996l, muy cerca de
1, su valor máximo.
Recuerde
Si el ajuste es bueno, el QQ-norm mostrará una recta, D será próximo a 0 y W a
1.
Ejercicio 1.14
Las 6 figuras muestran, para 2 tamaños muestrales, n=100 en la primera fila y
n=1000 en la segunda, los QQ-norm de diferentes variables y las medidas de
Kolmogoroff y Shapiro Wilks. Diga cuál es el peor ajuste en cada fila según el
gráfico y los valores de las medidas D y W.
16
Bioestadística para no estadísticos
Ejemplo de R
# ks.test y shapiro.test proporcionan también
p valores. Vd debe interpretar sólo D y W.
# Obtención de QQ-norm, D y W
> x <- rnorm(100)
> qqnorm(x)
> qqline(x)
> ks.test(x,pnorm)
One-sample Kolmogorov-Smirnov test
data: x
D = 0.0856, p-value = 0.456
alternative hypothesis: two-sided
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9868, p-value = 0.4256
# La instrucción rnorm(100) proporciona 100 números aleatorios con
distribución Normal estándar.
2. Curva ROC
Muchos indicadores pueden tomar más de 2 valores. Sean ordinales o numéricos, la definición de
sensibilidad y especificidad requiere establecer un límite o umbral (‘cut-point’) que separe el
conjunto de resultados en dos grupos, positivo y negativo.
Ejemplo 2.1: Un posible ejemplo es el resultado de una prueba que mide la concentración
de glucosa en plasma, en condiciones basales. Dicho resultado, expresado en mg/dl, puede
ser muy variado: 50, 75, 110, 128, 165, 192, etc. Ninguna cifra de éstas es, por sí misma, ni
positiva ni negativa.
Sin embargo puede ser útil considerar que cifras de 100 o superiores definen un resultado positivo;
y las inferiores, negativo.
17
Modelos para variable continuas
Recuerde
En los indicadores numéricos, es común establecer un umbral.
Ejemplo 2.2: el Ejercicio 1.4 dice que el límite de estimulación de los voluntarios sanos
sigue una N(5, 0.5). Supongamos, además, que en cierto tipo de enfermos sigue una N(6,
0.5). Figura 2.1
5 6
Sens = P(+|E) = P(Y > 5.5 | Enfermo) = P(z > (5.5-6)/0.5) = P(z > -1) ≈ 84.13%
Esp = P(-|S) = P(Y < 5.5 | Sano) = P(z < (5.5-5)/0.5) = P(z < 1) ≈ 84.13%
sanos enfermos
especificidad sensibilidad
Figura 2.2 Sensibilidad es la proporción de la curva de enfermos que queda por encima del criterio diagnóstico y
especificidad la de sanos que queda por debajo
Sens = P(+|E) = P(Y > 5.2 | Enfermo) = = P(z > -1.6) ≈ 94.52%
Esp = P(-|S) = P(Y < 5.2 | Sano) = = P(z < 0.4) ≈ 65.54%
18
Bioestadística para no estadísticos
sanos enfermos
especificidad sensibilidad
Figura 2.3 Al desplazar el umbral hacia la izquierda aumenta la sensibilidad y disminuye la especificidad
Lectura: Receiver Operating Characteristic (ROC) curves: a plot of the sensitivity of a diagnostic test
against one minus its specificity as the cut-off criterion for indicating that a positive test is varied. Often
used in choosing between competing tests, although the procedure takes no account of the prevalence the
disease being tested for.
Nota: Vea este video. Mejor ahora, son sólo unos minutos.
Prueba de referencia
Sano=58 Enfermo=51
Clasificación 1 Seguramente normal 33 3
de la tomografía
2 Probablemente normal 6 2
computarizada
3 Dudosa 6 2
(prueba índice)
4 Probablemente anormal 11 11
5 Seguramente anormal 2 33
19
Modelos para variable continuas
Calcule las proporciones de casos positivos en los enfermos y en los sanos si sitúa
el umbral en el máximo (declarar positivo sólo si resultado = 5). Ídem si fuera al
revés (negativo sólo si es 1).
Recuerde
Al bajar el umbral aumentan los positivos. Tanto en enfermos como en sanos.
Una vez más, bajar el umbral, implica aumentar la sensibilidad. Pero también, bajar la
especificidad.
Definición
La curva característica (ROC: Receiver Operating Characteristic) dibuja los pares
de las proporciones de positivos en las 2 muestras. Cada umbral marca un par.
Ejercicio 2.2
Defina la curva ROC en términos de sensibilidad y especificidad.
Nota: Más adelante veremos cómo elegir el ‘mejor’ umbral. Ahora los estudiamos todos.
La curva ROC pone la proporción de positivos en los enfermos (sensibilidad) en el eje vertical de
ordenadas y la de positivos en los sanos (1 – especificidad) en el horizontal de las abscisas.
20
Bioestadística para no estadísticos
Ejemplo de R
1.0
# Instale en R el paquete pROC
0.8
Sensitivity
0.4 0.6
# y genere 2 vectores con la con-
# dición y el resultado del test
0.2
> install.packages('pROC')
0.0
> library(pROC)
1.0 0.8 0.6 0.4 0.2 0.0
Recuerde
La curva ROC informa sobre el rendimiento:
1) de cada punto de corte de una prueba determinada.
2) global de cada prueba dentro de un conjunto de pruebas.
Nota: Un valor menor de 0.5 indica clasificación cruzada (los sanos tienen más tendencia al positivo que
los enfermos), por lo que debería invertirse el criterio de positividad de la prueba.
Recuerde
El ABC de ROC se interpreta como la proporción de parejas sano-enfermo en las
que el enfermo tiene un valor más alto que el sano.
En términos probabilísticos, si XE y XS son los valores del indicador en los enfermos y los sanos,
ABC = P(XE > XS).
Nota: ABC coincide con el valor del estadístico del promedio de la suma de rangos de Wilcoxon, W, que
permite contrastar la hipótesis P(XE > XS) = ½.
21
Modelos para variable continuas
Recuerde
ABC es la probabilidad de que un enfermo tenga mayor valor que un sano.
22
Bioestadística para no estadísticos
1.2. a)> pnorm (162, 170,8) [1] 0.1586553 P(X<162) = P(X≤162) ≈ 15.86%
> pnorm (154, 170,8) [1] 0.02275013 P(X<154) = P(X≤154) ≈ 2.28%
P(X<170) = P(X≤170) = 50% (No necesitamos R)
b) Por simetría: P(X>170) = P(X<170) =50%;
P(X>178) = P(X<162) ≈ 15.86%
P(X>186) = P(X<154) ≈ 2.28%
c) P(162 ≤ X ≤ 178) = P(X<178) – P(X<162) = [1-P(X>178)] – P(X<162) ≈
≈ [1-0.1586] – 0.1586 = 0.6828 ≈ 68.28%
c) Al poder tener tanto valores altos como bajos se debe repartir la α del 5% entre las dos colas. Es decir que
tenemos que encontrar a1 y a2 tal que P(X ≤ a1) = 2.5% y P(X ≤ a2) = 97.5%.
> qnorm(0.025,170,8) [1] 154.3203
> qnorm(0.975,170,8) [1] 185.6797
Por lo tanto los límites de “normalidad” estarían entre 154.32 y 185.68 cm.
Nota: Dejar 2.5% a cada lado es la más bonita de las posibles soluciones, pero también cumpliría con una
especificidad del 95% dejar, por ejemplo, un 4% abajo y un 1% arriba.
b) Debemos encontrar a tal que P(X>a) = 0.95, que por simetría de la distribución es lo mismo que encontrar a que
cumpla P(X ≤ a) = 0.05.
23
Modelos para variable continuas
d) Se trata de encontrar los cuantiles de α/2=0.05 para la variable X. Teniendo en cuenta los resultados de los
apartados anteriores el 90% de los voluntarios tienen un umbral entre 4.18 y 5.82.
1.5. a) Convendría estudiar cómo se han definido estos límites. Dado que (con pequeña probabilidad) puede haber
personas sanas que tengan valores muy alejados, suelen definirse estos límites de forma que incluyan el 95% de los
sanos. Por tanto, en principio es posible que una persona sana supere estos límites, si bien con una probabilidad
pequeña, conocida y decidida previamente.
b) A partir de estas cifras, si se asume la forma de montañita simétrica de la normal, la media sería el punto central,
100, y la desviación típica, la mitad de la distancia de los extremos, 2.5.
d) Parece difícil imaginar una distribución simétrica para la Ferritina. El cálculo anterior no sería correcto. A veces,
trasformar logarítmicamente estas variables positivas permite descubrir detrás una forma de ¡montañita
simétrica!
1.6. Por la experiencia previa, parece que las cifras de colesterol son relativamente simétricas, con más casos por el
centro.
1.7. Por favor, consulte sus propuestas o en el foro o con su tutor o con los directores del curso.
1.8. Dada la simetría de la distribución Normal, la proporción de casos por encima de -1.96 y la proporción de casos por
debajo de 1.96 es la misma. Como el valor 1.96 deja por encima el 2.5% de los casos, por debajo de 1.96 se
encuentran el 97.5% de los casos —así como por encima de -1.96.
1.9. > 1-pnorm(1.66,0,1) [1] 0.04845723 P(Z>1.66) = 1- P(Z≤1.66)
1.10. En E porqué se aleja 2σ, mientras que en A solo se aleja 1.75σ.
1.11. > 1-pexp(3,1) [1] 0.04978707 P(T≥3) = 1-P(T<3), con T~E(1)
24
Bioestadística para no estadísticos
n=58 n=51
Clasificación Sanos Clasificación Enfermos
Correcta Incorrecta Correcta Incorrecta
Probablemente normal 33 25 48 3
Dudosa 39 19 46 5
Punto de corte
Probablemente anormal 45 13 44 7
Seguramente anormal 56 2 33 18
A modo de ejemplo de interpretación, cogemos los pacientes clasificados como sanos en la primera fila: en este
caso un resultado negativo de la prueba equivaldría únicamente a estar clasificado en el grupo “Seguramente
normal”), así tendríamos 33 pacientes bien clasificados (dan negativo) y 25 (6+6+11+2) mal clasificados (dan
positivo).
También a modo de ejemplo de lectura de la tabla anterior observemos la segunda fila, entre los pacientes
enfermos: eligiendo el punto de corte “Dudosa”, tendríamos 46 (33+11+2) individuos bien clasificados (es decir
que dan positivo en la prueba índice, ya que están clasificados en una de las categorías “Normales”) y 5 individuos
(3+2) mal clasificados (que dan negativo).
El siguiente paso es construir una tabla con las proporciones de positivos, es decir, los valores de sensibilidad y (1-
especificidad) para los distintos puntos de corte. Hay dos puntos de corte, al principio y al final que corresponden a
las situaciones extremas en que todos los pacientes son o bien clasificados como positivos o, todo lo contrario,
como sanos. La tabla completa que obtendríamos añadiendo también la columna de especificidad sería:
25
Modelos para variable continuas
2.4. Su dibujo debería parecerse a la Figura 2.4 que proporciona R con la ayuda de 2 paquetes adicionales: epitools
(para pasar de la tabla a un data.frame) y pROC (para dibujar la curva)
> install.packages('epitools')
> library(epitools)
> install.packages('pROC')
> library(pROC)
> a <- matrix(c(33,6,6,11,2,
3,2,2,11,33),nrow=2,byrow=TRUE,
dimnames=list(c("Sano","Enfermo"),1:5))
> b <- expand.table(a)
> response <- b[,1]
> test <- as.numeric(b[,2])
> r <- roc(response,test,plot=TRUE)
1.0
0.8
Sensitivity
0.4 0.6
0.2
0.0
26
Bioestadística para no estadísticos
Se pueden consultar las sensibilidades y las especifidades correspondientes a los puntos de la curva con
r$sensitivities y r$specificities, respectivamente. El área bajo la curva ABC se obtiene con
r$auc (Area Under the Curve). Para ver todo lo que puede obtener, haga names(r)
27
Capítulo 7
Inferencia y decisión
Febrero 2015
Inferencia y decisión
Inferencia y decisión
Presentación ......................................................................................................................... 3
1. Introducción a la inferencia estadística .................................................................... 4
1.1. ¿Qué es la inferencia estadística?........................................................................... 4
1.2. Respuestas que ofrece la inferencia estadística...................................................... 4
1.3. Población, muestra e individuo .............................................................................. 5
1.4. Estadístico, estimador y parámetro ........................................................................ 8
1.5. Muestra aleatoria simple ...................................................................................... 10
1.6. Inferencia estadística y proceso científico ........................................................... 12
1.7. Posibles errores en la inferencia estadística ......................................................... 12
1.8. Poblaciones implicadas en la inferencia estadística ............................................. 14
2. Estadístico media muestral ...................................................................................... 17
̅ ..................................................... 17
2.1. Distribución del estadístico media muestral X
̅ ........................................................... 19
2.2. Centro de la distribución del estadístico X
̅ es un estimador insesgado de μ=E(X) .............................................................. 19
2.3. X
̅ .................................................... 21
2.4. Dispersión de la distribución del estadístico X
2.5. Error típico ........................................................................................................... 22
2.6. ¿Desviación típica o error típico? ........................................................................ 25
2.7. Estabilidad del conjunto ....................................................................................... 26
2.8. Más propiedades de los estimadores * ................................................................. 26
2.9. Estimación puntual ............................................................................................... 28
̅ ........................................................ 28
2.10. Forma de la distribución del estadístico X
̅ .......................................................... 30
2.11. Intervalo 1- de las medias muestrales X
Soluciones a los ejercicios ....................................................................................................33
2
Bioestadística para no estadísticos
Presentación
¿Qué información proporciona, a un clínico de Barcelona, los resultados obtenidos en un estudio
previo realizado en Boston? La evolución de estos casos de Boston se puede conocer perfectamente,
sin error. Pero esos casos ya han “evolucionado”, no tiene interés predecir una evolución que ya ha
sucedido. En cambio, sería muy interesante poder aplicar esos resultados pasados a unos nuevos
casos. ¿Cómo hacerlo?
La inferencia estadística, para incorporar la información empírica, define los conceptos de muestra
y población. Los valores obtenidos en una de las muchas posibles muestras permitirán estimar, con
un cierto error cuantificable, el parámetro que caracteriza al conjunto de la población. La estadística
pretende cuantificar, la información (“señal”), y el error (“ruido”) que implica el proceso de
generalización.
Contribuciones: (1) la versión original de 2013 descansa en el libro de Bioestadística para No estadísticos
de Elsevier de EC, JAG y PM, editada por JC y EC y revisada por RP; (2) la de enero de 2014 fue revisada
por MV, JC y EC para incorporar mejoras y sugerencias anónimas; (3) la de septiembre de 2014 por NB y
EC; y (4) la de febrero de 2015 por JC para incorporar mejoras de formato.
3
Inferencia y decisión
Definición
La inferencia generaliza la información de una muestra a una población.
Historieta: Dos amigos caminan por el Pirineo y, al ver un caballo, uno de ellos comenta: “no sabía que
los caballos de la Cerdaña fueran marrones y con las patas anchas”. Su amigo, que es lógico, le responde:
“perdona, lo que no sabías es que en la Cerdaña hay, por lo menos, un caballo marrón de patas anchas”.
Lectura: Hasta hace relativamente poco, los filósofos lamentaban la falta de técnicas para saltar de las
partes al todo. Para Hume, la inferencia era imposible; y para Russell, la inducción seguía siendo un
problema de lógica no resuelto. A mediados del siglo pasado, Popper aportó un punto de vista algo más
optimista: “sólo la refutación de una teoría puede ser inferida de datos empíricos y esta inferencia es
puramente deductiva”. Hoy en día, en estudios bien diseñados, y ejecutados, la metodología estadística
hace posible la inferencia.
4
Bioestadística para no estadísticos
En cambio, sería terriblemente aburrido “decir toda la verdad” sobre la altura de una
muestra de 23 pacientes: el primer caso mide 164 cm, el segundo, 173 cm; el tercero 168; ...
y el vigésimo tercero, 192.
Ejercicio 1.1
Suponga que, en el Ejemplo 1.1, por no aburrir, decide hacer un resumen de los
datos, ¿qué información le gustaría que este resumen le proporcionara: sobre el
centro o sobre la dispersión?
Ejercicio 1.2
Proponga otro ejemplo en el que también sea conveniente hacer un resumen
estadístico de los datos.
Conocer la distribución de una variable permitirá al clínico realizar de forma científica, por
ejemplo, el diagnóstico, el tratamiento o el pronóstico.
Ejemplo 1.2: Si se conoce cuál es la distribución del tiempo de convalecencia tras cierta
enfermedad, puede “adelantar” al paciente cuántos días tendrá sus facultades mermadas.
Con la media, dirá al paciente cuál es su valor esperado. Y con la desviación típica, cuál es
el error esperado: cuánto cabe esperar que un paciente típico se aleje de esa media.
Definiciones
Población: conjunto de todos los elementos, que cumplen ciertas propiedades
comunes, entre los que se desea estudiar un determinado fenómeno.
5
Inferencia y decisión
Ejemplo 1.3: Costa et al. invitaron a participar en el estudio, de manera consecutiva, a todas
las personas que acudieron al Centro de Extracciones del Hospital Clínic i Universitari de
Barcelona, desde diferentes servicios, para la realización de una prueba de tolerancia oral a
la glucosa (PTOG).
Cilla G et al.: “el estudio incluyó a mujeres que tuvieron un primer parto después de
septiembre de 1989 y un segundo parto entre 2 y 8 años después en la Maternidad del
Hospital Nuestra Señora de Aránzazu de San Sebastián (Guipúzcoa)”.
Por su parte, las unidades no tienen por qué ser “individuos”. Pueden ser hospitales, comarcas o
visitas clínicas. Es muy importante definir con sumo cuidado estas unidades, ya que se podría llegar
a conclusiones diferentes.
Ejemplo 1.4: Cierto facultativo presume de tener un razonable promedio de 7 pacientes por
hora. Pero la asociación de usuarios ha preguntado a todos sus pacientes y ha obtenido un
promedio de 9. ¡Y pudiera ser que todos digan la verdad, sin trampa!
Pongamos que este profesional tiene 3 horas de visita. En una de ellas ve a las primeras
visitas, a razón de 3 por hora. En otra, recibe a las segundas visitas, 6 por hora. Y en la
restante hora recibe las demás visitas, 12 por hora. Este facultativo ha definido como unidad
del estudio la “hora de visita”: el promedio de 3, 6 y 12 es, efectivamente, 7 pacientes por
hora.
3 3
𝑋𝑖 3 + 6 + 12
∑ = = 7 𝑑𝑜𝑛𝑑𝑒 ∑ 𝑖𝑛𝑑𝑖𝑐𝑎 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑎𝑠𝑜𝑠 1 𝑎 3
𝑛 3
𝑖=1 𝑖=1
Los usuarios en cambio, han definido como unidad a cada uno de ellos, de forma que, en
lugar de estudiar las 3 horas (unidades para el médico), estudian los 21 pacientes visitados
por el médico. En sus 21 respuestas obtienen “3” en 3 pacientes; “6”, en 6; y “12”, en 12. Y
el promedio es, efectivamente, 9 pacientes:
21
𝑋𝑖 3 + 3 + 3 + 6 + 6 + 6 + 6 + 6 + 6 + 12 + ⋯ + 12
∑ = =9
𝑛 3
𝑖=1
6
Bioestadística para no estadísticos
Posiblemente la primera definición represente mejor la pregunta del clínico (¿qué promedio
de pacientes visito yo por hora?); y la segunda, la del usuario (¿cuánto suele durar mi
visita?). Ambas definiciones son correctas y válidas. Pero no son intercambiables y en cada
estudio debe estar muy clara cuál es la unidad. Así, diferentes objetivos requieren diferentes
cálculos, todos ellos lícitos y correctos, pero que no deben confundirse: siempre debe quedar
bien clara la unidad del estudio.
Ejercicio 1.3
El colegio de odontólogos ha realizado un estudio aleatorio entre los pacientes de
sus consultas en la semana anterior. De 1000 fichas analizadas, 500 habían tenido
una visita el año anterior, por lo que concluyen que un 50% de la población acude
al dentista cada año. ¿Qué opina? ¿Se puede conocer la frecuencia de visitas al
odontólogo en la población general a partir de una muestra obtenida en las
consultas?
Ejercicio 1.4
Los centros sanitarios de la Seguridad Social suelen realizar una encuesta de
satisfacción a sus usuarios, cuyos resultados suelen ser altamente positivos. ¿Qué
llevó al defensor del pueblo a realizar una encuesta en la población general?
(Pista: defina la unidad de ambos estudios y medite sus diferencias).
Ejercicio 1.5
Para estimar la infección nosocomial, puede hacerse un estudio seleccionando
algunos de los pacientes que ingresan o bien seleccionando algunas de las camas
ocupadas en el hospital. ¿Cuáles son las unidades de ambos tipos de estudios?
Asumiendo que los pacientes que están ingresados más tiempo tienen mayor tasa
diaria de desarrollar la infección, ¿cuál de los dos estudios dará cifras más altas?
Recuerde
Dos estudios, para ser comparables, requieren la misma unidad.
7
Inferencia y decisión
Definición
El indicador que se obtendría de cada posible muestra, se llama estadístico.
El indicador de la población que se desea conocer, se llama parámetro.
Recuerde
Parámetro refiere a la población; estadístico, a la muestra.
Por ejemplo, el término esperanza representa el “parámetro” que indica el centro de gravedad de
una distribución poblacional;, pero el “estadístico” media refiere al promedio calculado en una
muestra.
Ejemplo 1.4 (continuación): Supóngase que la probabilidad () de que un paciente con
anticuerpos del SIDA tarde, en ciertas condiciones, más de 2 años en desarrollar los
primeros síntomas es 0.50. Es decir, expresado en porcentajes, del 50%. Esta probabilidad
es un parámetro que resume las expectativas del paciente y que representa una
característica intrínseca de la enfermedad. Por otro lado, en una muestra de 25 pacientes de
esa población, 15 han superado los 2 años. Este resultado de 15/25 = 0.60 (60%) representa
la proporción, que es el estadístico o valor observado en la muestra.
Ejercicio 1.6
Proponer un ejemplo similar con media y esperanza.
Nota: Si Vd. dispone de los datos de toda la población, es decir, si las conclusiones de su estudio aplican
únicamente a estos casos y no desea aplicarlas a otros diferentes, Vd. no necesita saber lo que es la
inferencia estadística. Pero vigile al hablar: no podrá establecer ninguna ley ‘universal’ que vaya más allá
de sus propios datos.
8
Bioestadística para no estadísticos
Definición
Cuando un estadístico de una muestra se usa para conocer el valor de un
parámetro de la población, recibe el nombre de estimador.
Nota: Cada muestra es fugaz, en el sentido de ser irrepetible y, en el fondo, irrelevante en sí misma. Una
vez terminado el seguimiento de los pacientes de la muestra y cumplidas las responsabilidades sanitarias
con ellos, el interés científico se centrará en conocer qué dicen estos casos sobre los pacientes futuros.
Ejemplo 1.5: Las encuestas electorales, a partir de unos pocos miles de entrevistados
intentan conocer la tendencia de unos cuantos millones: el auténtico interés está en lo que
votará toda la población. La importancia que tienen los pocos entrevistados es su capacidad
para informar sobre la distribución poblacional de esta variable.
Recuerde
Se puede acceder al estadístico observado en la muestra; pero el auténtico
objetivo, el parámetro de la población, no suele ser accesible.
Definición
La inferencia estadística cuantifica la información empírica (evidencia, o
pruebas) que el estimador proporciona del parámetro.
Es tan importante distinguir si se trata de valores muestrales o poblacionales que se les dará
diferente símbolo en un caso o en otro. (Tabla 1.1).
Así, una proporción observada en una muestra informa sobre la probabilidad de la población. Pero,
¿cuánta información aporta? ¿El valor poblacional se acerca mucho o poco al valor del estadístico
observado? La teoría de probabilidad permite cuantificar la información que un estadístico
(proporción P) aporta sobre el valor desconocido del parámetro (probabilidad ), auténtico objetivo
del estudio.
9
Inferencia y decisión
Si se sabe cuánto oscila un estadístico de una muestra a otra, se podrá cuantificar la información que
contiene. Veamos la distribución del promedio obtenido en una muestra aleatoria simple (MAS).
Definición
Muestra Aleatoria Simple (MAS) es aquella en la que (1) todos los elementos de
la población tienen la misma probabilidad de pertenecer; y (2) cualquier
combinación de n elementos tiene la misma probabilidad de pertenecer a ella.
Nota: Todos los elementos de la muestra tienen la misma distribución, ya que vienen de la misma
población.
Ejemplo 1.6: Imaginemos: 1) la población infinita de todos los posibles pacientes de una
enfermedad; 2) un procedimiento aleatorio que selecciona de forma independiente n=1000
pacientes de esta población.
Contra-Ejemplo 1.7: Una asociación profesional con 25000 afiliados decide hacer un
estudio para conocer qué proporción de ellos han recibido malos tratos en su trabajo. Diseña
una muestra aleatoria de 2000 a los que les envía un cuestionario, que contestan sólo 500.
Se puede saber que los 2000 representan a los 25000, pero se desconoce a quién representan
estos 500 y, por tanto, qué información aportan sobre el total de la población.
Nota: La definición de la población a la que se desea aplicar los resultados puede cambiar la
consideración de la muestra.
Ejemplo 1.9: En el fondo, el objetivo del estudio del Contra-Ejemplo 1.8 no puede ser conocer
cómo se comportan estos 80 pacientes (tema vital para ellos y para el centro que los atiende, pero sin
ningún interés para el resto de pacientes y centros). El objetivo del estudio debe ser más ambicioso,
de manera que se puedan beneficiar los pacientes de otros profesionales y centros. Ahora, por un
lado la situación se simplifica, ya que eliminar un elemento de esta población infinita prácticamente
no modifica su distribución. Pero, por otro lado se complica, ya que debe tenerse en cuenta que los
10
Bioestadística para no estadísticos
casos estudiados (sean 20 o sean 80) no son una muestra aleatoria de la población de todos los
pacientes con la misma enfermedad. ¿Hasta qué punto los resultados son extrapolables?
Recuerde
Caso, muestra y población no se definen por separado, de forma aislada. Haga
siempre la definición conjunta.
Volvamos a la definición de MAS. También resalta que la información aportada por las diferentes
unidades deba ser independiente entre sí. Es decir, el valor obtenido en una observación no aporta
información sobre el valor de otras observaciones. Este “no aportar información” debe entenderse
como que la distribución de las restantes variables es la misma sea cual sea el valor observado.
Ejemplo 1.10: Sigamos con el ejemplo 1.6 de pacientes con una enfermedad. Cada uno de
los elementos de la muestra aporta exactamente la misma información sobre la población:
que cierto paciente tenga un valor elevado no implica que cualquier otro paciente lo deba
tener ni más alto ni más bajo.
Recuerde
En una MAS: 1) las unidades se escogen al azar; 2) todas ellas tienen la misma
probabilidad de ser escogidas; 3) todas las posibles combinaciones de elementos
tienen la misma probabilidad de figurar en la muestra.
11
Inferencia y decisión
12
Bioestadística para no estadísticos
Ejemplo 1.13: Si cierto número de casos no termina el estudio, el investigador debe dejarlo
claro y analizar o, por lo menos discutir, hasta qué punto compromete las conclusiones.
Lectura: ¿Hasta qué punto debemos creernos las previsiones electorales que se publican en diferentes
medios? A continuación, y respecto a las elecciones generales de octubre de 1989, figuran los resultados
reales (parámetros poblacionales) junto a las previsiones (estimaciones basadas en muestras) publicadas
por El Periódico de Catalunya y por La Vanguardia. El segundo diario, que se comprometía con un
margen menos ambicioso (2%), cumplió. En cambio, el primero falló con dos formaciones: a pesar de que
prometía un margen de error máximo de 1 punto, para el PP se distanció 6.7 puntos; y para IU, 1.2.
Previsiones
RESULTADOS EL PERIÓDICO LA VANGUARDIA
23/10/1989 23/10/1989
(%) n=9524 +2000 n=3262
(%) (%)
PSOE 39.6 40.5 41.5
PP 25.8 19.1 25.0
CIU 5.0 4.9 4.5
IU 9.1 10.3 7.5
CDS 7.9 8.5 6.5
Margen 1 2
Tabla 1.2 Prospección de voto y resultados electorales de octubre de 1989
Las “fichas técnicas” de ambos estudios aportan explicaciones a estas diferencias: tipo de entrevista
(personal o telefónica); método de selección de los casos; días en los que se realizó la encuesta;
considerar la profesión como estrato; más encuestas en Cataluña donde el PP suele estar bajo;... Nótese
que estas explicaciones se basan en argumentos sociológicos, no estadísticos. Un argumento estadístico es
que, por pura mala suerte, la estimación de El Periódico, se alejó del auténtico valor.
La lectura anterior ilustra que en todo muestreo hay dos clases de errores: los debidos
exclusivamente a las fluctuaciones del azar o errores aleatorios; y todos los demás, conocidos
como errores sistemáticos o sesgos. La estadística ayuda a cuantificar la magnitud de los primeros.
Controlar los segundos es una responsabilidad compartida entre la estadística y la disciplina
aplicada. En el ejemplo anterior, la Sociología. En los estudios clínicos, el profesional sanitario
debe razonar si las condiciones del estudio permiten negar la existencia de sesgos. La Figura 1.2
adelanta los posibles sesgos en un ensayo clínico —que se verán en el tema 10.
13
Inferencia y decisión
Recuerde
Al pasar de la muestra a la población, en el proceso inferencial hay dos posibles
fuentes de errores: los aleatorios que la Estadística le ayudará a cuantificar; y los
sistemáticos, o sesgos, cuya posible existencia debe Vd. estudiar a la luz de sus
conocimientos clínicos.
14
Bioestadística para no estadísticos
Definiciones
Población origen de la muestra (“actual population”) o población muestrada es
aquella población imaginaria de la que se hubiera obtenido, por extracción
aleatoria 'pura', la muestra. Excluye, por ejemplo, a los casos que se niegan a
participar en el estudio.
Como pueden no incluirse entre sí, no podemos representarlas con las muñecas rusas (Figura 1.3).
Las posibles muestras SÍ están comprendidas en la población muestreada: si son aleatorias, la
inferencia estadística permite este salto. Además el autor del estudio debe valorar posibles
diferencias o sesgos entre las poblaciones origen y objetivo. Y los que deseen aplicar los resultados,
con su propia población externa.
Ejemplo 1.14: Los ensayos clínicos suelen elegir casos entre 18 y 65 años. Así, los
pacientes menores y mayores no forman parte de la población objetivo. Sí forman parte de
la externa, los argumentos para aplicar a ellos los resultados del estudio son ajenos a la
inferencia estadística.
15
Inferencia y decisión
Lectura: La definición de los criterios de selección es crucial: según Rafael Dal-Ré et al, “En general, la
inclusión de enfermos en ensayos clínicos es un problema más importante de lo que los propios
investigadores piensan, y siempre resulta más difícil de lo que en un principio se planeó.”
Recuerde
Criterios de elegibilidad muy restrictivos dificultarán el reclutamiento y limitarán
la aplicación posterior de los resultados.
Ejercicio 1.7
A partir de un artículo de investigación (p.e., “resultados a los 12 meses de un
programa de deshabituación tabáquica en un centro de atención primaria”) defina:
una población externa, población objetivo, población muestreada y muestra.
Historieta: Si le preguntan “¿es representativa su muestra?”, conteste con aplomo que sí: siempre hay
una población origen para la que su muestra sería representativa. Las preguntas de interés son ¿representa
a la población objetivo? ¿Cómo la ha definido? El reto es interpretar de forma clara y transparente a
dónde le permiten llegar sus datos.
Definición
Error aleatorio es la variación entre los valores muestrales (estadísticos)
obtenibles en las posibles muestras (centrados en el parámetro de la población
origen).
Sesgo es una diferencia entre los valores del parámetro en las poblaciones origen
y objetivo.
Ejercicio 1.8
Los textos médicos suelen estar basados en artículos científicos escritos desde
centros de atención terciaria. ¿Puede este hecho provocar un sesgo?
16
Bioestadística para no estadísticos
Ejercicio 1.9
Autores, revisores y editores tienden a valorar más los estudios con resultados
estadísticamente significativos. ¿Puede esta actitud provocar un sesgo?
Recuerde
La inferencia estadística sólo cuantifica la magnitud del error aleatorio.
Historieta: Seleccionar una muestra “al tuntún” no es lo mismo que hacerlo “al azar”.
̅
2.1. Distribución del estadístico media muestral 𝑿
Recuerde
̅ es: X
El cálculo del promedio o media muestral X ̅ = ∑ 𝑥𝑖 ⁄𝑛
Lectura: Mediavilla et al. La media del colesterol LDL (mmol/l) en los pacientes incluidos es
Xincl= 3.33 y la de los pacientes excluidos esXexcl= 3.49.
17
Inferencia y decisión
̅ de colesterol
Ejemplo 2.1: En el estudio anterior, si se obtienen dos muestras, las medias X
LDL serán algo diferentes, aunque se trate de casos de la misma población.
Historieta: Seleccionamos al azar un paciente y le preguntamos 100 veces por su edad (¡Pobre tipo! ¡Qué
paciencia! ¿Y qué pensará de nosotros?) y hacemos el promedio. Ahora, cabe esperar que obtengamos el
mismo valor si calculamos este promedio en otras 100 preguntas sobre su edad (se asume que el paciente
es muy paciente, claro). Si en medio de tantas preguntas no ha cumplido años, no habrá variabilidad en la
edad, y la media tampoco variará.
Nota: Esta variabilidad intra-paciente podría incluir cambios naturales del paciente, pero también error
aleatorio de medida, diferente calibrado, distinto evaluador, etc. Dejamos su estudio para el curso de
observacionales.
Así, las medias varían de una muestra a otra. Si se desea utilizar el estadístico promedio como
estimador del parámetro poblacional “esperanza”, esta variabilidad inducirá a errores lo que, por
supuesto, nunca es deseable. Ahora bien, ¿se pueden cuantificar estos errores? O, lo que es más
importante, ¿se puede limitar su magnitud? Para responder a estas dos preguntas cruciales, se debe
contestar antes a otras más sencillas:
1) ¿Alrededor de qué valor varían? (Es decir, ¿cuál es su centro?)
2) ¿Varían mucho o poco alrededor de este valor? (Es decir, ¿cuál es su dispersión?)
3) ¿Qué forma tiene su distribución?
18
Bioestadística para no estadísticos
̅
2.2. Centro de la distribución del estadístico 𝐗
̅ recibe el nombre de esperanza de X
El centro poblacional del estadístico media muestral X ̅ y se
̅). Se sabe que, si la muestra es aleatoria simple, la esperanza de X
representa por E(X ̅ coincide con la
esperanza de X.
Fórmula
̅ ) = E(X) =
E( X
Ejemplo 2.4: Si obtenemos MAS del colesterol LDL en 100 pacientes, el centro de las
medias de todas las muestras (E(𝑋̅)) coincide con la media poblacional del LDL (E(X)=).
Recuerde
̅ coincide con el de X.
Si el muestreo es aleatorio, el centro de X
Ejercicio 2.1
¿Es deseable esta situación? ¿Qué utilidad puede tener este hecho?
En resumen, se sabe que el conjunto de las medias de todas las posibles muestras aleatorias tiene su
̅), en el mismo centro de la variable en estudio, =E(X). Así, cuando usamos la media
centro, E(X
̅ para conocer la media de la población =E(X), hay el ‘consuelo’ de que el conjunto
de la muestra X
de todas las posibles muestras “apuntan” en la dirección correcta. Los errores serán tanto por exceso
como por defecto. Pero, estos errores no tienen “favorito”: hay equilibrio entre los positivos y los
negativos.
Definición
Un estimador es insesgado si el centro de su distribución a lo largo de todas las
posibles muestras coincide con el parámetro.
Ejemplo 2.5: Se desea estimar cómo evolucionan los ingresos de los médicos colegiados.
Cada año, seleccionados al azar informan sobre su salario. El conjunto de las medias de
̅) al centro de los salarios, E(X).
todas las posibles muestras tiene como centro E(X
19
Inferencia y decisión
Contra-Ejemplo 2.6: No sería correcto extrapolar estos resultados a otros colectivos con
otros salarios. Si se hiciera, se cometería un sesgo igual a la diferencia entre los salarios
medios de ambos colectivos.
Analogía: Sean dos lanzadores con arco que apuntan a sus respectivas dianas (Figura 2.1).
El lanzador de la izquierda tiene un sesgo hacia la izquierda y arriba, mientras que el de la
derecha está centrado.
Ejemplo 2.7: Dos informáticos han diseñado dos experimentos para conocer el tiempo de
un nuevo algoritmo para decodificar el ADN. El primer informático analiza muestras del
cromosoma 21, más corto. Mientras que el segundo selecciona muestras de todos los
cromosomas. Las posibles muestras del primero tendrán medias muestrales, cuyo centro,
̅ ), estará por debajo de la media poblacional, =E(X). Las del segundo informático
E(X
estarán centradas en la auténtica media poblacional (Figura 2.2).
Recuerde
̅ es insesgado.
Si la muestra es aleatoria, el promedio muestral X
Podría ser peor, claro, podría ser que las estimaciones apuntaran en dirección incorrecta. La
ausencia de sesgo parece un pobre consuelo, ya que estas estimaciones no aciertan. Si no se puede
20
Bioestadística para no estadísticos
garantizar que cada estimación acierte, ¿se puede por lo menos cuantificar la magnitud de su error?
̅ aportará esta información.
La varianza de X
̅
2.4. Dispersión de la distribución del estadístico 𝐗
Ejercicio 2.2
¿Recuerda el cálculo de la varianza de una muestra?
REPASO: 𝑆 2 = ∑(𝑥𝑖 − 𝑋̅)2 ⁄(𝑛 − 1)
𝑆 2 = [∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ⁄𝑛]⁄(𝑛 − 1) (más eficiente)
Practique ambas fórmulas, a mano y con R, para el ejemplo sencillo de n=5
alumnos que contestan que en su familia son 1, 2, 3, 4 y 5 hermanos. [Es una
excepción, no se lo pedimos nunca. Hágalo. Convienen interiorirzarlas.]
¿Qué fórmula es más intuitiva? ¿Qué ventaja adivina que puede tener la otra?
̅). La dispersión de X
Varianza del estadístico media muestral: V(X ̅ es directamente proporcional a la
dispersión de X e inversamente proporcional al tamaño n de la muestra.
Fórmula
𝑉(𝑋̅) = 𝑉(𝑋)⁄𝑛
Ejercicio 2.3
¿Es coherente esta situación?, ¿qué utilidad puede tener?
21
Inferencia y decisión
Contra-Ejemplo 2.9: No se tendrá más información si se mide 1000 veces al mismo niño.
Para que una nueva observación aporte información completa deberá ser independiente de
las observaciones previas.
̅ de una
Tampoco sorprende que a mayor variabilidad de la variable, mayor oscilación de la media X
muestra a otra.
Ejemplo 2.10: En muestras de la altura de niños, la variabilidad de las medias será mayor si
los niños tienen edades comprendidas de 5 a 15 años, que si todos tienen 8 años.
Ejemplo 2.11: Suponga que los ingresos de los titulados de una facultad aumentan con el
tiempo que pasa desde que dejan la universidad. Si es así, la dispersión de X será mayor si
se estudia el conjunto de todos los titulados, que si se estudia solamente los titulados en un
̅ , obtenidas de la población total,
cierto año. En consecuencia las medias muestrales, X
fluctuarán más que las obtenidas de muestras de un solo curso.
Recuerde
̅ proporciona el promedio de los errores al cuadrado.
La varianza de X
̅
Fórmulas error típico de 𝑿
𝜎
A nivel teórico, conocida poblacional: 𝜎𝑋̅ = √𝑉(𝑋̅) =
√𝑛
𝑆
A nivel práctico, a partir de la S muestral: 𝑆𝑋̅ =
√𝑛
22
Bioestadística para no estadísticos
Ejercicio 2.4
Suponga ahora que está interesado en conocer el promedio de hermanos de las
familias de los alumnos del Ejercicio 2.2. Si esta muestra de n=5 fuera una
muestra aleatoria (y, por tanto, representativa) de todas las familias, ¿qué error
cabe esperar que tiene la media observada en la muestra al estimar la media
poblacional? ¿Cómo lo interpreta?
Recuerde
̅ es la desviación típica de la variable en estudio
El error típico de la media X
dividida por la raíz del número de casos.
Ejemplo 2.12: La siguiente frase “los 100 niños tratados han tenido fiebre durante una
media de 3 días; el error típico (o estándar) ha sido de 0.1 día” hace inferencia hacia los
valores de la población: se afirma que, al aplicar este tratamiento en todos los niños de la
población origen, la media de duración de la fiebre es de 3 días y que el error esperado al
decir que la media poblacional es de 3 días es de 0.1 día.
Debe quedar claro que se trata de un error, por tanto con connotación negativa. Nótese que mientras
el término desviación típica no debería tener ninguna connotación, ni positiva ni negativa, ahora el
error típico ya deja claro desde el primer momento que se trata de algo negativo, no deseable: el
error que cabe esperar que se cometa al estimar el parámetro media poblacional a partir del
estimador media muestral.
Ejemplo 2.13: La altura de las mujeres adultas tiene una distribución Normal de media
=165cm, y desviación típica =7cm. Que la desviación típica sea de 7cm no es ni bueno ni
malo, simplemente refleja una situación natural: para un ecólogo, será fuente de riqueza;
para un fabricante de pantalones, un reto que superar. En cambio, si para estimar la altura
media de las mujeres se calcula la media en una muestra de n= 100 mujeres, el error típico
que conlleva la estimación es:
𝑆𝑋 7
𝑆𝑋̅ = = = 0.7 𝑐𝑚
√𝑛 √100
̅ al estimar es de 0.7cm.
Este valor del error típico dice que la imprecisión de X
23
Inferencia y decisión
Nota: de la misma manera que X ̅ estima , S estima y SX̅ , σX̅ . Como en general no se conocerá , el
error típico que se emplea es SX̅ .
Ejercicio 2.5
Se estima en 4.4 puntos el incremento en la calidad de vida de la semana 0 a la 24
en 43 pacientes. Si la desviación típica observada ha sido de 1.2 puntos, ¿Cuánto
vale el error típico? Interprete el resultado. Diga qué cuantifican, en este ejemplo,
la desviación típica y el error típico.
El error típico habla del error esperado o promedio, ya que el error exacto que se comete en una
muestra concreta permanece desconocido y puede ser más grande o más pequeño.
Nota: Formalmente no se puede interpretar el error típico como el promedio de los errores (es la raíz
cuadrada del promedio de los errores cuadrados), pero a nivel práctico, decir que representa el error
promedio o esperado es una buena aproximación.
A diferencia de la desviación típica, el error típico puede hacerse tan pequeño como se quiera:
simplemente se trata de aumentar el tamaño de la muestra —siempre aleatoria.
El error típico habla de error aleatorio. Si Vd. dispone de una muestra aleatoria, aunque sea
pequeña, sabrá cuantificar la oscilación originada por suerte, buena o mala.
24
Bioestadística para no estadísticos
Esta pregunta no tiene razón de ser, ya que no son medidas alternativas para un mismo objetivo: la
desviación típica es una medida descriptiva de cómo son los casos, mientras que el error típico es
una medida del error asociado a un proceso inferencial. Así, se usa la desviación típica al describir
los casos en los que se ha hecho el estudio (al inicio de “resultados”); y se usa el error típico al
inferir (desde la muestra a la población) el efecto observado. Esta inferencia permitirá a otros
científicos utilizar nuestros resultados.
Recuerde
La desviación típica es una medida de dispersión que describe los datos: ¿cómo
son mis casos?
El error típico es una medida del error de estimación al hacer inferencia: ¿qué
incertidumbre o ruido conlleva mi salto de la muestra a la población?
Lectura: La guía CONSORT aconseja la desviación típica para la tabla de descriptiva inicial y medidas
de inferencia (como el error típico) para estimar el efecto de la intervención.
Recuerde
La desviación típica se usa al inicio, al describir la muestra; el error típico, al
final, al inferir el resultado principal a la población objetivo.
Ejemplo 2.14: El nivel de plaquetas en pacientes de una determinada enfermedad tiene una
V(X)=2500 unidades2. Si, para conocer su valor medio, se obtiene una muestra de 25
pacientes, el error típico del promedio es:
̅) = √[V(X)⁄n] = √[2500 u2 ⁄25] = √100 u2 = 10 u
σX̅ = √V(X
En cambio, si se aumenta la muestra de 25 a 100 casos, el error típico es:
̅) = √[V(X)⁄n] = √[2500 u2 ⁄100] = √25 u2 = 5 u
σX̅ = √V(X
Recoger cuatro veces más casos baja la oscilación a la mitad.
25
Inferencia y decisión
Recuerde
Si desea estimar un parámetro y dispone de un estimador insesgado, el error típico
(SE: Standard Error) de este estimador, le informa del error esperado al afirmar
que el valor del parámetro poblacional coincide con el valor del estimador
obtenido en su estudio.
Recuerde
La variabilidad de los individuos contrasta con la regularidad del conjunto.
Ejemplo 2.15: Pongamos que la probabilidad de nacer varón sea ½. El próximo nacimiento
de Barcelona tiene esta probabilidad de ser varón. Pero no será mitad niño y mitad niña: o
bien será niño o bien será niña. La incertidumbre es total. En cambio, podemos tener la
tranquilidad de que el próximo año nacerán alrededor de un 50% de niños y un 50% de
niñas en Cataluña. No le pediremos a un político que elabore un plan de contingencia por si,
por puro azar, durante unos años sólo nacen bebés de uno de los dos géneros.
Definición
Un estimador es convergente si, a medida que crece el tamaño de la muestra, se
acerca progresivamente al valor del parámetro.
26
Bioestadística para no estadísticos
Definición
Entre dos estimadores insesgados, se dice que es más eficiente el que tiene menor
error típico.
Analogía: Sean otros dos lanzadores con arco. Ambos insesgados. El de la izquierda tiene mayor
dispersión alrededor de la diana, por lo que es menos eficiente (Figura 2.3).
Nota: Observe la connotación económica: el estimador más eficiente proporciona más información (tiene
menos error aleatorio) para un mismo tamaño muestral (=coste). O también, permite obtener la misma
cantidad de información con una muestra más pequeña (menor coste).
Ejemplo 2.18: Dos investigadores han diseñado dos experimentos para comparar la
biodisponibilidad de dos preparaciones farmacéuticas alternativas. El primero ha obtenido
dos muestras de voluntarios, administrando a cada una, una de las dos formulaciones. Luego
̅ −𝑋
compara las medias de las dos muestras (𝑋 ̅ ).
1 2
debida al voluntario. Los gráficos muestran que, siendo ambos experimentos insesgados, el
segundo es más eficiente.
̅𝟏 − 𝑿
Figura 2.5 Ambos estimadores, 𝑿 ̅𝟐 y 𝑿
̅ 𝑫 , son insesgados pero 𝑿
̅ 𝑫 es más eficiente
27
Inferencia y decisión
Lectura: La estadística permite cuantificar los errores aleatorios. Si le conviene que la Muestra Aleatoria
Simple deje de ser “simple”, ningún problema, un profesional de la estadística le ayudará a obtener el
valor del error típico. Pero si la muestra deja de ser “aleatoria”, debe discutir Vd. todos los posibles
sesgos concebibles.
Definición
Al valor observado de un estimador en una muestra se le denomina estimación
puntual del parámetro.
Ejemplo 2.19: En una muestra aleatoria de 9 personas, la presión arterial sistólica (PAS) ha
̅ igual a 120 mmHg y una desviación típica muestral (S) de
tenido una media muestral X
12mmHg. Así, la estimación puntual de la PAS media en esta población ha sido de 120
mmHg. El error típico de esta estimación se puede cifrar en:
𝑆𝑋̅ = 𝑆⁄√𝑛 = 12 𝑚𝑚𝐻𝑔⁄√9 = 4 𝑚𝑚𝐻𝑔
Por lo tanto, hay una señal de 120 mmHg que está afectada por una oscilación de 4 mmHg.
Recuerde
El error típico informa del error esperado, pero el error exacto en una muestra
concreta permanece desconocido, pudiendo ser inferior o superior.
Ejercicio 2.6
El descenso de la PAS tras la administración de un fármaco en una muestra de 16
pacientes ha tenido una media de 12 mmHg y una desviación típica de 8 mmHg.
Calcule el error típico e interprete los resultados.
Ejercicio 2.7
Si hubiera deseado que el error típico hubiera sido de 1 mmHg, ¿Cuántos casos
hubiera necesitado (desviación típica de 8 mmHg)?
̅
2.10. Forma de la distribución del estadístico 𝑿
̅ se distribuyen alrededor de la media
Ya se ha dicho que las posibles medias muestrales X
poblacional =E(X) con una distancia promedio que cuantifica el error típico. Ahora bien, ¿qué
̅?
forma tiene la distribución de X
28
Bioestadística para no estadísticos
Por las leyes de combinatoria y probabilidad, en general la muestra contendrá tanto valores
̅ será próxima a la media
superiores como inferiores a la media poblacional; y su media X
poblacional μ. También es posible obtener valores alejados, si bien será menos frecuente; de hecho,
̅ de , menos probable es observarla. La distribución Normal de Gauss-Laplace
cuanto más se aleje X
̅ de una MAS.
aplica a la X
Recuerde
̅ se distribuye de acuerdo con la ley Normal Gauss-Laplace.
La media muestral X
La distribución Normal aparece en variables que son el resultado de muchos factores o fuerzas que
actúan independientemente y con influencias similares. Y eso es precisamente lo que es una media
̅, ya que cada observación de la muestra contribuye con el mismo peso o influencia.
muestral X
Queda por aclarar qué significa “muchos”: ¿cuántos casos se necesitan para que la distribución del
promedio de una muestra se acerque a la ley Normal?
Nota técnica: El Teorema del Límite Central (TLC) establece que, si se toman muestras de tamaño n, de
̅ se aproxima a la
una población de media y desviación típica , a medida que crece n, la distribución de X
ley Normal con media y desviación típica 𝜎⁄√𝑛.
Ejercicio de navegación
Asegúrese de que su navegador soporta JAVA y observe en esta página cómo se
comporta la media muestral 𝑋̅ al crecer “n”.
Ejercicio 2.8
A partir de lo visto, ¿la distribución de la variable 𝑋̅ cambia de forma cuando
crece el tamaño de la muestra? ¿y la de X?
Ejercicio 2.9
¿Cómo cambia la forma de la distribución de la variable 𝑋̅ cuando crece el
tamaño de las muestras?
Ejemplo 2.20: La edad de los pacientes incluidos en un estudio sigue una distribución
uniforme (aplanada, con el mismo número de casos en todas las franjas de edad). Si se
toman muestras de tamaño n=30 y se calcula la media muestral 𝑋̅ de la edad, la distribución
de 𝑋̅ se acercará a la Normal. La de la edad, sigue siendo la misma.
29
Inferencia y decisión
Ejemplo 2.21: La Presión Arterial Sistólica en los adultos sanos tiene una distribución que
se asemeja bastante a la ley Normal. Si se toman muestras de tamaño n=3 y se calcula la
media muestral 𝑋̅ de la PAS, la distribución de esta media será Normal.
Recuerde
̅
Las condiciones para poder creer que el promedio obtenido en una muestra X
sigue una distribución Normal son, o bien muestra n30 o bien distribución
Normal de la variable en estudio.
̅
2.11. Intervalo 1- de las medias muestrales 𝑿
Se vio que la distribución Normal permite construir intervalos que contengan un determinado
porcentaje de unidades o casos. Ahora, la variable en estudio es 𝑋̅, por lo que, utilizando la
Distribución Normal, se pueden construir intervalos que contengan un deseado porcentaje de las
medias 𝑋̅ que se podrían obtener en todas las posibles muestras.
Recuerde
Intervalo 1- de 𝑋̅𝑛 = 𝜇 ± 𝑧1−𝛼 𝜎⁄√𝑛
Para que este intervalo contuviera el 95% de las medias muestrales, el valor de la distribución
Normal debía ser Z/2 = Z0.025 = 1.96.
30
Bioestadística para no estadísticos
Ejemplo de R
# Z0.025 (cola superior, lower.tail=FALSE)
> qnorm(p=0.025,lower.tail=FALSE)
[1] 1.959964
Ejemplo 2.22: La glucosa en sangre (X) sigue una distribución Normal de media μ=100 y
desviación típica =10: 𝑋 → 𝑁(100 𝑚𝑔⁄𝑚𝑙 , 10 𝑚𝑔⁄𝑚𝑙 )
Se desean construir intervalos que contengan:
(i) el 95% de las unidades de la población;
(ii) el 95% de las posibles 𝑋̅ de muestras de tamaño n=9; y
(iii) el 95% de las posibles 𝑋̅ de muestras de tamaño n=100.
Los tres intervalos coinciden en que deben contener el 95% de sus unidades y dejar fuera el
5% (=0’05). Pero se refieren a unidades totalmente diferentes, con distribuciones
diferentes. En el primer intervalo las unidades son individuos; mientras que en el segundo y
tercer ejemplo se trata de las medias muestrales que se obtendrían si se repitiera
indefinidamente el proceso de tomar muestras de n=9 y n=100 de estos individuos.
Todas estas distribuciones (Figura 2.6) seguirán la ley Normal: al ser Normal la distribución
de la glucosa en los casos, también lo es la distribución de la media 𝑋̅, sea cual sea el
número de casos. Todas tienen, también, la misma media. Pero cambia la dispersión: para el
primer ejercicio, se trata de la desviación típica de la variable original, la glucosa en sangre,
10 mg/ml; mientras que para los dos restantes, se trata del error típico, debiéndose dividir la
desviación típica por la raíz del número de casos respectivos:
31
Inferencia y decisión
ii) Intervalo del 95% de las medias (𝑋̅𝑛=9 ) de las muestras de n=9 individuos, 𝑋̅𝑛=9 :
𝜇 ± 𝑧𝛼⁄2 𝜎⁄√𝑛 = 100 ± 1.96 · 10⁄3 = 100 ± 6.53 = [93.47, 106.53]
iii) Intervalo del 95% de las medias (𝑋̅𝑛=100 ) de las muestras de n=100 individuos,𝑋̅𝑛=100 :
𝜇 ± 𝑧𝛼⁄2 𝜎⁄√𝑛 = 100 ± 1.96 · 10⁄10 = 100 ± 1.96 = [98.04, 101.96]
Nota: Observe, una vez más, la mayor variabilidad de las muestras de menor tamaño.
Este ejemplo muestra cómo obtener, a partir de los valores poblacionales de media [E(X)=] y
varianza [V(X)], dónde estarán los valores de la media muestral (𝑋̅) en el 95% de las posibles
muestras. Puede ser interesante, pero tiene poca utilidad práctica, ya que el problema habitual es
justo al revés: conocidos los estimadores muestrales de media (𝑋̅) y varianza (S²), ¿qué se sabe de la
media poblacional E(X) = ? Esta interesante pregunta se contesta en el siguiente tema.
Ejercicio 2.10
El cociente de inteligencia (CI) sigue en terminos generales, una N(100,15). Si se
recolectaran muchas muestras de tamaño n=9 y en cada muestra j se calculara su
media 𝑋̅𝑗 :
a) ¿Cómo variarían las medias 𝑋̅𝑗 de la muestras?
b) En una facultad de Medicina, se ha recogido una muestra de tamaño n=9 y se
ha observado 𝑋̅𝑗 =104, ¿se trata de (1) un ejemplo aceptablemente típico; o (2)
especialmente afortunado, muy cerca de ; o (3) tan raro y alejado que se
sospecha que estos alumnos no son de aquella población?
c) Repetir los dos apartados anteriores, pero con n=25 y n =225.
32
Bioestadística para no estadísticos
1.2. Cualquier ejemplo es válido. También sería terriblemente aburrido “decir toda la verdad” sobre la carga viral.
Nótese, en cambio, que no lo sería sobre el género (“53 fueron del género masculino y 47 del femenino”). Y quizás
tampoco sobre el número de infecciones oportunistas (“2523 casos no presentaron ninguna; 48 tuvieron una; 7, dos
y 1 caso, tres infecciones”).
1.3. En el estudio de los odontólogos, la unidad es “visita a la consulta”, mientras que en la población general, la unidad
es “habitante”. Como hay habitantes que van al dentista más veces que otros, éstos estarán sobre-representados en
un estudio en el que se seleccionen “visitas”. Nótese que aquellos que nunca van al dentista tienen una probabilidad
nula de ser seleccionados. En resumen, porque hablan de unidades diferentes, el estudio de los dentistas (“visitas”)
ofrecerá cifras distintas (en este ejemplo, más altas) que el de la población general (“ciudadanos”).
1.4. Los estudios de satisfacción hospitalaria se basan en las altas hospitalarias, mientras que el estudio del defensor se
basó en ciudadanos. Igual que en el ejercicio anterior, aquellos ciudadanos que van menos a los centros públicos,
tienen una probabilidad menor de ser seleccionados. En resumen, cabe esperar mayor satisfacción entre las “altas”
hospitalarias, que entre los habitantes.
1.5. La unidad del primer estudio son los “pacientes ingresados”, pero la del segundo las “camas ocupadas”. El primero
informará sobre la frecuencia de infección nosocomial en un paciente que acuda a ese hospital; pero el segundo, de
la probabilidad de que cierto paciente ingresado cierto día y ocupando una cama, tenga dicha condición. Igual que
antes: si los pacientes que desarrollan infecciones nosocomiales permanecen más tiempo en el centro y la selección
se hace a partir de las “camas ocupadas”, las cifras de infección serán mayores.
1.6. Por ejemplo, en un estudio del perfil lipídico en 41 pacientes con HIV tratados, la media del colesterol total fue de
4.51 mmol/l. Se trata de la media obtenida en la muestra, y que informa sobre el valor de la esperanza (media en la
población), que es desconocida.
1.7. La muestra queda configurada por los casos concretos seleccionados; la población muestreada es aquella de la cual
se hubiera obtenido por meros mecanismos aleatorios, la muestra; la población objetivo, todos los fumadores de esa
región sanitaria; y la población externa, los fumadores de la zona dónde se quieren aplicar los resultados.
1.8. No, si el objetivo es utilizar los resultados en esos centros. Pero si desea utilizarlos en otros centros con diferente
gravedad habría sesgo.
1.9. Se trata del sesgo de publicación: al publicar sólo lo que ha resultado significativo, se da menor oportunidad a
difundir resultados sobre no-eficacia (volveremos a este tema).
2.1. Si se desea utilizar la media muestral (X) para conocer la media poblacional (E(X)=) es bueno que la distribución
deX se disponga alrededor del auténtico valor de . Dicho al revés: sería peor que se distribuyera alrededor de
cualquier otro valor. Y cuanto más alejado de estuviera, peor.
33
Inferencia y decisión
𝑆 = √𝑆 2 = √2.5 ≈ 1.58
Es decir, la media muestral es 3 hermanos; la varianza muestral, 2.5 hermanos² y la desviación tipo muestral es de
aproximadamente 1.6 hermanos. Podemos imaginar que la distancia (o desvío) de una familia “típica” con la media
es de 1.6 hermanos.
La primera es más intuitiva. La segunda (esto no tiene porqué saberlo) es computacionalmente más eficiente y más
exacta.
2.3. Es coherente: cuantos más casos se tiene, de más información se dispone: hay menos error aleatorio. Es útil (y, por
tanto, deseable) en el sentido de que un mayor esfuerzo en la recolección de datos se ve recompensado por menor
oscilación de las estimaciones.
Si se afirma que la media de la población es de 3 hermanos (es decir, si decidimos aproximarnos a la media
poblacional a partir de la media muestral), el error esperado al hacer esta afirmación es de 0.7 hermanos.
La señal obtenida ha sido 4.4 y el error asociado que lleva esta señal es de 0.18.
La desviación típica dice que el incremento en calidad de vida observado en esta muestra tiene una distancia
promedio de todos los casos de 1.2 al centro, estimado en 4.4. El error típico en cambio, habla de la oscilación
esperada del estimador de la media; es decir, del error esperado al decir que la media muestral es igual que la
poblacional.
La señal obtenida ha sido de 12 mmHg y el error asociado que lleva esta señal es de 2 mmHg.
2.7. Si desea que 𝑆𝑋̅ = 1 → 8⁄√𝑛 = 1 → 𝑛 = 82 = 64. Una vez más, si desea reducir a la mitad la oscilación del
estimador, debe multiplicar por 4 el tamaño muestral (64=16·4).
2.8. A medida que crece el tamaño muestral, lo que va cambiando de forma es la distribución de la variable media
muestral 𝑋̅. La distribución de los valores observados, es decir, lo que se llama la distribución de la variable en
estudio es siempre la misma para todos los casos, haya 3, 50 ó 1000. Si no tiene claro que lo que cambia es la
distribución de la media muestral 𝑋̅, no la de X, repita la última navegación.
2.9. Su centro, la esperanza, no cambia, pero sí que lo hace la dispersión y puede hacerlo la forma. La dispersión,
cuantificada por el error típico, se va haciendo más pequeña a medida que crece el tamaño muestral (la reducción es
proporcional al incremento de √𝑛). La forma, en el caso de variables que no siguen una distribución Normal, se
aproxima cada vez más a la de esta distribución (en el caso de variables que siguen la ley Normal, ya tiene esta
distribución para cualquier n).
34
Bioestadística para no estadísticos
b) [𝑋̅𝑖 − 𝐸(𝑋)] = [104 − 100] = 4 𝑢; cifra “razonable” ya que su valor esperado era 5 u. Por tanto diríamos que la
opción correcta es la "(1) un ejemplo aceptablemente típico".
[𝑋̅𝑖 − 𝐸(𝑋)] = [104 − 100] = 4 𝑢, NO es una cifra “razonable”, ya que su valor esperado es 1u. Por tanto,
diríamos que la opción correcta es la "(3) tan raro y alejado que se sospecha que estos alumnos no son de
aquella población".
35
Capítulo 8:
Intervalos de confianza
Erik Cobo, Belchin Kostov, Jordi Cortés, José Antonio
González y Pilar Muñoz
Hector Rufino, Rosario Peláez, Marta Vilaró y Nerea Bielsa
Septiembre 2014
Intervalos de confianza
Intervalos de confianza
Presentación ................................................................................................................................... 3
1. IC de μ con σ conocida* ................................................................................................ 4
2. IC de μ con σ desconocida ............................................................................................ 6
2.1. Distribución (Ji o Chi cuadrado) ........................................................................ 6
2.2. Distribución T de student ......................................................................................... 8
2.3. IC de usando S ...................................................................................................... 9
2.3.1. Premisas para estimar sin conocer ................................................................................ 11
2.3.2. Estimación auto-suficiente (bootstrap) * .............................................................................. 12
2.3.3. Interpretación y uso de la transformación logarítmica * ...................................................... 14
2
3. IC de * ........................................................................................................................ 15
4. IC de la diferencia de 2 medias .................................................................................... 17
4.1. Muestras independientes .......................................................................................... 17
4.2. Muestras apareadas .................................................................................................. 18
5. IC del coeficiente de correlación de Pearson (ρ) * ..................................................... 20
5.1. Variabilidad compartida: correlación intraclase* .................................................... 23
6. IC de la probabilidad ................................................................................................. 24
6.1. Método para muestras grandes ................................................................................. 24
6.2. Método para muestras pequeñas .............................................................................. 28
7. IC de medidas de riesgo en tablas 2x2......................................................................... 30
7.1. Diferencia de proporciones (Riesgos)* .................................................................... 30
7.2. Riesgo relativo (RR)* .............................................................................................. 32
7.3. Odd ratio (OR)* ....................................................................................................... 33
7.4. Cálculo con R de los IC de DR, RR y OR ............................................................... 34
Soluciones a los ejercicios. ............................................................................................................. 38
Tabla salvadora ............................................................................................................................... 46
* Indica tema más avanzado que no es crucial para los ejercicios, aunque el lector debe recordar que
aquí lo tiene —cuando lo necesite.
2
Bioestadística para no estadísticos
Presentación
El Intervalo de Confianza (IC) proporciona los valores del parámetro más compatibles con la
información muestral. Para obtenerlos, tomaremos de R los valores de 2 nuevas distribuciones: la t
de Student y la ² (Ji Cuadrado).
Como el parámetro es un valor poblacional, se pretende conocer verdades absolutas y dar respuestas
universales. Verdades universales, aunque reducidas a la población objetivo, con sus condiciones y
criterios. En la perspectiva que presentamos, antes de hacer el estudio, cualquier valor del
parámetro es teóricamente posible. Pero después del estudio, los contenidos en el IC son los más
verosímiles. En resumen, los IC cuantifican el conocimiento, tanto sobre el auténtico valor, como
sobre la incertidumbre que sobre él tenemos: mayor amplitud del intervalo, mayor imprecisión.
No es necesario que recuerde o aplique las fórmulas, pero SÍ que compruebe que sabe obtener con
R los resultados e interpretar su significado.
Como siempre, no es necesario que entre a fondo en los puntos marcados con asterisco; pero SÍ que
conviene que recuerde que aquí tiene la solución a ese problema por si alguna vez se le presenta.
3
Intervalos de confianza
1. IC de μ con σ conocida*
En el capítulo anterior propusimos usar el valor de la media muestral como estimador puntual del
parámetro poblacional, lo que venía avalado por ser la media muestral un estimador insesgado.
Además, el error típico informaba sobre la oscilación o imprecisión (el “ruido”) de la información
(la “señal”) aportada por la media muestral. Al final, con la ayuda de la distribución Normal,
construimos un intervalo que contenía el 95% de las medias muestrales.
Pero a nivel práctico, conocemos y queremos estimar . Es decir, la pregunta de interés es:
conocido el estimador muestral media ( ), ¿qué sabemos sobre la esperanza poblacional E(X) = ?
Queremos un intervalo que informe, con una certeza cuantificable, dónde se encuentra el valor del
parámetro. Para construirlo, recuperamos los valores que poníamos alrededor de μ; y
cambiamos μ por .
-Z /2 / n +Z /2 / n
Nota: A nivel práctico se puede coger tanto Zα/2 como Z1-α/2 dado la simetría de la distribución Normal.
En el caso de un α del 5%,
La Figura 1.2 muestra el resultado de añadir esta distancia alrededor de 7 posibles medias
muestrales . Los intervalos de las medias 1 a 5 ( a ), incluyen el valor del parámetro (línea
vertical), es decir, aciertan, tal y como también lo harían todos los intervalos sobre medias
contenidas entre los límites L1 y L2, que delimitan, precisamente, el 95% central de las medias
muestrales.
4
Bioestadística para no estadísticos
El intervalo así construido tiene, por tanto, un 95% de posibilidades de contener el parámetro
poblacional, por lo que recibe el nombre de Intervalo de Confianza del 95% (IC95%).
Nota: Un 95% de confianza significa que (cabe esperar que), cada 20 estudios que se realicen, 19
contengan el parámetro de interés y 1 no lo haga.
Nota: Si desea aumentar la cobertura al 99% (α = 1%) o al 99.9% (α = 0.1%), simplemente se trata de
sustituir el Z0.975 = 1.96 por los correspondientes cuantiles (Z0.995 = 2.58 y Z0.9995 = 3.29).
Recuerde
Este método requiere conocer la dispersión poblacional σ y por tanto es poco
usado.
Ejemplo 1.1 (Prestado del control de calidad y de la vida misma): La asociación de usuarios
(ASU) sospecha que las gasolineras no sirven la cantidad pactada. Por ley, se acepta que el
dispensador tenga un error =10cc por cada litro que expende. En una muestra de n=100
pedidos de 1 litro (¡qué poco suspicaz el dependiente!), la media observada ha sido =
995cc. El IC95% de vale:
Por tanto, se cree con una confianza del 95% que la auténtica media poblacional (μ) de esta
máquina está entre 993cc y 997cc.
Ejemplo 1.2: La glicemia en mmol/L tiene una desviación típica igual a 1. En una muestra
de 9 pacientes, la media ha sido de 5.
Se cree, con una “fuerza” del 95% que el auténtico valor poblacional se encuentra entre
estos límites.
Esta fórmula para calcular el IC95% de utiliza , lo que implica que, para poder estimar la media
poblacional necesita conocer previamente la varianza de la variable. Esta situación es casi
excepcional.
5
Intervalos de confianza
Recuerde
El IC de μ conocida introduce el tema. Sólo se usa para predeterminar ‘n’.
2. IC de μ con σ desconocida
¿Qué ocurre si σ es desconocida? De hecho, esta es la situación habitual. Ahora, para construir los
intervalos de confianza, ya no usaremos esta versión del estadístico señal/ruido
Nota: Sustituir el parámetro por el estadístico S implica sustituir una constante, que tiene un único
valor, por una variable aleatoria, que tiene toda una distribución de valores.
Si X es N(0,1), su cuadrado, X2, sigue una distribución de Ji cuadrado con 1 grado de libertad
(GdL): X2~
6
Bioestadística para no estadísticos
Ejemplo de R
v.a.i.i.d
entonces, la suma de sus cuadrados sigue una distribución de Ji cuadrado con n grados de libertad
(GdL):
Esta distribución tiene una forma asimétrica que se reduce cuando aumenta el número de GdL, tal y
como muestra la Figura 2.1.
Ejercicio 2.1
Calcule con R las probabilidades P(X≤1), P(X≤3) y P(1≤X≤3) si X ~
7
Intervalos de confianza
Ejemplo 2.2. Sea t una v.a. con distribución t de Student con 14 GdL (t ~ t14). La
probabilidad de que t pueda tomar valores inferiores a -2.5 es P (t<-2.5)= 0.012.
Asimismo, P (t>2.5)= 0.012. Y el valor de t que deja por debajo una probabilidad de 0.025
es -2.14.
Ejemplos de R
# Sea X una t de Student con 14 GdL
# P(X<-2.5)
> pt(q=-2.5,df=14)
[1] 0.01273333
# P(X>2.5)
> pt(q=2.5,df=14,lower.tail=FALSE)
[1] 0.01273333
# P(X<x)=0.025
> qt(p=0.025,df=14,lower.tail=TRUE)
[1] -2.144787
0.4 GdL=2
GdL=5
GdL=10
GdL=30
N(0,1)
0.3
dt(x, 2)
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
La distribución ‘t’ se aplana y se aleja más de la distribución Normal cuanto más pequeña sea la
muestra.
8
Bioestadística para no estadísticos
Nota: Gosset era el responsable de calidad de la cervecera Guiness. Para detectar los lotes que no
cumplían con las especificaciones deseadas, él había aceptado el coste de rechazar un 5% de los que sí
que las cumplieran, para lo que utilizaba los límites –1.96, +1.96. Pronto sospechó que desechaba
demasiados: fuera de estos límites había más del 5% de los lotes correctos. Cayó en la cuenta de que S era
un estadístico y no un parámetro y propuso una distribución algo más aplanada que la Normal, en la que
observó que rechazaba el % deseado de lotes correctos. Recibe este nombre porque lo firmó con el
seudónimo de “estudiante” —dicen que porque Guiness no quería que se supiera que estudiaban su
calidad..
Ejercicio 2.2.
Sea t una variable aleatoria con distribución t de Student con 12 grados de libertad
(t ~ t12). Encuentre la probabilidad de P ( t > 1.796 ).
Ejemplo de R
# Para calcular t19,0.025 y t19,0.975 en R
> qt(p=0.025,df=19)
[1] -2.093024
> qt(p=0.975,df=19)
[1] 2.093024
2.3. IC de usando S
La t de Student permite construir IC para μ desconociendo σ2.
Fórmula
El Intervalo de Confianza de (1-α)% de , sin conocer es:
Ejemplo 2.3: El tiempo utilizado en la atención al paciente sigue una distribución Normal.
Para conocer el tiempo medio empleado en este servicio, se han recogido 20 observaciones
que han tardado, en minutos, X = 34 y S=2.3.
Se cree, con una confianza del 95%, que la media poblacional del tiempo de atención se
sitúa entre 32.92 y 35.08 minutos.
9
Intervalos de confianza
Recuerde
La amplitud del IC valora la ignorancia o incertidumbre sobre el único y auténtico
valor de la esperanza μ. No indica que μ oscile ni que tenga más de un valor.
Ejercicio 2.3
Sin cambiar la confianza, ¿cómo podría reducir el intervalo del Ejemplo 1.2 a la
mitad?
Ejercicio 2.4
Con los datos del Ejemplo 1.2, calcule el IC para una confianza del 99%.
Ejercicio2.5
Al final, ¿el IC95% contiene o no contiene ?.
Ejercicio2.6
El IC99% (elija una):
a) incluye el 99% de las medias poblacionales
b) incluye el 99% de las medias muestrales
c) incluye la media poblacional el 99% de las ocasiones
d) incluye la media muestral el 99% de las ocasiones
Ejercicio 2.7
Con un IC95% (1- =95%) de μ podemos afirmar que (elija una):
a) el 95% de los casos están dentro del intervalo.
b) si se repitiera el proceso, el 95% de los casos estarían dentro del intervalo.
c) hay una probabilidad del 5% de que el parámetro μ no esté en el intervalo.
d) hay una confianza del 95% de que el parámetro μ esté en el intervalo.
Ejercicio 2.8
Asumiendo que la desviación típica poblacional de las GOT (Transaminasa
Glutámico Oxalacética) es de 120 u, ¿cuántos casos se necesitan para...
...tener un error típico de estimación de μ ( /√n) igual a 12 u?
...tener una semi-amplitud del IC95% de μ (Z0.975 /√n) igual a 12 u.?
...tener una amplitud total del IC95% de μ (±Z0.975 /√n) igual a 12 u.?
10
Bioestadística para no estadísticos
Nota técnica: En la estadística clásica, no bayesiana, el parámetro es una constante, no una variable
aleatoria. Por ello, se evita hablar de un intervalo de probabilidad del parámetro y se usa el término de
confianza. Desde esta perspectiva sólo puede usarse probabilidad en lugar de confianza si queda claro que
las variables aleatorias son los extremos del intervalo. En otras palabras, no decir que entre los límites a y
b del intervalo se encuentre un parámetro "flotante" con alta probabilidad, como si a y b fueran fijos, sino
que el procedimiento del IC garantiza con alta probabilidad que el parámetro esté entre los dos valores
aleatorios a y b.
Nota: Para referirse al término inglés assumptions, diferentes autores utilizan diferentes vocablos:
asunciones, hipótesis previas necesarias, requisitos, condiciones de aplicación... Como dijimos en el
capítulo 1, usamos “premisas” para resaltar su papel secundario y diferenciarlas de las hipótesis, que
aunque también son supuestos, reflejan el objetivo del estudio.
Para poder afirmar que el estadístico t sigue una t de Student con n-1 GdL, la premisa necesaria es
que la variable en estudio X siga una distribución Normal. Ahora bien, aunque no sea Normal, si el
tamaño muestral crece, la estimación S2 de 2
mejora, acercándose al valor real, por lo que la
2
sustitución de por S2 tiene menores implicaciones. Por esta razón, aunque la variable estudiada
no sea Normal, en estudios grandes puede usarse la Normal.
Recuerde
La fórmula requiere: o bien que X sea Normal; o bien que n≥ 30.
Nota: ¿Qué significa tamaño grande? ¿Por qué unos autores dicen 20, otros 30 y otros 100? ¿Hay algún
número mágico que cambie tanto la forma de la distribución? No, se trata de una aproximación sucesiva y
se necesitará menos muestra cuanto más se asemeje X a la Normal.
Así pues, se sabe cómo inferir los resultados de la muestra a la población si se dispone de una
variable Normal; o bien si la muestra es suficientemente grande. Estas fórmulas deben servir para
solucionar la gran mayoría de las situaciones.
Ejercicio 2.9
En una muestra de 100 pacientes con infarto, se ha valorado la Transaminasa
Glutámico Oxalacética (GOT) a las 12 horas. La media ha sido de 80 y la
desviación típica de 120. Haga un IC95% de la media.
Nota: Se pide un tamaño muestral mayor que 30 para poder usar una fórmula estadística. Pero en un
estudio clínico, el tamaño muestral debe fijarse por la cantidad de información que se desea disponer.
11
Intervalos de confianza
Lectura: En el caso de que no disponga de una muestra grande ni de una variable con distribución
Normal se puede recurrir a dos grandes grupos de soluciones: 1) métodos estadísticos que no requieren
esta distribución (cálculos exactos o por re-muestreo, principalmente); y 2) transformar la variable para
conseguir su Normalidad. Existen varias transformaciones que funcionan muy bien en la práctica. Para
variables positivas (como “el tiempo hasta...” o “el nivel de GOT”) la transformación logarítmica suele
corregir la habitual asimetría y conseguir distribuciones muy parecidas a la Normal. Por otro lado, si se
dispone de un recuento de fenómenos raros, de baja probabilidad, que suelen seguir una distribución de
Poisson, la transformación raíz cuadrada suele funcionar bien.
Ejemplo de R
Ejemplo de R
#Instalar paquete
>install.packages("bootstrap")
#Cargar paquete
>library("bootstrap")
##-- IC para una media (BDI-II)
#Semilla
>set.seed(123)
#Tamaño de la muestra
>n<-755
12
Bioestadística para no estadísticos
Por tanto, la interpretación será: “mediante un método de bootstrap, libre de premisas sobre
la forma de la distribución de la variable, la estimación puntual de la media poblacional es
32.5, con una incertidumbre (IC95%) desde 31.1. a 33.9.
Dado que este método genera submuestras al azar, diferentes ejecuciones, pueden originar
diferentes resultados. Para garantizar que no se ha escogido el resultado más conveniente (una
variante del “outcome selection bias”), conviene especificar en el protocolo la semilla que generará
las sub-muestras y el programa para obtener y analizar los datos.
Ejemplo 2.4 (cont): Veamos ahora cómo calcular el IC del coeficiente de correlación de,
por ejemplo, el índice BDI-II y la edad a la que el individuo sufrió el mayor episodio de
depresión.
Ejemplo de R
##-- IC para una la correlación
# Tamaño muestral
n <- 755
#Semilla
set.seed(123)
#Generación de y1 (BDI-II)
y1 <- runif(n,0,65)
#Generación de y2 (Edad de mayor episodio de depresión)
y2 <- rnorm(n,22.5,12.28)
#Unimos y1 e y2 en un data.frame
xdata <- matrix(c(y1,y2),ncol=2)
#Parámetro para el que se quiere calcular el IC (en este caso, coef, de
correlación)
theta <- function(x,xdata){cor(xdata[x,1],xdata[x,2])}
# Bootstrap con 1000 repeticiones
results <- bootstrap(x=1:n ,1000,theta,xdata)
#Cálculo del IC
13
Intervalos de confianza
IC <- quantile(results$thetastar,c(0.025,0.975))
IC
2.5% 97.5%
-0.05202905 0.08796262
Recuerde:
Si no se cumplen las premisas, valore emplear el método bootstrap.
Ejemplo 2.5: El salario, que por ahora aún no es negativo, cumple el modelo de Pareto:
“el 80% de Italia está en manos del 20% de los italianos”. Los aumentos de sueldo no se
negocian de forma aditiva o lineal (100€ más para todos), sino multiplicativa: un “5%
más” significa multiplicar por 1.05. Y, en matemáticas, las multiplicaciones ‘piden’
logaritmos.
Nota técnica: exp{Y} = eY indica el número e = 2.7183 elevado al número Y. La operación matemática
EXP y log son inversas: eln(y) = Y; ln(eY) = Y. El lector no debe desanimarse por la aparición de unos
logaritmos a los que no está habituado. Piense que son tan solo un instrumento para dar simetría a las
variables. Recuerde que el pH no tiene secretos para Vd: Es cómodo valorar la acidez con el pH, aunque
sea el logaritmo de la concentración de hidrogeniones.
Definición:
Sea Y=log(X)
Ejemplo 2.6 (cont. del Ejemplo 2.3): La media del logaritmo (Y) del tiempo utilizado en
la atención al paciente (en la muestra de 20 pacientes) es de ӯ = 3.55 y su desviación
estándar S=0.069. Como Y sigue razonablemente bien la Normal, el IC95% de es:
14
Bioestadística para no estadísticos
Los resultados son muy similares a los originales, IC95%= [32.92, 35.08]. Es bueno que,
independientemente de las premisas de salida, obtengamos conclusiones similares. Ahora
la simetría ocurre en una escala multiplicativa: 35.95=34.81·1.03; y 33.71=34.81/1.03. Es
decir, la imprecisión obliga a multiplicar y dividir por 1.03.
2
3. IC de *
El IC se basa en que, si X es N, S2 multiplicada por (n-1) y dividida por la varianza poblacional
Fórmula
El Intervalo de Confianza (1-α)% de σ2 es:
Premisa: X~N
Por tanto, habiendo observado una varianza muestral S2=64 min2, sabemos sobre la
varianza poblacional ² que, con una confianza del 95%, es alguno de los valores
comprendidos entre 38.98 min2 y 123.87 min2. Dos aspectos resaltan: la asimetría del
intervalo alrededor de la estimación puntual (64) y su gran magnitud: aunque la muestra no
es muy pequeña (n=25), el grado de incertidumbre parece notable. Para evitar tener que
interpretar “minutos cuadrados”, haremos su raíz:
15
Intervalos de confianza
El intervalo sigue siendo asimétrico alrededor de la estimación puntual, que era 8. Y sigue
pareciendo grande (el extremo superior casi dobla al inferior). Pero esta impresión ya no es
tan exagerada. Lo que no hay duda es que ahora, sin cuadrados, es más fácil interpretarlo:
con una confianza del 95%, la desviación típica poblacional es algún valor comprendido
entre 6.24 min y 11.13 min.
Ejemplo de R
Ejercicio 3.1.
Preguntados por el nº de asignaturas matriculadas, 4 alumnos han contestado: 2, 3,
4 y 5. Con la función de R anterior, calcule S2 y S y estime 2
y .
Nota técnica: Los GdL o la información “neta” de una muestra vienen dados por el número de
observaciones (independientes) menos las preguntas que previamente ha debido contestar. Por ejemplo, si
para calcular S2 en una muestra de n casos primero se ha debido estimar 1 parámetro µ mediante , los
16
Bioestadística para no estadísticos
GdL que tiene esta estimación de la varianza son “n-1”. Más formalmente, un sistema de n ecuaciones
(piezas de información) con k incógnitas tiene n-k GdL.
4. IC de la diferencia de 2 medias
Fórmula
El Intervalo de Confianza (1-α)% de μ1 - μ2 en muestras independientes es:
Fórmula
La estimación conjunta (“pooled”) de la varianza en 2 muestras se calcula:
Nota: observe que esta ponderación acaba siendo la fórmula de siempre de la varianza: la suma de todas
las distancias a su propia media, dividida por sus GdL.
Recuerde
La fórmula del requiere:
(i) MAS independientes
(ii) Varianzas (desconocidas) iguales: “homoscedasticidad”
(iii) Y1~N ; Y2~N
17
Intervalos de confianza
Ejemplo de R
# Cálculo del valor de t con 148 GdL
> qt(p=0.025,df=148,lower.tail=FALSE)
[1] 1.976122
Nota: La homoscedasticidad o estabilidad de las varianzas aparece cuando el efecto se concentra en los
valores medios: lo que sucede cuando el cambio de tratamiento produce el mismo efecto en todos los
casos y hace relevante a todas las unidades el efecto poblacional medio. Aunque la igualdad de varianzas
poblacional no es directamente observable, sí lo es el nivel de similitud de los valores muestrales.
Ejemplo de R
# Dadas dos muestras indep. x e y, la función t.test da el IC de μ1–μ2
18
Bioestadística para no estadísticos
Fórmula
El Intervalo de Confianza de (1-α)% de μ1 - μ2 en muestras apareadas es:
Recuerde
La fórmula requiere:
(ii) MAS apareadas
(iii) D~N
Di= YiA-YiB 2.13 1.85 2.43 4.51 3.24 3.51 2.946 0.996
Así, el cálculo erróneo previo provoca una estimación demasiado alta de la imprecisión, y
daba un IC con el valor 0 de no diferencias en su interior.
19
Intervalos de confianza
Ejemplo de R
# Dadas dos muestras apareadas x,y t.test y paired=TRUE
# dan el IC de la diferencia de μ en muestras apareadas
> ?sleep
> data(sleep)
> t.test(extra~group,data=sleep,paired=TRUE)
Paired t-test
data: extra by group
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal 0
95 percent confidence interval:
-2.4598858 -0.7001142
sample estimates:
mean of the differences
-1.58
Ejercicio 4.1.
Calcular, con R, el IC de la diferencia de las medias de YA y YB
YA = 23.05,39.06,21.72,24.47,28.56,27.58
YB = 20.91,37.21,19.29,19.95,25.32,24.07
(i) Considerando que son muestras independientes.
(ii) Considerando que son muestras apareadas.
(iii) Compare los errores típicos de ambos e interprete.
Si no se puede asumir que las varianzas sean iguales aparecen dos dificultades. La primera es
práctica: la diferencia de las medias ya no representa un efecto común para atribuir a cada caso. La
segunda es técnica: el estadístico ya no sigue una t de Student. Encontrar una transformación de Y,
en que las varianzas sean iguales y la distribución normal soluciona ambos problemas.
Población Muestra
Covarianza XY S XY
Correlación XY rXY
20
Bioestadística para no estadísticos
La covarianza indica el grado de variación conjunta entre las 2 variables. A nivel muestral, la
covarianza se calcula de forma muy similar a la varianza:
Ejercicio 5.1.
Imagine la covarianza de una variable X consigo misma. ¿En qué se convierte la
formula anterior de la covarianza al aplicarla a X con X: SXX?
La covarianza tiene las unidades de medida de ambas variables, por lo que conviene definir un
coeficiente que pueda ser interpretado de la misma forma para cualquier unidad de medida. El
coeficiente de correlación lineal “tipifica” la covarianza dividiéndola por sus desviaciones típicas. A
nivel muestral, se calcula:
La correlación varía entre -1 y +1, donde el signo indica la dirección de la relación: directa (si es
positivo) o inversa (si es negativo). La magnitud mide la intensidad de la relación. rXY = 0 indica
ausencia de relación lineal. En cambio, rXY = 1 o rXY = -1 indica una relación lineal ‘perfecta’ que
se puede representar mediante una recta Y= a+bX (Figura 5.1).
r = -1.00 r = -0.75 r = -0.50
21
Intervalos de confianza
Ejercicio 5.2
Recupere los datos del capítulo 3 sobre peso del recién nacido y semana de
gestación.
A) Mirando sus gráficos y la figura anterior, ¿qué correlación adivina entre ambas
variables? (a qué figura se parece más?)
B) Suponga que ha decidido estudiar sólo los partos a término ( 38 semanas):
¿cuál cree que es ahora el valor de la correlación?
C) Busque en R el comando para obtener el coeficiente de correlación y obténgalo
para las preguntas A y B (recuerde que puede seleccionar casos mediante, por
ejemplo, el comando subset(data.frame, concidición lógica), en este caso
subset(births,births$gestwks>=38)).
D) ¿Por qué cree que han dado diferente las correlaciones para las 2 situaciones
anteriores?
Recuerde
Si reduce la “ventana” de su estudio restringiendo una variable, disminuirá su
variabilidad y las posibilidades de observar relación con otras variables.
El IC95% del coeficiente de correlación lineal se puede estimar de diferentes maneras aunque lo más
habitual es hacerlo mediante la transformación de Fisher.
Recuerde
Ejemplo de R
# Consideramos las dos variables X y Y
> X<-c(23.05,39.06,21.72,24.47,28.56,27.58)
> Y<-c(20.91,37.21,19.29,19.95,25.32,24.07)
# Coeficiente de correlación y su IC95%
> cor.test(X,Y)
22
Bioestadística para no estadísticos
Ejemplo 5.1 (cont. del ejemplo anterior de R): Hemos obtenido una estimación puntual del
coeficiente de correlación muy alta, r=0.990. Además, bajo la premisas de MAS, sabemos
que , el auténtico coeficiente poblacional de correlación, es algún valor comprendido
entre 0.908 y 0.999. Nótese la gran asimetría del intervalo alrededor de 0.990.
Ejercicio 5.3
A) Calcule, con R, el IC del coeficiente de correlación para las muestras:
YA = 23.1 39.3 21.3 24.5 28.6 25.4
YB = 20.6 37.2 19.4 18.5 24.9 24.1
Recuerde
ICC distingue 2 fuentes de variabilidad.
23
Intervalos de confianza
Nota: En el caso de datos apareados, tiene sentido rechazar correlaciones negativas, en las que, al
repetirse la determinación, un caso se parecería menos a sí mismo que a los otros: para 2 determinaciones
de una misma variable en la misma escala ambos coeficientes coinciden.
Ejemplo 5.2 (cont del Ejemplo 4.1): Obtuvo una estimación puntual del coeficiente de
correlación muy alta, r=0.990. Al haber sólo 2 repeticiones, puede interpretar como ICC.
Existe una gran repetibilidad de los valores. El análisis de datos apareados, al hacer la
diferencia entre ambas variables, elimina la variabilidad compartida, entre-casos, 2E, y el
análisis de datos apareados será más preciso, con un error típico e estimación mucho
menor.
Lectura: extendido a más de 2 determinaciones, el ICC valora el grado de similitud entre los k casos
pertenecientes a un grupo.
Recuerde
6. IC de la probabilidad
Una variable dicotómica, se puede resumir como el hecho de padecer o no cierto acontecimiento
adverso (AA), definida mediante la proporción P de pacientes que lo han experimentado. La
proporción P de la muestra estima la probabilidad poblacional de que un nuevo paciente de las
mismas características presente dicho AA.
Población Muestra
Probabilidad Proporción
π P
24
Bioestadística para no estadísticos
Definición
El error típico del estimador P cuantifica su distancia esperada al parámetro π y
vale .
Ejercicio de Navegación
Observe que la aproximación de la Binomial a la Normal es tanto mejor cuanto
mayor es el número de observaciones y más alejado de 0 y de 1 está el valor de .
Nota: Observe que, en una binomial, dará los mismos resultados estimar la probabilidad de éxito, que
su complementario, la probabilidad 1- de fracaso. O de la proporción poblacional de hombres y
mujeres. Por ello, y 1- tienen un papel simétrico, por lo que la condición de que no sea muy pequeña
también aplica a 1- .
Fórmula
El IC (1-α)% de una probabilidad (π) es:
Recuerde
Se aceptan como condiciones de aplicación de la aproximación Normal que el
tamaño muestral sea grande y las probabilidades y 1- no extremas:
·n 5 y (1- )·n 5
Note la situación circular: ¡para estimar el intervalo de π es necesario conocer π! Hay dos posibles
soluciones. La primera viene de que el producto ·(1- ) tiene un máximo cuando = 0.5 = 1-
(Tabla 6.2).
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1- 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
(1- ) 0.09 0.16 0.21 0.24 0.25 0.24 0.21 0.16 0.09
Tabla 6.2 . Ilustración de que el máximo de π·(1-π) es para π = 0.5.
Se puede, por tanto, adoptar una actitud conservadora y decir que, en una muestra de tamaño n, la
dispersión del estadístico P vale, como mucho:
25
Intervalos de confianza
Fórmula
La segunda solución consiste en sustituir por p, tal como se hizo con ² por S². Ahora, el cálculo
del IC1- de es:
Fórmula
Recuerde
En el IC95% de , en lugar de , se emplea, o bien 0.5, o bien P:
IC1- ( ) = P Z /2 p= P Z /2 [0.5·(1-0.5)/n]
IC1- ( ) = P Z /2 p= P Z /2 [P·(1-P)/n]
Ejemplo 6.1: Se lanza 100 veces una moneda al aire y se observan 56 caras.
Según el primer método:
Ambos métodos conducen a un intervalo muy similar (idéntico hasta el segundo decimal).
Interpretamos que, con una confianza del 95%, la probabilidad de cara es uno de los
valores comprendidos entre 0.46 y 0.56.
26
Bioestadística para no estadísticos
Nota: Se da esta coincidencia de resultados porque, en este ejemplo, p se encuentra muy cerca de 0.5, su
máximo. Si se estuviera estimando un fenómeno más raro, con una alejada de 0.5, la concordancia entre
ambos procedimientos sería menor.
Nota: Puede decirse que (0.5·0.5/n) = 0.5/ n es el valor del error típico de p en la situación de máxima
indeterminación. Tiene la ventaja de que, dado cierto tamaño muestral, se dispone del mismo valor para
cualquier variable dicotómica que desee estimar. Por lo tanto, en una encuesta con muchas preguntas o en
una variable con varias categorías (por ejemplo, en la intención de voto) puede usar el mismo valor de P
para cada una de ellas.
Ejemplo de R
# La instrucción prop.test propociona el IC para pi
> prop.test(56,100)
1-sample proportions test with continuity correction
data: 56 out of 100, null probability 0.5
X-squared = 1.21, df = 1, p-value = 0.2713
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4573588 0.6579781
sample estimates:
p
0.56
Nota: Hay una pequeña diferencia entre la fórmula que emplea R y el cálculo anterior que no debe
preocupar al estudiante. Los ejercicios de e-status dan ambas respuestas como buenas. El método clásico
(la fórmula explicada) sólo funciona para 'n' muy grande, mientras que el método que proporciona R
(prop.test, basado en el “Wilson score method”) funciona bien en general, incluso para tamaños de pocas
decenas.
Ejercicio 6.1
Dispone de una población, pongamos que infinita, de preguntas tipo test. Para un
examen se seleccionan al azar 30 preguntas y un alumno contesta bien 18 de ellas.
Como el interés del evaluador es conocer la proporción de preguntas de la
población conocidas por este alumno (no de esta muestra de 30 preguntas)¿qué
sabe sobre la proporción poblacional de preguntas que conoce el alumno?
Ejercicio 6.2
En un mega-ensayo, de los primeros 160 pacientes incluidos, 34 presentan una
infracción mayor del protocolo en la primera visita. Calcule, con R, el IC95% de la
probabilidad de que un paciente tenga esta condición.
27
Intervalos de confianza
Ejercicio 6.3
¿Qué amplitud máxima tiene el IC95% ( ) de la proporción de pacientes con AA si
n=100? ¿Y si n=400? ¿Y si n=2500? ¿Y si n=10000?
Ejercicio 6.4
Ejercicio 6.5
De un total de 100 médicos, 40 prescriben cierto fármaco. Calcule el IC 95% de la
proporción poblacional de médicos que lo prescriben. ¿Algún comentario sobre
cómo deberían haber sido seleccionados estos médicos?
Ejercicio 6.6
Situándonos en el caso de mayor variabilidad o incertidumbre ( =1- =0.5),
¿cuántos casos se necesitan para...
... estimar una proporción con un error típico de 0.05?
... estimar una proporción con un IC95% de amplitud total de 0.05?
Recuerde
También en muestras pequeñas puede obtener de R el IC95% de .
Por tanto, π=0.8 parece un valor razonable. Ahora bien, si fuera 0.3:
28
Bioestadística para no estadísticos
[1 - pbinom(7,10,0.3)]
Por lo tanto, =0.3 no es un valor razonable.
Podemos proponer como valores poco ’razonables’ aquellos para los cuales la probabilidad
de observar 8 o más observaciones NO alcanza el valor deseado. Por ejemplo:
Límite Inferior del tal que cumpla que:
Es decir, 0.444 y 0.975 son valores del parámetro que hacen poco probables (<0.05)
muestras con 8 observaciones (o más extremas). Por tanto, el IC95% del parámetro va de
0.444 a 0.975:
IC95%( ) = [0.444, 0.975]
En otras palabras: habiendo observado 8 de 10 historias con una documentación perfecta,
lo único que podemos garantizar (con un riesgo =0.05) es que la auténtica probabilidad
de que una historia de este programa esté bien documentada es algún valor entre 0.444 y
0.975.
Notemos la gran amplitud de este intervalo, resultado de un tamaño muestral pequeño para
una variable dicotómica. Lo que hace más relevante el IC95%.
Recuerde
En muestras pequeñas aún es más importante reflejar la incertidumbre y
proporcionar el IC95% de .
Ejemplo de R
# IC95% exacto para con 8 éxitos de 10 observaciones
> binom.test(8,10,conf.level = 0.95)
Exact binomial test
data: 8 and 10
number of successes = 8, number of trials = 10, p-value = 0.1094
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4439045 0.9747893
29
Intervalos de confianza
Nota: El método de R “binom.exact” es apropiado para cualquier 'n' (¡incluso para n=2!) pero es costoso
en tiempo de ejecución para 'n' grandes. Por lo que en ese caso es mejor usar el método “prop.test”
(Wilson score method).
Ejercicio 6.7.
Suponiendo en el ejemplo 6.2 que de los 10 programas estudiados, sólo 2
cumplían con las normas de calidad, encontrar el IC95% para mediante un
cálculo exacto basado en la Binomial. Comparar con el anterior e interpretar: ¿son
complementarios?
Y+ Y- Total
X+ 7 125 132
X- 8 860 868
Total 15 985 1000
Tabla 7.1 Presencia de la enfermedad Y y el factor de riesgo X en 1000 casos.
Fórmula
El Intervalo de Confianza de (1-α)% de la DR es:
30
Bioestadística para no estadísticos
El requisito para poder aplicar esta fórmula es que el tamaño muestral sea grande. Por dar unas
cifras “mágicas” de referencia, las frecuencias de las celdas de la tabla 2x2 deberían ser superiores a
3 y el tamaño total de la tabla, a 100.
Recuerde
Para poder aplicar la fórmula se requiere:
(i) Celdas con más de 3 efectivos
(ii) Tamaño muestral superior a 100
Y se concluye, por tanto, que los expuestos al factor tienen un riesgo entre 0.5% y 8.3%
superior.
Nota: Para evitar el uso de frases con connotación causal, no hemos dicho “la exposición aumenta el
riesgo entre un 0.5% y un 8.3%” .
Y+ Y- Total
X+ 94 38 132
X- 215 653 868
Total 309 691 1000
Tabla 7.2 Datos para los ejercicios 7.1, 7.2 y 7.3.
Ejercicio 7.1
Con los datos de la Tabla 7.2, calcule el IC95% (DR)
31
Intervalos de confianza
Ejemplo 7.3: Siguiendo con los datos de la Tabla 7.2, la razón entre 0.053 y 0.009 vale
5.7538, es decir, que el riesgo relativo observado es casi 6 veces superior en los expuestos.
Fórmula
Recuerde
El requisito para aplicar esta fórmula es, como antes, tamaño muestral grande.
Nota técnica: Este cálculo es ahora más complejo. Dada la asimetría del RR (que oscila entre 0 y 1 para
riesgos inferiores en los expuestos y entre 1 e infinito para riesgos superiores) es preciso hacer
previamente la transformación logarítmica natural (neperiana) para poder aprovechar la simetría
resultante. La varianza del logaritmo del RR tiene ahora la misma interpretación en cualquier sentido.
Nota técnica: La fórmula de la varianza del logaritmo del RR no es inmediata. Es la suma de las
varianzas de los logaritmos de las proporciones que son, a su vez, la varianza de la binomial dividida por
el cuadrado de la proporción.
32
Bioestadística para no estadísticos
Así, se puede afirmar que el valor de log(RR) aumenta entre 0.75 y 2.75, lo que resulta
prácticamente imposible de interpretar: ¿Qué significa un aumento de log(RR) igual a
2.75? Para facilitar la interpretación se deshace el logaritmo:
Por lo que se concluye que los expuestos tienen un riesgo que es entre 2.1 y 15.6 veces
superior: sea cual sea el riesgo en los no expuestos, en los expuestos, éste es entre 2.1 y
15.6 superior.
Nótese que el intervalo del RR es claramente asimétrico alrededor de la estimación puntual
5.75.
Nota: Una vez más para disminuir la connotación causal, hemos evitado en la frase verbos como
‘aumenta’ o ‘multiplica’: “la exposición al factor aumenta el riesgo entre 2.1 y 15.6 veces” o “el hecho de
estar expuestos multiplica el riesgo entre 2.1 y 15.6 veces”.
Ejercicio 7.2
Con los datos del Ejercicio 7.1 calcule el IC del RR
Ejemplo 7.5: Siguiendo con los datos de la Tabla 7.2, las odds son 0.056 y 0.009 y su
razón vale 6.0200, es decir, que la razón enfermo/sano es 6 veces superior en los
expuestos.
Como con el riesgo relativo, la asimetría del OR aconseja emplear la transformación logarítmica.
Fórmula
El Intervalo de Confianza de (1-α)% del OR (o cociente de momios) es:
Nota técnica: El IC del OR se obtiene asumiendo estimaciones de Poisson independientes en las 4 celdas.
33
Intervalos de confianza
Recuerde
El requisito para aplicar esta fórmula es, otra vez, tamaño muestral grande.
Por lo que se concluye que los expuestos tienen una razón enfermo/sano que es entre 2.1 y
16.9 veces superior.
Lectura: Como siempre, se ha evitado hablar de efecto causal con frases como “el factor multiplica la
razón enfermo / sano entre 2.1 y 16.9 veces”.
Nota: Observe que los IC del RR y del OR son muy similares. Recuerde que esto ocurre con eventos
raros, como es el caso, donde la proporción de enfermos es muy baja en los 2 grupos.
Lectura: Serra-Prat M. Si agrupamos las distintas categorías de la variable origen en dos categorías
(autóctonos e inmigrantes), observamos una asociación estadísticamente significativa entre el déficit de
yodo y el origen; OR = 2.88; IC95%: [1.33 , 6.12].
Ejercicio 7.3
Con los datos del Ejercicio 7.1 calcule el IC95% del OR
Ejemplo de R
# IC95% mediante la funcion epi2x2 del package epibasix
> install.packages('epibasix')
> library(epibasix)
> tabla <- matrix(c(7,125,8,860),2,2,byrow=T) # Tabla 7.2
> results <- epi2x2(tabla)
> attach(results)
34
Bioestadística para no estadísticos
Lectura: Los intervalos de confianza son el método de inferencia más relevantes y fácilmente
comunicables. Las revistas biomédicas más importantes aconsejan basar la presentación de los resultados
del estudio en intervalos de confianza. En el ítem 17b de la guía CONSORT (Figura 7.1) puede encontrar
con más detalle el porqué de la presentación de los resultados en intervalos de confianza. Este ítem
recomienda reportar a la vez una medida basada en diferencias (el RA) y otra basada en cocientes (OR o
RR) ya que ninguna por separado aporta una visión completa del efecto y sus implicaciones.
Ejercicio 7.4
Pongamos que se define el Fracaso Escolar (FE) como el hecho de no terminar los
estudios dentro del plazo previsto más un año de margen (posibles valores:
SÍ/NO). Se dispone de un posible predictor dicotómico de FE: notas de entrada
superiores (S) o inferiores (I) a la media de dicho centro.
a) Invente una tabla 2x2 que muestre relación entre FE y notas.
35
Intervalos de confianza
Ejercicio 7.5
El comité de cierta empresa solicita una compensación económica para los
empleados que pasan mucho tiempo delante del ordenador, alegando que este
hecho genera Enfermedades de la Columna Vertebral (ECV). Vd forma parte del
equipo que debe pronunciarse sobre este tema. Han recogido información sobre
ECV en todos los trabajadores de la empresa y comparan los datos de aquellos
que pasan más de 25 horas a la semana delante del ordenador con los que pasan
menos de 10 horas. Los datos figuran en la tabla siguiente:
ECV+ ECV-
25 111 87
10 231 261
a) Vd debe elegir entre una medida de asociación para comparar los riesgos de
ambos grupos. A partir de la nota técnica final del apartado 4.2, ¿qué implican
los modelos aditivo y multiplicativo que subyacen detrás de la diferencia de
riesgos y del riesgo relativo?
b) Calcule el RA.
c) Calcule el RR.
d) Finalmente han decidido utilizar la medida de asociación más habitual: el odds
ratio. Calcúlelo con R junto con su IC95%.
e) Interprete el resultado anterior. En concreto, ¿se sostiene que la probabilidad de
ECV es la misma en ambos grupos?
Ejercicio 7.6
En la tabla figuran datos de Bishop et al. sobre la promulgación de la pena de
muerte (P: SI/NO) en función de la raza (Blanco/negro) del acusado (A) y de la
víctima (V). Construya la tabla para estudiar la relación entre la pena y la raza de
la víctima sin tener en cuenta la raza del acusado. Estime con R el IC95% del
odds ratio. Interprete el resultado.
36
Bioestadística para no estadísticos
37
Intervalos de confianza
.>pt(q=1.796,df=12,lower.tail=FALSE)
[1] 0.04884788
2.3 La amplitud del intervalo es lo que en la fórmula va detrás del “ ”. Por ello, la amplitud depende de 3 valores: Z /2,
y n. Por el enunciado, no podemos cambiar la confianza y por tanto Z /2 deberá quedar igual. Así pues, sólo
disponemos de y de ‘n’ para hacer más estrecho el intervalo. Podríamos disminuir controlando sus fuentes de
variación, pero por ahora centrémonos en ‘n’. Como ésta dentro de una raíz cuadrada, para conseguir que el IC95%
sea la mitad de amplio, hay que multiplicar por 4 el tamaño muestral.
2.5 No puede saberse si uno concreto contiene . Si se repite indefinidamente el proceso, el (1- )% de las ocasiones
contendrá , pero no se puede saber para cada vez.
2.6 La respuesta correcta es la c), ya que el IC se hace alrededor de la media muestral observada X para tener una alta
confianza de contener a la (única) media poblacional desconocida. [‘a’ es falsa porque sólo hay 1 media
poblacional; ‘b’ porque sólo sería cierto si, por azar, X=μ, lo que tienen una probabilidad prácticamente nula (0 en
caso de continuas); y ‘d’ porque siempre incluye a la media muestral en que se basa.]
2.7 El IC se no hace referencia a los casos, sino a los parámetros desconocidos, por ello, las respuestas posibles son la
c) o la d), si bien es más correcto formalmente hablar de confianza que de probabilidad (lea la “nota” que sigue al
ejercicio para más explicaciones).
38
Bioestadística para no estadísticos
2.9 Dado que la muestra es de 100 casos, no es necesario preguntarse si GOT es Normal (lo que es una suerte, ya que
GOT son positivas, por lo que una desviación típica mayor que la media implicaría valores negativos en una
distribución simétrica como la Normal).
> qt(p=0.025,df=99)
[1] -1.984217
3.1. Cálculo de S2 y S:
#Con R, el intervalo de la varianza ( es
> muestra <- c(2,3,4,5)
>IC_var(muestra,0.95)
[1] 0.5348507 23.1701080
#Y, el intervalo de confianza de la desviación típica ( ) es
>sqrt(IC_var(muestra,0.95))
[1] 0.7313349 4.8135338
95 percentconfidenceinterval:
1.898994 3.997673
[…]
c) Comparación de los errores estándar. En el caso de muestras apareadas, el error estándar es mucho más pequeño
(0.41 vs. 3.74)
> # Error típico para muestras independientes
>var_pooled<-(var(YA)*5+var(YB)*5)/10
>errortip_ind<-sqrt(var_pooled*(1/6+1/6))
>errortip_ind
[1] 3.742676
> # Error típico para muestras apareadas
>var_apa<-var(YA-YB)
>errortip_apa<-sqrt(var_apa/6)
39
Intervalos de confianza
>errortip_apa
[1] 0.4082109
5.2 a) >install.packages('Epi')
>library(Epi)
>data(births)
>plot(births$gestwks~births$bweight, main="Peso del bebé en función de la
gestación",
35
30
25
40
Bioestadística para no estadísticos
Nota: si pide que R le muestre el data.frame births, verá que hay algunas variables de interés (las utilizadas para el
cálculo de correlación) que contienen NA’s; con el argumento ‘use="pairwise.complete.obs" ’ le
indicamos que calcule el coeficiente de correlación sólo con aquellos individuos que no contengan NA’s en estas
variables.
d) Observe en el gráfico que la impresión de relación viene sobre todo por los valores del cuadrante inferior
izquierdo: son los bebés muy pre-término los que muestran un peso menor y marcan más la relación. Al eliminarlos,
baja el valor de r. En el caso extremo que reduzcamos las semanas de gestación a un único valor, no tendríamos
variabilidad en esta variable, no podríamos distinguir los casos por la duración de la gestación y no podríamos mirar
si los de más semanas pesan más: su correlación sería 0.
41
Intervalos de confianza
6.2. IC95%( )= P Z /2 [P(1-P)/n] )=0.212 Z /2 [0.212·0.788/160] ) 0.212 0.0634 [0.1491, 0.2759] [15%, 28%]
[Condiciones de aplicación: 0.15·160 = 24 >5]
Con R:
>prop.test(34,160)
[…]
95 percent confidence interval:
0.1535181 0.2856165
6.3. Amplitud máxima IC95% 1.96 [0.5·0.5/n]
a) n=100 1.96 [0.5·0.5/100] = 1.96·0.05 = 0.098 10%
b) n=400 1.96 [0.5·0.5/400] = 1.96·0.025 = 0.049 5%
c) n=2500 1.96 [0.5·0.5/2500] = 1.96·0.01 = 0.0196 2%
d) n=10000 1.96 [0.5·0.5/10000] = 1.96·0.005 = 0.0098 1%
6.4. La amplitud del intervalo es inversamente proporcional a la raíz del tamaño muestral. Como en el caso de la media
muestral, para disminuir la incertidumbre a la mitad, es necesario aumentar el tamaño muestral cuatro veces.
6.5. IC95%( ) = P Z /2 [P(1-P)/n] ) = 0.40 Z /2 [0.40·0.60/100] ) 0.40 0.096 [0.304, 0.496] [30%, 50%]
[Condiciones de aplicación: 0.3·100 = 30>5]
Con R:
>prop.test(40,100)
[…]
95 percent confidence interval:
0.3047801 0.5029964
[…]
Debería ser una selección al azar. Y no lo ha dicho. Recuerde que el IC y el error típico de estimación sólo tienen
en cuenta los errores aleatorios, pero no los sistemáticos. Si la muestra no fuera al azar, los autores deberían
mencionar que, por la existencia de un sesgo impredecible, la incertidumbre es quizás mayor que la reflejada por el
intervalo.
6.7. >binom.test(2,10,conf.level=0.95)$conf.int
42
Bioestadística para no estadísticos
FE:NO FE: SÍ
PAU:S 200 10
7.5. a) Ambos parten del principio de que una proporción de casos desarrollan la ECV, independientemente de su
exposición al ordenador. Pero difieren en que la diferencia de riesgos considera que por el hecho de estar expuesto,
aparecen nuevos casos, diferentes a los anteriores, que desarrollan también la enfermedad. En cambio, el riesgo
43
Intervalos de confianza
relativo considera que el hecho de estar expuesto aumenta, en una cierta persona, la probabilidad de desarrollar
ECV. Es decir, en la diferencia de riesgos se ‘suman’ dos grupos de casos, mientras que en el relativo, lo que se
modifica es la probabilidad de cada caso.
d) OR = 111·261/(87·231) 1,442
ln(OR) 0.366
SE(ln(OR)) 0.1693
e) No, dado que el IC excluye el valor de no relación, podemos rechazar la independencia entre el grado de
exposición al ordenador y la presencia de ECV. Otro tema es la relación causal, ya que se trata de un estudio
transversal y no puede distinguirse qué variable sigue a qué variable.
>install.packages('epibasix')
> library(epibasix)
>tabla<- matrix(c(111,87,231,261),2,2,byrow=T)
> results <- epi2x2(tabla)
> attach(results)
#b) Estimación puntual (e IC) para el RA
>rdCo;rdCo.CIL;rdCo.CIU
#c) Estimación puntual (e IC) para el RR
> RR;RR.CIL;RR.CIU
#d) Estimación puntual e IC para el OR
> OR;OR.CIL;OR.CIU
#Forma logarítmica
>lnOR<-log(OR)
>varlnOR<-(1/111)+(1/261)+(1/87)+(1/231)
>SElnOR<-sqrt(varlnOR)
>LI<-log(OR)-1.96*SElnOR
>LS<-log(OR)+1.96*SElnOR
>IC<-c(exp(LI),exp(LS))
> detach(results)
7.6. En los datos globales, sin tener en cuenta otras variables, la disparidad “PENA MUERTE = SÍ/PENA MUERTE =
NO” es entre 1.16 y 7.15 superior cuando la víctima es de raza blanca que cuando lo es de raza negra.
44
Bioestadística para no estadísticos
45
Intervalos de confianza
Tabla salvadora
La siguiente tabla le recuerda las fórmulas y comandos de R que proporcionan los IC estudiados.
Fórmula R
IC de desconocida t.test
IC de Función propia
IC de y t.test
desconocidas
Dónde:
IC de Muestras prop.test
grandes
Muestras binom.test
pequeñas
IC del RA epi2x2
(‘epibasix’)
IC del RR epi2x2
(‘epibasix’)
epi2x2
IC del OR (‘epibasix’)
Recuerde que cuando no se cumplen las premisas de normalidad puede ser install.packages("bootstrap")
útil utilizar métodos no paramétricos o de remuestreo, como por ejemplo el library("bootstrap")
bootstrap
46
Capítulo 9:
Prueba de significación y
contraste de hipótesis
Erik Cobo, Jordi Cortés y José Antonio González
Laura Riba, Rosario Peláez, Marta Vilaró y Nerea Bielsa
Septiembre 2014
Bioestadística para no estadísticos
Presentación .......................................................................................................................................... 2
1..Objetivos de la inferencia estadística ........................................................................................... 3
2. Prueba de significación, PS ........................................................................................................... 3
* Indica tema más avanzado que no es crucial para los ejercicios, aunque el lector debe recordar que
aquí lo tiene —cuando lo necesite.
1
Prueba de significación y contraste de hipótesis
Presentación
Este capítulo formaliza la respuesta a dos preguntas diferentes pero relacionadas: “¿Qué sé?”
(inferencia) y “¿Qué hago?” (decisión). Se define la prueba y el nivel p de significación en el
entorno de la evidencia empírica o inferencia sobre conocimiento. Por su parte, los riesgos α y β y
el contraste de hipótesis se enmarcan en la decisión entre dos acciones alternativas Finalmente
distingue entre pruebas de diferencias y de equivalencia.
Al terminar este capítulo, el lector debe retener especialmente (1) la importancia de que las
hipótesis sean independientes de los datos en que se contrastan; (2) que las reglas lógicas que
gobiernan la adquisición de conocimiento y las que determinan la acción no son equivalentes; y (3)
el papel del IC en las revistas científicas, y el del contraste de hipótesis en las agencias de decisión.
Contribuciones: (1) la versión original de 2013 descansa en el libro de Bioestadística para No estadísticos
de Elsevier de EC, JAG y PM y en el material de la asignatura de PE de la FIB (UPC); fue editada por JC y
revisada por RP y MV; (2) la de febrero de 2014 fue revisada por LR, JC, EC y MV para incorporar
mejoras y sugerencias anónimas; y (3) la de septiembre de 2104 por NB y EC.
2
Bioestadística para no estadísticos
La pregunta que responden los intervalos de confianza (¿qué valores son creíbles?) engloba, de
alguna manera, a la pregunta de la prueba de significación (¿se puede negar cierto valor?). Los
intervalos de confianza aportan más información y son más fáciles de entender, asimilar y explicar.
¿Qué interés ofrece, entonces, poner a prueba una hipótesis? Pues quizás, que puede ser la auténtica
pregunta de interés.
Ejemplo 1.1: saber si un fármaco es más eficaz que otro puede reducirse a conocer si la
diferencia de sus medias en la respuesta de interés es o no es exactamente el valor 0. Por
tanto, poder negar el valor 0, implica haber demostrado que un producto es más eficaz que
otro.
La pregunta sobre una hipótesis la aborda la inferencia estadística (“¿qué sé?”) en la Prueba de
Significación, PS, o valor de p.
La pregunta sobre la acción futura (¿qué hago?) la aborda la decisión estadística en el contraste de
hipótesis, CH, acotando los riesgos alfa y beta de emprender acciones erróneas (tipo I y II).
2. Prueba de significación, PS
Se desea poner a prueba una hipótesis previa H confrontándola con los datos.
Ejemplo 2.1: desde hace un tiempo, un residente se juega a cara y cruz las guardias que
coinciden con las fiestas familiares. Su compañero lanza su moneda y... ¡siempre gana! Un
día, el primero decide estudiar formalmente si la moneda está apañada. Así, el problema
consiste en analizar si podemos descartarla hipótesis:
H: = 0.5 (moneda correcta)
Donde representa la probabilidad de cara que se desea negar.
Lanzar n=100 veces la moneda y observar la proporción P de caras, proporcionará
“evidencia” empírica. Suponga que observa P=0.63. Este resultado invita a creer que la
moneda está “cargada”: que no es cierto que =0.5. En cambio, si el resultado fuera P=0.52,
3
Prueba de significación y contraste de hipótesis
se consideraría “compatible” con que la moneda no esté cargada. Cuanto más se aleje P de
0.5, más información en contra de H.
Hay que considerar la aleatoriedad del proceso. Es posible que una moneda perfecta, no cargada,
genere una observación de 63 caras en 100 lanzamientos. Y, de forma recíproca, también es posible
que una moneda con probabilidad de cara de 0.6 genere una muestra con un 50% de caras.
Nota: Se podría abordar el problema desde un punto de vista físico y, dando por bueno (‘premisas’) el
conocimiento actual de esta ciencia, estudiar la composición de la moneda, su centro de gravedad, su
circunferencia,... Ahora bien, sea cual sea su respuesta, siempre conviene estudiar qué dicen las
observaciones, no sea que convenga revisar el modelo teórico.
La hipótesis H establece una condición sobre el parámetro poblacional que se desea negar . Esta
información se “condensa” en un estadístico apropiado, que fluctúa aleatoriamente. Cuando H es
correcta, la distribución es conocida, y el estadístico se localizará de forma previsible en una zona
determinada por H. Y cuanto más lejos se aleje el estadístico de dicha zona, más credibilidad gana
la posibilidad de que proceda de otra distribución con un parámetro distinto al de H.
Ejercicio 2.1
En una prueba de significación (elija una):
a) Se desea conocer el valor de cierto parámetro
b) Se construye una hipótesis sugerida por los datos
c) Se busca “evidencia” (pruebas) a favor de la hipótesis H que se desea
demostrar que es cierta
d) Ninguna de las anteriores es correcta
Ejercicio 2.2
Vd. desea aportar evidencia de que un nuevo tratamiento es mejor que uno
clásico. Escriba la hipótesis H:
a) H: el nuevo tratamiento no es mejor que el clásico
b) H: el nuevo tratamiento es mejor que el clásico
c) H: el rendimiento del nuevo tratamiento supera al clásico
d) Ninguna de las anteriores es correcta
4
Bioestadística para no estadísticos
Lectura: Nature, Lancet y BMJ han lamentado en 2014 la falta de reproducibilidad de los
resultados de investigación y, por tanto, el despilfarro de recursos que implica
2.1. Valor p
Este método calcula el valor p (p value) o probabilidad de que se presente un valor del estadístico
más alejado de H que el observado. Cuanto más pequeño es p, menos verosímil es H.
Recuerde
La verosimilitud de H disminuye si el valor p es pequeño.
El valor p (Figura 2.1) puede interpretarse como “cuán inverosímil es el resultado observado si H
fuera cierta” o “hasta qué punto resultados como el observado (o más extremos) son
probabilísticamente compatibles con H”. Lo que suele interpretarse como que hay “suficiente
evidencia o pruebas en contra de H” para negarla, lo que suele resumirse con un “el resultado es
estadísticamente significativo”.
Recuerde
Si p es muy pequeño, hay evidencias “estadísticamente significativas” en contra
de H.
Figura 2.1 Distribución del estadístico si H es cierta. El valor p indica la probabilidad de observar valores del
estadístico igual o más extremos que el observado, en el caso de que H sea cierta.
En función de si situamos los “valores más extremos” en 1 lado o en 2 hablaremos de pruebas uni o
bilaterales. En las primeras, el valor de p es la probabilidad de obtener un valor o bien mayor, o bien
menor, (dependiendo del problema) que el estadístico observado (probabilidad de una cola). En las
5
Prueba de significación y contraste de hipótesis
pruebas bilaterales, el valor de p es la probabilidad de obtener un valor más extremo del estadístico
(se suman las probabilidades de ambas colas). Profundizaremos en este asunto en el punto 0.
Recuerde
Primero el diseño (con la hipótesis y la variable); luego los datos; y al final la p
con un IC95%.
Nota: Recuerde que P ~ N( , (1- )/n). Note que, a diferencia de IC, ahora viene dada por H.
Ejemplo 2.1 (cont): En el ejemplo anterior de la moneda, con n=100,
Variable: resultado cara o cruz
Estadístico: proporción P de caras
Hipótesis H: = 0.5 (moneda correcta)
Si H es cierta:
6
Bioestadística para no estadísticos
Límite de p=0.05
Caso a)
Con n=100 se observan 63 caras:
La proporción observada es:
El estadístico señal/ruido:
Por tanto, como el p valor (o probabilidad de observar un valor de P tan o más alejado de H)
es p<0.01, se considera H poco verosímil y se rechaza que valga 0.5 (Figura 2.2).
I) El intervalo de confianza es:
Figura 2.2 Bajo H: π=0.5 y con una muestra n=100, P ~ N(0.5,0.052). Si se observan 63 caras, P=0.63. Como
P(P>0.63)≈ 0.005≈ P(P<0.37), el nivel de significación es p=2*0.005=0.01.
Caso b)
Con n=100 se observan 52 caras:
7
Prueba de significación y contraste de hipótesis
Por tanto, .
Como p= 0.69 no es “pequeño”, nada se opone a aceptar H (véase Figura 2.3).
VI) El intervalo de confianza es:
Figura 2.3 Si se observan 52 caras, P=0.52 y la probabilidad de observar 52 o más caras es de 0.345, que junto a su
simétrica (observar 48 o menos caras) hace p=0.690.
Ejemplo 2.1. en R
Caso a): con n=100 se observan 63 caras:
> prop.test(x=63, n=100, p=0.5, conf.level=0.95, correct=FALSE)
1-sample proportions test without continuity correction
data: 63 out of 100, null probability 0.5
X-squared = 6.76, df = 1, p-value = 0.009322
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5322053 0.7181764
8
Bioestadística para no estadísticos
sample estimates:
p
0.63
Caso b): con n=100 se observan 52 caras:
> prop.test(x=52, n=100, p=0.5, conf.level=0.95, correct=FALSE)
1-sample proportions test without continuity correction
data: 52 out of 100, null probability 0.5
X-squared = 0.16, df = 1, p-value = 0.6892
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4231658 0.6153545
sample estimates:
p
0.52
Nota: El cálculo del p valor con R y según el método explciado cambia la distribución de referencia pero coinciden
algebraicamente (la Ji cuadrado de 1 GdL es el cuadrado de una N(0,1)). En cambio los intervalos de confianza de
R con la función prop.test usa el Wilson score method, que funciona bien incluso para tamaños de pocas decenas.
Ejercicio 2.3
Una serie de 400 pacientes con SIDA han recibido, en diferentes etapas de su
seguimiento, dos tratamientos diferentes, A y B que son, a priori, potencialmente
similares. Ahora, se les ha preguntado cuál prefieren y un 58% han optado por el
A. Se desea saber si puede rechazarse que sean igualmente preferidos. [Escriba
todos los pasos del proceso.]
Ejercicio 2.4
Repita el Ejercicio 2.3 asumiendo que las preferencias por A han sido 53%.
Recuerde
No escriba p=0.000. En su lugar, ponga p<0.001.
9
Prueba de significación y contraste de hipótesis
Ejercicio 2.5
Los usuarios de una biblioteca llevan años protestando por las prestaciones del
sistema de búsqueda instalado para realizar sus consultas. Los responsables de la
biblioteca deciden valorar la posibilidad de cambiar el sistema. Durante el periodo
de prueba, han realizado un experimento comparando ambos sistemas mediante
una escala que mide la satisfacción de los usuarios.
La aplicación del mecanismo anterior a una variable continua en la que se desea contrastar una
hipótesis sobre su media es muy similar.
Para escribir que la media de la población origen de la muestra es una media H pre-especificada,
escribimos: H: = H
10
Bioestadística para no estadísticos
Ejemplo 2.3: ¿Recuerda el ejemplo para demostrar que las gasolineras estaban poniendo
menos gasolina de la que cobraban? Se resolvió con un IC, pero ¿se puede demostrar que
timan? En una muestra aleatoria de 100 servicios, con S=10cc, se debe tomar una decisión
sobre si , habiendo observado una media cc.
11
Prueba de significación y contraste de hipótesis
# t99,0.025
> qt(p=0.025,df=99,lower.tail=FALSE)
[1] 1.984217
La “auténtica” media de cantidad servida se encuentra entre 995 y 999 cc. Nos están
timando, aunque a nivel individual, la cantidad es pequeña. La pequeña amplitud del IC 95%
muestra que se dispone de mucha información.
Ejemplo 2.3 en R
> install.packages('BSDA')
> library(BSDA)
> tsum.test(mean.x=997, s.x=10, n.x=100, mu=1000)
One-sample t-Test
data: Summarized x
t = -3, df = 99, p-value = 0.003416
alternative hypothesis: true mean is not equal to 1000
95 percent confidence interval:
995.0158 998.9842
sample estimates:
mean of x
997
Solución:
Variable: diferencia entre el tiempo de respuesta a los estímulos visual y auditivo
Estadístico: media de las diferencias o
Hipótesis que se quiere rechazar:
Límite de p=0.05
Estadístico referencia:
12
Bioestadística para no estadísticos
# t8,0.025
> qt(p=0.025,df=8,lower.tail=FALSE)
[1] 2.306004
La “auténtica” diferencia entre la respuesta media a ambos estímulos se encuentra entre 2.10
y 11.32.
Ejemplo 2.4 en R
> install.packages('BSDA')
> library(BSDA)
> tsum.test(mean.x=6.71, s.x=6, n.x=9, mu=0)
One-sample t-Test
data: Summarized x
t = 3.355, df = 8, p-value = 0.01001
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.097992 11.322008 …
Ejercicio 2.6
La satisfacción de los usuarios se mide por una escala entre 0 y 100 con una
distribución que se asemeja razonablemente a la Normal. El objetivo de un
servicio sanitario es conseguir satisfacciones por encima de 70. En una muestra al
azar de 16 usuarios se ha observado una media de 79 y una desviación típica de
12. ¿Se puede afirmar que la media poblacional está por encima de 70?
13
Prueba de significación y contraste de hipótesis
Ejemplo 2.3 (cont.): En el ejemplo sobre el control de calidad en las gasolineras, si desea
saber si el surtidor cumple con las especificaciones ( ), este numerador representa la señal
que proporciona la muestra: cuánto se distancia de la media especificada en la hipótesis. Se
ha observado un valor de . Por otro lado, la oscilación de explicable por el muestreo
Recuerde
Interprete el estadístico como un cociente señal/ruido.
Fórmula
El estadístico para comparar 2 medias es:
Ejemplo 2.5: Se realiza un Ensayo Clínico el que se quiere valorar la eficacia de un nuevo
fármaco antidiabético. Para ello se asignan 18 pacientes al azar, con razón “1 a 2” a dos
grupos: el de referencia, que recibirá el fármaco habitual, y el de la intervención, que
recibirá el nuevo fármaco. A continuación se muestra la reducción en el nivel de glucosa
(mg/dL) respecto el nivel inicial para cada individuo de cada uno de los grupos a los 3
meses del inicio del tratamiento:
G1 = grupo referencia: 13, 14, 10, 11, 14, 11 (mg/dL)
G2 = grupo experimental: 16, 11, 13, 12, 14, 12, 13, 13, 13, 12, 14, 15 (mg/dL)
14
Bioestadística para no estadísticos
La hipótesis nula es que no hay diferencias entre ambos fármacos en la reducción del nivel
de glucosa.
Solución:
Variable: reducción de glicemia
Estadístico: diferencia de medias
Hipótesis que se quiere rechazar: H: G1 = G2
Límite p=0.05
Estadístico de referencia
Como p=0.20, no hay evidencia para rechazar H. No podemos afirmar que los fármacos
sean diferentes en eficacia.
Nota: No hemos demostrado que tengan igual eficacia. Tan sólo no hemos logrado demostrar que sean
diferentes. Tampoco hemos establecido que ambos sean eficaces: falta ver (1) si la reducción desde basal
es significativa; y (2) cuál hubiera sido la evolución de otro grupo de referencia no tratado (que incluiría,
entre otros, una posible calibración desigual de los aparatos).
15
Prueba de significación y contraste de hipótesis
Ejemplo 2.6: Recuperemos el ejemplo de las 52 caras en 100 lanzamientos de una moneda.
El intervalo de confianza del auténtico valor de la probabilidad de cara era:
Se cree, con una confianza del 95%, que esta moneda tiene una probabilidad de cara situada
entre el 42% y el 62%. Este resultado coincide con el de la prueba de hipótesis que, con un
p=0.69, no permite rechazar la H de π=0.5.
16
Bioestadística para no estadísticos
Por lo que ahora se cree, con una confianza del 95%, que esta probabilidad de cara, , es
alguno de los valores comprendidos entre el 53% y el 73%. Dado que excluye el valor 0.5,
coincide con PS, que había rechazado H:π=0.5 con nivel de significación p=0.001.
Definición
Un intervalo de confianza incluye el conjunto de valores del parámetro que,
puestos en H, no pueden ser rechazados.
Nota técnica: en algunas situaciones, la estimación de la varianza del estimador no es la misma bajo los
diferentes escenarios de IC y PS, por lo que no coincidirán plenamente. Por ejemplo, en el caso de y P
la amplitud de los intervalos suele diferir:
PS (P): aceptar si P H 1.96 [ H(1- H)/n]
IC (1- ): P 1.96 [P(1-P)/n]
En el modelo lineal (comparación medias, regresión,..) sí que coinciden.
Se puede utilizar IC95% para hacer PS de H de interés, ya que valores del parámetro excluidos del IC
generarían PS con valores de p<0.05.
Ejercicio 2.7
En 100 pacientes con SIDA el intervalo de confianza al 95% de la media del
recuento de CD4 va de 375 a 500. Si se plantearan las dos pruebas de
significación siguientes con = 0.05:
(A) HA: = 400
(B) HB : = 350
Las conclusiones serían:
a) nada se opone a aceptar ambas H;
b) se rechazan ambas H;
c) nada se opone a aceptar HA y se rechaza HB;
d) se rechaza HA y nada se opone a aceptar HB.
IC ayuda a interpretar PS, ya que informa sobre los valores plausibles del parámetro.
Nota técnica: en el caso de rechazar una hipótesis H bilateral, p.e. π=0.5, la conclusión formal de la
prueba de significación sería que se rechaza H sin decantarse hacia ninguno de los dos lados. Pero, a nivel
17
Prueba de significación y contraste de hipótesis
práctico, el intervalo de confianza permite conocer, no sólo el lado, sino también los valores razonables
del parámetro.
Cuando no se rechaza H, IC distingue entre poca información (IC amplio) y efecto nulo o pequeño
(IC estrecho).
Recuerde
Utilice siempre IC.
Lectura: las recomendaciones para los autores de revistas biomédicas anteponen el uso de IC al de PS:
“Although P values may be provided in addition to confidence intervals, results should not be reported
solely as P values” (Consort, item 17).
Cuando no es significativa, PS concluye: “nada se opone a aceptar la H”. Pero ello puede ser, bien
por falta de evidencia para establecer algo existente (¿muestra pequeña, diseño deficiente, análisis
pobre,..?), o bien porque realmente no hay nada que ver.
Recuerde
En PS, ausencia de pruebas no es prueba de ausencia.
Lectura: siempre es frustrante no lograr demostrar el objetivo. Pero si la Ciencia no se lo permite, aún le
quedan otros recursos. No se pierda esta página que recoge ejemplos sobre la retórica de los resultados
negativos. Planteamientos unilaterales y bilaterales
Hasta el momento, hemos planteado pruebas bilaterales o de dos colas, como el ejemplo de la
moneda, defectuosa tanto si salían caras de más o de menos. En consecuencia, el rechazo de H ha
contemplado ambos lados (Figura 2.4).
H: = 0.5
Pero se pueden plantear también pruebas de una sola cola. En el ejemplo de la gasolinera, en el que
se quería detectar si había timo, ¿qué se puede concluir si la media observada se situaba por encima
de la media teórica? ¿Qué regalan gasolina? En esta situación, tiene más sentido una prueba
unilateral por la izquierda (Figura 2.5):
H: ≥ 1000
Figura 2.5 Las pruebas unilaterales por la izquierda miran la probabilidad en el lado izquierdo.
18
Bioestadística para no estadísticos
Y, de forma simétrica, si se estudia cómo aumenta la respuesta al aumentar la dosis, podría tener
más sentido una prueba unilateral por la derecha (Figura 2.6):
H: ≤ 0
Figura 2.6 Las pruebas unilaterales por la derecha miran la probabilidad en el lado derecho.
Recuerde
(1) Al concentrar todo el nivel de significación en un lado, se hace algo mayor esa cola, por lo que
una H uni o bilateral puede cambiar las conclusiones.
Recuerde
Ejercicio 2.8
Repita el Ejercicio 2.6 bajo un planteamiento unilateral.
Ejercicio 2.9
Se desea resolver la prueba H: 0 mediante un estadístico que sigue una
distribución normal (0,1). El resultado de la prueba ofrece z=-2, por lo que se
concluye (elija una):
a) que la media poblacional es 0
b) que la media poblacional es mayor que 0 (con un margen de error del 5%);
c) que la media poblacional es menor que 0 (con un margen de error del 5%);
d) hay una probabilidad del 95% de que la media poblacional sea 0;
e) nada se opone a aceptar la H de que la media es igual o inferior a 0.
19
Prueba de significación y contraste de hipótesis
Definición
Un CH plantea elegir entre dos acciones alternativas.
Suponga ahora que también conoce la distribución de las “B”: N(21,3). Aceptando como
límite de decisión y = 16.935, desea calcular la probabilidad de que una B sea reconocida
como un 8 (Figura 3.1). Ahora dispone de dos situaciones hipotéticas, entre las que debe
escoger.
H0: = 12 (se trata de un 8)
H1: = 21 (se trata de una B)
–
Prob[y 16.935 condicionado a Y~N(21,3)] = P [Z ] = P(Z -1.355)
20
Bioestadística para no estadísticos
Figura 3.1 Si el valor supera el límite 16.935 clasifica el garabato como B (A1) y en caso contrario como 8 (A0).
Nota: En lo que sigue emplearemos A0 y A1 (acción 0, acción 1) para resaltar la acción que implica CH.
Sea A0 “conservadora” y A1 “innovadora”. Para tomar la acción A1 hace falta rechazar H0.
Nótese que se han identificado dos conclusiones erróneas y se han cuantificado los riesgos
respectivos:
P (concluir B | realidad 8) = 0.05
P (concluir 8 | realidad B) 0.088
Nota: ¿Cuál es el papel de las sociedades científicas? ¿Aportar un conocimiento que facilite una toma de
decisión posterior por quién corresponda? ¿O elaborar consensos de guía de práctica clínica de uso
posterior obligado? Esta pregunta nos supera. Como posibles usuarios, agradeceremos una guía
consensuada de práctica clínica que se nos presente a modo de sugerencia. Sin lugar a duda, nuestros
representantes, que deben asignar presupuestos a diferentes partidas, requerirán otra metodología.
Ejemplo 3.2: Fisher y Hill mantuvieron posiciones distintas en cuanto a la evidencia disponible
sobre los efectos del tabaco. Sea cual sea esta evidencia, a un responsable de Salud Pública, lo
que le concierne es, a la luz de dicha información, cuál debe ser su actuación. Greenland
recuerda que un organismo de Salud Pública debe actuar y debe, por tanto, tomar decisiones:
ante humo en un bosque, la acción pertinente es enviar bomberos, no científicos para averiguar si
debajo del humo hay fuego.
21
Prueba de significación y contraste de hipótesis
A nivel personal, por ejemplo, un fumador debe valorar las consecuencias de los dos “errores”
posibles: a) que decida seguir fumando, pero tenga razón Hill y él mismo sea de la proporción de
casos que desarrollan el cáncer hacia los 50 años; o b) que decida no fumar, pero tenga razón
Fisher y no se “ahorre” dicha enfermedad. Cada uno debe valorar qué consecuencias tiene cada
posible situación.
Recuerde
PS contesta “¿qué creo?” y CH, “¿qué hago?”.
Figura 3.3 Es equivalente preguntarse si p<0.05 o si Z es mayor que 1.96 o menor que -1.96.
Ejercicio 3.1
En los ejercicios 2.3 y 2.4 comparó el valor de p con 0.05. ¿Cómo habría hecho
la comparación con Z? ¿Y con t en el 2.6?
22
Bioestadística para no estadísticos
Definición
El error de primera especie o tipo I consiste en decidir la acción alternativa (A1)
cuando era cierta H0.
Tomar A1 | es cierta H0
Definición
El error de segunda especie o tipo II consiste en decidir la acción nula (A0)
cuando es cierta H1.
Tomar A0 | es cierta H1
Ejemplo 3.3 (cont): Concluir que es un 8 cuando en realidad es una B es un error tipo II.
Definición
Las probabilidades correspondientes de cometer errores de primera y de segunda
especie reciben el nombre de riesgos y :
= P(Decidir A1 | es cierta H0)
= P(Decidir A0 | es cierta H1)
Nota: De aquí proviene el nombre de estadística frecuentista, ya que acota la frecuencia de errores.
23
Prueba de significación y contraste de hipótesis
Ejercicio 3.2
Un proveedor entregaba un reactivo con un tiempo de reacción medio de 100 seg
y desviación tipo de 10 seg. Ahora, ofrece uno mejor, con parámetros =50 seg y
=5 seg y Vd. decide hacer un CH para guiar su actitud futura. Sean:
H0: =100seg y =10seg (viejo); A0: decidir usar el viejo;
H1: =50seg y =5seg (nuevo); A1: decidir usar el nuevo.
El riesgo de cometer un error de primera especie es (cuál/cuáles son ciertas?):
a) la probabilidad de que el reactivo sea nuevo
b) decidir usar el nuevo (A1) a pesar de ser como los viejos (H0)
c) delante de reactivos con propiedades como los viejos, la probabilidad de
decidir usar los nuevos
d) decidir usar el viejo (A0) a pesar de ser de los nuevos (H1)
e) con propiedades como los nuevos, la probabilidad de decidir usar los viejos
f) la proporción de reactivos como los viejos que serán aceptados como si fueran
de los nuevos.
g) todas son falsas.
Ejercicio 3.3
En un contraste de hipótesis, si H0 es cierta, es posible (elija una):
a) cometer dos errores, el de tipo I y el de tipo II
b) sólo se puede producir el de tipo I
c) sólo se puede producir el de tipo II
d) ninguno, ya que H0 es cierta.
Definición
La potencia es 1- o probabilidad de decidir A1 cuando es cierta H1:
Decisión
Tipos de errores y riesgos
A0 A1
24
Bioestadística para no estadísticos
Recuerde
Use IC95%.
Si Vd. desea emplear P valores, lea los siguientes apartados (marcados con *) y estos 2 artículos
sobre la distinción entre evidencia y decisión y 12 interpretaciones erróneas del P valor.
4.1. IC, PS y CH *
En IC, el nivel de confianza α se decide a priori. En CH también, y se opta por aquel diseño y
estadístico que minimiza β, que también se establece a priori. Por tanto, en el entorno de IC y CH,
lo único que tiene valor y debe, por tanto, ser reportado son los valores de α y β decididos a priori.
En cambio, en PS, el nivel p es un resultado obtenido al final del experimento y el nivel de
evidencia que aporta en contra de H sería diferente ante un valor de p=0.023 o de p<0.001, por lo
que se recomienda reportar el valor de p exacto —hasta el decimal requerido.
Resumen
En IC debe informar del valor de α fijado a priori.
En PS debe reportar el valor exacto obtenido de p.
En CH se debe informar de los valores de α y β fijados a priori.
La misma concordancia en el cálculo que existe entre IC y PS, aplica también a CH. En cambio, los
resultados de cada técnica deben interpretarse de acuerdo con sus objetivos.
Resumen
IC, PS y CH difieren en objetivos:
IC, estimar valores del parámetro
PS, aportar evidencia en contra de H
CH, decidir entre A0 y A1 minimizando los riesgos α y β
Pero coinciden en su mecánica:
IC (1- ):
PS ( ): aceptar H si
CH ( ,β): decidir A0 si
25
Prueba de significación y contraste de hipótesis
Así, en CH (H0 frente a H1) para tomar una decisión (A0 frente a A1), α y β representan la
proporción o frecuencia de decisiones erróneas a largo plazo. En el Ejemplo 3.5, α es la proporción
de fármacos iguales que el control (H0) que a largo plazo son puestos en el mercado (A1); y β, la de
fármacos que superan el control en un valor ∆ (H1) que no son puestos en el mercado (A0).
Nótese que en PS, p (y su máximo aceptado, 0.05) indica el nivel de evidencia en contra de H,
mientras que en CH α y β indican la frecuencia de decisiones erróneas.
Recuerde
p en PS es medida de información empírica (“evidencia”) en contra de H;
mientras que α y β en CH cuantifican la frecuencia de decisiones erróneas.
La Tabla 4.1 expone términos que pueden emplearse para informar del resultado de PS o CH.
La diferencia… es explicable por el azar del muestreo no es explicable por el azar del muestreo
26
Bioestadística para no estadísticos
Recuerde
Ni el riesgo α ni el nivel de significación p pueden resumirse por “la probabilidad
que tengo de haberme equivocado”.
Ejercicio 4.1
¿Cuál o cuáles son correctas?
a) El nivel p es la probabilidad de equivocarse;
b) El nivel p es la probabilidad de equivocarse al rechazar H:
c) El nivel p es la probabilidad de equivocarse al aceptar H;
d) El nivel p es la probabilidad de observar el resultado actual (o más extremo)
en caso de que fuera cierta H
e) El riesgo α es la probabilidad de equivocarse;
f) El riesgo α es la probabilidad de equivocarse al rechazar H:
g) El riesgo α es la probabilidad de equivocarse al aceptar H;
h) El riesgo α es la frecuencia esperada de ocasiones en las que siendo cierta HO
tomaremos la decisión (errónea) A1.
i) El riesgo β es la probabilidad de equivocarse;
j) El riesgo β es la probabilidad de equivocarse al rechazar H:
k) El riesgo β es la probabilidad de equivocarse al aceptar H;
l) El riesgo β es la frecuencia esperada de ocasiones en las que siendo cierta H 1
tomaremos la decisión (errónea) A0.
Ejemplo 4.1: La celebración final de carrera ha sido magnífica. A las 5 am los amigos se
despiden, pero uno de ellos decide seguir la farra y le pide al taxista que le lleve a una buena
partida de Póker. Tras pasar los controles típicos, que su amigo creía cosa de película,
consigue entrar en un 5º piso de la calle Enrique Granados donde se sienta a una mesa y
empieza a perder dinero. Sus rivales no paran de sacar magníficas jugadas. Tanto, que él
calcula que, asumiendo que no hacen trampas, la probabilidad de esos resultados (o incluso
mejores) es de tan sólo una entre cien. ¿Qué hace? Por supuesto, deja de jugar. El nivel de
significación p=0.011 le permite rechazar la H de que no le hacen trampas.
Ejemplo 4.2: En la celebración de las Navidades, un joven investigador vuelve del hospital
Mount Sinai para visitar a su familia. Y acaban jugando al Póker con idénticos resultados
que el ejemplo anterior. A pesar de que este investigador calcula el mismo nivel de
27
Prueba de significación y contraste de hipótesis
significación anterior (asumiendo que no hacen trampas, esos resultados o mejores sólo
ocurren 1 vez entre cien), sigue jugando confiado, ya que no se plantea la posibilidad
alternativa, de que su familia le haga trampas. Por lo que dice, “caramba, qué mala suerte
tengo hoy”.
Lectura: La estadística Bayesiana lamenta que la solución de los dos ejemplos anteriores no tenga en
cuenta toda la información contenida en el enunciado. Antes de empezar a jugar, el primer titulado ya
podía sospechar que le harían trampas, pero no el segundo. Para poder calcular, a partir de los resultados
muestrales, la probabilidad de que una hipótesis sea cierta, es preciso recurrir a una formalización del
conocimiento científico previo: antes de los datos que actualmente se están analizando, ¿qué se sabía
sobre este tema?, ¿qué se sabía sobre el valor del parámetro? Si se acepta representar el nivel de
incertidumbre previa en forma de probabilidades sobre los diferentes valores del parámetro, ya se tienen
los elementos necesarios para actualizar la información científica mediante el teorema de Bayes.
Ejercicio de Navegación
Referencias críticas sobre el abuso de las pruebas de significación, así como
enlaces a paginas web aplicadas, y un "applet" muy instructivo, pueden
encontrarse en:
http://www.stat.duke.edu/~berger/p-values.html
Recuerde
IC, PS y CH estudian la información aportada por los datos actuales, pero no la
“suman” a la información previa.
Nota técnica: el riesgo puede delimitarse cuando el contraste de hipótesis tiene, como en el ejemplo del
8 y la B, la forma:
H0: = 0
H1: = 1
Pero si la prueba de significación es de la forma:
H: = H
Entonces la definición de una medida análoga al riesgo bajo todos los posibles H s próximos a H
ese riesgo tiende hacia 1- (Figura 4.1). Es decir, como PS sólo define H, este planteamiento “asimétrico”
conduce a la conclusión asimétrica: si el valor de p es pequeño, se considera inverosímil. En cambio, si p
es grande, “nada se opone a aceptar H”.
28
Bioestadística para no estadísticos
Figura 4.1 Si no hay hipótesis alternativa cerrada, el riesgo beta no está acotado
Recuerde
En PS, “ausencia de pruebas” no es “prueba de ausencia”.
En PS diga “no se han detectado diferencias” en lugar de “no existen diferencias”.
El CH, al tener acotados α y β, permite tomar ambas decisiones.
Ejercicio 4.2
El laboratorio Yotambién S.L., para demostrar que su genérico es tan eficaz como
el de la compañía Losprimeros S.A., realiza un ensayo en el que compara ambos
productos. Supóngase que obtiene un nivel de significación p=0.23, ¿puede
concluir que ambos productos tienen la misma eficacia?
Conviene ir con mucho cuidado con las palabras que se utilizan para explicar las conclusiones de
una prueba de significación. La Tabla 4.1 resume algunas de las más habituales. Nótese la asimetría
de la conclusión a la que se llega en ambas regiones: mientras en la zona crítica se afirma que se
rechaza H (“se ha demostrado la culpabilidad del acusado”), en la zona de aceptación no hay
afirmaciones rotundas (“absuelto por falta de pruebas”).
Ejercicio 4.3
¿Alguna(s) de las siguientes es falsa? :
a) En PS se buscan evidencias en contra de H
b) CH permite tomar ambas decisiones
c) Tanto p como α cuantifican áreas de las distribuciones de probabilidad, pero
miden aspectos distintos.
d) En PS debe reportarse el valor exacto del nivel de significación p
29
Prueba de significación y contraste de hipótesis
Ejercicio 4.4
PS es conservadora en el sentido de que se declara ..???.. H hasta que no haya
clara evidencia en su contra:
a) ???=cierta
b) ???=falsa
c) PS no es conservadora
d) todas son incorrectas.
Ejercicio 4.5
En un estudio para comparar dos tratamientos, p=0.341. ¿Cuál/es son ciertas?
a) Nada se opone a aceptar H0.
b) No existen diferencias
c) No se han detectado diferencias
d) La probabilidad de que sean diferentes es 0.341.
Lectura: Karl Popper ha contribuido a incorporar los avances estadísticos a la epistemología o metodología
científica. De acuerdo con esta asimetría de la conclusión de una prueba de hipótesis, afirmó que lo único
que se puede hacer con una teoría científica es ponerla a prueba y rechazarla en el caso de que encontremos
pruebas en su contra, pero que nunca se podrá demostrar que sea cierta y constituya la última palabra de la
ciencia en ese punto. Así, Popper dice que el criterio para establecer el status científico de una teoría es su
refutabilidad o su testabilidad: “para ser colocados en el rango de científicos, los enunciados o sistemas de
enunciados deben ser susceptibles de entrar en conflicto con observaciones posibles”, lo que es conocido
como problema de la demarcación. Así, una teoría científica es más fuerte cuando es más falseable, cuanto
más fácilmente podría demostrarse su falsedad (caso de ser falsa).
30
Bioestadística para no estadísticos
Recuerde
PS es inferencia; si la p es pequeña, Fisher recomienda modificar nuestras
opiniones sobre la veracidad de H.
Ejercicio 4.6
Las siguientes frases podrían figurar en la discusión de un artículo, ¿Cuáles son
de inferencia y cuáles de decisión?
a) el riesgo es mayor en pacientes de tipo A.
b) el riesgo disminuye a la mitad si se adoptan las medidas X.
c) la obesidad abdominal es el componente de síndrome metabólico de mayor
prevalencia en mujeres.
d) el valor predictivo de la escala de Z implica que debería utilizarse en el futuro
para clasificar a este tipo de enfermos.
e) si hay dos o menos factores de riesgo presentes y la PAS ≥ 160 o la PAD ≥
100 (siendo PAS < 180 y PAD < 110), conviene intentar cambios en el estilo de
vida durante varios meses y luego, si se mantiene, tratamiento farmacológico.
Las acciones conllevan consecuencias. Y conviene tenerlas en cuenta. Ya expusimos que Greenland
reclamó distinguir entre la Ciencia de la Epidemiología y la acción de fomentar la Salud Pública. Y
en el capítulo de probabilidad y riesgo recordamos que la definición estadística de riesgo incluye la
gravedad de las consecuencias.
Historieta: Los mismos datos en los Ejemplos 4.1 y 4.2 han llevado a decisiones diferentes: abandonar el
garito de juego o seguir jugando con la familia. La diferencia es el grado previo de credibilidad de la
hipótesis. Pero además, las consecuencias son diferentes, ya que seguir la partida familiar no conlleva
pérdidas: incluso, en el caso de trampas, “el dinero se queda en casa”.
31
Prueba de significación y contraste de hipótesis
Recuerde
El proceso de decisión, además de los riesgos de error debe valorar también sus
consecuencias, el coste que se paga por cada decisión errónea y el premio que se
obtiene con las decisiones correctas.
Ejemplo 4.4: Es bien conocido que aunque un tratamiento puede haber demostrado un
cierto efecto positivo en una variable de interés, sus costes pueden aconsejar antes otra
intervención sanitaria más eficiente, en el sentido de que una misma “inversión” origine un
mayor “retorno”, valorado en términos de salud.
Lectura: Aconsejar un producto químico o biológico de nueva creación no conlleva los mismos riesgos
que aconsejar un hábito saludable que se ha practicado siempre.
Nota técnica: CH es el primer instrumento de la teoría de la decisión, que constituye toda una rama de la
estadística y es ampliamente utilizada en otras disciplinas, como por ejemplo, la economía, donde los
“costes” y los “premios” son fácilmente expresables en una única escala. El diagnóstico y el tratamiento
son dos ejemplos de acciones médicas que podrían beneficiarse de las aportaciones de la teoría de la
decisión.
Puede ser razonable esperar que el efecto de una intervención sea el mismo en diferentes
condiciones (país, entorno de atención al paciente, raza,…). Incluso que lo sea la capacidad
predictiva de un indicador valorada por su sensibilidad y especificidad. Pero no es en absoluto
razonable esperar que las consecuencias de una decisión se valoren igual en diferentes entornos. Por
ejemplo, el “valor” del mismo coste de un medicamento puede diferir de un país a otro.
Recuerde
El proceso de decisión implica una valoración de las consecuencias que tienen
connotaciones locales y es más difícilmente extrapolable que la mera inferencia
de conocimiento.
Ejercicio adicional
Encuentre un original científico reciente que, en su discusión, vaya de la
interpretación de los resultados de inferencia a la decisión ulterior sin considerar
formalmente el proceso de decisión, sus riesgos y sus consecuencias en el entorno
en el que propone la acción.
32
Bioestadística para no estadísticos
5. Equivalencia
Hasta ahora hemos intentado establecer ‘diferencias’.
Ejemplo 5.1: Por ejemplo, “el riesgo de sida es mayor en toxicómanos por vía parenteral”,
o bien “el nuevo tratamiento es mejor que el clásico”.
Definición
Un tratamiento es equivalente a otro si la diferencia de sus efectos no alcanza un
cierto valor que marca el límite de la irrelevancia.
El concepto de equivalencia es más amplio que el de la estricta igualdad, pues incluye también
los valores, cercanos a la igualdad, que no son relevantes desde el punto de vista práctico. La
siguiente figura representa todos los posibles valores de la diferencia entre las dos medias de
interés: µ1-µ2.
33
Prueba de significación y contraste de hipótesis
Para establecer equivalencia se debe demostrar que las diferencias no alcanzan los dos límites
especificados. Se puede hacer con un intervalo de confianza que deberá quedar comprendido entre
estos límites, lo que equivale a realizar dos pruebas que deberán rechazar ambos límites.
Ejemplo 5.4: La figura 5.2 muestra 3 estudios en los que se concluiría equivalencia y 3
estudios en los que no.
Ejercicio 5.1
Si en el Ejemplo 5.4 de los datos de la figura 5.2 se hubiera hecho la PS para
demostrar diferencias, ¿en qué estudios de los anteriores se concluiría que los
tratamientos son diferentes? Razone posibles discordancias.
Recuerde
Ambos límites deben ser rechazados para poder establecer equivalencia.
Definición
Un tratamiento es no inferior a otro si éste no le supera en un cierto valor que
hace relevantes las consecuencias.
Recuerde
Los planteamientos de “no inferioridad” y “no superioridad” sólo consideran un
límite, sea 1 o 2.
34
Bioestadística para no estadísticos
Ambos contrastes de la PDU se suelen realizar con riesgo = 0.05 y el riesgo global de la PDU
se mantiene en 0.05. Si el IC se calcula con una confianza 1-2 (0.90, si =0.05), coincidirán las
conclusiones de la PDU con las del IC.
Nota: Aunque la estimación por intervalo se realiza con una confianza 1-2 = 0.90, el criterio de decisión
basado en dicho IC tendrá un riesgo α=0.05. Ello es así porque ambos límites de no equivalencia (que
definen las dos H0) no pueden ser simultáneamente ciertos; y, por tanto, sus riesgos no necesitan ser
sumados.
Nota: Si en lugar de dos CH se hubieran realizado dos PS con sus correspondientes niveles de
significación p1 y p2, se acepta como nivel único de significación p, el mayor de los dos p1, p2
observados.
Ejemplo 5.5: Un nuevo (N) antiinflamatorio tiene una tolerabilidad superior a cierto
producto clásico de referencia (R). Interesa poder demostrar que sus niveles de eficacia son
parecidos. La eficacia se mide por la proporción de casos en los que desaparece el dolor a
los 30'. Ambos fármacos serán equivalentes en eficacia si las proporciones de desaparición
del dolor no difieren en más de un 8%. El intervalo de confianza (90%) de la diferencia de
ambas proporciones va entre -6% y +3%. Dado que no alcanza los límites, se puede
rechazar la no equivalencia (α=0.05).
Ejercicio 5.2
Mediante un diseño en que todos los casos pasan por los dos tratamientos, se ha
obtenido en n=20 casos el valor de la Diferencia entre ambas Presiones Arteriales
Diastólicas (PAD) tras 3 meses con el tratamiento de Referencia y 3 con el
Nuevo. Se ha establecido el límite de no equivalencia clínica de un hipotensor en
10 mmHg. Los resultados han sido D=3 y SD=10. Calcule el intervalo de
confianza y decida si existe equivalencia.
35
Prueba de significación y contraste de hipótesis
Ejercicio 5.3
Decidir en el ejercicio anterior si existe equivalencia mediante el doble contraste
de hipótesis unilateral. ¿Cómo cambiaría la presentación de resultados entre PS y
CH?
# t11,0.05
> qt(p=0.05,df=11,lower.tail=FALSE)
[1] 1.795885
> pt(q=5.597,df=11,lower.tail=FALSE)
[1] 8.05157e-05
36
Bioestadística para no estadísticos
> pt(q=2.133,df=11,lower.tail=FALSE)
[1] 0.0281428
Por lo que tanto el IC como la PDU permiten concluir la equivalencia de ambos productos.
Lectura: Los planteamientos de equivalencia que se han resuelto en estos ejemplos hacen referencia a la
equivalencia en media. Ello implica que un paciente tiene los mismos valores esperados bajo ambos
productos en comparación y, por tanto, ambos preparados o productos son igualmente aconsejables para
un nuevo paciente (equivalencia poblacional o prescribilidad). Para que dos preparados se puedan
intercambiar en un paciente ya tratado (equivalencia individual o intercambiabilidad) es necesario,
además, que no exista interacción entre el preparado y el paciente, es decir: que la diferencia (quizás nula)
entre ambos preparados sea la misma para todos los pacientes. La demostración de esta condición ha sido
exigida por algunos, resultando en una mayor dificultad para la salida al mercado de productos genéricos.
Definición
Sensibilidad es la capacidad de un ensayo clínico concreto para distinguir entre
un tratamiento eficaz y un tratamiento ineficaz o menos eficaz.
Es importante en cualquier ensayo pero tiene una implicación diferente en los ensayos que intentan
demostrar diferencia entre tratamientos (de superioridad) que en los que intentan demostrar no-
inferioridad.
La sensibilidad se puede deducir a partir de: (1) Evidencia histórica de la sensibilidad a los efectos
del tratamiento (ensayos pasados con un diseño similar lograron distinguir a los tratamientos
efectivos); y (2) un apropiado diseño y desarrollo del ensayo, que no limitan su capacidad para
distinguir entre tratamientos.
37
Prueba de significación y contraste de hipótesis
Recuerde
Un estudio de superioridad significativo permite inducir (aporta evidencia de) su
sensibilidad. Un estudio de equivalencia requiere poder deducir su sensibilidad de
su diseño y calidad de ejecución.
Varios factores pueden reducir la sensibilidad del ensayo: cambios en la población en estudio
(criterios de selección), cambios en la dosis y pautas de tratamiento, cambios en las variables de
eficacia y su momento de evaluación, periodos de lavado pre-inclusión, bajo cumplimiento con la
medicación, baja respuesta de los pacientes a los tratamientos, uso de tratamientos concomitantes
prohibidos, pacientes que tiendan a mejorar espontáneamente, criterios diagnósticos mal aplicados
(pacientes sin la patología), evaluación sesgada debida al conocimiento de que todos los pacientes
reciben algún tratamiento activo, etc.
En cualquier caso, el margen de no-inferioridad siempre debe ser inferior al margen previo de
eficacia establecido respecto a un placebo, quizás la mitad o la tercera parte. Este hecho puede
provocar un mayor tamaño muestral
Recuerde
debe ser menor a
Referimos al lector interesado a la extensión de la Consort para equivalencia; a los documentos ICH
E10 de elección del grupo control y E9 de análisis estadístico; y a la directriz de la EMA sobre
estudios de equivalencia.
38
Bioestadística para no estadísticos
2.2. La respuesta correcta es la a) ya que debe situarse en H aquello que se desea rechazar para poder demostrar su
complementario.
Por ello, puede rechazarse, con p=0.0014 que ambos tratamientos sean iguales: el tratamiento A es preferido al
tratamiento B.
VI) Cálculo del intervalo de confianza:
La “auténtica” preferencia π por A se encuentra entre 53% y 63%. Al excluir 50%, IC permite la misma
conclusión que PS.
39
Prueba de significación y contraste de hipótesis
> pnorm(q=1.2,lower.tail=FALSE)*2
[1] 0.2301393
Se ha obtenido p=0.23. Nada se opone a aceptar que ambos tratamientos tienen la misma preferencia.
VI) Cálculo del intervalo de confianza:
La “auténtica” preferencia π por A se encuentra entre 48% y 58%. El intervalo contiene el valor 0.5, por lo que
se llega a la misma conclusión con IC que con PS.
2.5. Las tres primeras son correctas, la cuarta no tiene sentido y las dos últimas son un error habitual de interpretación
de p, que cuantifica la probabilidad de unos resultados condicionando a H, no la probabilidad de H condicionando a
unos resultados. Más adelante insistimos en esta distinción.
La probabilidad vale p <0.01 y, por tanto, se ha logrado demostrar que > 70.
> library(BSDA)
> tsum.test(mean.x=79, s.x=12, n.x=16, mu=70)
…
t = 3, df = 15, p-value = 0.008973
alternative hypothesis: true mean is not equal to 70
95 percent confidence interval: 72.60565 85.39435
…
El intervalo excluye el valor 70, por lo que permite la misma conclusión que PS.
2.8. Ahora cambia el nivel p de significación, que al dividirse por 2 da 0.0045, por lo que las conclusiones no cambian.
Nótese que un planteamiento unilateral es más adecuado en este ejemplo.
2.9. Ejercicio difícil, ya que 2 es mayor que 1.96 y parece que podemos rechazar H, pero observe que -2 está a la
izquierda de +1.96, por lo que se acepta H. Es correcta la respuesta e), ya que se trata de una prueba unilateral cuya
H incluye el 0 y todos los valores negativos. Dado que el estadístico se sitúa en H, la única conclusión posible en
una prueba de significación es “nada se opone a aceptar H”.
40
Bioestadística para no estadísticos
# t14,α/2
> qt(p=0.025,df=14,lower.tail=FALSE)
[1] 2.144787
3.2. Son correctas las respuestas c), expresada más formalmente en términos de probabilidad poblacional; y f), como
frecuencia a largo plazo.
4.1. Efectivamente, las correctas son las tres largas d), h) e I): ¡es peligroso abreviar!
4.2. No, los resultados de su experimento lo único que le dicen es que, asumiendo que los dos productos sean iguales, la
probabilidad de obtener unos resultados como los suyos (o más extremos) no es muy pequeña. Por tanto, no puede
demostrar que H sea falsa, lo que no equivale a haber demostrado que H sea cierta. Por ello, no puede afirmar que
tengan la misma eficacia. Más adelante se estudia cómo puede demostrar equivalencia.
4.6. a) y c) son claramente inferencia, así como d) y e) decisión. b) hace inferencia sobre las consecuencias de una
decisión.
5.1. Se rechazaría la H de estricta igualdad en los estudios 1, 4 y 5. Nótese que el estudio 1 tiene un IC, razonablemente
estrecho, que le permite concluir tanto equivalencia (porque excluye ε1 y ε2) como diferencias (porque excluye 0);
es decir, los dos tratamientos no son estrictamente iguales, pero sus diferencias no alcanzan el criterio de
relevancia. El estudio 6, en cambio, tiene un IC tan amplio, aporta tan poca información, que no le permite ni
rechazar la estricta igualdad ni el límite de relevancia clínica. Los restantes estudios no presentan estas paradojas: el
2 y el 3 no consiguen rechazar la estricta igualdad y sí que consiguen establecer equivalencia (aunque el 2 tiene un
IC más estrecho que implica que se dispone de mucha información); y el 4 y el 5 consiguen rechazar la estricta
igualdad y no consiguen establecer equivalencia. Nótese que el estudio 5 no incluye el margen de equivalencia ε2,
pero que se sitúa al lado de la no equivalencia (lo que coincide con el planteamiento unilateral).
5.2. IC90%:
# t19,0.05
> qt(p=0.05,df=19,lower.tail=FALSE)
[1] 1.729133
Luego la media de las diferencias entre las presiones de ambos hipotensores está entre –0.866 (el de referencia
consigue presiones más bajas en media: gana por 0.866 mmHg) y +6.866 (el nuevo consigue presiones más
41
Prueba de significación y contraste de hipótesis
bajas: gana por 6.866 mmHg). Luego la diferencia entre ambos fármacos está entre los límites –10 y +10: se ha
establecido equivalencia.
5.3. PS : PDU HA: D -10 t1 = (3-(-10)) / (10/ 20) = 5.814 p < 0.001
La primera prueba permite afirmar que la media de las diferencias entre ambos hipotensores está por encima de
–10. Y la segunda que está por debajo de +10. Por tanto, con un nivel de significación P 0.003, se ha
establecido que la media de las diferencias de ambos hipotensores está entre –10 y +10.
Se llega a la misma conclusión, pero ahora se dirá que, con riesgo α=0.05, se autoriza el nuevo.
5.4. IC90%:
# t4,0.05
> qt(p=0.05,df=4,lower.tail=FALSE)
[1] 2.131847
Ahora, el IC90% sobrepasa el dintel superior que marca la no equivalencia y, por tanto, no se puede defender
que haya equivalencia.
H0B: D 10
H1B: D <10 t2 = (3- 10) / (10/ 5) = -1.565 p ≈ 0.096 > 0.05 = α
42
Bioestadística para no estadísticos
Asimismo, aunque la primera prueba aún permite afirmar que la media de las diferencias está por encima de –
10, la segunda no ha permitido establecer que esté por debajo de +10. Por tanto, no se ha podido demostrar
que la media de las diferencias de ambos hipotensores esté entre –10 y +10. Por tanto, la acción debe ser no
autorizar el nuevo (A0).
43
Prueba de significación y contraste de hipótesis
Tabla salvadora
Tabla resumen de las pruebas de hipótesis vistas con el estadístico del test, su distribución (bajo H0), sus premisas necesarias, el criterio de decisión y la función de R.
Rechazar H0 si
y
prop.test
t.test
Rechazar H0 si
Y ~ Normal tsum.test
(BSDA)
Rechazar H0 si
t.test
44
Tema 10:
Ensayo clínico
Azar, riesgos de sesgo, ética
Erik Cobo y Joan Carles Oliva
Jordi Cortés, José Antonio González y Marta Vilaró
Enero 2014
Ensayo clínico
Ensayo clínico
Presentación ...................................................................................................................... 3
2. El azar ......................................................................................................................... 10
2
Bioestadística para no estadísticos
Presentación
Estamos ya en condiciones de estudiar la metodología del ensayo clínico para poder estimar el
efecto de una intervención, cómo sortear sus riesgos de sesgo y ejecutarlo respetando los derechos
humanos.
3
Ensayo clínico
1. Características fundamentales
Recuerde
Ejemplo 1.1: Asignamos una de las intervenciones en estudio a cada paciente que acepta
participar.
Ejemplo 1.2: Repartimos (asignamos) los trabajadores de cierta entidad entre los protocolos
alternativos de seguimiento y control sanitario que deseamos comparar.
Recuerde
Ejercicio 1.1
4
Bioestadística para no estadísticos
Recuerde
Ejemplo 1.3: Sólo causas con efectos potencialmente positivos, los “tratamientos”, son
éticamente asignables a seres humanos (principio de no maleficencia).
Nota: El investigador que recluta voluntarios puede decir, por ejemplo: “Mire, Vd. va a recibir
todo el conjunto de intervenciones efectivas que gracias a la generosidad de pacientes con su
enfermedad, la Ciencia ha seleccionado previamente. Ahora estamos estudiando, en condiciones
muy controladas y reguladas, el balance entre beneficios y riesgos de una nueva y prometedora
posibilidad. Si Vd. se ofrece voluntario, tendrá una posibilidad del 50% de acceder a ella. Para
alcanzar el máximo rigor científico, ni Vd. ni yo sabremos durante el estudio si la recibe o no, lo
que nos obliga a utilizar un simulador del tratamiento. Por supuesto, tanto si recibe Vd. esta
nueva opción, o el simulador al que llamamos placebo, en ambos casos estará tratado dentro del
máximo nivel técnico y científico”.
Por ello, previamente al inicio del estudio, un comité de ética debe velar por la veracidad de esta
afirmación.
5
Ensayo clínico
Ejercicio 1.2
Historieta: Le preguntan a una estadística, “¿es guapa tu pareja?”; y responde, “¿comparada con
la de quién?”
Fould (1985) [ Pocock, p 53] revisó 52 ensayos no comparativos en psiquiatría y encontró que 44
(85%) concluyeron que existía éxito terapéutico; mientras que de 20 ensayos con un grupo de
referencia, sólo 5 (25%) encontraron dicho éxito.
Ejercicio 1.3
Ejemplo 1.5: La artritis reumatoide es una enfermedad crónica que tiende a empeorar con el
paso del tiempo. Si administramos una nueva terapia y hacemos una comparación antes-
después (pre-post), el efecto medido podría ser incluso negativo: al final del ensayo, los
pacientes pueden estar incluso peor que al inicio. Sin embargo, el tratamiento en
investigación podría ser positivo, pues tiene el mérito de enlentecer la progresión de la
enfermedad. Este beneficio sólo se puede poner de manifiesto con un comparador.
6
Bioestadística para no estadísticos
Nota: Para poder afirmar que la clase le cambió, es preciso asumir que si no hubiera ido a clase
no lo sabría. Como este hecho no ha sido observado, no hay evidencia de que la relación
observada (“antes=no sabe, luego=sí”) sea causal.
Ejercicio 1.4
Ejercicio 1.5
Recuerde
7
Ensayo clínico
Historieta: Tip y Coll están en el safari fotográfico de su vida. Bajan a recepción vestidos con
botas y cargados con cámaras y objetivos. Pero les avisan de que un león anda suelto y que ellos
deben asumir los riesgos, por lo que les piden que firmen un acuerdo informado. Tip sale
corriendo y vuelve con bambas, un ligero atuendo deportivo y una mini-cámara. Coll le dice
riendo, “serás tonto, ¿crees que así correrás tú más que el león?”; y Tip le responde, “no amigo
mío, por favor no te confundas, yo sólo quiero correr más que tú”.
Recuerde
Definición
Estimar efectos precisa inferencia causal. Los estudios observacionales sin comparador requieren el
razonamiento contrafáctico (de no haberse observado la causa A, el efecto Y no se habría
producido); pero en los estudios experimentales, las respuestas a las causas en comparación son
potencialmente observables y comparables.
Nota técnica: Veremos más adelante que cada paciente será asignado a una sola intervención y,
por tanto su respuesta bajo la otra intervención no se observará, será un dato ausente (“missing”).
Pero como la asignación al grupo de tratamiento es al azar, se trata de “missings at random”,
cuya ausencia no sesga los resultados.
Observe que hemos definido “efecto de A relativo a B en la respuesta Y”. Además, convendrá
especificar la población de pacientes P a la que aplican los resultados.
8
Bioestadística para no estadísticos
Ejemplo 1.7 (cont.): Efecto de la dieta mediterránea (A) relativo al consejo para reducir
grasas (B) en los eventos cardiovasculares mayores (respuesta Y) en pacientes con diabetes
tipo II o, al menos, 3 riesgos cardiovasculares mayores (población P).
Recuerde
Ejercicio 1.6
Ejercicio 1.7
Recuerde
Ello requiere que el criterio para tomar decisiones esté perfectamente definido. En el caso más
general, descansa en 1 análisis principal de 1 variable principal de evolución.
9
Ensayo clínico
Nota: Por supuesto, el EC puede desear aportar conocimiento sobre otros temas, usualmente
recogidos en objetivos y variables secundarios. Además, otros objetivos secundarios pueden
comprobar la robustez de los resultados (¿se habría llegado a la misma decisión con otro análisis
o variable?) o la validez de las premisas (¿permite el análisis de subgrupos sostener que el
mismo efecto aplica a todos los casos?).
Nota: En un ensayo clínico el término ‘control’ puede tener dos connotaciones: (1) el grupo
sometido a la intervención de referencia, comparativa, como en ‘control histórico’, ‘control
interno’, etc.; y (2) el hecho de controlar las restantes variables. Para distinguir, usamos
comparador o referencia para el primer uso.
El ensayo clínico debe garantizar que la única diferencia entre los grupos en comparación son los
tratamientos. En caso contrario, la comparación de los grupos estaría afectada, sesgada, por estas
otras diferencias.
Historieta: Un niño juguetón y algo sádico quita una pata a una araña, y la suelta mientras le
dice “anda”. Observa que la araña se escapa corriendo. Lo repite hasta que la araña se queda sin
patas y no se marcha, por lo que concluye “cuando le quitas todas las patas se vuelve sorda”.
Recuerde
El ensayo clínico “controla” que no aparezcan riesgos de sesgo durante la selección, seguimiento y
evaluación de los participantes. Antes de estudiar cómo lo hace y cuáles son los riesgos de sesgo,
veamos las contribuciones del azar.
2. El azar
La inferencia estadística puede recurrir al azar de dos formas: para seleccionar a las unidades o para
asignar los tratamientos. Como se muestra a continuación, el primer caso persigue
representatividad; y el segundo, comparabilidad.
10
Bioestadística para no estadísticos
Ejercicio 2.1
De acuerdo con la Figura 2.1, diga si las siguientes afirmaciones son ciertas.
c) Para que los grupos sean comparables debe haber extracción al azar.
11
Ensayo clínico
Recuerde
Ejercicio 2.2
Para realizar el estudio del Ejemplo 2.1, a partir de un listado de todos los
elementos de la población, se seleccionan al azar una serie de individuos en los
que se evalúa su nivel de salud. Dado que es un derecho no participar, ¿qué
consecuencias puede tener que algunos casos rehúsen?
Recuerde
La selección al azar de los participantes requiere disponer de (un listado de) todos los miembros
elegibles de la población, lo que puede ser factible en sociología, política o salud pública, pero no
en clínica. Por eso, los ensayos clínicos NO se basan en la selección o extracción al azar.
Una vez se han seleccionado aquellos individuos que formarán parte del estudio, el proceso de
asignación aleatoria del tratamiento genera dos muestras de esta misma población. Dado que ambas
muestras provienen, de manera aleatoria, de la misma población, la distribución de todas las
variables es la misma a nivel poblacional.
Como todas las terceras variables están igualmente distribuidas en los grupos, no existe ninguna que
pueda explicar diferencias entre los grupos, por lo que la asignación aleatoria del tratamiento ofrece
una estimación insesgada del efecto (causal).
Recuerde
12
Bioestadística para no estadísticos
Ejercicio 2.3
Nota técnica: Al ser muestras aleatorias, aplica todo lo estudiado en inferencia. Si, por ejemplo,
la variable respuesta es numérica y estamos interesados en comparar medias, la diferencia de las
medias muestrales ( ̅ ̅ : (1) tiene como valor esperado la diferencia poblacional entre
medias [ ( ̅ ̅ ], es decir, no hay sesgo porque el conjunto de todos los estudios
posibles apunta en la dirección correcta; y (2) su imprecisión es la suma de las oscilaciones de
las dos medias: [ ( ̅ ̅ ⁄ ⁄ ], lo que proporciona su error estándar.
Por tanto, el resultado de un estudio aleatorizado concreto (1) apunta en la dirección correcta; y (2)
permite cuantificar su desvío esperado del auténtico valor.
Recuerde
Recuerde
13
Ensayo clínico
Ejercicio 2.4
3. Riesgos de sesgo
Para tener una estimación insesgada del efecto, además de asignar al azar, hay que hacer bien todo
el estudio. Repasemos, cronológicamente, algunas oportunidades que tenemos para hacerlo mal.
Nota: Un clínico que desea actuar de esta manera no cree en el estudio y no debería participar en
el mismo.
Se previene con la asignación al azar y oculta: la aleatorización garantiza que los grupos en
comparación proceden de la misma población; y mantenerla oculta hasta el momento de la
intervención minimiza las posibilidades de excluir pacientes de forma direccionada.
Contra-ejemplo 3.2: Un investigador que excluye los pacientes más graves del estudio
para tratarlos, si estuviera permitido, fuera del mismo, reduce la extensión de la población
estudiada y por tanto atenta a la validez externa (transportabilidad), pero no a la interna
(comparabilidad).
14
Bioestadística para no estadísticos
Ejemplo 3.3: En un estudio que sólo enmascara la evaluación de la respuesta final, dar más
medicación de rescate a los pacientes del grupo de referencia.
Recuerde
Ejemplo 3.5: Escoger aquella variable de la evolución o aquel análisis estadístico que más
favorecen las expectativas o los resultados deseados.
La obligación de publicar los protocolos pretende evitar el cambio de variable y análisis principal.
Aun así, conviene publicar un plan de análisis estadístico especificado sin ambigüedades.
Nota: Una práctica pasada consistía en desvelar el grupo (A o B) de cada paciente pero no el
tratamiento de cada grupo (experimental o referencia) y escribir 2 informes (uno asumiendo que
el experimental era A; y otro, B) y, una vez firmados ambos, desvelar cuál era el grupo
experimental. Pero los eventos adversos permitían desvelar el tratamiento de cada grupo, Por
ello, se abandonó este método.
15
Ensayo clínico
Los diseños PROBE, enmascaran la evaluación de la respuesta para evitar este riesgo de sesgo.
El sesgo impredecible o imprevisible aparece cuando la imprecisión del estudio es mayor que la
cuantificada por el error estándar.
Recuerde
Ello que implica que el auténtico valor estará más allá de los límites del IC más veces de las α
aceptadas: es decir, la cobertura prometida, por ejemplo, del 95%, es mayor que la real.
Recuerde
16
Bioestadística para no estadísticos
La Figura 3.1 tomada de Deeks et al, muestra que el uso de técnicas de ajuste no soluciona este
problema.
Recuerde
Ejercicio 3.1
Ejercicio 3.2
¿Por qué conviene NO excluir del ensayo un paciente que debe abandonar el
tratamiento (p.e., por falta o de eficacia o de tolerabilidad)?
Ejercicio 3.3
¿Cómo podemos comprobar que unos autores no presentan, de todos los posibles
análisis, aquellos que les convienen?
Ejercicio 3.4
Ejercicio 3.5
Nota: El término control tiene muchas acepciones. En un EC puede referirse: (1) al grupo o (2) a
la intervención de referencia; (3) al riguroso seguimiento de los pacientes por los investigadores;
(4) a la regulación legal; (5) a la garantía de calidad que proporcionan la monitorización y la
gestión de datos; y (6) a la metodología que permite mejorar las propiedades estadísticas.
17
Ensayo clínico
En un ensayo con 2 casos y 2 intervenciones, cualquier diferencia entre los casos puede ser una
explicación alternativa a las diferencias observadas. Y por tanto, ese estudio tiene un valor muy
limitado.
Ejemplo 4.1: Supongamos una población con sólo 2 casos (Mar y Pep), que asignamos al
azar a las 2 intervenciones en comparación (A y B). Hay 2 asignaciones posibles: (1) Mar
con A y Pep con B; y (2) Mar con B y Pep con A. El promedio de los efectos estimados en
los 2 posibles estudios con estos 2 casos coincide con el efecto poblacional, pero cada uno
de los 2 estudios diferirá del auténtico valor por 2 motivos, uno aleatorio y otro sistemático.
El primero es el resultado de la variabilidad entre casos y podemos cuantificarlo con el error
típico. El segundo, en cambio, incluye todas las diferencias “reproducibles”: por ejemplo,
que las mujeres vivan unos 5 años más que los hombres. Un observador crítico encontrará
muchas otras diferencias entre Mar y Pep a las que podría atribuir las diferencias
observadas.
Pero el conjunto de todos los estudios posibles apunta en la dirección correcta: es insesgado.
Recuerde
Pero un buen investigador no tiene suficiente con el hecho de que la ciencia avance. Él quiere que
su estudio concreto sea convincente. Quiere que su estudio acierte en sus estimaciones.
Recuerde
18
Bioestadística para no estadísticos
Ejemplo 4.2: Si el nivel inicial de la enfermedad es una variable crucial, que determina
claramente la evolución de los pacientes, conviene controlarla.
19
Ensayo clínico
Recuerde
Ejercicio 4.1
a) Si realizo al azar la asignación del tratamiento, las dos muestras, que vienen
de la misma población, tienen una idéntica distribución poblacional.
b) Si realizo al azar la asignación del tratamiento, las dos muestras, que vienen
de la misma población, toman idénticos valores en ambas muestras.
c) Si realizo al azar la asignación del tratamiento, la estimación es insesgada.
d) Si realizo al azar la asignación del tratamiento, no debe preocuparme ningún
posible desequilibrio entre las muestras, ya que la estimación es insesgada.
e) Si mediante las técnicas de ajuste controlo a todas las terceras variables
observables, la asignación al azar ya no aporta nada al diseño.
f) Si se acepta que la ciencia empieza por descubrir las variables importantes, las
técnicas de control (que controlan a las variables conocidas Z) tienen un papel
más relevante que la asignación al azar (que controlan a las desconocidas V).
Ejemplo 4.4: Cabe esperar menos diferencias entre dos pacientes de la misma edad, género
y centro, que entre dos pacientes de diferentes edades, géneros y centros.
La comparación directa de dos pacientes de las mismas características, al estar menos influida por
fluctuaciones aleatorias, aportará más información.
Ejemplo 4.5: Vimos 2 pruebas para comparar 2 medias, para datos independientes y
apareados. En ambas, el numerador proporciona la misma señal. Pero la imprecisión
calculada en el denominador era diferente: cuanto mayor era la correlación entre las dos
observaciones, mayor era el beneficio por aparear los casos.
20
Bioestadística para no estadísticos
Nota técnica: Vimos que una gran correlación entre las dos determinaciones corresponde a una
situación con mucha variabilidad entre-casos y poca variabilidad intra-casos.
Recuerde
Recuerde
Además, controlar mediante el diseño permite equilibrar el número de casos en cada grupo.
Ejemplo 4.7: El mismo estudio de factibilidad anterior decide controlar por género en el
análisis en lugar de en el diseño. Podría haber sucedido que la intervención A la formaran 5
hombres y 1 mujer. Y al revés para la B. Las comparaciones A frente a B, serían 5 a 1 para
los hombres y 1 a 5 para las mujeres, con mayor imprecisión que si hubieran sido 3 a 3.
Ejercicio 4.2
Siguiendo con el ejemplo anterior, suponga que: desea conocer el efecto sólo en
los hombres; dispone de 8 casos; y la varianza de la variable cuantitativa
respuesta es 1. Calcule el error estándar de la estimación del efecto de A frente a
B en los hombres si los 8 observados han quedado repartidos entre las
intervenciones de las 2 formas siguientes: (i) 4 a 4; y (ii) 7 a 1. ¿Cuánto mayor es
el error en el 2º caso?
21
Ensayo clínico
Nota técnica: Estos beneficios son muy claros si se analiza una respuesta numérica (p.e.,
comparación de medias). Veremos que la situación es más sofisticada en otros casos (p.e.,
comparación de proporciones, análisis de supervivencia, etc.).
Recuerde
La Tabla 4.1 resume las ventajas e inconvenientes de las diferentes posibilidades para el control
metodológico y los nombres que reciben si se decide en el momento del diseño o durante el análisis.
Nota técnica: En el entorno del EC, el azar proporciona la propiedad de no sesgo y el control
aumenta la precisión (eficiencia). En los estudios observacionales el ajuste tiene otra
interpretación, ya que también persigue “controlar” el sesgo.
22
Bioestadística para no estadísticos
4.3.1. Restricción
La forma más sencilla de control es la restricción de la población en estudio, bien sea mediante la
definición de criterios de selección en el protocolo, bien sea mediante el estudio de un subgrupo en
el momento del análisis.
Ejemplo 4.8: Se limita el estudio a casos de una cierta edad y de un hospital concreto.
Ahora, estas dos variables ya no pueden ser una explicación alternativa a la relación
observada entre el tratamiento X y la respuesta Y.
Ejemplo 4.9: En el ejemplo anterior, si un profesional de otro centro desea utilizar los
resultados de ese estudio deberá analizar con detalle si existen características diferenciales
entre ambos centros que puedan comprometer aplicar los efectos observados en el otro
centro.
Ejercicio 4.3
23
Ensayo clínico
Recuerde
Si una variable Z dispone de un amplio rango de variación y los criterios de elegibilidad son
generosos, puede persistir una cierta confusión residual.
Ejemplo 4.10: Si la edad tiene un efecto claro en la respuesta, que hace muy diferente un
caso con 18 años de uno con 70, limitar el estudio a pacientes de 18 a 70 puede ser correcto,
pero no suficiente.
Una única estimación del efecto que represente al efecto común de cada subgrupo será siempre más
fácil de aplicar, pero requiere asumir que el efecto es el mismo en todos los subgrupos.
Recuerde
Lectura: No hay nada más tedioso que un informe que va presentando resultados por subgrupos
cuando el efecto es muy similar en todos ellos.
24
Bioestadística para no estadísticos
En el curso de observacionales veremos métodos para poner a prueba si existe un único efecto
común a todos los subgrupos. Observe que si tiene sospechas de que el grupo puede modificar el
efecto, quizás sea más práctico restringir el estudio a un subgrupo concreto. Y si no las tiene, el
estudio común de varios subgrupos partirá de esta premisa de que el efecto es común a todos los
subgrupos. Y las premisas no se someten a prueba, que se reserva para la hipótesis. Considerar a
la homogeneidad del efecto como una premisa, o a su heterogeneidad como una hipótesis, podría
explicar los matices diferenciales entre los consejos de Trials, Lancet y NEJM sobre cómo
interpretar el análisis de subgrupos.
Ejemplo 4.13: Si el estado pandrial puede modificar el efecto del tratamiento, no tiene
sentido combinar los resultados obtenidos en pacientes en ayunas con los de pacientes en
plena digestión. Es más simple y directo definir al estado pandrial como criterio de
selección o como condición del estudio. Si conviene, más adelante ya se estudiará la posible
interacción o se complementará el estudio realizado con otro de la condición no
considerada.
Ejercicio 4.4
25
Ensayo clínico
El apareamiento es un caso extremo en el que cada bloque o estrato está compuesto por dos
observaciones que comparten cierta característica común que, por otro lado, les diferencia de las
otras parejas. El grado de conexión entre estas parejas, naturales o artificiales, puede variar.
Ejemplo 4.14: Los diseños con intercambio del tratamiento (“cross-over”) consisten en
aplicar un tratamiento en un periodo y otro tratamiento en otro periodo, cambiando el orden
de aplicación en diferentes pacientes. Cada paciente define una pareja de observaciones y
constituye un (mini) bloque.
Ejemplo 4.15: Olvide ahora los ensayos clínicos que estiman efectos. En un estudio
etiológico de búsqueda de causas X, a cada paciente que ha desarrollado cierta enfermedad
(Y+) se le busca una pareja sana (Y-) que tenga los mismos valores en las terceras variables
Z. Cada pareja constituye un (mini) grupo.
4.3.3. Modelado
La siguiente opción de control es el modelado estadístico, del que las diferentes técnicas de
regresión son el procedimiento más habitual. El protocolo puede especificar en mayor o menor
grado el modelo que se utilizará para realizar el ajuste.
26
Bioestadística para no estadísticos
Cuanto más concreto sea el protocolo sobre el modelo que se utilizará para realizar el ajuste o
control metodológico, mayor será el carácter confirmatorio del estudio.
Nota técnica: Algunos paquetes estadísticos dan una falsa sensación de facilidad en el uso de
estos modelos. La selección de variables a ser incluidas no es un tema trivial, especialmente en
presencia de colinealidades o correlaciones entre las variables a ser introducidas. Dejar el control
para el final es muy desaconsejable, ya que el margen de maniobra es siempre inferior.
Recuerde
Considere al inicio del estudio el método para controlar las terceras variables.
Ejercicio 4.5
27
Ensayo clínico
Ejemplo 4.18: En el estudio de la PAD se quiere tener controladas edad, centro, estrés y
sedentarismo. En el momento de introducir un nuevo paciente en el estudio, el investigador
proporciona los datos de estas variables al centro de aleatorización que, sin romper el
enmascaramiento del investigador, asigna el nuevo caso al grupo que consigue un mayor
equilibrio en estas variables.
La minimización permite tener equilibrados los grupos sin necesidad de recurrir a criterios de
inclusión más restrictivos, ni a la definición de muchos subgrupos, lo que podría comprometer el
reclutamiento de casos.
Nota técnica: Los algoritmos habituales de minimización suelen ponderar por separado a las
variables consideradas en el proceso y persiguen equilibrio en cada una de ellas.
Ejemplo 4.19: Un investigador interesado en ajustar por edad, centro, estrés y sedentarismo
(estas dos últimas medidas en escalas de 0 a 10) ha determinado en estudios previos que la
relación de estas 4 variables con la PAD es la siguiente: cada decena de años supone 5
mmHg más, los hombres tienen 5 mmHg más; cada punto de sedentarismo son 2 mmHg
más y cada punto de estrés son 3 mmHg más. Así, un índice global combina estos valores en
cada paciente y el próximo se asigna al grupo que hace más similares en ese centro las
medias de este índice en los dos grupos. Es óptimo, no para cada variable Z por separado
sino para el conjunto de todas ellas. Es decir, pretende compensar los desequilibrios de unas
variables con los de otras.
28
Bioestadística para no estadísticos
Ejemplo 4.20: En la misma búsqueda anterior de causas X, y de la misma forma que antes,
a cada paciente que ha desarrollado cierta enfermedad (Y+) se le busca una pareja sana (Y-).
La diferencia ahora es que la pareja debe tener un valor próximo en los valores de las
terceras variables Z, sea en cada una de ellas, como en el Ejemplo 4.18 o en su combinación
en un índice como en el Ejemplo 4.19.
Recuerde
4.4. Enmascaramiento
Historia (real): Una comisión de la academia francesa de ciencias, encabezada por Benjamin
Franklin, hizo el primer (documentado) estudio enmascarado que desmontó creencias sobre el
mesmerismo y el magnetismo animal.
Historieta: Podría ser que la capacidad de recordar los hábitos sexuales pasados dependa de
tener el sida. Un paciente con varias parejas previas puede no acordarse de ningún partenaire si
no ha desarrollado el sida; pero, en caso de contagio, se acordará muy bien de cada uno de ellos.
En un ensayo clínico, los datos de todas las variables se recogen en el mismo momento de aparición
y su riesgo de asesgo es menor. Pero ciertas decisiones en el seguimiento o ciertos criterios de
evaluación podrían originar sesgos. Para minimizar estos riesgos de sesgos, los ensayos clínicos
recurren al enmascaramiento del tratamiento, de forma que se pueda administrar, seguir y evaluar
a ciegas, sin que sea posible identificar los tratamientos en comparación. Para permitirlo, los
estudios de intervenciones farmacológicas (químicas o biológicas) administran un placebo que
emula al tratamiento en estudio. Si se trata de una intervención quirúrgica u otro tipo de maniobra,
se procede a fingirla con un simulador (‘sham procedure’).
29
Ensayo clínico
Nota: Un buen simulador (placebo) debe ser idéntico en todo: apariencia, sabor, olor,…
Si se están comparando dos productos que se administran por vías diferentes puede recurrirse al
doble placebo o doble simulador (double dummy) que consiste en administrar a cada grupo su
tratamiento más el simulador del otro.
Conviene mantener el enmascaramiento hasta que finalice la limpieza de la base de datos, que se
“blinda” para no permitir modificaciones posteriores.
Historieta: ¿Apoyan los estudios con investigadores ciegos, evaluadores ciegos y pacientes
ciegos la tesis de Ernesto Sábato en su “informe sobre ciegos”?
Historia (real): Los que describen más a sus pacientes como enmascarados y menos como
ciegos son los oftalmólogos.
Ejercicio 4.6
A continuación tiene una lista de persones que participan en un ensayo. Diga: (1)
quiénes conviene que desconozcan el tratamiento (futuro, presente o pasado) del
paciente; y (2) a quiénes de éstos puede aplicar el término ‘doble ciego’. Listado:
(a) voluntario que recibe intervención; persona que (b) recluta pacientes; (c)
evalúa criterios de selección; (d) obtiene consentimiento informado; (e)
administra tratamiento farmacológico; (f) realiza intervención o maniobra
(quirúrgica, fisioterapéutica, etc); (g) realiza seguimiento de los pacientes; (h)
obtiene la variable de evolución; (i) introduce datos; (j) monitoriza datos; (k)
diseña análisis estadístico; (l) ejecuta análisis estadístico; y (m) interpreta
resultados.
Recuerde
30
Bioestadística para no estadísticos
Recuerde
Poner una máscara al investigador no asegura que no pueda ver el tratamiento administrado.
Historieta: Si este investigador no veía que los pacientes tratados tenían rubor y se quedaban
calvos es que estaba realmente ciego y no sólo enmascarado
Ejercicio 4.7
¿Cómo cree que debería haber sido la discusión de las limitaciones en el artículo
del Ejemplo 4.22? ¿Lo hacen los autores? ¿Reciben alguna carta posterior?
Ejercicio 4.8
Ejercicio 4.9
Imagine un estudio en el que un grupo recibe consejo dietético y el otro no, con
evaluación a ciegas. ¿Cuáles de las siguientes expresiones son ciertas?
31
Ensayo clínico
Recuerde
Autonomía: requiere el respeto a la individualidad y deseos de cada uno: los participantes deben ser
capaces de tomar una decisión informada sobre su inclusión en la investigación, lo que requiere el
consentimiento informado. Las personas con autonomía disminuida tienen derecho a una protección
adicional. El paciente debe ceder su derecho a decidir al proceso de aleatorización
Equidad: el peso de la investigación descansa por igual en todos los ciudadanos (justicia
distributiuva).
Nótese que aleatorización incluye dos singificados: “asignación” y “azar”. Ambos con
implicaciones éticas. (1) Ambas pautas de tratamiento deben ser éticamente asignables a los
pacientes; y (2) los voluntarios deben renunciar mediante el consentimiento informado a su derecho
a decidir (principio de autonomía).
Ejemplo 5.1: El famoso ensayo clínico sobre la estreptomicina, realizado en los años
cuarenta por Daniels y Hill, asignaba los pacientes al azar al grupo con antibiótico más
reposo o bien al grupo tratado únicamente con reposo. Dos consideraciones apoyan a la
asignación y a su aleatoriedad. La primera, común a casi todos los estudios, es que los
(posibles) efectos positivos se compensan con los (posibles) efectos negativos y, en ausencia
32
Bioestadística para no estadísticos
Recuerde
Recuerde
Recuerde
Ejercicio 5.1
Ejercicio 5.2
Recuerde
Si hay duda científica sobre una intervención, la actitud más ética es empezar lo antes posible un
estudio bien diseñado (“asignar al azar el primer paciente”) que permita que el máximo número de
pacientes se beneficien de sus resultados.
En ocasiones, el pronóstico es malo incluso con el ‘mejor cuidado de salud”. Una nueva
intervención de la que no se conocen bien sus efectos (positivos y negtivos), puede cumplir con
equipoise clínica, pero abre una esperanza a los pacientes que quizás prefieran algo a lo que
agarrarse. La duda es si queremos una sociedad en la que los pacientes tienen acceso a todas las
33
Ensayo clínico
intervenciones imaginables o, por el contrario, sólo a aquellas que han demostrado un balance de
efectos beneficioso.
Rawls sugiere considerar la situación de partida o posición original: antes de saber el resultado del
reparto de papeles que en la vida nos toca desempeñar, es decir, independientemente de si somos el
paciente actual, el paciente futuro o el investigador, ¿en qué sociedad preferimos vivir: una que
haga ensayos clínicos aleatorizados y aprenda rápidamente o una que no los haga y no pueda
seleccionar las intervenciones con perfil favorable de beneficios y riesgos?
La FDA ha apostado por aprender rápidamente y dificulta el acceso fuera de los ensayos clínicos.
S. Senn propone:
3) El investigador debe creer que ningún paciente sale perjudicado por entrar en el EC.
Finalmente, conviene recordar que los pacientes han aportado sus propios datos para la
investigación. Y, por tanto, la sociedad a la que representan debe conocer sus resultados y
conclusiones. Sir Ian Chalmers, confundador de la Cochrane, resaltó en los 90 y aún insiste en que
una comunicación deficiente (carencia de informes y publicaciones, difusión incompleta o
sesgada,…) de los resultados no es ética.
Ejercicio 5.3
Ejercicio 5.4
¿Qué dice SPIRIT sobre la política de publicación? ¿Qué poder da a los CEIC?
Recuerde
34
Bioestadística para no estadísticos
6. Regresión a la media
Regresión hacia la media es el hecho de que los valores extremos observados una primera vez
tienden a no ser tan extremos en una medición posterior.
180
relación positiva, pero muy alejada de la diagonal (recta
identidad), que hubiera implicado que todos los hijos
tenían la misma altura que sus padres. Por debajo de la diagonal, se encuentran los casos con padres
más altos; y, por encima, los de hijos más altos.
Si se concentraba en estudiar aquellas parejas en las que los padres eran extremadamente altos
(como los seleccionados por la línea púrpura en la Figura 6.2), se encontró que los hijos, en
promedio, eran más bajos: estaban más cerca de la media de la altura. Además, en el otro lado,
también estaban más cerca de la media los hijos de padres extremadamente bajos (línea verde), que
eran más altos que sus padres.
35
Ensayo clínico
36
Bioestadística para no estadísticos
variabilidad y cómo evolucionan los ‘casos’ extremos, pero no hemos mostrado ni comentado las
medias de las alturas de ambas generaciones que pueden perfectamente ser idénticas (como los
ejemplos de las figuras).
Ejemplo 6.1: Genotipo y fenotipo de la altura. Ciertas características se heredan, pero otras
son el resultado de infinidad de factores como la alimentación, ejercicio y reposo de cada
día durante el crecimiento.
Ejercicio 6.1
Ejercicio 6.2
Sea la repetición de una medida Y, por ejemplo, la PAD, en 2 ocasiones, realizadas de forma que
podamos asumir independientes los errores de medida: Y1 y Y2. Para seleccionar pacientes con
PAD alta, definimos un punto A que está por encima de la media de la primera determinación
[A>E(Y1)], entonces, asumiendo distribución normal bivariante con varianzas iguales, el valor
esperado del cambio o diferencia entre la segunda y la primera determinación vale:
[( ] ( ( )(
37
Ensayo clínico
Ejemplo 6.3: La PAD tiene una media de 80 y una SD de 10 mmHg; si la correlación entre
2 determinaciones vale 0.75 y seleccionamos a los pacientes con PAD igual a 100 mmHg en
la primera determinación, ¿cuánto cabe esperar que baje en la segunda determinación?
E[(Y2-Y1)|Y1=100] = (100-80) (0.75-1) = 20 (-0.25) = -5
El valor esperado de la próxima repetición será 5 mmHg inferior.
Ejercicio 6.3
Ejercicio 6.4
Recuerde
La regresión a la media será mayor cuanto: (1) mayor sea la distancia del punto
de corte A de la media; y (2) menor sea la repetitividad de la variable en estudio.
Recuerde
Ejercicio 6.5
38
Bioestadística para no estadísticos
Ejercicio 6.6
Recuerde
Ejercicio 6.7
Ejercicio 7.1
39
Ensayo clínico
Una clasificación muy utilizada tiene en cuenta la fase de desarrollo de un fármaco. Una vez se
dispone de un producto químico o biológico ya “inventado”, su desarrollo para personas requiere
estudiar, por este orden, los niveles tolerados por el organismo (fase I); la eficacia a nivel
exploratorio (fase II) y confirmatorio (fase III); y la efectividad (fase IV).
Ejercicio 7.2
Ojee la figura de la página 7 del documento ICH E8 y diga si fase (I, II, III, IV)
aplica mejor al tipo de ensayo o al momento del desarrollo del fármaco.
Un ensayo de demostración de eficacia (fase III) actúa como una guía o pivote que decide el futuro
del producto (acceso al mercado o vuelta a I+D o…).
Ejemplo 7.1: Un estudio para valorar el efecto de una intervención educativa para prevenir
el embarazo adolescente podría asignar clases de estudiantes a la intervención de referencia
(información clásica) o a la intervención en estudio (material específico).
40
Bioestadística para no estadísticos
En el estudio usual, los pacientes solo reciben un tratamiento en estudio, pero ciertas condiciones
crónicas podrían permitir que reciban varias intervenciones en diferentes tiempos o lugares: ensayos
con intercambio o cross-over.
Ejemplo 7.2: Para valorar el efecto de una intervención sobre el asma, cada paciente se
asigna a la secuencia AB o BA, siendo A y B las dos intervenciones en comparación.
En el estudio usual, el número final de casos se decide de antemano, pero algunos diseños
secuenciales permiten parar el estudio cuando se ha alcanzado suficiente información para concluir,
o que la intervención es eficaz, o que el presente estudio no podrá demostrarlo.
Los ECAs pragmáticos pretenden valorar el efecto en condiciones lo más parecidas a la clínica real.
Aleatorización balan- Cada ‘n’ casos, el número de pacientes en cada grupo se equilibra. Los bloques
ceada por bloques se definen por terceras variables (orden, centro, edad,...)
Se definen una serie de variables iniciales que se desea tener equilibradas y,
Minimización
conocidos los datos del paciente, se le asigna con mayor probabilidad al grupo
que hace mínimo el desequilibrio.
Aleatorización según Se procede en función de los valores de severidad. Por ejemplo, los casos
severidad (cut-off) severos se comparan con un activo y los leves con placebo
Aleatorización y libre
Se dispone de datos de pacientes que han aceptado la asignación aleatoria y de
elección
datos de pacientes que han elegido libremente el tratamiento
(comprensive cohort)
Apostar por el mejor Se da mayor probabilidad de asignar un paciente al grupo con mejores
(Play the winner) resultados hasta el momento
41
Ensayo clínico
1.3. Diversas causas alternativas pueden explicar este fenómeno: se puede haber asignado el nuevo tratamiento a los
pacientes con mejor pronóstico (sesgo de selección); la evaluación puede haber sido optimista, por el propio
entusiasmo del experimentador (sesgo de evaluación); o pueden haberse eliminado del juicio final aquellos
pacientes que no han respondido porque “es evidente que en ellos el tratamiento no puede funcionar” (sesgo por
atrición).
1.4. Reposo, concienciación de los pacientes, otras intervenciones, calibrado de los aparatos de medida, sesgos del
observador, etc.
1.5. Podría ser o bien no tomar nada o bien tomar un vaso de agua sin la aspirina.
1.6. Los pacientes bajo la intervención alternativa obtenidos de experiencias anteriores a la realización del estudio en
marcha se denominan controles históricos. El problema del uso de este tipo de “controles” es que no se puede
asegurar una comparación justa: como los dos grupos pueden diferir en alguna característica que no está bajo el
control del experimentador cualquier diferencia observada entre grupos no puede ser atribuida al tratamiento. Otro
motivo que invalida las comparaciones frente a los controles históricos son los cambios, muchas veces no
documentados, en el entorno experimental:
- Uso de información retrospectiva de baja calidad.
- Cambios en la evaluación de la respuesta: criterios, evaluadores, tecnología,…
- Nivel de atención médica y de salud en general distinta.
- Criterios de parada del tratamiento en el grupo histórico distintos a los aplicados al grupo bajo el nuevo
tratamiento.
1.7. Todas estas formas de control suelen englobarse en el término Control Externo y no son formas adecuadas para
estimar, sin sesgo, el tratamiento en investigación. Como un “control” externo implica muy poco “control” de todas
las condiciones del estudio mejor usen “comparador” externo.
2.1. (a) Sí; (b) No; (c) No; (d) No, falta asignación; (e) No, es el estudio, teórico, de los criterios de selección.
2.4. (a) Sí; (b) No, ya que es lo que proporciona el error estándar; (c) No, ya que lo que estima el error estándar es la
distancia promedio o esperada (preguntas anterior y siguiente), pero la de un estudio concreto es desconocida; (d)
42
Bioestadística para no estadísticos
Sí. [Nota: si desea ser más preciso recuerde que el error estándar no estima esta distancia sino la raíz cuadrada del
promedio de las distancias cuadradas.]
3.1. Un estudio no enmascarado está afectado por todos los riesgos de sesgo: (1) el de selección por incluir a pacientes
diferentes en los dos grupos); (2) el de ejecución (p.ej., mejor trato a los del grupo control por misericordia o mejor
trato a los tratados por la ambición de los investigadores de demostrar sus hallazgos); (3) el de atrición por eliminar
casos de forma diferencial en los grupos (p.e., los curados en el grupo de referencia y los no curados en el
experimental); (4) el del informe selectivo, por escoger aquella variable o aquél análisis más conveniente; (5) el de
evaluación (p.ej., con una respuesta basada en una escala de valoración subjetiva se podía, incluso de manera
inconsciente puntuar distinto según el tratamiento recibido) y el impredecible, porque las diferencias podrían ir en
cualquier sentido, resultando en mayor incertidumbre que la que recogen las medidas basadas en oscilaciones
únicamente aleatorias (p.e., el error estándar). Los estudios PROBE sólo protegen contra el riesgo de sesgo de
evaluación.
3.2. Excluirlo implica perder la comparabilidad de grupos, generando riesgo de sesgo por atrición. Además, el clínico
que quiera usar las recomendaciones del estudio, necesita conocer cuántos pacientes abandonaron y porqué.
3.3. Revisando el protocolo y el plan de análisis estadístico puede verse si el análisis se ajusta a lo planeado.
3.4. El error estándar sólo cuantifica la variabilidad en los resultados originada por la aleatoriedad del muestreo. Si
hacemos las cosas mal, los resultados aún serán más erráticos, en cualquier sentido. Los valores verdaderos del
efecto estarán fuera de los límites del IC95% más de un 5% de veces. A diferencia del resto de sesgos, que apuntan
en una dirección, ahora aumentan los resultados fuera del IC en ambos lados.
3.5. Dos ejemplo de cada, para comparar (A) dos tipos de dietas para el sobrepeso; y (B) un activo con un placebo.
Sesgo de selección: (A) se asigna la dieta 1 a pacientes con más de 65 años y la dieta 2 a pacientes con menos de 65
años. Los grupos no son comparables. (B) Al ver que a un paciente grave le toca el grupo placebo, el médico le
pide que vuelva más tarde, mientras busca e invita a un paciente muy leve.
Sesgo de ejecución: (A) los pacientes que reciben la dieta 1 tienen más visitas de control que los de la dieta 2. (B)
A los pacientes con placebo se les da enseguida la medicación de rescate.
Sesgo de atrición: (A) se excluyen del estudio a los pacientes que engordan con una de las dietas. (B) Eliminamos
del estudio a los pacientes que no toleran el tratamiento activo.
Sesgo del informe selectivo: (A) reportar la variable peso a la semana que hace mayores las diferencias; y (B)
escoger el análisis que ofrece los resultados deseados.
Sesgo en la evaluación: (A) valorar más positivamente los resultados de la dieta 1. (B) Usar una variable que
permita subjetividades: p.e., periodo libre de enfermedad y explorar más a fondo a los tratados con placebo.
Sesgo impredecible: (A) si no controlamos el nivel de ejercicio, los resultados se pueden desequilibrar hacia
cualquier lado; y (B) si perdemos algunos casos, el desequilibrio puede favorecer a cualquier tratamiento.
4.1. Son falsas la b), la d) y la e). Para saber si es cierta la f) haría falta confirmar la premisa de que el conocimiento de
las variables predictoras avanza de las más importantes a las menos importantes.
43
Ensayo clínico
4.2. (i) EE=1·√(1/4+1/4)≈0.71; (ii) EE=1·√(1/1+1/7)≈1.07. El error estándar del caso no balanceado es más de un 50%
superior.
4.3. ¡Atención! Esta pregunta tiene dos trampas (mis sinceras disculpas). La primera es que la estadística aborda la
evidencia empírica, método inductivo de inferencia. Así, la respuesta formal de un estadístico debe ser “es que he
repetido el estudio con un mayor lapso de tiempo hasta el tratamiento y me da lo mismo”. Si Vd. desea utilizar el
razonamiento lógico-deductivo clásico, debe basarse en consideraciones que exceden nuestro campo. La segunda
trampa es que este capítulo discute un tema científico, de adquisición de conocimiento: ¿qué es lo que sabemos
sobre un cierto tema? En cambio, la pregunta hace referencia a una decisión concreta: tratar o no tratar a ese
paciente. Y la decisión requiere otra metodología. Por supuesto que el conocimiento (bien empírico o bien
deductivo) sobre la eficacia influye en esta decisión, pero no es el único factor. Hay que añadir todas las
consideraciones sobre seguridad (en general, con una transportabilidad más argumentable) y, , sobre coste. Nótese
que dejar al paciente ejercer su derecho a decidir conlleva que él, o ella, pueda considerar además sus propias
preferencias personales –menos argumentable que puedan ser compartidas por todo el grupo de pacientes con la
misma patología.
4.4. Sólo es falsa la e), ya que los resultados de este estudio se basan, en el fondo, en un único centro. Nótese que las
respuestas a) y b) son dos formas correctas de expresar lo mismo.
4.5. Ya están bien ordenadas. a) y b) ofrecen la misma credibilidad. Igual que d) y e). Los dos saltos más importantes
son de c) a d) porque deja de estar especificado en el protocolo y el último, ya que ese criterio es una auténtica
barbaridad, algo así como si dijéramos: “no pares de analizar los datos hasta que den el resultado que yo quiero”,
buen ejemplo de lo que significa “sesgo del informe selectivo”.
4.6. (1) Conviene que todos, pero puede ser imposible para f y no tener sentido para l y m, cuyos desvíos pueden ser
fácilmente detectados. Y (2) ‘doble ciego’ tuvo su utilidad cuando sólo había 2 protagonistas en un ensayo clínico.
Demos las gracias por los servicios prestados: pero ahora CONSORT pide especificar quién está enmascarado.
4.7. Deberían por lo menos mencionar que el investigador podía haber adivinado en muchos casos el tratamiento
recibido y defender, si pudieran sostenerlo, que este hecho no podía haber originado ninguna diferencia en
tratamientos adicionales, ni al determinar el estado vital ni tampoco, más delicado, el nivel de progreso ‘libre de
enfermedad’. Nótese que no encuentran diferencias en la variable más objetiva, estado vital, y en cambio sí las ven
en ‘libre de progresión’ algo más delicada, ya que un buen clínico, que crea en el producto, explorará más a fondo
al paciente tratado con placebo. No, no mencionan esta gran limitación, al revés, “double-blind” está en la primera
línea del resumen. Hasta donde hemos visto, no reciben cartas luego, aunque sí hacen ellos una pequeña
corrección.
4.8. Todo el resto, en especial quiénes tomen decisiones sobre intervenciones adicionales y los evaluadores.
4.9. La única falsa es la c). El argumento correcto es el d). Nótese que, por el contrario, en el caso de un fármaco, es
imprescindible poder distinguir ambos efectos
5.1. El placebo es tan sólo un simulador para enmascarar el tratamiento. La pregunta correcta es si el tratamiento que
recibe el grupo control está de acuerdo con los protocolos profesionales. Recuérdese que al grupo “placebo” no se
le suprimen los tratamientos de conocida eficacia. Por eso, muchos autores prefieren llamarlos estudios “add-on”
para recordar que lo que se hace es añadir el tratamiento en estudio.
44
Bioestadística para no estadísticos
5.2. El de equidad, ya que corremos el riesgo de que algunos grupos sociales tengan mayor acceso a la intervención en
estudio.
5.4. El punto 31 dice que el protocolo debe especificar la política de publicaciones. Si el protocolo no deja claro que los
resultados e publicarán independientemente de los resultados y que el patrocinador y el financiador no podrán
influir en el redactado, el CEIC puede negar la autorización del estudio.
5.5. El punto 31 dice que el protocolo debe especificar la política de publicaciones. Si el protocolo no deja claro que los
resultados e publicarán independientemente de los resultados y que el patrocinador y el financiador no podrán
influir en el redactado, el CEIC puede negar la autorización del estudio.
6.1. Observaríamos, quizás con frustración, ¡que el premiado empeora y el castigado mejora! Un observador que no
tenga en cuenta la variabilidad, interpretaría que “la letra con sangre entra”.
6.2. El que tenga valores muy extremos, tendrá tendencia a repetir valores extremos, sí, pero menos extremos: aquél con
valores extremadamente bajos, subirá algo su PA; y aquél con los valores más altos, bajará algo. Sus posiciones
extremas serán ocupadas por otros casos y la variabilidad de todos los casos no cambiará (en ausencia de un efecto
estabilizador como el reposo, relajación, etc.).
6.3. E[(Y2-Y1)|Y1=100] = (100-80) (1-1) = 20 (0) = 0; E[(Y2-Y1)|Y1=100] = (100-80) (0-1) = 20 (-1) = -20; A
medida que se acerca a la media, la magnitud del efecto es menor.
6.4. Se espera que estén otra vez con valores bajos, pero no tanto, algo más cerca de la media.
6.5. Muy difícil —o imposible. Una primera aproximación sería repetir la determinación en todos los casos y mirar si la
distribución ha cambiado. El problema es que el reposo (o algo parecido) puede haber originado tanto un descenso
de la media como de la variabilidad. Si fuera posible, el diseño ideal debería repetir lo anterior en 2 grupos, uno
“expuesto a la bata blanca” (o sus componentes hipertensores) y el otro no. Pero si uno de los componentes es la
propia ansiedad del paciente…. Si se le ocurre un diseño, puede, o discutirlo en el foro, o ¡hacerlo!
6.6. (1) la variable “cambio” final-basal en el grupo tratado (YT-ZT) estará afectada por el fenómeno de regresión a la
media E[(YT-ZT)|YT=100] = (100-80) (0.75-1) = 20 (-0.25) = -5.
Ahora bien tanto (2) su diferencia entre ambos grupos, (YT-ZT)-(YC-ZC), como (3) la diferencia entre los valores
finales en ambos grupos, (YT-YC) están afectadas por igual por el fenómeno de regresión a la media, por lo que, en
ausencia de efecto del tratamiento y de sesgos, tendrán el mismo valor esperado en ambos grupos.
6.7. Una opción (¿ética?) sería realizar un ensayo clínico con tres grupos: el grupo experimental, un grupo comparador
que recibe placebo, y un tercer grupo que saben que no son tratados. Un estudio que compara los 2 últimos grupos
encuentra mejor evolución en el tratado con placebo.
7.1. Nótese que deseamos responder cómo proceder delante de un paciente (¿qué intervención aconsejarle?), por lo
tanto, el paradigma de decisión de NP será más adecuado.
7.2. La figura muestra cómo ambos están relacionados, pero que aplica al desarrollo de cierta indicación del producto.
Así, una nueva indicación puede requerir un nuevo estudio de confirmación de eficacia aunque ya existan de
seguridad previos.
45
Tema 11:
Efecto:
Premisas, pérdidas y
supervivencia
Enero 2014
1
Efecto: premisas, pérdidas y supervivencia
2
Bioestadística para no estadísticos
Introducción
Vimos en el capítulo 1 la diferencia entre preguntas sobre causas y preguntas sobre efectos, más
propias las primeras de Epidemiología; y más cerca las segundas de Clínica, de Cirugía o, mejor, de
las especialidades “intervencionistas”. Antes de aconsejar un tratamiento, un buen clínico querrá
conocer muy bien todos sus efectos.
Al final, completamos las medidas del efecto estudiadas en el capítulo 9 (diferencia de medias,
diferencia de proporciones, cociente de proporciones y odds ratio) con el cociente de tasas o hazard
rate ratio, medida del efecto popular en estudios de supervivencia.
3
Efecto: premisas, pérdidas y supervivencia
Figura 1.1 Hay asociación si los tratados con T evolucionan diferente que los tratados con C,
pero existe causalidad cuando toda la población responde diferente a T y C.
La pregunta del gestor sanitario es claramente la segunda. Y la de un clínico, que trata a un paciente
de esa población, también, aunque este salto requiere algunas premisas que enseguida veremos.
Ejercicio 1.1
Un estudio compara el valor de la respuesta Y en hombres y mujeres en casos
tratados. ¿Es causal la expresión “la respuesta Y al tratamiento T es mayor en los
hombres que en las mujeres”?
4
Bioestadística para no estadísticos
Definición
T causa el efecto yTi – yCi
Más formalmente: el efecto de la intervención T, relativo al comparador C, en la
respuesta Y, en el individuo ui es: T causa el efecto yTi – yCi.
Por tanto, el efecto de una causa se define de forma relativa a otra causa alternativa. Ello no tiene
porqué ser una limitación, ya que emula el proceso de decisión de la vida real, en la que, por lo
menos, aparece la alternativa de no hacer nada. ¿Para qué se podría desear conocer las
consecuencias de nuestras elecciones, si no hubiera alternativa posible?
Ejemplo 1.1: Supóngase que acude a urgencias un paciente con una fractura de hueso largo
para la que el único tratamiento clínico y éticamente aceptable es la reducción e
inmovilización. Por tanto, ni puede observarse ni tiene sentido práctico preguntarse por la
evolución tras no hacer nada.
Nota: Puede argumentarse que si existe un único tratamiento para una determinada enfermedad, no tiene
ningún interés estimar su efecto ya que no hay alternativa y dicho tratamiento deberá aplicarse
forzosamente. Sin embargo, el concepto de éticamente aceptable depende del entorno y de los recursos
disponibles: el responsable de la administración de los recursos sanitarios decide el patrón de mínimo
tratamiento éticamente aceptable en función del beneficio y el coste de las diferentes intervenciones
sanitarias. Para este gestor, la pregunta no es asignar un u otro tratamiento a un mismo paciente, sino
asignar el recurso sanitario a una u otra patología. A diferencia del profesional asistencial, que cuida
personas, el salubrista debe velar por la salud de toda una población. Su paciente es la comunidad y debe
decidir la prioridad de las diferentes intervenciones, de la misma forma que debe hacerlo un clínico
delante de un paciente politraumatizado.
Definición
yTi , yCi son respuestas potenciales.
Recuerde
El efecto es una diferencia entre 2 respuestas potenciales.
5
Efecto: premisas, pérdidas y supervivencia
Ejemplo 1.2: Se desea comparar el tratamiento Clásico (X=C), con el nuevo que incluye
también el componente T (X=T) y se decide estudiar como respuesta (Y) a la Presión
Arterial Diastólica (PAD). En el paciente Pep tenemos 2 respuestas potenciales Y: YT,Pep , la
PAD de Pep habiendo recibido el tratamiento T, pongamos 80 mmHg; y YC,Pep, la PAD de
Pep habiendo recibido el comparador C, pongamos 90 mmHg. El efecto de la causa T
relativo a C, en la respuesta PAD, en el paciente Pep es: el tratamiento T causa el efecto
yT,Pep - yC,Pep . En nuestro ejemplo, 80-90, lo que significa un descenso de 10 mmHg.
Ejercicio 1.2
La tabla representa ambas respuestas potenciales en una escala de dolor entre 0
(mínimo) y 20 (máximo) en una población de 8 pacientes. Calcule el efecto en
cada caso, su media y su dispersión. Interprete los resultados.
Respuesta potencial
Unidad
Y(t) Y(c)
1 14 13
2 0 6
3 1 4
4 2 5
5 3 6
6 1 6
7 10 8
8 9 8
Ejemplo 1.3: Un estudio oftalmológico aplica una pomada local a cada ojo. Aunque es un
estudio apareado, en un mismo paciente, el lugar de aplicación cambia.
6
Bioestadística para no estadísticos
Ejemplo 1.5: En los primeros años de la enfermedad de la SIDA, ningún paciente con
evolución avanzada lograba sobrevivir más de, pongamos, seis meses desde el diagnóstico:
invariablemente morían antes. Si un científico aplica un tratamiento nuevo a 1 solo paciente
que, sin duda alguna, tiene el sida en dicho estadio evolutivo, y este caso único permanece
vivo a los doce meses, el resto de la comunidad científica estará muy interesada en este
tratamiento. A pesar de disponer de una sola observación.
Recuerde
La presencia de variabilidad obliga a recoger información sobre el comparador.
Ejercicio 1.3
Idealmente, un médico perfecto, ¿qué tratamiento debería haber aplicado a cada
paciente del Ejercicio 1.2?
Ahora bien, se necesita conocer el efecto causal en un paciente “antes de tratarlo”. Lo que requiere
usar lo aprendido en otros pacientes previos.
Definición
T causa el efecto E(yTi) – E(yCi)
Más formalmente: el efecto de la intervención T, relativo al comparador C, en la
respuesta Y, en la población P es: T causa el efecto E(yTi) – E(yCi).
7
Efecto: premisas, pérdidas y supervivencia
Como antes, hay 2 respuestas potenciales en cada paciente, pero ahora esta definición no requiere
conocer cada una en cada paciente, sino que basta con conocer su esperanza poblacional. Como,
bajo un proceso de asignación al azar, este efecto poblacional es estimable, se evita el problema
fundamental de la inferencia causal que sí aplica a cada unidad, pero no a su conjunto.
Nota: Si asignamos al azar, el reto de observar sólo una respuesta potencial en cada paciente no requiere
el argumento contrafáctico. Basta con decir que una de las dos respuestas potenciales será observada y la
otra estará ausente, ‘missing’. Como en los ensayos clínicos los pacientes se asignan al azar, la respuesta
potencial no observada es un dato ausente al azar, que no ocasiona sesgo. Así, los estudios
observacionales requieren premisas adicionales, como el argumento contrafáctico o la ausencia de
confusión, pero a los ensayos clínicos les basta con asignar al azar.
Ejemplo 1.6: Modifiquemos los datos del Ejercicio 1.2 de la escala de dolor y supongamos
ahora que las respuestas potenciales ante ambas intervenciones han sido:
1 11 13 -2
2 3 5 -2
3 2 4 -2
4 3 5 -2
5 4 6 -2
6 4 6 -2
7 5 7 -2
8 8 10 -2
Sigue existiendo variabilidad entre pacientes (SD≈3), quizás por diferente umbral al dolor o
por distintas condiciones iniciales de un paciente a otro. Pero el efecto ahora es constante
(SD=0), igual en cada paciente. Y lo que es más útil, coincide con el efecto poblacional.
Recuerde
Las diferencias observadas entre pacientes tratados pueden ser debidas a su
propensión particular, no a un efecto variable del tratamiento.
8
Bioestadística para no estadísticos
Bajo la premisa de efecto constante, todas las unidades proporcionan información del mismo efecto
y tiene pleno sentido combinarlas para estimarlo: al ser el mismo en todas las unidades, la
diferencia entre las medias se corresponde con el efecto causal en cada paciente.
Recuerde
Si la premisa de efecto constante es cierta, el efecto poblacional promedio aplica
también a cualquier unidad.
Nota: Esta premisa tan simple es la que está detrás del análisis estadístico más habitual, como la
comparación de dos medias mediante la t de Student o el modelo lineal de regresión: el efecto del
tratamiento se manifiesta en las medias, pero no en las dispersiones.
Ejemplo 1.6 (cont): Aunque el efecto tiene variabilidad 0, la respuesta potencial en ambos
tratamientos tiene idéntica desviación típica (≈3).
Recuerde
La premisa de efecto constante tiene la consecuencia contrastable de que ambos
grupos tienen la misma variabilidad (homoscedasticidad).
Nota: Recuerde que un efecto constante del tratamiento se traduce en distribuciones de idéntica forma,
con varianzas iguales. Esta premisa que está presente en las pruebas estadísticas más usuales, puede
obtenerse mediante transformaciones matemáticas que hacen así más simple la interpretación de los
resultados.
9
Efecto: premisas, pérdidas y supervivencia
Recuerde
Si hay homoscedasticidad, el efecto poblacional promedio equivale al efecto del
tratamiento en cada caso.
Por supuesto, como existe variabilidad de la respuesta entre pacientes, diferentes asignaciones de
los pacientes a los grupos resultarán en diferentes estimaciones puntuales del efecto promedio cuya
oscilación convendrá cuantificar. Ya vimos que asignar al azar ofrece un método para poder
cuantificar el error típico de estimación.
La premisa de efecto constante se puede relajar de 2 formas. La primera es especificando una cierta
variabilidad del efecto.
Ejemplo 1.7: Ahora los nuevos datos para el Ejercicio 1.2 muestran un efecto que oscila de
paciente a paciente con una desviación típica de 0.87.
Recuerde
Si el efecto es aleatorio, el efecto promedio no aplica directamente a cada unidad.
Cuando el efecto es aleatorio, estimar el efecto esperado en cada unidad requiere tener en cuenta,
además de la incerteza por la estimación, ya considerada por los métodos habituales (p.e., IC95%), la
incerteza por la variabilidad del efecto. Ahora se deben estimar, pues, dos parámetros: el del efecto
promedio y el de la distancia del efecto en cada unidad a este efecto promedio (sigma). Además de
requerir diseños sofisticados, que implican determinaciones repetidas en cada individuo, este
modelo tiene el inconveniente de su aplicabilidad posterior, ya que, cuanto mayor sea esta
10
Bioestadística para no estadísticos
dispersión, mayor será la incertidumbre de cuál será el efecto en una unidad determinada, lo que
puede llegar a requerir estudios “n igual a 1” para determinar el efecto en cada caso particular.
Nota: Observe que la variabilidad añadida por el tratamiento resulta en mayor dispersión en los tratados.
La segunda forma de relajar la premisa de efecto constante es distinguirlo por subgrupos: dentro de
cada grupo el efecto es constante, pero cambia de un subgrupo a otro.
Ejemplo 1.7 (cont): Supongamos ahora, en unos nuevos datos, que hay 3 grupos de
gravedad: los pacientes 3, 4 y 5, leves; 6,7 y 8, moderados y el resto, graves. Como el efecto
depende del nivel inicial, para conocer el efecto es necesario clasificar al paciente, pero
ahora, dentro de cada grupo, el efecto es constante.
Nota: Esta situación hipotética es muy ideal, ya que el efecto es mayor cuanto mayor es el dolor inicial,
Una consecuencia es que la variabilidad resultante es menor en los pacientes tratados. Frecuentemente, en
estas situaciones, logo-transformar los datos resuelve muchos problemas, empezando por permitir estimar
un efecto multiplicativo en lugar de aditivo.
La premisa de efecto constante, o por lo menos de cierta irrelevancia por ligeras modificaciones del
tratamiento, puede ser más razonable en intervenciones farmacológicas (p.e., lote de fármaco) que
en otro tipo de intervenciones (p.e. experiencia del cirujano que interviene). Por ello, la extensión
11
Efecto: premisas, pérdidas y supervivencia
Tú tomas T C T C
Yo tomo T T C C
Ejercicio 1.4
¿Cuál es el efecto en mí si tú recibes T? ¿Y cuál si recibes C?
Los ensayos clínicos usuales no estudian ni ofrecen datos sobre esta premisa. Su estudio requeriría,
como en el ejemplo, observaciones repetidas en cada paciente.
12
Bioestadística para no estadísticos
La definición de efecto en la población incluye a todos los casos de la población objetivo. Pero
algunos no cumplen el protocolo establecido.
Ejemplo 2.1: Desviaciones usuales son no acudir a las visitas concertadas o no tomar la
medicación prescrita.
Nota: Un uso coloquial emplea quebrantamiento (violation) del protocolo si se incumple conscientemente
el compromiso adquirido.
Una buena intervención, un buen diseño, un buen investigador y un buen seguimiento conseguirán
mantener al mínimo las desviaciones del protocolo.
Recuerde
El crédito de los investigadores y la intervención se reduce a medida que
aumentan las desviaciones del protocolo.
Excluir del estudio a los pacientes con desviaciones del protocolo implica perder la garantía de
equilibrio proporcionada por la asignación al azar. Por el contrario, incluirlos podría diluir el efecto
de la intervención. Ello obliga a matizar la definición de efecto.
Definición
La eficacia del método estudia el efecto en condiciones ideales, con adherencia
absoluta al protocolo.
Definición
La efectividad de uso estudia el efecto en condiciones habituales.
Cabe esperar que las condiciones habituales de uso cambien mucho de una población a otra, lo que
limita la transportabilidad de resultados.
Ejemplo 2.3 (cont): En mujeres más irregulares en sus tomas, la “pastilla” podría tener
cualquier efecto menor al ideal anterior.
13
Efecto: premisas, pérdidas y supervivencia
Ejercicio 2.1
Para estudiar la protección para el cirujano del uso de un doble par de guantes, se
ha realizado un ensayo en el que los cirujanos son asignados al azar al grupo de
utilizar uno o dos pares de guantes.
14
Bioestadística para no estadísticos
3. Se comparan todos los casos según los pares de guantes que realmente han
usado: uno (81/154: 52.6%) o dos (9/130: 6.9%). lo que se traduce en un
IC95% de 34.7% a 52.7%.
15
Efecto: premisas, pérdidas y supervivencia
Recuerde
La medida del efecto futuro al asignar el tratamiento la proporciona el análisis por
intención de tratar.
Implica que todos los casos asignados a un grupo deben ser analizados en ese grupo (as
randomized). La guía ICH-E9 sobre principios estadísticos, consensuada en 1998 por la conferencia
internacional para la armonización del desarrollo de productos farmacéuticos, hizo una tímida
definición de ITT que permitía excluir a algunos casos, acercándola algo a la PP. En 2010, la
academia nacional de ciencias americana y la Consort recomiendan emplear el término “según
asignación” (as randomized) para evitar las ambigüedades por el abuso del término ITT.
Recuerde
Los desvíos del protocolo amenazan la validez que proporciona el diseño
experimental y lo acercan al diseño observacional.
Ya se ha dicho que los desvíos implican pérdida de información. Por tanto, cuanto menos sean,
mejor. El estudio sólo recuperará toda la credibilidad perdida si cualquier consideración sobre estos
desvíos conduce a conclusiones similares.
Recuerde
Conviene que ambos análisis (ITT y PP) lleven a la misma conclusión.
Aunque parece razonable esperar que la estimación del efecto del método en los casos PP sea mayor
que la del efecto de uso en la ITT, en realidad, ambas son diferentes estrategias delante de la
pérdida de información, por lo que los resultados pueden variar en cualquier dirección, siendo un
caso concreto de sesgo impredecible.
Ejercicio 2.2
Se asignan al azar 200 casos a dos tratamientos alternativos A y B. En el grupo A,
todos los pacientes cumplen y acaban el protocolo, mientras que en el grupo B, 50
de ellos dejan de tomar la medicación. En el grupo A se curan 60 y en el B, 40.
N ¿ Acaban Curan P(Cura | acaba) P(cura | empieza)
A 100 0 100 60 60% 60%
B 100 50 50 40 80% 40%
16
Bioestadística para no estadísticos
La gran dificultad del análisis por intención de tratar reside en que no se dispone de valores para los
casos que no han cumplido el protocolo. Si hay que incluirlos en el análisis, ¿qué valor se les puede
asignar? ¿Cómo tenerlos en cuenta? La solución clásica consistía en copiar el último valor
disponible (last observation carried forward ó LOCF). Ahora hay mejores.
Ejemplo 2.4: Si el paciente sólo participó en el estudio hasta el tercer mes, se asigna, a la
evaluación de los 12 meses, el valor observado en el tercer mes.
El problema de los datos faltantes es muy serio y de imposible solución ya que, por definición, falta
información que no puede “inventarse”. Una elegante clasificación distingue entre datos ausentes
completamente aleatorios (no dependen de nada); aleatorios (sólo dependen de otras variables
observadas); y no ignorables (dependen de variables no observadas). Los primeros pueden
generarse al azar, los segundos, en función de las variables observadas y los terceros son los únicos
que no pueden generarse y pueden originar problemas. Pero la clasificación de un dato ausente en
una de estas categorías debe hacerse por creencias del investigador, ya que no se dispone de las
variables no observadas. Por tanto, esta clasificación descansa en premisas no contrastables.
Las conclusiones serán robustas si se pueden generar los datos ausentes bajo diferentes premisas y
los resultados del análisis permanecen estables, independientemente de cómo fueron generados los
datos. Para que pueda suceder, el estudio debe tener un número reducido de pérdidas.
Dos argumentos aconsejan usar únicamente los casos que han cumplido el protocolo. El primero
son los estudios de seguridad del fármaco, donde no tiene sentido incluir casos que, por ejemplo, no
han tomado el producto. El segundo argumento aparece en los estudios de equivalencia, ya que una
invención de información tenderá a diluir las diferencias entre los grupos, por lo que incluir estos
casos se convierte en un premio para un mal diseño o un mal seguimiento, lo que de ninguna
manera es razonable.
Recuerde
La comparación más importante es por intención de tratar, si bien para el
establecimiento de equivalencia o en el estudio de tolerabilidad, la comparación
por cumplimiento del protocolo gana relevancia.
17
Efecto: premisas, pérdidas y supervivencia
Son especialmente preocupantes las pérdidas relacionadas con la evolución, ya que podrían afectar
de forma diferente a los grupos. Ello sucederá en los casos de eficacia nula o absoluta; y de falta de
tolerabilidad.
Nota: Si se sabe que el paciente murió entre el mes 3 y 12, no se tendrá un valor introducido en la
respuesta al final a los 12 meses del estudio (por la sana costumbre de los médicos de no pasar visita a los
muertos). Pero ello no implica que a ese paciente no le corresponda, en esa variable, un valor que indique
fracaso.
Recuerde
Si la pérdida está relacionada con la evolución, se sabe mucho sobre el dato
ausente y se debe intentar asignarle, a ciegas del tratamiento, un valor que
considere esta información.
Ejercicio 2.3
Lea el documento sobre el tratamiento y la prevención de datos ausentes y resuma
sus principales recomendaciones.
El uso de las tecnologías de la información ha permitido mejorar la calidad de los datos de forma
muy notable ya que permite establecer filtros automáticos de coherencia de los datos y contrastar la
información en el mismo momento en que se genera. Además facilita la transmisión y el
almacenamiento.
Historieta: Una anécdota del Dr. Alberto Cobos ilustra la importancia de estos filtros. El sistema avisó de
que un paciente no podía tener presión arterial 6h después de fallecer. Pero no era un error: estaba en
espera de donación para trasplante. Al haberse ejecutado el filtro en el mismo momento en que se genera
la información, la validación fue inmediata y no generó ninguna molestia.
18
Bioestadística para no estadísticos
3. Análisis de supervivencia
Introducción
El análisis de la supervivencia analiza una variable respuesta definida como el lapso de tiempo
transcurrido entre dos eventos de interés, como podrían ser la aparición de un acontecimiento
adverso tras una intervención terapéutica, o el tiempo transcurrido entre el inicio de una infección y
su diagnóstico.
Nota: En general, cualquier lapso entre dos eventos se denomina tiempo de supervivencia aunque el
punto final no sea la muerte.
Ejemplo 3.1: Han superado los 6 meses de vida 9 de 10 pacientes intervenidos de una
neoplásica gástrica avanzada.
El modelo de riesgos proporcionales de Cox selecciona a las variables que más contribuyen a
predecir el tiempo de vida —de forma independiente.
O bien, para estimar el efecto de una intervención ajustando por las condiciones de los pacientes y
del entorno en el que se aplica la intervención.
19
Efecto: premisas, pérdidas y supervivencia
Ejemplo 3.5: La Figura 3.1 muestra la forma típica de esta variable para un ejemplo
hipotético de meses de supervivencia tras el diagnóstico de una neoplasia de mal pronóstico:
muchos casos tienen valores de unos pocos meses, pero algunos pacientes viven mucho,
llegando incluso uno de ellos a superar los 8 años. Nótense los siguientes puntos: La media
de esta variable, como resultado de estas observaciones extremas, se sitúa alrededor de 15
meses, valor que no representa en absoluto la supervivencia habitual de esta muestra. La
mediana, en cambio, tiene un valor entre 10 y 11 meses, que resume mejor el tiempo de vida
habitual o típico de estos pacientes.
Lo mismo sucede con la desviación típica, cuyo valor, algo mayor de 15 meses, es
demasiado alto para representar la distancia de los casos que no alcanzan la supervivencia
media y demasiado bajo para los casos que sí lo superan.
La superposición de una distribución Normal (que tenga esta media y esta desviación típica)
muestra que el modelo de Gauss-Laplace no puede ser utilizado para representar estos
casos: ¡el 95% de los pacientes vivirían entre -15 y +45 meses!
20
Bioestadística para no estadísticos
Media 14.982
Mínimo 0.032
Mediana 10.644
Máximo 110.221
8 9 10 11 12 13 14 15 16 17
Figura 3.1 Histograma, con curva normal superpuesta, de datos completos de supervivencia. Los IC95% de la media
(Mu) y de la mediana no se superponen.
3.2.2. Censura
La variable tiempo hasta un cierto evento requiere un largo plazo para ser observada en su totalidad,
pero los estudios científicos suelen marcar un punto final.
Definición
Tiempo de seguimiento es el lapso de tiempo transcurrido entre la inclusión de
un caso y el cierre del estudio.
Recuerde
El tiempo observado en los pacientes que siguen vivos al terminar el seguimiento
está censurado.
Los casos censurados deben indicarse, por ejemplo, con “+”: 18+ indica que el paciente seguía vivo
a los 18 meses. Por tanto, su tiempo de vida es igual o superior a 18 meses: el resto de su tiempo
esta censurado.
21
Efecto: premisas, pérdidas y supervivencia
Ejemplo 3.6: ara estudiar el efecto del ácido linoléico en el tiempo de vida de pacientes con
cáncer colorectal, MacIllmurral y Turkie incluyeron 49 pacientes en un ensayo clínico. El
periodo de seguimiento se limitó al tiempo de reclutamiento (48 meses), por lo que sólo
conocieron el tiempo de vida exacto de los pacientes que fallecieron entre su inclusión y el
cierre del estudio (48 meses como máximo). Para los demás, sólo sabían que al finalizar el
estudio seguían vivos: su tiempo de vida observado era menor que el real.
Ácido γ-linolénico (n = 25) 1+, 5+, 6, 6, 9+, 10, 10, 10+, 12, 12, 12, 12, 12+, 13+, 15+,
16+, 20+, 24, 24+, 27+, 32, 34+, 36+, 36+, 44+
Control (n = 24) 3+, 6, 6, 6, 6, 8, 8, 12, 12, 12+, 15+, 16+, 18+, 18+, 20,
22+, 24, 28+, 28+, 28+, 30, , 30+, 33+, 42
Tabla 3.2 Datos del ECA de cáncer colorectal: + indica dato censurado. Por ejemplo, “1+” significa que terminó us
seguimiento al mes de su inclusión, y por tanto, su tiempo de vida real es >1 mes.
Para realizar el análisis con R, primero se carga una librería específica como, por ejemplo, survival.
Unos datos de supervivencia deben incluir: 1) los tiempos hasta el evento, 2) un indicador de
censura (p.e., 0: censura, 1: no censura; o bien “+”) y 3), si procede, variables explicativas. La
información de la censura se incorpora a los tiempos de supervivencia mediante la instrucción
Surv(...).
Ejemplo de R
## Aplicación al Ejemplo 3.6
# Instalación y carga del paquete survival
> install.packages('survival')
> library(survival)
# Lectura de los datos
> datos <- read.table(url('http://www-
eio.upc.es/teaching/best/CancerColorrectal.txt'),header=TRUE,sep='\t')
> head(datos)
Tratamiento Tiempo Censura
1 linolenicAcid 1 0
2 linolenicAcid 5 0
3 linolenicAcid 6 1
4 linolenicAcid 6 1
5 linolenicAcid 9 0
6 linolenicAcid 10 1
22
Bioestadística para no estadísticos
Ejemplo 3.7: Un diseño podría incorporar pacientes durante 12 meses y parar el estudio tras
otros 12 meses adicionales de seguimiento. Ahora, los pacientes incluidos el primer día del
estudio habrán sido seguidos hasta un máximo de 24 meses pero los incluidos al final, 12
meses —provocando algunas censuras. La Figura 3.2 muestra los tiempos que se habrían
observado si los pacientes hubieran sido seguidos entre 12 y 24 meses.
Media 10.214
Mínimo 0.032
1 5 9 13 17 21
Primer cuartil 4.056
Mediana 10.644
95% Confidence Interval for Mu
Tercer cuartil 15.100
Figura 3.3 Histograma, con curva normal superpuesta, de los datos censurados de supervivencia.
Al haberse eliminado los mayores tiempos, tanto la media como la desviación típica ofrecen
resultados (10 y 7 en cifras redondas) muy diferentes de los reales de la Figura 3.1 (15 y 15). Se vio
que estos indicadores no resumen bien a las variables asimétricas. Ahora vemos, además, que en el
caso de datos censurados, proporcionan resultados sesgados, que no informan de la auténtica media
y desviación típica.
23
Efecto: premisas, pérdidas y supervivencia
En cambio, la mediana o percentil 50 puede ser estimado en este ejemplo ya que hay un 69% de
datos no censurados. Nótese que el valor estimado de la mediana coincide con el anterior.
Recuerde
Los percentiles pueden estimarse siempre que el porcentaje de datos no
censurados supere el percentil que se desea estimar.
Si la censura se produce por cierre del estudio (tiempo de seguimiento menor al tiempo de vida real)
parece razonable asumir que la razón de la censura es independiente del grupo inicial asignado.
Nota técnica: Si en un brazo viven más, habrá más censuras, pero condicionado al tiempo de vida, la
probabilidad de censura es independiente del brazo.
Pero si la censura es el resultado de una pérdida (lost to follow-up) previa al final del periodo de
seguimiento, dicha asunción es más delicada.
Ejemplo 3.8: Si, por ejemplo, por eventos adversos, los pacientes deciden “desaparecer”, la
censura podría depender del brazo de tratamiento, incluso para un mismo tiempo de vida.
Recuerde
Es preciso aceptar premisas sobre los casos censurados.
24
Bioestadística para no estadísticos
Definición
La función de supervivencia proporciona la probabilidad de que un paciente
sobreviva cada momento del tiempo.
Recuerde
La función de supervivencia al inicio (t =0) siempre vale 1 ya que ésta es la
probabilidad de no haber padecido el evento al inicio del estudio.
Ejemplo 3.9: La Figura 3.3 representa cómo van variando, a lo largo del tiempo, la
proporción de unidades que están libres (es decir, sobreviven) del evento de interés. Puede
verse, por ejemplo, que en el mes 10, aproximadamente el 60% de los pacientes del estudio
aún no lo habían presentado. Y que el intervalo de confianza (líneas discontinuas) de lo que
sucede en la población origen de la muestra es muy estrecho, indicando que se dispone de
buena información (de hecho, este cálculo se basa en 1000 pacientes).
Ejemplo 3.10: Si, por ejemplo, el evento de interés es la muerte, aquellos casos ya
fallecidos ¡no son susceptibles de volver a morir!
25
Efecto: premisas, pérdidas y supervivencia
Ejercicio 3.1
b) b) ¿Qué indican los números 844, 703,… al pie de la figura? ¿Por qué van
haciéndose menores? ¿A qué se debe el gran salto del tercer al cuarto año?
c) ¿La diferencia en números entre los dos grupos es tan grande como aparenta
una visión rápida del gráfico? ¿A qué se debe?
En R, la función survfit calcula la función de supervivencia. Se debe crear primero un objeto de tipo
Surv que incorpore la información de los tiempos y las censuras conjuntamente (como el ColoSurv
creado en un ejemplo previo)
Ejemplo de R
# Cálculo la supervivencia segun el método de Kaplan-Meier
> ColoSurvfit <- survfit(ColoSurv ~ 1)
> summary(ColoSurvfit)
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 46 6 0.870 0.0497 0.7775 0.973
8 40 2 0.826 0.0559 0.7235 0.943
10 37 2 0.781 0.0611 0.6703 0.911
12 34 6 0.644 0.0717 0.5172 0.801
20 19 1 0.610 0.0755 0.4782 0.777
24 16 2 0.533 0.0831 0.3931 0.724
26
Bioestadística para no estadísticos
Cada fila muestra: los valores del tiempo (“time”); el número de pacientes a riesgo en este
momento, es decir que han llegado, vivos y seguidos, a este tiempo (“n.risk”); el número que
padecen el evento en ese instante (“n.event”); la supervivencia o proporción de casos vivos tras ese
instante (probabilidad de sobrevivir el instante t); su error estándar y su intervalo de confianza del
95%.
Nota técnica: la sintaxis "~1" que se pone dentro de la instrucción survfit indica que queremos la
supervivencia de todos los pacientes sin estratificar. Si quisiésemos estratificarla por alguna variable,
deberíamos especificarla (p.ej., "~Tratamiento")
Recuerde
El motivo por el cual aparecen varios eventos en un mismo instante de tiempo es
de tipo logístico. Muchos estudios hacen un seguimiento escalonado en visitas
que conlleva que la mayoría de eventos no puedan ser contemplados hasta que el
paciente acude al centro (y nunca entre visitas).
6
𝑆𝑡=6 = 𝑃(𝑇 > 6) = 1 − 𝑃(𝑇 < 6) = 1 − = 0.8695~0.870
46
Nótese que en el instante t = 6 meses, de los 49 participantes iniciales sólo continúan 46, ya
que 3 de ellos se han perdido con anterioridad en los meses 1, 3 y 5 (véase el objeto
ColoSurv). Como en el sexto mes se producen 6 eventos de 46 que llegan, la probabilidad
de morir en el mes 6 es 6/46; y la probabilidad de sobrevivir, su complementario: 1 - 6/46
Recuerde
La función de supervivencia sólo varía cuando se produce algún evento. Por
tanto, sólo se debe calcular en los instantes con eventos.
27
Efecto: premisas, pérdidas y supervivencia
2
𝑆𝑡=8 = 𝑃(𝑇 > 8) = 𝑃(𝑇 > 8|𝑇 > 6) · 𝑃(𝑇 > 6) = �1 − � · 0.8261~0.826
40
De los 40 que han sobrevivido al sexto mes, 2 mueren en el mes 8, con lo que la
probabilidad de sobrevivir al octavo mes habiendo sobrevivido al sexto es 1- 2/40.
Nota técnica: Como vivir más de 8 meses requiere haber vivido más de 6 meses, usando la fórmula de
probabilidad condicionada
Ejercicio 3.2
Realice las operaciones para obtener el valor de la supervivencia en el siguiente
instante con eventos (t=10)
Definición
La mediana de supervivencia e aquel tiempo con probabilidad de vivir más allá
del 50%. Dicho de otra manera, es aquel tiempo, para el cual la función de
supervivencia vale 0.5.
Estimar un cuantil, como la mediada, por los métodos vistos antes, requiere que no haya ninguna
censura previa a dicho cuantil.
Recuerde
Si hay censuras, para calcular la mediana debe usar los métodos de este capítulo.
Ejemplo de R
# Cálculo de la mediana de supervivencia
> ColoSurvfit
Call: survfit(formula = ColoSurv ~ 1)
records n.max n.start events median 0.95LCL 0.95UCL
49 49 49 22 30 20 NA
28
Bioestadística para no estadísticos
Recuerde
El correcto cálculo de la mediana considera los tiempos censurados.
Ejercicio 3.3
Calcule la mediana de los siguientes conjuntos de datos:
a) 1, 2 y 3
b) 1+, 2 y 3
c) 1, 2+ y 3
d) 1, 2 y 3+
Ejemplo de R
# Cálculo de la supervivencia segun el método de Kaplan-
# Meier estratificando por Tratamiento
> ColoSurvfit0 <- survfit(ColoSurv ~ Tratamiento,datos)
> summary(ColoSurvfit0)
Call: survfit(formula =ColoSurv ~Tratamiento, data = datos)
Tratamiento=Control
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 23 4 0.826 0.0790 0.685 0.996
8 19 2 0.739 0.0916 0.580 0.942
12 17 2 0.652 0.0993 0.484 0.879
20 10 1 0.587 0.1087 0.408 0.844
24 8 1 0.514 0.1173 0.328 0.804
30 4 1 0.385 0.1418 0.187 0.792
42 1 1 0.000 NaN NA NA
Tratamiento=linolenicAcid
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 23 2 0.913 0.0588 0.805 1.000
10 20 2 0.822 0.0809 0.678 0.997
12 17 4 0.628 0.1048 0.453 0.871
24 8 1 0.550 0.1175 0.362 0.836
32 5 1 0.440 0.1360 0.240 0.806
29
Efecto: premisas, pérdidas y supervivencia
Nota: No es lo mismo bajar la proporción de vivos del 100 al 90%, que del 50 al 40%.
Definición
La función de riesgo o fuerza de mortalidad o tasa condicional de fallo (hazard
rate) es la proporción de casos que presentan el evento en un momento
determinado sobre el número de casos que llegan a ese momento.
30
Bioestadística para no estadísticos
Nota técnica: Otra forma de interpretar la función de riesgo en el instante t es entenderla como la
distribución (densidad) residual del tiempo de vida después de t.
Definición
La tasa de riesgo proporciona un valor común para todo el periodo de
seguimiento.
Ejemplo 3.12: En la Figura 3.4 puede verse la función de riesgo correspondiente a los datos
presentados en la Figura 3.3. Nótese que es aproximadamente constante a lo largo del
periodo de seguimiento, con una tasa de riesgo cercana al 0.05 mensual.
Figura 3.5 Función de riesgo (línea quebrada, más gruesa) y tasa de riesgo (línea recta, más fina) con sus
correspondientes IC95%.
Ejemplo 3.13: Un posible ejemplo de tasa de riesgo constante sería la de las hemorragias
digestivas tras anti-inflamatorios, de los que se afirma que hay el mismo riesgo sea la
primera o la enésima vez que se toman [En este ejemplo, el eje del tiempo se ha sustituido
por el orden de las tomas].
Recuerde
Un riesgo creciente corresponde a una población que envejece.
Ejemplo 3.14: En el análisis del tiempo de vida de pacientes con leucemia que no
responden al tratamiento (Figura 3.5.a).
31
Efecto: premisas, pérdidas y supervivencia
Recuerde
Un riesgo decreciente corresponde a poblaciones en las que los individuos se
fortalecen con el paso del tiempo.
Ejemplo 3.15: Por ejemplo, después de una operación quirúrgica (Figura 3.6.b).
Recuerde
La forma de bañera (Figura 3.6.c) es apropiada como modelo para poblaciones
que se siguen desde el nacimiento: al principio están las enfermedades infantiles,
después se estabiliza y luego sigue un proceso creciente.
Ejemplo de R
# Con los mismos datos que en el ejemplo anterior.
# Función de riesgo acumulada para cada grupo.
> plot(ColoSurvfit, conf.int=F,fun="cumhaz",col=c(1,2),
cex=0.6,xlab="time",ylab="hazard")
> title("Función de riesgo acumulada")
> legend("bottomright",col=c(1,2),lty=1,legend=c("Control",
"linolenicAcid"))
32
Bioestadística para no estadísticos
3.4. Inferencia
Definición
El método actuarial (life tables) calcula, en un intervalo, la proporción de casos
que lo superan respecto al total de casos que lo inician.
Nota: Una dificultad de este método la presentan los casos perdidos durante el intervalo, ya que suele
desconocerse el momento exacto de la censura. La solución habitual considera que han sido seguidos
hasta la mitad del intervalo y, por tanto, estuvieron a riesgo durante la mitad del mismo.
Definición
El método instantáneo de Kaplan-Meier “actualiza” la estimación de la función
de supervivencia en cada momento en que aparece un evento
33
Efecto: premisas, pérdidas y supervivencia
Aún en el caso de que la tasa de fallo fuera constante, las fluctuaciones del muestreo originarán que
las estimaciones difieran de un intervalo a otro. En la Figura 3.5 el IC95% de la función de riesgo se
va ampliando con el tiempo, mostrando la mayor incertidumbre originada por el menor número de
casos que alcanzan las mayores cifras del seguimiento. Nótese que, si se puede asumir que la tasa es
constante a lo largo de todo el periodo de seguimiento, se podrán combinar todas las tasas
mensuales en una sola, con el doble beneficio de parsimonia científica y eficiencia estadística:
parsimonia porque se explica el mismo fenómeno de forma más simple; y eficiencia porque se
obtienen estimadores más precisos, con un intervalo de confianza más estrecho.
Recuerde
Para visualizar correctamente la información contenida en la muestra conviene
representar la banda de confianza que informa sobre los auténticos valores
poblacionales que son compatibles con los resultados muestrales observados.
Ejercicio 3.4
¿Cuáles son ciertas?
34
Bioestadística para no estadísticos
Es conveniente utilizar la información de todos los tiempos para decidir si las curvas en
comparación provienen de la misma población.
Definición
La prueba del log-rank compara las dos curvas otorgando la misma ponderación
a todos los tiempos de seguimiento.
Nota técnica: Es equivalente a la prueba de Mantel y Haenszel para combinar tablas 2x2.
Definición
La prueba de Gehan otorga una mayor ponderación a los tiempos iniciales, que
tienen más observaciones.
Ejercicio 3.5
Observe el gráfico y los datos del Ejercicio 3.1. Si se hubiera realizado la prueba
de Gehan, ¿se habría obtenido una mayor o menor significación?
Estos dos procedimientos proporcionan un nivel de significación (p-valor) que permite detectar y
establecer la supremacía de una población respecto a la otra. Sin embargo, la ausencia de un
parámetro que resuma las diferencias entre ambas poblaciones dificulta la evaluación de la
relevancia clínica.
35
Efecto: premisas, pérdidas y supervivencia
Definición
El modelo semi-paramétrico de Cox no exige ninguna forma para la función de
riesgo (puede ser creciente, decreciente,..) pero proporciona el parámetro “razón
entre las funciones de riesgo (hazard rate ratio HRR)” de ambos grupos.
Nota: Este planteamiento responde de forma natural a la pregunta del clínico, que no ambiciona conocer
cuál es el tiempo exacto de vida de un paciente determinado (parte del modelo no especificada con
parámetros), pero centra sus esfuerzos en estimar el efecto de intervenciones (parte del modelo
parametrizada).
El modelo de Cox no impone como premisa una forma para la función de riesgo (parte no
parametrizada), pero sí que asume que el cociente o razón de su valor entre ambos grupos es
constante a lo largo del seguimiento.
Nota: Lo que debe ser constante a lo largo del tiempo es el cociente de riesgos entre los grupos, no el
riesgo a lo largo de cada grupo.
Analogía: La velocidad instantánea de 2 coches puede variar a lo largo del tiempo, pero en cada instante
la velocidad de uno puede ser, por ejemplo, un 20% mayor.
Recuerde
HRR requiere proporcionalidad constante, pero no tasas constantes.
Ejemplo 3.1712: Como ejemplo, se puede pensar que si se desarrolla un nuevo tipo de anti-
inflamatorio, es deseable que la reducción del riesgo de hemorragia digestiva se mantenga
mientras se toma la medicación. En la Figura 3.6 puede verse la forma que adopta la función
de supervivencia y la función de riesgo cuando este efecto, es constante a lo largo del
tiempo. Es decir, cuando el beneficio del tratamiento (reducción en el riesgo) es el mismo en
todo momento.
Figura 3.7 Forma de las funciones de supervivencia y de riesgo cuando la razón de riesgo es constante.
36
Bioestadística para no estadísticos
Las funciones de supervivencia de ambos grupos se van separando progresivamente, resultado del
mayor riesgo en uno de ellos. Por su parte, las funciones de riesgo son paralelas, con una cierta
oscilación por las fluctuaciones del muestreo. La razón de riesgo de este ejemplo es 0.45 (IC95%:
0.52 a 0.38) indicando que uno de los grupos tiene un riesgo que es algo menos de la mitad (la
reducción es del 55%, con un IC95% desde el 48% al 62%).
Nota: El médico podría explicar: ”mire, yo no puedo decirle cuántos cumpleaños le quedan, pero
sí que, si realiza esta intervención, su riesgo queda reducido entre un 48 y un 62%”.
Nótese que el IC95% es razonablemente preciso. Una vez más, adoptar la premisa de riesgos
proporcionales (siempre que sea razonable) hará el modelo más parsimonioso y simple de
comunicar, al mismo tiempo que aumenta su eficiencia estadística.
Ejercicio 3.6.
La siguiente tabla muestra los resultados de la misma referencia del Ejercicio 3.2.
Las dos primeras columnas muestran el número de casos que han presentado
alguno de los eventos que definen la variable principal en cada grupo de
tratamiento. La cuarta muestra el HRR o razón de riesgo (a la que llaman riesgo
relativo) obtenida mediante la regresión la Cox.
37
Efecto: premisas, pérdidas y supervivencia
Ejemplo de R
> mod.cox <- coxph(ColoSurv ~ Tratamiento,CancerColo)
> summary(mod.cox)
Call:
coxph(formula = ColoSurv ~ Tratamiento, data = CancerColo)
n= 49
coef exp(coef) se(coef) z Pr(>|z|)
TratamientolinolenicAcid -0.2487 0.7798 0.4303 -0.578 0.563
Ejemplo 3.19. La Figura 3.8 muestra la mortalidad acumulada para tres tratamientos
(placebo, ICD y Amiodarona). Que se aproximen a una recta indica que este incremento
parece constante, por lo que una única tasa para cada tratamiento podría resumir el riesgo en
todo el periodo de seguimiento. Además, dos de las rectas se solapan, indicando que su
razón de tasas será uno; pero la tercera sube menos, indicando menor riesgo. En la cabecera
se ve que el valor de HR entre los 2 primeros grupos vale 1.06, casi 1; pero en el tercer
grupo el riesgo es, en cada punto, el 77% de las otras 2 (HR= 0.77).
38
Bioestadística para no estadísticos
pacientes iníciales. Pero el descenso de casos es muy marcado durante el resto del
seguimiento, hasta llegar a los 97, 89 y 103 finales.
Nota: El modelo de Cox puede considerar simultáneamente la hipotética relación de varias variables con
la supervivencia y estudiar de esta manera si la relación de algunas persiste una vez se ha tenido en cuenta
al resto. Para hacerlo, extiende la premisa de riesgos proporcionales a cada variable considerada, tanto
cuantitativa como categórica.
Nota: La construcción e interpretación del modelo múltiple de Cox se aborda en el curso observacionales.
Ejemplo 3.18: La Figura 3.7 muestra una situación en la que el evento tiene una tendencia
diferente a presentarse en ambos grupos: mientras que en uno de ellos se presenta con más
frecuencia en la primera mitad del seguimiento; en el otro grupo, el evento acontece más a
menudo en la segunda mitad.
39
Efecto: premisas, pérdidas y supervivencia
Figura 3.9 Forma de las funciones de supervivencia y de riesgo cuando la razón de riesgo cambia de una mitad a otra
del seguimiento.
Esta situación, sin duda más rebuscada, podría darse en un tratamiento con más de un mecanismo
de acción, de forma que en una parte del seguimiento se observaran unos resultados contrarios a los
de la otra parte. Por supuesto, en esta situación no sería correcto asumir un efecto constante del
tratamiento, entre otras cosas porque ambos efectos se anularían mutuamente y no se observaría
nada (razón de riesgo = 1.095, IC95%: 0.940 a 1.227).
Nota: La expresión “en cien años, todos calvos” nos recuerda que a largo plazo las curvas de
supervivencia siempre se encontrarán en el mismo punto: ¡0%! Como en todos los modelos
estadísticos, esta premisa no aplica más allá de los tiempos cubiertos por el estudio.
40
Bioestadística para no estadísticos
1 14 13 1
2 0 6 -6
3 1 4 -3
4 2 5 -3
5 3 6 -3
6 1 6 -5
7 10 8 2
8 9 8 1
En el primer paciente el dolor aumenta 1 punto con el tratamiento, pero en el segundo desaparece completamente.
En el conjunto de los 8 pacientes, al tratar el dolor baja una media de 2 puntos. Pero el efecto varía entre pacientes:
tiene una dispersión que la desviación típica cuantifica en casi 3 puntos. El valor de la variabilidad del efecto
(cierto promedio de la distancia con la media) es mayor que el efecto promedio.
1.3. Aquél que le vaya mejor, claro. La tabla siguiente resalta en negro la mejor opción para cada paciente. Por
ejemplo, en el paciente 3 la mejor opción es el tratamiento t, que implica una mejora, respecto a C, de -3 puntos de
dolor (columna derecha). El problema es que el clínico no puede saber cuál para cada caso. Esta situación es
francamente antipática: las 2 últimas columnas muestran el efecto si: (a) asignamos siempre t en lugar de c; y (b)
asignamos (idealmente) el mejor a cada paciente: en el segundo caso, el efecto en el conjunto de todos los pacientes
es algo mejor. Pero la situación es hipotética ya que, en ausencia de ‘marcadores’ iniciales, no sabemos cuál aplicar
a cada paciente.
41
Efecto: premisas, pérdidas y supervivencia
1 14 13 1
2 0 6 -6
3 1 4 -3
4 2 5 -3
5 3 6 -3
6 1 6 -5
7 10 8 2
8 9 8 1
1.4. Las columnas 1 y 3 representan la situación en que tú tomas T (y siempre resulta en que tú tienes 0 dolor). Así,
cuando tú no tienes dolor, el efecto de cambiar C por T en mí, baja de 100 a 25 mi dolor: efecto = —75. En cambio,
las columnas 2 y 4 muestran que cuando tú recibes C y tienes dolor máximo 100, el efecto en mí es más reducido:
baja de 100 a 50: —50.
2.1. Son correctas todas menos la última. El último análisis no puede demostrar nada. Tiene un valor mínimo por todo
lo dicho.
2.2. Así, entre los que acaban (PP), el B tiene mayor eficacia, ya que son un 80% (40 de 50) respecto al 60% (60 de
100) del A. En cambio, respecto a los que empiezan (ITT), considerando que no tomar la medicación es un fracaso
del tratamiento, es el grupo A el que tiene mayor eficacia, 60% respecto al 40% del grupo B. Si yo fuera un
paciente que sabe perfectamente que cumplirá con el protocolo, pase lo que pase, me podría plantear ‘aplicarme’ el
PP. Pero si soy un clínico que no conoce cómo actuará el paciente, lo único que me informa es el ITT.
2.3. Las tablas 1 y 2 proporcionan cada una 8 ideas para descender los datos ausentes durante el diseño y durante la
ejecución del estudio. Léalas con atención, ya que el test de e-status pregunta sobre ellas.
3.1.
a. Algo más de un 80% al final del primer año. Al final del tercer año, un 80% para el grupo tratado con
Fluvastatin y algo más de un 75% para el grupo control.
b. Los números la pie de la figura indican el número de casos que están informando sobre la supervivencia en ese
momento del tiempo de seguimiento. El gran descenso entre el tercer y el cuarto año puede deberse a que el
periodo de seguimiento podía haberse fijado en 3 años, con un periodo de reclutamiento de, por ejemplo, 6
meses.
c. No. Al final del seguimiento, la diferencia quizás apenas alcance un 5% (del 74 al 79%), aunque en el gráfico
parece que sea mucho mayor. Ello se debe a que el eje vertical empieza en el 70%. El gráfico es correcto, ya
que avisa (dos rayas cortan el eje para indicar que no empieza en el cero), pero debe leerse con cuidado.
2
𝑆10 = 𝑃(𝑇 > 10) = 𝑃(𝑇 > 10|𝑇 > 8) · 𝑃(𝑇 > 8) = �1 − � · 0.826 = 0.781
37
42
Bioestadística para no estadísticos
La probabilidad de vivir más de 10 meses se tiene que expresar de forma condicionada a haber vivido más de 8
meses.
3.3.
a) Mediana = 2
b) Mediana = 2.5
c) Mediana = 3
d) Mediana = 2
Observe los siguientes gráficos de las funciones de supervivencia de los diferentes casos expuestos.
a) b)
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
c) d)
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
3.4. Sólo son falsas la “a”, ya que hay que hacer IC si se quieren usar los valores muestrales observados para estimar los
poblacionales; y la “c”, pues si la proporción de casos que presentan el evento, por intervalo de tiempo, es
constante, la frecuencia de casos que lo presente será mayor al inicio, ya que hay más casos en observación.
3.5. Menor, ya que la prueba de Gehan otorga menor ponderación a los tiempos finales de seguimiento, que son los que,
en este ejemplo, muestran una mayor diferencia entre los grupos.
3.6.
a. Fluvastatin reduce el riesgo de presentar alguno de los eventos que definen la variable principal un 22% (IC95%
entre un 5% y un 36%). 22% es la estimación puntual que indica el valor más verosímil del descenso del
43
Efecto: premisas, pérdidas y supervivencia
riesgo, mientras que los límites del IC indican el grado de incertidumbre debido al proceso de muestreo y de
inferencia.
b. Varias razones pueden explicar esta pequeña discrepancia. La primera es que el cálculo realizado proporciona
el riesgo relativo sin ajustar, es decir, sin “equilibrar” por el resto de variables que sí que ha tenido en cuenta el
riesgo relativo estimado por el modelo de Cox. La segunda es que 0.80 se ha obtenido sin tener en cuenta el
tiempo de seguimiento de los 844 y 833 pacientes, que el modelo de Cox sí que considera. Al tratarse de un EC
aleatorizado, no cabe esperar grandes diferencias entre los grupos en estas variables, por lo que los resultados
sin ajustar (0.80) y ajustados (0.78) no diferirán mucho.
44
Tema 12:
Tamaño muestral
Jordi Cortés
José Antonio González, Héctor Rufino, Laura Riba y Erik Cobo
Enero 2014
1
Tamaño muestral
Tamaño muestral
Índice
Presentación ......................................................................................................................................... 3
1. Estimación de un parámetro ............................................................................................................. 4
1.1. Estimación de una media .......................................................................................................... 4
1.2. Estimación de una probabilidad ................................................................................................ 6
1.3. Garantías de observar un evento con baja probabilidad ........................................................... 8
2. Comparación de 2 medias ................................................................................................................ 9
2.1. Datos independientes .............................................................................................................. 10
2.2. Datos apareados ...................................................................................................................... 16
2.3. Análisis del cambio ................................................................................................................. 18
2.4. Estudios de equivalencia y no-inferioridad ............................................................................ 19
2.5. Precisión de la estimación del efecto ...................................................................................... 22
2.6. Tamaño desigual en ambos grupos * ...................................................................................... 23
3. Comparación de probabilidades ..................................................................................................... 26
4. Comparación del tiempo hasta un evento ...................................................................................... 27
4.1. Participantes reclutados en un mismo instante ....................................................................... 27
4.2. Participantes reclutados a lo largo del tiempo ........................................................................ 30
5. Consejos prácticos.......................................................................................................................... 32
Soluciones a los ejercicios ................................................................................................................. 34
* Indica tema más avanzado que conviene mirar pero no es crucial para los ejercicios.
2
Bioestadística para no estadísticos
Presentación
El tamaño importa: sabemos ya calcular la precisión de un estimador en unos datos aleatorios. En
este tema, estudiamos el tamaño necesario para una precisión determinada. Y para un estudio
pivote, de decisión, cómo garantizar la potencia deseada.
Por progresividad en la exposición, la primera parte no aplica a los ensayos clínicos sino a estudios
con un solo grupo.
Contribuciones: Basado en transparencias de José Antonio González, Jordi Cortés preparó una
primera versión que ha sido revisada por Héctor Rufino, Laura Riba y Erik Cobo.
3
Tamaño muestral
1. Estimación de un parámetro
Cuando el objetivo es estimar un parámetro poblacional (p.ej, una media), la (im)precisión puede
definirse como la amplitud (A) de dicho intervalo, la semi-amplitud (e = A/2) del intervalo o el
error estándar del estimador (EE). En este apartado se mostrará cómo obtener el tamaño muestral
para la estimación de una media o de una probabilidad a partir de e por coherencia con la medida de
(im)precisión usada por R.
Fórmula
El tamaño muestral para la estimación de una media es:
𝑧𝛼⁄2 · 𝜎 2
𝑛=� �
e
En esta fórmula, la confianza 1-α y la semi-amplitud e del intervalo son dos parámetros que escoge
el investigador, si bien es tradicional fijar 1-α=0.95=95%. Por contra, la desviación típica 𝜎 de la
variable de interés viene dada por el fenómeno en estudio y su valor debe provenir de la literatura
existente o de la experiencia profesional de cada uno. La ambición del investigador determina el
nivel de confianza y la precisión, pero la desviación típica es una premisa que depende del
conocimiento previo.
Nota técnica: Se vio que la amplitud del intervalo de confianza depende del error típico del estimador y
del nivel de confianza. La forma de limitar el grado de incertidumbre o amplitud de este intervalo sin
disminuir el nivel de confianza 1-α es disminuir el error típico de la estimación del parámetro a través de
modificar el tamaño muestral. En el caso de la estimación de la media poblacional o esperanza
matemática, el intervalo de confianza, asumiendo σ conocida, es:
𝜎
𝐼𝐶1−𝛼 (𝜇) = 𝑥̅ ± 𝑧𝛼/2 ·
√𝑛
Por tanto, para una semi-amplitud del intervalo de confianza que valga e, se tiene:
4
Bioestadística para no estadísticos
𝜎 𝜎 𝜎
𝐿í𝑚. 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝐼𝐶 − 𝐿í𝑚. 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝐼𝐶 �𝑥̅ + 𝑧𝛼⁄2 · √𝑛� − �𝑥̅ − 𝑧α⁄2 · √𝑛� 2 · 𝑧𝛼⁄2 · √𝑛
𝑒= = = =
2 2 2
𝜎
𝑒 = 𝑧𝛼⁄2 ·
√𝑛
Ejemplo 1.1: Para estudiar la imagen de los diferentes políticos, se pide a los encuestados
que los evalúen en una escala (continua) de 0 a 10 puntos. Si se acepta que la desviación
típica de esta variable es de 1.5 puntos, ¿cuántos casos se necesitan para que la semi-
amplitud del intervalo de confianza (e) al 95% de la media poblacional sea de 0.05 puntos?
Nota técnica: En los cálculos de tamaño muestral el número obtenido siempre se redondea al alza para
alcanzar el objetivo especificado.
Ejercicio 1.1
Dado que 3458 casos son demasiados, se rebaja la ambición de conocimiento
desde una semi-amplitud de 0.05 puntos hasta 0.25 puntos. ¿Cuál es ahora el
tamaño necesario?
En R, existen diversos paquetes para el cálculo del tamaño muestral. El paquete samplingbook
contiene funciones aplicables a la estimación de un parámetro; por ejemplo la función
sample.size.mean realiza el cálculo para la estimación de una media. [Recuerde que lo primero es
realizar la instalación y la carga del paquete].
Ejemplo de R
5
Tamaño muestral
Ejercicio 1.2
En un estudio se pretende estimar la PAS de un grupo de pacientes con una
determinada patología. Se asume una σ = 10 mmHg. Si se desea amplitud (A) de
5 mmHg para el intervalo de confianza del 95%, ¿Cuál es el tamaño necesario?
Haga los cálculos con R.
Ejercicio 1.3
Fórmula
El tamaño muestral para la estimación de una probabilidad es:
𝑧𝛼⁄2 2
𝑛=� �
2·e
Nota: La amplitud del intervalo debe expresarse en tanto por uno (no en porcentaje).
0.5 · 0.5
𝐼𝐶95% (𝜋) = 𝑃 ± 𝑧𝛼/2 · �
𝑛
0.5 · 0.5
𝐴 = 2 · 𝑧𝛼/2 · �
𝑛
6
Bioestadística para no estadísticos
Ejemplo 1.2: Para conocer el porcentaje de votos de un partido político, con una semi-
amplitud total del intervalo de confianza al 95% igual a 0.5% (Amplitud del 1%) ¿Cuántos
casos se necesitan?
𝑧𝛼/2 2 1.96 2
𝑛=� � =� � ≈ 38416 𝑐𝑎𝑠𝑜𝑠
2𝑒 2 · 0.005
Ejercicio 1.4
Decididamente 38416 son demasiados casos, por lo que una vez más se rebaja la
ambición de conocimiento desde una semi-amplitud de 0.5 puntos (0.5%=0.005)
hasta 2.5 puntos (2.5%=0.025). Calcule el nuevo tamaño muestral.
Ejemplo de R
Nota: El cálculo “a mano” mediante la fórmula da un resultado de 38416 casos, mientras que el resultado
con la función de R es de 38415 casos. El motivo es el redondeo del valor de 𝑧𝛼/2 que realizamos cuando
resolvemos el cálculo a mano. Usamos 1.96 mientras que R usa el valor exacto (1.959964). Siempre que
sea posible es recomendable usar el software.
Ejercicio 1.5
Se desea conocer la prevalencia de diabetes en la población mayor de 18 años con
una incertidumbre del 2% (e = 0.02) y una confianza del 90%. ¿Cuál es el tamaño
necesario? Haga los cálculos con R.
Nota: Por simplicidad, es habitual considerar infinita a la población objetivo, ya que hacerlo así garantiza
los riesgos estadísticos —que en realidad serían ligeramente menores: p.e., la corrección necesaria para
una muestra muy grande de 10000 casos, de una población pequeña de 100000 indica que la amplitud real
del IC se reduciría en menos de 0.05.
7
Tamaño muestral
Lectura: No, mejor, escucha: la vida te da sorpresas, sorpresas te da la vida, o Life is what happens to
you while you're busy making other plans.
El reto es que los efectos no deseados se pueden manifestar en infinidad de formas. Además,
algunos de estos efectos, posiblemente los más graves, pueden presentarse con muy baja frecuencia,
por lo que necesitarían tamaños muestrales inmensos para tener una probabilidad razonable de
observarlos.
Podemos recurrir a las distribuciones de probabilidad estudiadas en el capítulo 5 para estudiar, para
una muestra de n casos, la probabilidad de observar eventos raros.
Ejemplo 1.3: Si suponemos que cierta reacción adversa grave se presenta en 1 de cada 200
pacientes, la probabilidad de observar por lo menos un caso en una muestra de 100
pacientes vale 8.98% [con R, pbinom (q=1, size=100, prob=1/200,
lower.tail = FALSE)].
Ejemplo 1.4: Si deseamos tener una probabilidad del 90% de observar por lo menos un caso
con un evento no deseado que tenga una frecuencia tan baja como 1 cada mil, necesitamos
observar 2303 casos. El cálculo de este valor no es directo y requiere de un tanteo usando la
distribución de Poisson.
𝑋~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 (𝑛 · 𝜆)
[n es el número de pacientes necesarios y λ es la tasa de aparición del evento (λ=1/1000)]
Lo que se desea es que 𝑃(𝑋 ≥ 1) ≥ 0.9. Con R, se observa que la primera n que cumple
este propósito es 2303:
> n = 2303
> ppois(q=0, lambda=n*1/1000, lower.tail = FALSE)
[1] 0.9000415
Nótese que se especifica q=0 (y no q=1) porqué en el cálculo de colas superiores se calcula
la P(X > q), que es equivalente a la P(X ≥ q+1). Pruebe con n's más bajas para verificar que
no se llega a la probabilidad deseada.
8
Bioestadística para no estadísticos
Aunque el estudio de estos efectos se beneficia del análisis globalizador de los diferentes ensayos
disponibles, en la práctica conviene una buena recogida de información observacional una vez
autorizada la intervención.
Ejercicio 1.6
Un fenómeno tiene una incidencia de un 1% a los 3 meses. Calcule la
probabilidad de observar al menos un evento en los siguientes casos usando la
distribución de Poisson:
a) Con 300 casos seguidos durante 3 meses
b) Con 600 casos seguidos durante 3 meses
c) Con 300 casos seguidos durante 6 meses
d) Con 600 casos seguidos durante 6 meses
e) Con 100 casos seguidos durante 1 año
Haga los cálculos usando la función ppois con R.
2. Comparación de 2 medias
En respuesta continua, el análisis más común consiste en la comparación de la media entre dos
grupos de tratamiento.
Un Ensayo Clínico Aleatorizado (ECA) pivote implica una decisión posterior. El entorno de
decisión de Neyman-Pearson permite limitar ambos riesgos de error.
Ejemplo 2.1: Una agencia de regulación que autoriza productos sanitarios desea un
mecanismo de decisión que le garantice que: 1) sólo un 2.5% de las intervenciones no
eficaces alcanzan el mercado; pero 2) que sí lo hagan un 90% de las que tienen cierto efecto
positivo (al que llamarán Delta: ∆).
9
Tamaño muestral
En la comparación de dos medias, se está interesado en tomar una decisión entre dos valores
concretos, por ejemplo 0 y ∆, que se sitúan en las hipótesis nula y alternativa:
𝐻0 : 𝜇𝐴 − 𝜇𝐵 = 0
�
𝐻1 : 𝜇𝐴 − 𝜇𝐵 = Δ
Ejemplo 2.2: Puede imaginarse, por ejemplo, que cierto tratamiento A tenga interés
sanitario y comercial si, respecto a la versión clásica B, ∆ representa aquella diferencia que
hace rentable el desarrollo y la sustitución de B por A. Como es habitual en la prueba de
diferencias, el valor de la hipótesis nula indica la absoluta igualdad entre ambos.
Supóngase que se conoce el grado de dispersión (σ) existente entre los resultados en varios
pacientes sometidos al mismo tratamiento. Supóngase también que se ha decidido que los riesgos de
adoptar decisiones erróneas sean exactamente α (bilateral) y β (unilateral). Para determinar el
número “n” de pacientes necesario en cada grupo, por simplicidad, se considera la situación (de
máxima eficiencia) en la que se dispone de exactamente el mismo número de casos en ambos
grupos: nA = nB = n.
Fórmula
El tamaño muestral en cada grupo para la comparación de 2 medias es:
2 · 𝜎 2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
𝑛=
𝛥2
Nota técnica: en esta situación, dado que la varianza de la diferencia de las medias en muestras
independientes (asumiendo iguales las n y las σ bajo cada tratamiento) es:
𝜎 2 𝜎 2 2𝜎 2
𝑉(𝑦1 − 𝑦2 ) = + =
𝑛1 𝑛2 𝑛
Si la distribución de y es Normal o el número de casos es razonablemente grande, la distribución de esta
diferencia de medias será Normal con esta varianza y centrada en 0, bajo H0, o en Δ, bajo H1.
En la Figura 2.1 puede verse que la distancia entre los centros de ambas distribuciones es:
2 2
Δ = Zα/2 · σ� + Zβ · σ · �
n n
10
Bioestadística para no estadísticos
Si ahora, se especifican los riesgos α (probabilidad de actuar acorde a H1:∆ siendo cierta H0:0) y β
(probabilidad de actuar acorde a H0:0 siendo cierta H1:∆) que se está dispuesto a tolerar, ya se puede
conocer el tamaño muestral n en cada muestra:
2 · σ2 · (Zα/2 + Zβ )2
n=
Δ2
Figura 2.1 El tamaño muestral n requerido es aquel que permite que el solapamiento de las distribuciones del
estadístico bajo H0 y bajo H1 proporcione los valores α y β especificados. Nótese que, si n aumenta, las distribuciones se
hacen más “puntiagudas”, disminuye el solapamiento y, por tanto, los riesgos α y β. La línea continua vertical marca el
valor a partir del cual se tomará una u otra decisión.
Recuerde
El cálculo del tamaño muestral depende de:
- los riesgos α y β que esté dispuesto a aceptar: cuanto menores, mayor tamaño.
- la dispersión σ del fenómeno estudiado: cuanto mayor, mayor tamaño.
Ejercicio 2.1
¿Qué significa ∆ ? ¿La diferencia “ideal” que se quiere demostrar? ¿La diferencia
“real” que se cree que se puede demostrar?
Ejercicio 2.2
En un ensayo clínico de cuyo éxito depende la autorización comercial de un
fármaco, ¿qué consecuencias se derivan de los riesgos α y β de cometer errores de
1ª y 2ª especie? ¿Qué implicaciones tienen para el usuario y el patrocinador?
11
Tamaño muestral
Recuerde
La potencia de un estudio para establecer una alternativa de interés es el
complementario del riesgo β.
Ejemplo 2.4: ¿Qué tamaño muestral sería necesario para detectar una diferencia en la altura
media de hombres y mujeres de 10 cm? Sea σ=8 cm y los riesgos habituales (α = 0.05 ;
β=0.20).
2 · 82 · (1.96 + 0.84)2
𝑛= = 10.04
102
Se necesitan 11 casos por grupo (aunque con 10, prácticamente se alcanzaría el objetivo).
Note que también se puede hacer la pregunta a la inversa, es decir, preguntar por la diferencia que
se podría detectar dado un determinado tamaño muestral.
Ejemplo 2.4 (cont.): ¿Qué diferencia en la altura media de hombres y mujeres puede
detectar suponiendo que puede reclutar 40 pacientes en total?
2
2 · 𝜎 2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2 2 · 𝜎 2 · �𝑧𝛼⁄2 + 𝑧𝛽 �
𝑛= → Δ=�
𝛥2 𝑛
Por lo tanto, suponiendo que puede reclutar 20 pacientes por grupo (40 en total):
2 · 82 · (1.96 + 0.84)2
Δ=� = 7.084
20
Con 20 pacientes por grupo se puede detectar una diferencia de 7.084 cm en la altura media
de hombres y mujeres.
12
Bioestadística para no estadísticos
Nota: El valor exacto de 𝑧𝛽 = 𝑧0.8 es 0.8416212, por lo que al usar el valor redondeado tanto de 𝑧𝛽 como
de 𝑧𝛼⁄2 los resultados obtenidos pueden variar un poco de los cálculos exactos. Por ejemplo, el valor de Δ
usando todos los decimales es 7.088.
Se puede definir la diferencia tipificada o estandarizada ∆S como la razón entre la diferencia que se
quiere detectar y la desviación típica (diferencia esperada entre dos observaciones):
Δ
Δ𝑆 =
𝜎
Así, esta diferencia tipificada representa el efecto relativo a la dispersión natural de los casos.
Para un cálculo orientativo preliminar, se puede usar el gráfico de Douglas Altman (Figura 2.2),
donde N representa el tamaño total considerando ambos grupos (N = 2·n). Una la diferencia
estandarizada y la potencia deseadas de los ejes verticales izquierdo y derecho con una línea. El
punto de corte de dicha línea con la línea de α=0.05 (o α=0.01), le indicará el tamaño requerido.
Figura 2.2 Nomograma para el cálculo del tamaño muestral y potencia (Altman, 1982)
13
Tamaño muestral
Ejercicio 2.3
¿Cuántos casos se necesitan si ∆ =5u , σ=8u , α=0.05 bilateral y β=0.20 ? Haga
el cálculo con la fórmula y usando el nomograma.
Ejercicio 2.4
Calcule el tamaño necesario para un caso real propio.
El paquete TrialSize de R contiene funciones de cálculo del tamaño muestral en ensayos clínicos.
Para la comparación de dos medias independientes se usa la instrucción TwoSampleMean.Equality
Ejemplo de R
Ejercicio 2.5
Sea σ=10u , α=0.05 bilateral y ∆ = 5u. Calcule los casos necesarios por grupo
para potencias de 10%, 20%....90%. Dibuje un gráfico con R en el que se
relacione la potencia con el tamaño muestral.
Recuerde
Mayor tamaño muestral implica mayor potencia.
La instrucción power.t.test realiza el proceso inverso, dada una n, calcula la potencia en el caso de
una comparación de medias. [De hecho, puede calcular cualquier parámetro especificando el resto.
Véase la ayuda con ?power.t.test]
Ejemplo de R
14
Bioestadística para no estadísticos
n = 15
delta = 15
sd = 15
sig.level = 0.05
power = 0.752921
alternative = two.sided
NOTE: n is number in *each* group
Nota: Esta función retorna una lista con varios objetos. Añada $pow al final de la instrucción para obtener
únicamente la potencia.
Ejercicio 2.6
Sea σ = 10u , α = 0.05 bilateral y N = 100. Dibuje con R un gráfico en el que se
relacione la potencia con el efecto tipificado para Δ = 1, 2,…9.
Recuerde
Mayor efecto Δ en estudio implica mayor potencia.
Ejercicio 2.7
Suponga que los investigadores han sido algo conservadores y han especificado
un tamaño del efecto Δ algo menor que el real. Discuta cómo afecta este hecho a
la potencia del estudio.
Recuerde
Si el efecto real fuera mayor que el Δ empleado en la fórmula, la potencia real
sería mayor.
Ejercicio 2.8
Sea σ=10u , α=0.05 bilateral y β=0.80. Halle los casos que necesita para ∆ desde
1 hasta 9. Dibuje un gráfico con R en el que se relacione los casos necesarios con
el efecto tipificado.
Recuerde
Mayor efecto Δ en estudio implica menor tamaño muestral.
15
Tamaño muestral
𝐷𝑖 = 𝑌𝑖𝐴 − 𝑌𝑖𝐵
¿Qué tiene que ver la varianza de esta nueva variable, 𝜎𝐷2 , con la varianza 𝜎 2 que se utiliza en los
datos independientes? Un sencillo modelo descompone 𝜎 2 (la varianza total) en dos componentes:
entre-individuos 𝜎𝐸2 o verdaderas diferencias entre los casos e intra-individuos 𝜎𝐼2 o discordancias
entre dos medidas del mismo individuo:
𝜎 2 = 𝜎𝐸2 + 𝜎𝐼2
En datos apareados, se puede utilizar la misma fórmula que en los datos independientes pero
teniendo en cuenta que el error se refiere a la variabilidad intra-sujeto 𝜎𝐼2 y la n resultante de la
fórmula es la N total, ya que cada observación aporta los dos valores.
Fórmula
El número de observaciones necesarias para la comparación de 2 medias
apareadas es:
2 · 𝜎𝐼2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
𝑁=
𝛥2
Recuerde
Misma fórmula pero: la varianza ahora es intra-sujetos y la ‘N’ resultante es la
total.
Nota: veremos que, si una tercera variable define el apareamiento (por ejemplo, el orden o lugar de
administración), conviene dividir la N total en 2 subgrupos, uno para cada orden de la tercera variable
(por ejemplo, administrar en orden AB y BA, o administrar alternado los lugares).
Ejercicio 2.9
¿Cuántos casos totales se necesitan en un diseño paralelo y en uno apareado si
∆ = 5u , σE2=(9u)2, σI2=(4u)2, α=0.05 bilateral y β=0.20? Haga los cálculos con
las fórmulas.
16
Bioestadística para no estadísticos
Ejercicio 2.10
¿Cuántos casos totales se necesitan en un diseño paralelo y en uno apareado si
∆ = 5u, σE2=50 u2, σI2= 50 u2, α=0.05 bilateral y β=0.20? Haga los cálculos en R.
Ejercicio 2.11
Invente valores de σI2 y σE2 para una variable que le sea familiar.
Fórmula
𝜎𝐼2 = 𝜎 2 (1 − 𝜌)
Ejemplo 2.6. Se quiere comprobar la eficacia de un nuevo fármaco sobre la presión arterial
sistólica (PAS) frente el tratamiento habitual. Se realiza un diseño apareado. La correlación
esperada entre la presión inicial y final es 0.8 y la varianza total es 34(𝑚𝑚𝐻𝑔)2 .
Ejercicio 2.12
Calcule la varianza intra-sujetos de un diseño apareado que presenta una varianza
total de 12𝑢2 . Haga los cálculos para los siguientes valores de 𝜌: 0.2 , 0.5 y 0.8.
¿Qué efecto tiene una mayor correlación entre ambas observaciones sobre la
varianza intra-sujetos?
Como la varianza intra-sujetos será menor cuanto mayor sea la correlación o similitud entre ambas
respuestas, el beneficio de este diseño es mayor cuanto más apareados están los datos.
Otras veces se dispone de la variancia de la variable diferencia 𝜎𝐷2 entre ambas medidas. Se obtiene
la varianza intra-sujetos mediante:
Fórmula
𝜎𝐼2 = 𝜎𝐷2 /2
17
Tamaño muestral
Ejercicio 2.13
¿Cúal es la varianza intra-casos en un diseño apareado en el que se conoce que la
desviación típica de la variable diferencia es 12u?
En un ensayo aleatorizado, como las basales vienen de la misma población, comparar el cambio
estima el mismo efecto que comparar las respuestas finales: ambos son insesgados. El objetivo de
usar el cambio como variable principal es disminuir la varianza de la respuesta, y en consecuencia,
aumentar la potencia del estudio. El análisis del "cambio" es más eficiente si la correlación entre la
variable basal y final es mayor que 0.5.
Fórmula
La varianza de la nueva variable cambio (𝜎𝐶2 ) será:
𝜎𝐶2 = 2 · (1 − 𝜌) · 𝜎 2
Nota: se debe asumir que ni el paso del tiempo ni el tratamiento afectan a la dispersión, es decir,
homoscedasticidad o misma variabilidad entre tratamientos y entre tiempos.
Nota: En este caso, también se deberá echar mano de la literatura para encontrar estimaciones de la
correlación basal-final.
Nota: Fíjese que para valores de correlación (ρ) inferiores a 0.5, la varianza del cambio resulta superior a
la de la respuesta final y por tanto, no aporta ventajas.
Fórmula
El tamaño necesario en la comparación de 2 medias del cambio es:
2 · 𝜎𝐶2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
𝑛=
𝛥2
18
Bioestadística para no estadísticos
Ejemplo 2.8: Se desea comparar dos tratamientos para eliminar la placa dental. Se planea
un estudio a 6 meses donde se estudiará el cambio en la presencia de dicha placa a través de
un índice estándar de medida. La correlación esperada entre la cantidad de placa inicial y
final es 0.75 y la desviación típica de la respuesta final es 0.2. Si se pretende detectar una
diferencia de 0.1 con una potencia del 80% y un riesgo α=0.05 bilateral, ¿cuál es el tamaño
muestral necesario?
Ejercicio 2.14
Compruebe que este número hubiese sido exactamente el doble en caso de usar el
índice a los 6 meses como respuesta y explique las razones.
𝐻0 : 𝜇𝐴 − 𝜇𝐵 = ε
�
𝐻1 : 𝜇𝐴 − 𝜇𝐵 = 0
Ejercicio 2.15
En los estudios de diferencias, ∆ representaba cierta diferencia de interés, con
relevancia clínica. ¿Qué significa ε en los estudios de equivalencia y no-
inferioridad?
Recuerde
Δ representa el efecto relevante en estudios de diferencias y ε el efecto irrelevante
en los de equivalencia y no inferioridad.
19
Tamaño muestral
Fórmula
El tamaño muestral para la comparación de medias
2
2𝜎2 �𝑧𝛼 +𝑧𝛽⁄2 �
- en un estudio de equivalencia es 𝑛= ε2
2
2𝜎2 �𝑧𝛼 +𝑧𝛽 �
- en un estudio de no-inferioridad es 𝑛= ε2
Ejemplo 2.10: Se desea estudiar un nuevo hipotensor, más seguro y barato. Se considera
suficiente con demostrar que el clásico no le supera en 5 mmHg (no-inferioridad). ¿Cuántos
casos se necesitan si σ = 15 mmHg, α=0.025 unilateral, β=0.2?
𝐻0 : 𝜇𝐴 − 𝜇𝐵 = 5
�
𝐻1 : 𝜇𝐴 − 𝜇𝐵 = 0
Ejercicio 2.16
¿Cuántos casos se necesitan si ε=5 mmHg, σ=15 mmHg, α=0.05 unilateral, β=0.2
en un estudio de no-inferioridad?
20
Bioestadística para no estadísticos
Ejercicio 2.17
En estos estudios, ¿qué riesgo(s) α y/o β pueden perjudicar al usuario y al
patrocinador?
Recuerde
La potencia en estudios de equivalencia (o no-inferioridad) es la probabilidad de
establecer que dos tratamientos son equivalentes (o uno no-inferior a otro) cuando
realmente es así.
Ahora bien, se puede desear establecer equivalencia a pesar de que se crea que los dos tratamientos
no son absolutamente idénticos: aunque tengan diferencias muy pequeñas entre ellos, menores que
la irrelevancia ε, podrían ser alternativas terapéuticas.
Lectura: “when the power of a non-inferiority trial is assessed at a zero difference, then the sample size
needed to achieve that power will be underestimated if the effect of the investigational product is less than
that of the active control” (ICH E9, point 3.5).
Recuerde
Es conveniente disponer de cierto margen de seguridad, por si los productos no
fueran absolutamente idénticos.
Para ello, en las fórmulas habituales se pone, en lugar del límite de no-equivalencia ε, la diferencia
δ entre este límite de no-equivalencia y el margen de seguridad MS que se desea cubrir: δ = ε - MS
donde δ es el valor a poner en la fórmula:
2 2
2𝜎 2 �𝑧𝛼 + 𝑧𝛽 � 2𝜎 2 �𝑧𝛼 + 𝑧𝛽/2 �
𝑛= ó 𝑛=
δ2 δ2
Ejemplo 2.11 (continuación del Ejemplo 2.10) Ahora bien, se sospecha que este nuevo
hipotensor más seguro y barato puede no ser absolutamente idéntico al clásico y se desea
seguir teniendo la misma probabilidad de demostrar su eficacia incluso en el caso de que el
clásico le superara en 1 mmHg. En resumen, ¿cuántos casos se necesitan si ε=5 mmHg,
MS= 1mmHg, σ=15 mmHg, α=0.05 unilateral, β=0.2 (es decir, potencia del 80%)?
δ = ∆ - MS = 5 – 1 = 4
2 · 152 (1.645 + 0.84)2
𝑛≈ = 173.68 → 174 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜
42
21
Tamaño muestral
Ejercicio 2.18
¿Cuántos casos se necesitan si aumentamos el margen hasta 2 mmHg [MS=2
mmHg, ε=5 mmHg, σ=15 mmHg, α=0.05 unilateral, β=0.2?
Ejemplo de R
# Aplicación al Ejemplo 2.11 (k=1 implica grupos iguales, delta se
refiere a ε)
> n <- TwoSampleMean.NIS (alpha=0.025, beta=0.2, sigma=15, k=1,
delta=5, margin=0)
> n
[1] 141.2798
Ejercicio 2.19
Para probar la no-inferioridad de un nuevo fármaco (B) para la degeneración
macular asociada a la edad, que es menos costoso que el de referencia (A), se
decide diseñar un ensayo con variable respuesta el cambio (antes/después del
tratamiento) en el número de letras que el paciente es capaz de identificar a una
cierta distancia. Calcule con R el tamaño de la muestra por grupo con los
parámetros siguientes:
22
Bioestadística para no estadísticos
Fórmula
El tamaño muestral necesario para una comparación de medias para una
precisión determinada del efecto de la intervención es:
2
2 · 𝜎 2 · 𝑧𝛼/2
𝑛=
𝑒2
Ejemplo 2.12. Se está diseñando un ensayo clínico para probar la eficacia de un nuevo
fármaco antidiabético (B) respecto a uno de referencia (A). Se supone que la desviación
estándar de la respuesta es 14 mg/dl. Se desea conocer el efecto con una confianza del 95%
y un error (e) de 3 mg/dl
2 · 142 · 1.962
𝑛= = 167.32 → 168 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜
32
Ejercicio 2.20
Se desea comparar dos tratamientos para reducir el nivel de colesterol en sangre.
Se estima una variabilidad en la respuesta de 8 mg/l. Se desea obtener un IC con
un 99% de confianza y una amplitud no mayor de 5 mg/l (e=2.5). ¿Cuántos casos
son necesarios?
𝑛𝐴 · 𝑛𝐵
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 = Φ �� − 𝑧𝛼/2 �
𝑁
20 · 20
𝑛𝐴 = 20 𝑦 𝑛𝐵 = 20 → 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = Φ �� − 1.96� = Φ(1.20) = 0.89
40
23
Tamaño muestral
15 · 25
𝑛𝐴 = 15 𝑦 𝑛𝐵 = 25 → 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = Φ �� − 1.96� = Φ(1.10) = 0.86
40
10 · 30
𝑛𝐴 = 10 𝑦 𝑛𝐵 = 30 → 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = Φ �� − 1.96� = Φ(0.78) = 0.78
40
Con un tamaño global de N=40, pasar de tener grupos balanceados a tener un desequilibrio
de 3 a 1 supone una pérdida de potencia del 11%.
Recuerde
La potencia máxima en una comparación de medias se obtiene con los grupos
balanceados.
Recuerde
La potencia de un estudio se define a priori.
En capítulos posteriores, se verá cómo controlar el equilibrio entre los grupos en un ensayo a través
de asignación por bloques.
Las notas siguientes explican dos razones para desequilibrar los grupos: diferentes costes de las
intervenciones y diferentes dispersiones de la variable respuesta (heteroscedasticidad) entre grupos.
Fórmula
El cociente entre los tamaños entre grupos según los costes de ambos
tratamientos (cA y cB) es:
𝑛𝐴 𝑐𝐵
=�
𝑛𝐵 𝑐𝐴
Ejemplo 2.14. En un estudio donde el tratamiento nuevo (B) es 4 veces más costoso que el
convencional (A), el ratio de asignación debe ser de 2:1.
𝑛𝐴 𝑐𝐵
= � = √4 = 2
𝑛𝐵 𝑐𝐴
24
Bioestadística para no estadísticos
Ejercicio 2.21
El tratamiento B es 2 veces más costoso que el tratamiento A. Si se han asignado
20 pacientes al tratamiento B, ¿Cuántos pacientes deben asignarse al tratamiento
A si se consideran los costes?¿Qué perdida de potencia supone este desequilibrio
si α=0.05?
Nota: La variabilidad que presentan ambos tratamientos puede diferir. En este caso, es conveniente
obtener más casos de aquel tratamiento que presente mayor variabilidad para lograr la máxima eficiencia.
Fórmula
El cociente entre los tamaños entre grupos considerando las desviaciones de la
respuesta en ambos tratamientos (σA y σB) es:
𝑛𝐴 𝜎𝐴
=
𝑛𝐵 𝜎𝐵
𝑛𝐴 𝜎𝐴 1
= =
𝑛𝐵 𝜎𝐵 2
Nota: Nótese que no se han detallado las fórmulas teóricas para llevar a cabo los cálculos con
desequilibrios. Sin embargo el parámetro k que contienen las funciones del paquete TrialSize permite
hacer los cálculos considerando este aspecto.
Ejemplo 2.16 (cont). Se quiere detectar una diferencia de 10 unidades entre el tratamiento
nuevo (B) y el convencional (A), siendo σ=8 y los riesgos habituales (α = 0.05 ; β=0.20). Si
se quiere que el ratio de asignación sea 1:2, el tamaño muestral es:
Por lo que en el grupo de control habría 8 pacientes y en el grupo del nuevo tratamiento
habría 16 pacientes.
En cambio, si se quisiera que el ratio de asignación fuera 2:1, el tamaño muestral sería:
25
Tamaño muestral
3. Comparación de probabilidades
La teoría que subyace detrás del cálculo en una comparación de probabilidades es análoga a la de
comparación de medias ya que la distribución del estadístico sigue, como ya vimos, una
distribución Normal. Sin embargo, la fórmula es un poco más compleja. Sea el contraste:
𝐻0 : 𝜋𝐴 = 𝜋𝐵
�
𝐻1 : 𝜋𝐴 = pA 𝑦 𝜋𝐵 = p𝐵
Fórmula
El tamaño muestral en cada grupo para la comparación de 2 probabilidades es:
2
𝑧𝛼⁄2 · �2𝑝(1 − 𝑝) + 𝑧𝛽 · �𝑝𝐴 (1 − 𝑝𝐴 ) + 𝑝𝐵 (1 − 𝑝𝐵 )
𝑛=� �
𝑝𝐴 − 𝑝𝐵
𝑝𝐴 + 𝑝𝐵
𝑑𝑜𝑛𝑑𝑒 𝑝 =
2
Ejemplo 3.1: El porcentaje de pacientes que tras sufrir un ictus isquémico se encuentran en
un estado de gravedad leve (mRS ≤ 1) al cabo de 3 meses es un 20% con el tratamiento
convencional (A). Se desea probar un nuevo fármaco (B) en un ECA que incremente esta
proporción hasta el 30%. Con un riesgo alfa del 5% y una potencia del 80%, ¿cuál es el
tamaño necesario por grupo?
2
1.96 · �2 · 0.25(1 − 0.25) + 0.84 · �0.2(1 − 0.2) + 0.3(1 − 0.3)
𝑛=� � = 292.82
0.2 − 0.3
26
Bioestadística para no estadísticos
Ejemplo de R
Nota: El resultado difiere ligeramente del ejemplo por una corrección por continuidad que realiza R.
2
�𝑧𝛼⁄2 + 𝑧𝛽 �
𝑛= 2
2�𝑎𝑠𝑒𝑛(√𝜋𝐴 ) − 𝑎𝑠𝑒𝑛(√𝜋𝐵 )�
Este apartado hace referencia a los estudios donde la variable de interés es el tiempo que transcurre
hasta un evento, como los de supervivencia. En este tipo de estudios primero se calcula el número
de eventos E que se necesita observar y luego se obtiene el número de casos y el tiempo que deben
ser seguidos para poder observar esos eventos E.
En el cálculo del tamaño muestral, se puede tener la premisa de que las tasas (λA, λB) de aparición
del evento en ambos grupos son constantes a lo largo del tiempo o se puede relajar asumiendo
únicamente que su cociente, llamado Hazard Rate Ratio (HRR = λA/λB) es constante.
27
Tamaño muestral
Fórmula
El número de eventos totales para la comparación de 2 tiempos hasta un evento
en el caso de reclutamiento instantáneo es:
2
4 · �𝑧1−𝛼⁄2 + 𝑧1−𝛽 �
𝑇𝑎𝑠𝑎𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒𝑠 → 𝐸 =
[ln(𝐻𝑅𝑅)]2
2
(𝐻𝑅𝑅 + 1)2 · �𝑧1−𝛼⁄2 + 𝑧1−𝛽 �
𝐻𝑅𝑅 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 → 𝐸 =
(𝐻𝑅𝑅 − 1)2
Y el tamaño muestral total (en ambas situaciones) es:
2𝐸
N=
2 − 𝜋𝐴 − 𝜋𝐵
donde πA y πB son la proporción estimada de casos donde NO se presentará el
evento durante el estudio.
Nota: En supervivencia, el diseño más eficiente no es aquel tal que NA=NB sino aquel en que EA=EB
Nota: Dado que la premisa de tasas constantes en ambos grupos es más restrictiva, está fórmula
proporcionará tamaños menores (más información a priori comporta menos necesidad de información a
posteriori).
Recuerde
La premisa puede ser o bien que la tasa de aparición de eventos es constante a lo
largo del tiempo, o bien que su cociente (HRR) es constante.
Ejemplo 4.1: En una universidad, se decide hacer un estudio para comparar el tiempo de
adherencia a dos dietas saludables (el evento en este caso es el abandono de la dieta). Para
ello, se recluta personal laboral de la universidad que iniciará una de las dos dietas asignada
aleatoriamente al inicio del curso escolar. El tiempo de seguimiento es de 9 meses (=0.75
años) y se estiman unas proporciones de personas que acabarán el curso con la dieta de πA =
0.55 y πB = 0.65. Asumiendo un HRR constante de 0.72, con una potencia del 90% y un
riesgo α del 5%, estime el tamaño muestral necesario.
28
Bioestadística para no estadísticos
Nota técnica: Fíjese que el tiempo de seguimiento no ha sido utilizado en los cálculos. De hecho, este
dato proporciona el HRR a partir de πA y πB.
ln(𝜋𝐴 )
𝜆𝐴 = −
𝑇 � → 𝐻𝑅𝑅 = 𝜆𝐵
ln(𝜋𝐵 ) 𝜆𝐴
𝜆𝐵 = −
𝑇
[Véase el apartado de la distribución exponencial en el capítulo 6. El HRR se ha introducido en capítulos
anteriores y se ampliará su explicación más adelante]
Ejercicio 4.1
Repita el Ejemplo 4.1 pero asumiendo que las tasas son constantes.
A) A priori, el tamaño que se obtendrá ¿será mayor o menor que el del ejemplo?
B) Dadas las proporciones, ¿cuáles son las tasas? Use las fórmulas de la nota
técnica.
C) Finalmente, ¿cuál es el tamaño por grupo requerido?
Ejercicio 4.2
En una residencia se desea comparar el tiempo hasta un evento cardiovascular
entre dos grupos de pacientes mayores de 70 años asignados aleatoriamente a dos
programas de mantenimiento deportivo (A: Clásico y B: Nuevo). El estudio está
pensado a 3 años y se espera obtener una proporción de eventos al cabo de estos 3
años de 0.2 en el clásico y 0.15 en el nuevo. Asuma tasas constantes y riesgos α y
β de 0.05 y 0.2, respectivamente.
Ejemplo de R
29
Tamaño muestral
Fórmula
El tamaño muestral total para la comparación de 2 tiempos hasta un evento es:
2
2�𝑧1−𝛼⁄2 + 𝑧1−𝛽 � (Φ(𝜆𝐴 ) + Φ(𝜆𝐵 ))
𝑁=
(𝜆𝐴 − 𝜆𝐵 )2
𝑑𝑜𝑛𝑑𝑒:
𝜆3 · 𝑇𝑅
Φ(𝜆) =
𝜆 · 𝑇𝑅 − (𝑒 −𝜆(𝑇−𝑇𝑅) − 𝑒 −𝜆𝑇 )
λ es la tasa [eventos/paciente x unidad de tiempo] esperada.
Nota: El tiempo de duración del estudio (T) se refiere al de obtención de datos e incluye el de
reclutamiento TR y el de seguimiento de los pacientes, que puede ser fijo o variable. T debe ser
estrictamente superior a TR —de lo contrario, los pacientes reclutados el último segundo serían seguidos
sólo 1 segundo.
Nota: La unidad de tiempo en que se especifique la tasa (λ) debe ser la misma en la que se especifiquen
TR y de duración del estudio T. Por ejemplo, si ambos se especifican en años, la λ se deberá especificar
en proporción de eventos al año.
Recuerde
La premisa es que la tasa de aparición de eventos es constante a lo largo del
tiempo.
Ejemplo 4.2: Se quiere diseñar un estudio para comparar la eficacia de dos tratamientos
respecto al tiempo hasta la progresión de la enfermedad en un determinado tipo de cáncer.
Las tasas esperadas son λA = 50% (referencia) y λB = 35% (nuevo tratamiento). Se fija un
tiempo de reclutamiento de 1.5 años y un tiempo de seguimiento máximo de 2 años.
Asumiendo tasas constantes, con una potencia del 90% y un riesgo α del 5%, estime el
tamaño muestral necesario.
30
Bioestadística para no estadísticos
Por tanto, se requieren 424 participantes por grupo (la mitad de 846.27 redondeado al alza)
Ejemplo de R
Ejercicio 4.3
Se quiere diseñar un ensayo clínico que compare el tiempo hasta la muerte entre
dos tratamientos en pacientes con cancer de ovario en estadios avanzados. El
tratamiento A consistirá en quimioterapia y el tratamiento B en quimioterapia +
cirurgía de citorreducción. Calcule con R el tamaño necesario por grupo con los
siguiente paràmetros:
31
Tamaño muestral
5. Consejos prácticos
Hemos visto que el cálculo muestral precisa valores que reflejan la ambición de la investigación
(confianza, precisión, delta, etc.) y conocimientos previos sobre las variables en estudio (sigma, tasa
en el grupo control, etc.). Estos últimos forman parte de las premisas del estudio y conviene ser
prudente al fijar sus valores.
Nota técnica: estos parámetros reciben el calificativo de molestos o estorbo (“nuisance”) ya que son
necesarios para especificar el modelo o realizar los cálculos, pero no son el objetivo principal del estudio.
Todas estas premisas necesarias para el cálculo del tamaño muestral hacen que no se pueda
considerar una ciencia exacta. Nosotros aconsejamos un proceso iterativo conjunto entre
investigadores y metodólogos.
El primer paso es mirar qué han hecho otros investigadores: ¿cuáles eran sus objetivos, tipo de
diseño, variable principal, análisis estadístico, tamaño empleado,…?.
El segundo paso es diseñar el borrador del propio estudio con valores aproximados de los
parámetros necesarios (∆, σ²): ¿Es razonable el número resultante? ¿Incluiremos este número de
casos en un plazo y con un coste razonable? ¿Tendrán capacidad de convicción los resultados?
El tercer paso consiste en comparar este diseño con otros alternativos y repetir el segundo paso,
hasta optar por un diseño concreto.
Una vez decidido un diseño, el cuarto paso consiste en ajustar por las pérdidas de información.
Aunque el informe final debe incluir todos los casos reclutados, eso no significa que todos ellos
aporten la información deseada. Si la previsión es tener una proporción r de casos no informativos,
conviene re-ajustar el tamaño calculado (n) a uno nuevo (n') que tiene en cuenta estos casos no
informativos:
1
𝑛′ = ·𝑛
1−𝑟
Finalmente, el quinto paso consiste en documentar el cálculo del tamaño muestral, lo que requiere
justificar los valores empleados en las fórmulas y usar tablas publicadas o programas validados para
el cálculo definitivo.
Especialmente aconsejables son, en castellano, el programa ene de Llorenç Badiella; y en Inglés, los
libros: (1) Sample Size Tables for Clinical Studies (Machin & Campbell); (2) Sample Sizes for
Clinical Trials (Julious); y (3) Fundamentals of Clinical Trials (Friedman) para tiempo hasta el
evento.
Historieta: según Montgomery, el mejor momento para diseñar un estudio es cuando termina.
32
Bioestadística para no estadísticos
Fórmula R
2 · 𝑧𝛼⁄2 · 𝜎 2
Media 𝑛=� � sample.size.mean
Estimación de A
un parámetro
𝑧𝛼⁄2 2
Probabilidad 𝑛=� � sample.size.prop
A
2 · 𝜎 2 · (𝑧𝛼⁄2 + 𝑍𝛽 )2
Independientes 𝑛= TwoSampleMean.Equality
𝛥2
2 · 𝜎𝐼2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
Apareadas 𝑁= -
𝛥2
2
No- 2𝜎 2 �𝑧𝛼 + 𝑧𝛽 � TwoSampleMean.NIS
Inferioridad 𝑛=
𝛥2
2
8 · 𝜎 2 · 𝑧𝛼/2
Precisión 𝑛= -
𝐴2
Comparación 2
𝑧𝛼⁄2 �2𝑝(1 − 𝑝) 𝑧𝛽 �𝑝𝐴 (1 − 𝑝𝐴 ) + 𝑝𝐵 (1 − 𝑝𝐵 )
de Independientes 𝑛=� + � TwoSampleProportion.Equality
probabilidades 𝑝𝐴 − 𝑝𝐵 𝑝𝐴 − 𝑝𝐵
Reclutamiento 2𝐸 ssizeCT.default
N=
instantáneo 2 − 𝜋𝐴 − 𝜋𝐵 (para HRR constantes)
Comparación
de tiempos Reclutamiento 2
2�𝑧1−𝛼⁄2 + 𝑧1−𝛽 � (Φ(𝜆𝐴 ) + Φ(𝜆𝐵 ))
durante un 𝑁= TwoSampleSurvival.Equality
(𝜆𝐴 − 𝜆𝐵 )2
periodo
Nomenclatura. 𝝈𝟐 : varianza total, 𝝈𝟐𝑰 : varianza intra-sujetos, 𝝈𝟐𝒄 : varianza de la variable cambio, ∆: diferencia que se
quiere detectar, 𝝆: correlación entre ambas observaciones, 𝑨: amplitud del intervalo, 𝑬: número de eventos que se
necesita observar, 𝝀: tasa de aparición del evento y 𝝅: proporción estimada de casos donde NO se presentará el evento
durante el estudio.
33
Tamaño muestral
2.1 ∆ es el valor de la diferencia entre los tratamientos para el que se desea tener una probabilidad 1-β de demostrar
que los tratamientos son diferentes. Conviene que coincida con la eficacia real y también con la ideal.
2.2 El riesgo α es la probabilidad de que un tratamiento no eficaz (H0) se declare eficaz y se ponga en el mercado (A1).
El riesgo β es la probabilidad de que un tratamiento eficaz (H1) se declare no eficaz y no se lleve al mercado (A0).
Ambos repercuten negativamente en el usuario, a quien representa la administración, y en el patrocinador. Al usuario
porque puede estar pagando por un producto que no es eficaz (α) o porque no se puede beneficiar de uno que lo es (β).
Al patrocinador, porque no comercializa un producto eficaz (β) o porque pierde energías en uno que no lo es (α).
2.3 n = [ 2· 8² (1.96 +0.84)²] / 5² ≈ 40.14 → 41 casos por grupo (debe redondearse al alza).
2.5 La instrucción seq (inicio,fin,separación) genera todas las potencias para las que queremos hacer el cálculo.
Recuerde que las β’s son el complementario de las potencias.
> potencias <- seq(0.1,0.9,0.1)
> betas <- 1-potencias
> betas
[1] 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
Con la función TwoSampleMean.Equality se realiza el cálculo de todos los tamaños a la vez. La instrucción ceiling
redondea al alza.
> n <- TwoSampleMean.Equality(alpha=0.05,beta=betas,sigma=10,margin=5,k=1)
> ceiling(n)
[1] 4 11 17 24 31 40 50 63 85
La función plot con el parámetro type=”l” (une los puntos con líneas) realiza el gráfico:
> plot(n,potencias,type="l")
34
Bioestadística para no estadísticos
Puede mejorar el gráfico añadiendo más parámetros (?par) y poniendo una rejilla con abline (?abline).
> plot(n,potencias,type="l",lwd=2,col="green",las=1,xlab="Sample Size",
ylab="Power")
> abline(v=seq(20,80,20),h=seq(0.2,0.8,0.2),lty=2,col="grey")
0.8
0.6
Power
0.4
0.2
20 40 60 80
Sample Size
Puede verse como, para un efecto ∆ que representa el 50% de la desviación típica σ, se necesitan, para la potencia
usual del 80%, algo más de 60 casos por grupo. Nótese en la representación gráfica como crece la potencia a medida
que aumenta el número de casos.
# Potencias
> potencias <- power.t.test(n=50, delta=deltas, sd=10, sig.level=0.05)$pow
> round(potencias,2)
[1] 0.07 0.17 0.32 0.51 0.70 0.84 0.93 0.98 0.99
# Gráfico
> efecto_tipificado <- deltas/10
> plot(efecto_tipificado,potencias,type="l",lwd=2,col="green",las=1,
xlab="Delta/Sigma",ylab="Power")
> abline(v=seq(0.2,0.8,0.2),h=seq(0.2,1,0.2),lty=2,col="grey")
1.0
0.8
Power
0.6
0.4
0.2
Delta/Sigma
35
Tamaño muestral
Puede verse que con 50 casos por grupo se tiene una potencia algo superior al 80% para un efecto que represente
el 60% de la dispersión entre los casos estudiados. Nótese también que, si el efecto se acerca al 100% de la
dispersión entre los casos, con un diseño de 100 casos por grupo se tiene una potencia que se acerca al 100%, es
decir, que, de ser cierto este efecto, la probabilidad de que el resultado del estudio sea significativo se acerca al
100%.
# Tamaños
> n <- TwoSampleMean.Equality(alpha=0.05,beta=0.8,sigma=10,margin=deltas,k=1)
> ceiling(n)
[1] 251 63 28 16 11 7 6 4 4
# Gráfico
> efecto_tipificado <- deltas/10
> plot(efecto_tipificado, n, type="l", lwd=2, col="green", las=1,
xlab="Delta/Sigma", ylab="n", ylim=c(0,600))
> abline(v=seq(0.2,0.8,0.2),h=seq(0,600,100),lty=2,col="grey")
600
500
400
n
300
200
100
Delta/Sigma
Igual que antes, puede verse como, para un efecto ∆ que representa el 40% de la desviación típica σ, se
necesitan aproximadamente 100 casos por grupo. Nótese como va disminuyendo el número de casos
necesarios a medida que aumenta la magnitud del efecto que se desea establecer y que el decremento de casos
es progresivamente menos acusado.
N = [ 2· (4²)(1.96 +0.84)²] / 5² ≈ 10.04 → 11 casos en total, que dividido por 2 supone 6 casos.
36
Bioestadística para no estadísticos
# Apareadas
> N <-TwoSampleMean.Equality(alpha=0.05,beta=0.2,sigma=sqrt(50),margin=5,k=1)
> ceiling(N/2)
[1] 16
2.11 Compruebe los valores con las referencias de la literatura.
144
2.13 𝜎𝐷2 = 122 = 144 → 𝜎𝐼2 = = 77 𝑢2
2
2·0.2·(1.96+0.84)2
2.14 𝑛 = = 62.72 63 pacientes por grupo.
0.12
Utilizando el cambio como variable principal disminuye la varianza de la respuesta, y en consecuencia, aumenta la
potencia del estudio. Por lo tanto, el tamaño muestral necesario es menor.
2.15 Mientras que en los estudios de diferencias, ∆ representa la diferencia a partir de la cual se empieza a considerar
relevantes a las diferencias entre los tratamientos, en los de equivalencia y no-inferioridad, deber representar un valor lo
suficientemente pequeño como para que la diferencia entre los dos tratamientos sea irrelevante.
2.17 El riesgo α es la probabilidad de que dos tratamientos no equivalentes (H0) se declaren equivalentes (A1). El
riesgo β es la probabilidad de que un tratamiento equivalente (H1) se declare que no lo es (A0). Igual que antes, ambos
deben preocupar a ambos, pero las razones se invierten. El error tipo I del riesgo α implica sustituir un fármaco por otro
cuando no son equivalentes, las consecuencias dependen de la dirección de la no equivalencia y del objetivo del estudio
(eficacia o seguridad). Por su parte, el error tipo II del riesgo beta, implica no sustituirlo cundo en realidad sí que son
equivalentes. Las consecuencias, como antes, dependen de la situación, aunque la habitual es de tipo económico, ya que
no se autoriza un genérico más barato.
37
Tamaño muestral
3.1> TwoSampleProportion.Equality(alpha=0.05,beta=0.10,p1=0.55,p2=0.75,
k=1,delta=0.2)
[1] 114.2682
115 casos por grupo
4.1 A) El tamaño ha de ser ligeramente menor, ya que la premisa es más restrictiva. B) λA= 0.797; λB=0.574
E = 4·(1.96+0.84)2 / [ln(0.728)]2 = 312.4 E = 312.4/(2 – 0.80 – 0.85) = 892.5 447 casos por grupo
[1] 0.2252889
[1] 0.1460279
[1] 291.4421
38
Tema 13:
2014
Diseños que afectan a la varianza
Presentación ...................................................................................................................... 3
2
Bioestadística para no estadísticos
Presentación
En este tema abordamos 3 diseños específicos en los que el cálculo de la incertidumbre asociada al
proceso aleatorio necesita refinarse.
Por otro lado, el análisis del cambio, ya introducido en el tema 12, y el diseño con intercambio del
tratamiento o cross-over pretenden aumentar la precisión de la estimación, por lo que un correcto
análisis conduce a IC más estrechos, que conviene aprovechar.
Contribuciones: Basado en transparencias de Erik Cobo y José Antonio González; Laura Riba y
Hector Rufino prepararon una primera versión de análisis del cambio y crossover; y Marta Vilaró
de clúster; que han sido revisadas por Ángel Ruiz y Erik Cobo.
3
Diseños que afectan a la varianza
Definición
El diseño habitual considera al paciente como la única unidad (estadística) con variabilidad: dispone
de una muestra de pacientes y desea estimar el efecto en una población objetivo que engloba a todos
los que comparten aquellos criterios de elegibilidad. Y quizás, en el análisis o en el diseño, controla
como influyen en esta variabilidad ciertas características, como el centro.
Ejemplo 1.1: Un estudio multi-céntrico aleatorizado por bloques persigue comparar los 2
tratamientos “dentro” de cada centro. Y combina los resultados en un único estimador del
efecto bajo la premisa de que el efecto es el mismo en todos los centros. Luego, el análisis
de subgrupos suele ‘ojear’ esta proposición. Si se sostiene que el efecto no varía entre
centros, aplicarlo o “transportarlo” a otros es un reto más cualitativo que cuantitativo.
En cambio, si (1) todos los pacientes de un mismo centro se asignan a la misma intervención; y (2)
el centro es variable, en el sentido de que los resultados de los pacientes pueden diferir por centros;
entonces la información que aporta cada paciente no es independiente de los otros pacientes del
mismo centro, lo que impide usar la metodología habitual.
Recuerde
Nota: Otros términos similares serían: cluster-randomized trials, group-randomized trials, multi-
level trials, hierarquical trials, o ensayos comunitarios.
Ejemplo 1.2: En una situación extrema e irreal, la variable importante sería el centro y
dentro de un mismo centro todos los pacientes responderían igual. Así, la no independencia
de los pacientes de un mismo centro sería extrema: conocida la respuesta de un paciente,
sabríamos la de los otros de su centro.
4
Bioestadística para no estadísticos
Ejemplo 1.3: La otra situación extrema podría ser más real. Ahora, todos los centros serían
similares entre sí, pero dentro de un mismo centro todos los pacientes responderían de forma
muy distinta. Así, conocer la respuesta de un paciente no aporta ninguna información sobre
los otros de su centro.
Ejemplo 1.4: Sea un diseño con 3 unidades estadísticas con variabilidad: paciente,
profesional y centro: los pacientes son la unidad jerárquica inferior, anidados en el
profesional que, a su vez, está anidado en el centro, unidad jerárquica superior.
Recuerde
Nota: El individuo que está anidado en el grupo g anidado al tratamiento t, será un individuo que
pertenece al grupo g al que se la ha asignado el tratamiento t.
Un diseño en grupo desea estimar el efecto de la intervención en las unidades inferiores, pero la
intervención se asigna a una unidad de nivel superior.
Recuerde
Contra- ejemplo 1.6: El estudio ‘2on Opinion Trial’ se designó para bajar las tasas de
cesáreas. El objetivo de la intervención es disminuir la tasa hospitalaria de cesárea valorada
a nivel del hospital. Eso implica que puede tratarse como un estudio habitual, con la
particularidad de que su unidad es el centro.
5
Diseños que afectan a la varianza
En el diseño en clúster no hay independencia entre las unidades. Los miembros de un grupo pueden
compartir características comunes o tener un nivel de exposición similar o interactuar entre ellos
(‘contaminación’). Todo ello hace más similares 2 casos del mismo grupo que 2 casos de grupos
diferentes.
Recuerde
Recuerde
Definición
Ejercicio 1.1
Nota: Entre las simplificaciones (o premisas) implícitas, cabe resaltar que (1) dentro de cada
grupo todos los pacientes tienen la misma variabilidad; (2) en todos los grupos, los pacientes
6
Bioestadística para no estadísticos
tienen la misma variabilidad (la variabilidad de los pacientes es independiente del grupo); y (3)
todos los grupos aportan la misma variabilidad.
Fórmula
Ejercicio 1.2
Calcule el efecto del diseño para el ejercicio anterior asumiendo que todos los
colegios tienen 21 niños por clase. Interprete.
Nota: Si los grupos difieren mucho en tamaño, los resultados por centro pueden tener diferente
significado y una inferencia común pierde sentido. Si difieren algo, puede estimarse el DE
tomando n por el promedio del tamaño de los centros.
Una vez conoce el DE, los cálculos habituales se obtienen multiplicando por el DE a la varianza
obtenida como si fuera un diseño simple. Si no se tuviera en cuenta el DE, se subestimaría la
incertidumbre del estudio, resultando en inferencia demasiado optimista: los IC95% contendrían el
parámetro con una confianza menor del 95%; y el riesgo alfa (declarar eficaz una intervención
cuando no lo es) sería mayor del 5% deseado.
Fórmula
7
Diseños que afectan a la varianza
Ejercicio 1.3
Se ha diseñado un estudio con asignación aleatoria simple y se ha obtenido que
debe incluir 130 pacientes para obtener una potencia del 80%. Manteniendo la
misma potencia en el estudio, se desea plantear un diseño de asignación en grupo.
Suponiendo que habrá un total de 9 clusters y que el efecto del diseño será de 2.6,
calcule el número de participantes a incluir en cada cluster.
8
Bioestadística para no estadísticos
Recuerde
Vimos que este ajuste pretende bajar la varianza, y, con ello, aumentar la potencia y la precisión.
Recuerde
El cambio o diferencia final-basal se define como:
Y su varianza es:
Nota: Sean , y
9
Diseños que afectan a la varianza
Recuerde
Nota: Las fórmulas anteriores descansan en las siguientes simplificaciones (premisas): (1)
Independencia entre los casos (individuos); (2) Homocedasticidad entre respuesta basal y final; y
(3) Homocedasticidad entre tratamientos.
Recuerde
, pero también:
Observar la correlación entre antes y después con la ayuda del coeficiente de correlación intraclase
permite ver la correlación como la proporción de la variabilidad entre casos respecto a la total.
Ejercicio 2.1
10
Bioestadística para no estadísticos
(1) Se define como variable principal de respuesta los valores de Y tras 1 mes de
tratamiento, ¿qué varianza tiene la variable respuesta?
Se ha visto que este diseño elimina la varianza entre pacientes pero duplica la intra pacientes —ya
que se toman dos medidas por cada individuo. Veamos otros diseños para disminuir la varianza de
la respuesta.
2.3. Ancova
Nota: El modelo lineal de regresión del curso observacionales estudia con detalle el Ancova.
Aquí comentamos sus implicaciones en el diseño de EC.
El ANCOVA es más eficiente que el análisis de la variable final y que el análisis del cambio.
El efecto del tratamiento se estima por lo general como:
Dónde:
11
Diseños que afectan a la varianza
Esto implica que el estimador es más eficiente para cualquier valor de ρ y que es más
eficiente que para ρ> 0,5, pero menos eficiente en la situación opuesta, lo que se resume en el
siguiente gráfico debido a Stephen Senn.
Que corresponde a la menor varianza de la respuesta en los tres diseños y conduce, por
tanto, al diseño más eficiente.
Definición
12
Bioestadística para no estadísticos
Ejemplo 2.3: Siguiendo el Ejemplo 2.1, si se opta por la realización de 7 medidas repetidas,
la varianza de la nueva variable respuesta es:
Ejercicio 2.2
Con los mismos datos que en el Ejercicio 2.1, conteste:
(1) Usando el ANCOVA (sin repeticiones), ¿qué varianza tiene la respuesta?
(2) Si se utiliza como respuesta el promedio de la PAS repetida 5 días, ¿qué
varianza tiene la respuesta?
(3) A la vista de los nuevos resultados, ¿qué análisis usaría?
Nota: Estos diseños se pueden combinar, de manera que los beneficios en la reducción de la
varianza de la respuesta se acumulan. Por ejemplo:
- Análisis del cambio post - basal, pero donde la respuesta basal y la final son promedios.
- ANCOVA con promedio de k medidas repetidas.
Definición
Se requiere más de una secuencia para hacer un “cross-over”, es decir, se requiere más de un grupo
de pacientes, cada uno con un orden (o secuencia) de administración de las intervenciones.
13
Diseños que afectan a la varianza
Ejemplo 3.1: Para evaluar el efecto que dos preparados de aspirina tienen en el sangrado
gástrico (evaluado por un método radioactivo), dos grupos de 8 pacientes han recibido
ambos preparados en diferentes secuencias (AB o BA).
Por el contrario, mediante un buen diseño: (1) debe balancearse el período (o el lugar de
administración) para controlar diferentes posibles respuestas en diferentes periodos (lugares); y (2)
debe garantizarse que, al administrar un tratamiento, no permanece ningún efecto tardío (residual,
arrastrado o carry-over) del tratamiento anterior.
Recuerde
Definición
Dónde:
es la media general
es el efecto, fijo, inmediato o directo del tratamiento t=A,B
es el efecto, fijo, del periodo
es el efecto, fijo, residual o tardío del tratamiento previo k=A,B
es el efecto, aleatorio, del individuo o caso i=1,2, … , n+m
es el efecto, aleatorio, del individuo i en el periodo j
Notas: (1) Cabe esperar que . (Véase el punto 2.2). (2) En el primer período no hay
efecto residual, al no arrastrar el efecto del tratamiento previo, dado que este no existe. (3) El
efecto residual emplea el subíndice k del orden.
14
Bioestadística para no estadísticos
Recuerde
A continuación se detallan los diferentes contrastes para los efectos expresados en el modelo.
La pregunta que se quiere contestar es: ¿tienen el mismo efecto los dos tratamientos?
Por lo tanto, –
Nota: Las premisas para poder realizar este contraste son: efecto residual nulo o igual, es decir,
o ambos nulos; e independencia entre ambos grupos o secuencias.
Como cada caso aporta información sobre ambos tratamientos, la esperanza de la diferencia de las
dobla la diferencia de los efectos directos, para estimar el efecto , los resultados se
dividen por 2.
15
Diseños que afectan a la varianza
Recuerde
Ejercicio 3.1
Diga si las siguientes afirmaciones son ciertas o no.
Para estimar el efecto (directo) del tratamiento T respecto al control C:
(1) Calculamos la diferencia entre la respuesta a T y a C
(6) Para conocer el IC95% del efecto, dividimos por 2 los resultados
Grupo 1 Grupo 2
Trat.1: T Trat.2: P Trat.1: P Trat.2: T
8 5 12 11
14 10 6 8
8 0 13 9
9 7 8 8
11 6 8 9
3 5 4 8
6 0 8 14
10 6 2 4
13 12 8 13
10 2 9 7
7 5 7 10
13 13 7 6
16
Bioestadística para no estadísticos
Ejemplo de R
#Con los datos de la tabla del Ejemplo 3.2
> datos <- read.table(url("http://www-
eio.upc.es/teaching/best/datos-
ejemplos/enuresis.txt"),header=TRUE)
> d1 = datos$T_G1 – datos$P_G1
> d2 = datos$P_G2 – datos$T_G2
> t.test(d1, -d2, var.equal=TRUE)
Two Sample t-test
data: d1 and -d2
t = 3.7802, df = 22, p-value = 0.001029
…
95 percent confidence interval:
2.106471 7.226863
…
Y dividimos por 2 el intervalo de confianza obtenido directamente del t-test, para estimar el
efecto directo de
Así, cambiar el tratamiento P por el T bajará el número de noches con enuresis cada 2
semanas entre 1 y 3,6, con una confianza del 95%: valores positivos que permiten establecer
que T tiene efecto (relativo a C). También, como P=0.001, se concluye que existen
diferencias significativas entre los dos tratamientos.
Para contestar si la respuesta Y cambia según el período en el que se recibe el tratamiento se hace el
contraste de hipótesis:
Que se puede resolver mediante las diferencias del anterior apartado (también dividiendo por 2 al
final), cambiando el signo a los resultados de una secuencia:
17
Diseños que afectan a la varianza
Ejemplo 3.3: Siguiendo con el ejemplo anterior, podemos estudiar si el período en el que
reciben el tratamiento influye en los valores de la variable respuesta.
Ejemplo de R
#Con los datos del ejemplo 3.2
> t.test(d1, d2, var.equal=TRUE)
Two Sample t-test
data: d1 and d2
t = 1.7551, df = 22, p-value = 0.09316
…
95 percent confidence interval:
-0.3935293 4.7268627
…
Si se define como la suma de los resultados del primer período y del segundo:
Demostración:
18
Bioestadística para no estadísticos
Por lo tanto,
Nótese que en este caso no hay que dividir entre 2 para estimar el efecto residual.
Ejemplo 3.4: Con los mismos datos que en el ejemplo anterior, nos puede interesar
contrastas si los dos efectos tardíos son iguales o no.
Ejemplo de R
#Con los datos del ejemplo 3.2
> attach(datos)
> s1 <- datos$frmco_G1 + datos$pcbo_G1
> s2 = datos$pcbo_G2 + datos$frmco_G2
> t.test(s1, s2, var.equal=TRUE)
Two Sample t-test
data: s1 and s2
t = -0.5481, df = 22, p-value = 0.5891
…
95 percent confidence interval:
-6.378402 3.711735
…
> detach(datos)
Ejercicio 3.2
Grupo 1 Grupo 2
A (mes 1) B (mes 2) B (mes 1) A (mes 2)
17 17 21 10
34 41 20 24
26 26 11 32
10 3 26 26
19
Diseños que afectan a la varianza
19 -6 42 52
17 -4 28 28
8 11 3 27
16 16 3 28
13 16 16 21
11 4 -10 42
Recuerde
Definición
20
Bioestadística para no estadísticos
Observe que la fórmula es idéntica a la de comparación de dos medias, pero (1) el error se refiere a
la variabilidad intrasujeto y (2) ‘N’ ahora es la ‘N’ total (cada observación aporta los dos
valores).
Ejemplo 3.5: ¿Cuántos casos totales se necesitan en un diseño paralelo y en uno con
intercambio si =5u, =(9u)2, =(4u)2, =0.05 bilateral y =0.2.
Diseño paralelo:
Con intercambio: N
21
Diseños que afectan a la varianza
Los casos de un mismo centro comparten una quinta parte de la variabilidad total. El nivel de relación o de
similitud entre los casos de un mismo centro se puede cuantificar en un una quinta parte, aproximadamente. La
respuesta de un niño de un centro no es independiente de la de los otros niños del mismo centro. Conocida la
respuesta de un niño de un centro, ya dispongo de algo de información sobre los otros niños del mismo centro.
1.2.
1.3. pacientes en cada cluster.
b. En caso de definir la respuesta como la diferencia entre la medida basal y la final, la varianza de la variable es:
d. Dado que la varianza en caso de utilizar la puntuación del cambio como respuesta es menor, el análisis del
cambio es el diseño más eficiente de los dos propuestos.
2.2.
a. Usando el diseño ANCOVA y algunos resultados calculados en el anterior ejercicio, la varianza de la variable
principal es:
c. De todos los análisis efectivos, el más eficiente es el ANCOVA, ya que es con el que se obtiene una variable
respuesta con menor varianza.
3.1. (1) Falsa; (2) Cierta; (3) Falsa; (4) Falsa; (5) Cierta, se comparan las medias de las diferencias de la respuesta entre
el primer y segundo periodo entre ambas secuencias mediante la t-d’Student; (6) Cierta; (7) Falsa.
3.2.
1. Se utiliza la función t.test de R:
> datos = read.table("clipboard", header = T)
> d1 = with(datos, A_m1 - B_m2)
> d2 = with(datos, B_m1 - A_m2)
> # Efecto directo del tratamiento
> t.test(d1, d2, var.equal=TRUE)
Two Sample t-test
data: d1 and d2
t = 2.6792, df = 18, p-value = 0.01531
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.820304 31.579696
sample estimates:
22
Bioestadística para no estadísticos
mean of x mean of y
4.7 -13.0
Se obtiene un p-valor inferior al 5%, por lo que se rechaza la hipótesis nula de efectos iguales. A esta misma
conclusión se llega con el intervalo de confianza.
5. El código de R así como el resultado del contraste de si hay igualdad en los dos efectos residuales se muestra a
continuación:
> # Efecto residual del tratamiento
> s1 = with(datos, A_m1 + B_m2)
> s2 = with(datos, B_m1 + A_m2)
> t.test(s1, s2, var.equal=TRUE)
Two Sample t-test
data: s1 and s2
t = -1.737, df = 18, p-value = 0.09947
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-34.247451 3.247451
sample estimates:
mean of x mean of y
29.5 45.0
Se obtiene un p-valor superior al 5%, por lo que se no se puede rechazar la hipótesis nula: el efecto residual es el
mismo en ambos tratamientos.
23
Tema 14
2014
Control del riesgo alfa
Presentación ...................................................................................................................... 3
1. Multiplicidad ................................................................................................................ 4
1.1. Objetivo del EC ..................................................................................................... 6
1.2. Hipótesis frente a premisas .................................................................................... 7
1.3. Error global (Family Wise Error o FWE) .............................................................. 8
1.4. Control disminuyendo el riesgo individual ........................................................... 8
1.4.1. Método de Bonferroni .............................................................................. 8
1.4.2. Método de Sidák ....................................................................................... 9
1.5. Grado de nulidad de la hipótesis.......................................................................... 10
1.6. Rechazo secuencial de hipótesis .......................................................................... 10
1.7. Método de pruebas cerradas bajo intersección* .................................................. 13
1.8. Pruebas fisherianas y métodos de remuestreo* ................................................... 13
2. Monitorización. EC adaptativos ................................................................................. 15
2.1. Monitorización..................................................................................................... 16
2.1. Análisis interinos ................................................................................................. 17
2.2. Diseños adaptativos ............................................................................................. 18
2.3. Razones para detener un ensayo .......................................................................... 19
2.1. Pasar de no inferioridad a superioridad ............................................................... 20
3. Ensayos clínicos secuenciales .................................................................................... 21
3.1. Control del riesgo α. Ajuste por multiplicidad .................................................... 23
3.2. Pruebas de Pocock y O'brien-Flemming ............................................................. 24
3.3. Prueba triangular*................................................................................................ 27
3.3.1. Cálculo de los estadísticos B y V ........................................................... 28
3.3.2. Reglas de decisión .................................................................................. 29
3.3.3. Caso de diseño con 2 análisis ................................................................. 29
3.4. Controversia sobre los diseños secuenciales* ..................................................... 31
Soluciones a los ejercicios .............................................................................................. 33
2
Bioestadística para no estadísticos
Presentación
Este capítulo aborda como adaptar el riesgo α a las necesidades del estudio al mismo
tiempo que garantiza que a nivel global no supera el límite deseado –usualmente un 5%.
La segunda parte explica los diseños que permiten adaptar el reclutamiento, tamaño
muestral, criterios de inclusión, variable principal, o la razón de asignación a los
tratamientos —por ejemplo, pueden ser modificados durante su ejecución dependiendo
de los resultados obtenidos en el análisis. Por supuesto, debe especificarse así en el
protocolo, ya que de lo contrario el diseño no sería adaptativo.
La tercera parte aborda los ensayos clínicos secuenciales, por ser los adaptativos más
frecuentes y mejor aceptados por las agencias reguladoras. En esta clase de diseños, la
adaptabilidad hace referencia al tamaño muestral, ya que éste dependerá de los
resultados obtenidos en análisis intermedios. Los datos son analizados en determinados
instantes pre-establecidos con el fin de demostrar la eficacia del tratamiento o la
futilidad del diseño para establecerlo. De esta forma, se actualiza la información
hipotética usada en el cálculo del tamaño muestral y se puede alcanzar una conclusión
en el momento justo, resultando en tamaños muestrales menores que los diseños
clásicos de muestra fija y, por consiguiente, a un coste humano y económico menor, al
mismo tiempo que se agiliza el acceso de los pacientes a las nuevas intervenciones
(parada por eficacia) o se acorta su innecesaria exposición en estudios previsiblemente
‘negativos’ (parada por futilidad).
3
Control del riesgo alfa
1. Multiplicidad
Los riesgos deben gestionarse con prudencia. Hemos aceptado que un estudio asuma un
pequeño riesgo de autorizar una intervención no eficaz, una vez. Pero si este proceso se
repite indefinidamente, sin duda se cometerá este error.
Recuerde
No abuse de las pruebas de hipótesis.
Ejercicio 1.1
Los EC pivote pretenden una decisión, sea cambiar la guía clínica
habitual, sea registrar una nueva intervención. ¿Puede tener ‘k’
variables principales y una variable secundaria?
Recuerde
El protocolo de un EC pivote, si aumenta las variables o las pruebas,
debe definir las reglas de decisión.
4
Bioestadística para no estadísticos
Nota: Asumiendo, por simplicidad, que las 3 pruebas son independientes, se puede calcular
la pérdida de potencia si el proceso exige que las 3 pruebas sean significativas. Tomando una
potencia del 85% para cada prueba i, que equivale a un =0.15, la potencia global es:
( ) ( )
Es decir, que si la intervención tuviera el efecto especificado, las probabilidades de fallar al
intentar demostrarlo serían 0.386, ¡casi un 40%! Ningún promotor querría fallar en 4 de cada
10 intervenciones eficaces.
Recuerde
Perderá potencia si requiere que todas las pruebas sean significativas.
Nota: Asumiendo otra vez independencia entre los resultados de las 3 pruebas y
considerando un =0.05 para cada una, el error de tipo I global sería también mayor de lo
deseado:
( )
Es decir, que si la intervención no tuviera efecto, un 14% de estudios conducirían a
administrarlas: ninguna agencia de regulación aceptaría que 1 de cada 7 intervenciones no
eficaces terminara siendo aconsejada a los pacientes.
Así, cuando basta que una de las pruebas sea significativa para considerar el estudio
positivo, se pierde el control del riesgo y se habla de multiplicidad.
Recuerde
Gasta, consume o pierde el control del riesgo si realiza múltiples
pruebas y se queda con la significativa.
5
Control del riesgo alfa
Ejercicio 1.2
¿Resuelve esta ambigüedad especificar en el protocolo el criterio de
decisión?
Así, las revistas científicas no tienen una postura clara sobre la conveniencia de ajustar
por multiplicidad. En cambio, si la intención es tomar una decisión única en base a
todas las pruebas, el error debe calcularse considerando las diversas opciones que
tiene el estudio de alcanzar su objetivo.
6
Bioestadística para no estadísticos
Las agencias de regulación de intervenciones sanitarias tienen una postura muy clara.
Recuerde
La multiplicidad se define bien en el entorno de decisión.
Ejemplo 1.5: Buysé et al muestran que sus conclusiones son las mismas sea
cual sea el punto de corte que escogen para la variable respuesta.
Ejercicio 1.3
STROBE E&E 12e dice:
a) Hay que poner a prueba las premisas en las que descansa el
estudio y su análisis (como la Normalidad de la respuesta)
b) Conviene hacer análisis de sensibilidad para ver hasta qué punto
las conclusiones son consistentes o bien dependen de las premisas.
c) No dice nada.
Ejercicio 1.4
¿Cuáles de los siguientes dice STROBE E&E 12e que puede abarcar
el análisis de sensibilidad?
a) Criterios de inclusion en los análisis
b) Definición de la exposición
c) Definición de las respuestas
d) Tratamiento de los datos ausentes
e) Sesgos introducidos por el proceso de medida
f) Elecciones concretas en el análisis, como el tratamiento de las
variables cuantitativas.
7
Control del riesgo alfa
Para poder distinguir entre error individual y global, lo primero que hay que definir es
qué abarca el término ‘global’. Para ello, se define a la familia de k pruebas de
significación:
{ } { }
Definición
El riesgo global es la probabilidad de adoptar la decisión
alternativa por rechazar al menos una hipótesis nula de la familia {H}
siendo todas ellas ciertas.
Para obtener un riesgo global igual o cercano al valor deseado (normalmente del
5%), la primera estrategia es disminuir el riesgo individual.
Así, la desigualdad de Boole establece que el riesgo global será, como mucho, la
suma de los riesgos asumidos en todos los contrastes. El método de Bonferroni propone
repartir el riesgo global entre todos los contrastes de forma que la suma de los
8
Bioestadística para no estadísticos
Definición
Para garantizar = con k contrastes, Bonferroni = /k.
Nota: Se trata de una desigualdad: por lo general, el riesgo global será inferior a la suma de
los riesgos individuales: se garantiza que no supera el riesgo global deseado (¡bien!), pero
se podría estar perdiendo más potencia de la necesaria (¡mal!).
Ejercicio 1.5
¿Cuál debería ser el riesgo individual si quiere aplicar el método de
Bonferroni en un EC pivote con 10 variables respuesta principales y
se desea mantener el riesgo global =0.05? Interprete.
Igual que el anterior, Sidák desciende el riesgo individual para obtener un riesgo
global deseado, pero ahora asume independencia entre las pruebas realizadas para
poder multiplicar sus probabilidades.
Definición
Para garantizar = con k pruebas, Sidák = ( ) .
( )
Valor muy similar al obtenido por Bonferroni (0.0167).
9
Control del riesgo alfa
Ejercicio 1.6
a) Idem ejercicio 1.4 para Sidák.
b) ¿Cree que estas 2 estrategias tienen algún efecto colateral?
Nota: Bonferroni y Sidák dan resultados similares si k y son pequeños (demostración por
series de Taylor).
Recuerde
Disminuir el riesgo de la prueba iésima disminuye también la
potencia de esta prueba.
Definición
En una combinación restringida, el rechazo de un contraste implica
cambios en otros.
Como para cometer el riesgo es necesario que H0 sea cierta, sólo hay que controlar la
multiplicidad para el conjunto de Hipótesis que pueden ser simultáneamente ciertas.
Una vez se ha rechazado cierta H0i ya no tiene sentido seguir asumiendo que es cierta y,
por tanto, no es necesario protegerla ante multiplicidad.
Definición
Holm ordena los P valores de más a menos significativos y los pone a
prueba sucesivamente ajustando (Bonferroni) cada uno sólo por las
hipótesis aún no rechazadas.
10
Bioestadística para no estadísticos
Ejemplo 1.10: Los 5 valores de P observados han sido: 0.0021, 0.0093, 0.0137,
0.0324 y 0.1188. Al contrastar el primero debe controlar que hasta k=5 hipótesis
nulas podrían ser ciertas, por lo que >P=0.0021, se
rechaza H01. Pero para contrastar la segunda H02, ya no es necesario protegerse
por si H01 fuera cierta, por lo que K=4 y
>P=0.0093 también se rechaza H012.
Ejercicio 1.7
Termine el proceso de Holm para las 3 siguientes pruebas.
Nota: Shaffer perfiló el método de Holm ajustado sólo por las restantes pruebas que podrían
ser simultáneamente ciertas.
Definición
Hockberg ordena los P valores al revés, de menos a más
significativos y los contrasta sucesivamente ajustando (Bonferroni)
cada uno sólo por las hipótesis previamente no rechazadas.
Ejercicio 1.8
Termine el proceso de Hockberg para las otras 3 pruebas.
Ejemplo de R
11
Control del riesgo alfa
Ejercicio 1.9
¿Por qué cambia la conclusión para la prueba “[3,] 0.014” de los 4
métodos anteriores?. ¿Por qué coinciden 2 a 2?
Ejercicio 1.10
Se ha realizado un ECA para estudiar el efecto de los hábitos
higiénicos (ejercicio, dieta, siesta,...) en 7 variables de constantes
vitales y lipemias obteniendo: PAS P= 0.012; PAD P= 0.011; FC
P=0.467; HDL P=0.006; LDL P=0.314; CT P=0.123; y T P=0.08.
Realice un ajuste por multiplicidad para un global de 0.05, según
los métodos de (a) Bonferroni, (b) Sidak, (c) Holm (+Bonferroni) y
(d) Hochberg (+Bonferroni).
Nota: los métodos de Newman-Keuls y de Duncan son aplicaciones del método secuencial a
las comparaciones entre k grupos.
12
Bioestadística para no estadísticos
Ejercicio reto
Un fármaco ha sido probado a dosis de 0, 1, 2, 3, 4, 5 y 6 mg/Kg en 7
subgrupos de 3 casos cada uno, habiéndose obtenido las respuestas
medias 12.88, 12.86, 12.82, 14.12, 14.08, 13.99 y 14.00, con una
desviación típica común intragrupo (pooled: SP) de 0,617. El límite de
significación de tablas es t14,0.975=2.145 (ya que SP está estimada con
14 gdl). Calcule el estadístico t (señal/ruido) para todas la
comparaciones respecto a la dosis de 0 mgr y responda qué dosis son
distintas de la de 0mg/Kg bajo el principio de pruebas cerradas bajo
intersección.
Fisher dijo que, si la hipótesis nula fuera cierta, cualquier asignación posible bajo el
esquema de aleatorización tenía una probabilidad cuantificable de ser observada.
13
Control del riesgo alfa
Ejemplo de R
Ejercicio 1.11
¿Cuántas asignaciones posibles hay si queremos repartir 8 pacientes
en dos grupos de forma equilibrada? ¿Qué probabilidad hay de que la
asignación observada haya sido TTTTCCCC?
Ejemplo 1.14: La PAS de los 4 pacientes asignados a C ha sido 150, 147, 143 y
140; y la de los 4 asignados a T 130, 127, 123 y 120. Las medias respectivas son
145 y 125, con una estimación del efecto de 20 mmHg. Bajo la H0 de T=C, este
reparto tiene la misma probabilidad que cualquier otro, es decir, 1/70≈0.01428.
Es decir, la probabilidad de que, por azar, los 4 pacientes asignados a la
intervención T fueran los 4 de presión más baja es sólo de 0.01428. Cualquier
otra asignación resultaría en una estimación menor del efecto. Por ello, si
ordenamos todas las posibles asignaciones según la magnitud del efecto
observado, vemos que cualquier otra asignación obtendría una estimación del
efecto menor, por lo que el valor de P o “probabilidad de observar un valor
como el observado o más extremo si asumimos cierta H0” es, precisamente,
0.01428. Como es menor que 0.05, se rechaza H0.
Las pruebas fisherianas obtienen (1) todas las posibles asignaciones; (2) el valor de un
estadístico (como el efecto del ejemplo) en todas ellas; y (3) la probabilidad de obtener
un valor igual o más extremo al observado bajo H0.
Nota: En el ejemplo hemos usado la diferencia de medias (efecto) para ordenar las posibles
muestras, pero cualquier estadístico puede ser usado: efecto tipificado o valor del test t de
Student. En lugar de ordenar las diferencias de medias, podríamos ordenar su cociente
señal/ruido (estadístico t); o, incluso, el p valor obtenido en tablas correspondiente a t.
14
Bioestadística para no estadísticos
Recuerde
El p valor ajustado por el método de Fisher proporciona la
probabilidad de obtener un valor más extremo asumiendo que todas
las H0 son ciertas.
Ejercicio 1.12
¿Cuántas asignaciones posibles hay si queremos repartir 30 pacientes
en dos grupos de forma equilibrada? ¿Y si fueran 200? ¿Y 5000?
Si el número de casos crece, los cálculos pueden hacerse pesados, incluso para un
ordenador. Una solución es obtener un número finito de sub-muestras, método conocido
como ‘remuestreo por Bootstrap’.
Nota: Los métodos de remuestreo se basan en los datos originales observados e incluyen, de
forma natural, las relaciones entre las pruebas consideradas, por lo que obvian la necesidad
de simplificar y asumir independencia.
2. Monitorización. EC adaptativos
A diferencia de un estudio ‘de laboratorio’, en un EC la información llega de forma
progresiva, lo que debe permitir mejoras. La Tabla 2.1 muestra algunas de ellas.
15
Control del riesgo alfa
2.1. Monitorización
Objetivos se- En los estudios de no-inferioridad, una vez logrado el objetivo, se puede
gún resultados intentar demostrar la superioridad
Tabla 2.1. Adaptaciones deseables en un estudio
16
Bioestadística para no estadísticos
Nota: El soporte de empresas de investigación por contrato suele ser imprescindible. Las
hay muy buenas y conviene seguir fielmente sus protocolos, pero también ser comedido y
decidir recoger solo aquellas variables esenciales para el éxito del estudio, ya que incluir
variables secundarias puede encarecer innecesariamente el estudio o, lo que es peor,
dificultar o el cumplimiento del protocolo o la recogida de la información esencial.
Ejercicio 2.1
¿Cuáles de las adaptaciones de la tabla 2.1. son el resultado de una
planificación optimista (irreal) y deberían haber sido previstas en el
protocolo?
Ejercicio 2.2
¿Cuáles de las anteriores necesitan desvelar el tratamiento asignado y
cuáles pueden hacerse de forma enmascarada?
Ejercicio 2.3
¿Qué consecuencias no deseadas puede tener romper el
enmascaramiento de los datos pasados?
Se trata de analizar los resultados parciales del estudio para valorar si conviene tomar
decisiones que alteren aspectos esenciales del mismo. Los diseños adaptativos definen
en el protocolo el proceso para tomar estas decisiones. Para evitar que el conocimiento
de estos resultados parciales pueda condicionar el comportamiento futuro de los
investigadores y dificultar la interpretación conjunta de los resultados, conviene crear un
grupo externo de expertos independientes que asesoren al comité ejecutivo.
Ejemplo 2.1: NIH creó un grupo de trabajo que publicó sus guías para la
investigación cráneo-facial y dentista.
Ejemplo 2.2: (Extraído de Yun-Fan, 2004) The data and safety monitoring board consisted
of three independent hepatologists, who were not members of the end-points committee, and
an independent statistician. The board protected the ethical interests and safety of the
patients by reviewing interim analyses. The board was empowered to recommend termination
17
Control del riesgo alfa
of the study on the basis of safety concerns or as soon as sufficient evidence indicated that
lamivudine was statistically superior to placebo or that lamivudine did not provide a
significant advantage over placebo. (,,,) the study was terminated at the second interim
analysis, because results had crossed the predefined boundary for showing efficacy .
Recuerde
Un comité independiente del equipo investigador, conocedor del
grupo de intervención asignado, analiza eficacia y seguridad; y decide
sobre la continuidad o no del estudio.
Nota: Este análisis suele centrarse en eficacia, ya que el estudio de seguridad abarca efectos
generalmente imprevistos, lo que impide diseñar el estudio con control de los riesgos
estadísticos. El análisis de seguridad será, por lo general, descriptivo: la simple observación
de eventos no esperados ni deseados puede ser determinante para parar el estudio.
Ejercicio 2.4
¿Cuáles de las siguientes son ciertas? (1) el análisis de la calidad de
los datos y del ritmo de reclutamiento no necesita desvelar el grupo de
intervención; (2) el estudio de la adhesión al protocolo de intervención
suele no necesitar desvelar el grupo de intervención; (3) para poder
ser considerado como adaptativo, el proceso de decisión debe estar
especificado en el protocolo; (4) el análisis intermedio de seguridad
incluye inferencia estadística; (5) un buen protocolo recogerá el
máximo posible de variables con la máxima calidad; (6) Conviene que
las pequeñas oscilaciones aleatorias de eficacia y seguridad
observadas en los análisis intermedios formales no alteren el
comportamiento futuro de los investigadores.
18
Bioestadística para no estadísticos
Recuerde
Un diseño adaptativo está previsto: no requiere enmiendas.
Estos análisis deben ser realizados por un comité externo para que las evaluaciones
enmascaradas no puedan introducir sesgo. Los análisis no enmascarados y no planeados
de los datos, que pueden conllevar modificaciones, voluntarias o no, en la conducción
del estudio, añaden incerteza a la interpretación de los resultados.
La Tabla 2.2 muestra una lista de motivos para detener un ensayo según la información
proceda de monitorización enmascarada, análisis formales interinos o de fuera del
estudio
Un ensayo clínico, en general, continúa hasta que haya una ventaja significativa de una
de las intervenciones o bien sea poco probable que el estudio pueda demostrar
diferencias. Sin embargo, también existen otras razones basadas en argumentos no
estadísticos, por ejemplo, que el patrocinador vea inviable fabricar el fármaco de
manera adecuada para su producción comercial; o por motivos económicos: falta de
financiación, ausencia de mercado potencial, que la competencia saque al mercado un
fármaco con efectos similares al pretendido…
19
Control del riesgo alfa
Recuerde
Distinga entre parada temprana inesperada e interrupción programada.
Los diseños adaptativos son relativamente recientes y como tales, generan cierto
escepticismo. La Tabla 2.3 resume sus ventajas e inconvenientes conocidos en su corta
historia.
Ventajas Inconvenientes
1. Eficiencia en la obtención de 1. Riesgo de aumento del error tipo I (multiplicidad de
información. análisis). Debe tenerse en cuenta el análisis y discusión.
2. Reducen el tamaño y duración de 2. Estimaciones del efecto sesgadas.
los estudios. 3. Resultados difíciles de evaluar.
3. Permiten incorporar estadios 4. Mayor dificultad de interpretación.
exploratorios en estudios 5. Posibilidad de introducir decisiones subjetivas durante el
confirmatorios. estudio (called operational bias), sobretodo en análisis
4. Mayor probabilidad de alcanzar no enmascarados conllevando sobreestimación de los
los objetivos del estudio. resultados más favorables. El conocimiento de los
5. Mejor comprensión de los efectos grupos de tratamiento o de las diferentes adaptaciones
del tratamiento. del diseño puede influir a los investigadores.
6. La flexibilidad de los estudios 6. Menor tiempo entre estudios para examinar
adaptativos permite la evaluación detenidamente los datos entre fases y poder mejorar el
inicial de un mayor rango de diseño siguiente.
opciones. 7. Las agencias reguladoras del medicamento son todavía
7. Eficiente descarte de opciones reacias a considerar algunos de estos tipos de diseños.
sub-óptimas. 8. En los diseños secuenciales, la interrupción programada
por eficacia podría no aportar suficiente información
sobre seguridad.
Tabla 2.3. Pros y contras de los diseños adaptativos. Adaptada de Muñoz et al.
El objetivo de un estudio es previo a su inicio. Pero podría ser que, una vez
terminado, nos demos cuenta de que podía haber sido más ambicioso.
20
Bioestadística para no estadísticos
Ejercicio 2.5
Las guías desaconsejan cambiar el objetivo de superioridad a no
inferioridad. Repase el punto de sensibilidad en el capítulo 13 y
busque argumentos para este consejo.
Ejercicio 2.6
¿Cuál es la principal conclusión de la discusión de la agencia europea
del medicamento sobre el intercambio de objetivos de no inferioridad
y superioridad
Recuerde
A inicios de 2014, hay 2 ensayos adaptativos bien aceptados: diseños
secuenciales y pasar de no inferioridad a uno más ambicioso de
superioridad.
21
Control del riesgo alfa
Ejercicio 3.1
El efecto de la intervención y la dispersión de la variable
respuesta ¿forman parte de la definición del objetivo y de las hipótesis
o de las premisas? ¿Qué parece más atrevido: actualizar los objetivos
o las premisas?
Definición
El análisis secuencial realiza pruebas de hipótesis por etapas.
Recuerde
Los momentos de los análisis intermedios dependen de la cantidad de
información acumulada (número de pacientes o eventos).
Recuerde
Los criterios de parada están en el protocolo y son estadísticos.
Los motivos formales para detener el estudio en un análisis intermedio pueden ser:
Por seguridad. Si una de las intervenciones conlleva muchos eventos adversos.
Por eficacia. Si demuestra eficacia de una de las intervenciones.
Por futilidad. Si los objetivos no son alcanzables.
22
Bioestadística para no estadísticos
Ejercicio 3.2
Vaya a la página principal del NEJM y busque a través de su buscador
la palabra "interim". Escoja uno de los ensayos clínicos que le retorne
el motor de búsqueda que tenga una antigüedad mayor de seis meses
[libre acceso]
Encuentre en el artículo:
a) ¿Quién se encarga de llevar a cabo los análisis intermedios?
b) ¿Se detuvo el ensayo en un análisis intermedio?
c) Si fue así, ¿cuál fue el motivo de la detección? ¿Cuántos pacientes
habían entrado hasta la fecha y cuál era el número máximo de
pacientes previstos para el ensayo?
Para obtener un resultado positivo + en el final F se tiene que (1) haber pasado
el inicial I sin detectar eficacia (probabilidad de 0.95 bajo H0); y (2) obtener +
en el F (0.05 bajo H0). Entonces el riesgo global αG bajo H0 es:
=P(+|noE) = P(+ en I| noE) + P[+ en F| (- en InoE)]= 0.05 + 0.05·0.95 = 0.0975
Nótese que el riesgo global es de casi el 10%, el doble de lo deseado.
Ejercicio 3.3
Calcule el riesgo global αG suponiendo 3 análisis (2 intermedios, I1 e
I2 y uno final, F), cada uno de ellos con un riesgo α = 0.05
23
Control del riesgo alfa
Existen varias formas para repartir este riesgo. En los ensayos secuenciales, los métodos
más habituales son el de Pocock (asignación de riesgo algo mayor al inicio) ó el de
O'Brien-Flemming (asignación mayor al final). Este último es más recomendable ya que
concentra el riesgo cuando se dispone de mayor información, lo que preserva la
potencia final del estudio.
Además de este enfoque que reparte el riesgo según la función de gasto de α, está la
definición de puntos fronteras (Prueba Triangular) que además pretende poder parar el
estudio si disminuyen las posibilidades de éxito.
Su uso es simple, porque permite la realización de los análisis intermedios sin tener en
cuenta las múltiples pruebas, únicamente considerando que habrá unos valores críticos
variables en cada análisis.
Pocock O’Brien-Fleming
Valor Gasto de α α Valor Gasto de α α
crítico acumulado crítico acumulado
1r Análisis 2.41 0.016 0.016 4.23 0.000 0.000
2º análisis 2.41 0.012 0.028 2.89 0.001 0.001
r
3 análisis 2.41 0.009 0.037 2.30 0.007 0.008
4º análisis 2.41 0.007 0.044 1.96 0.017 0.024
5º análisis 2.41 0.006 0.050 1.74 0.026 0.050
24
Bioestadística para no estadísticos
Nota: En la tabla del ejemplo anterior se asume que el reparto de los participantes es
equitativo entre análisis, es decir, si se han reclutado X pacientes después del primer análisis,
después del segundo se habrán reclutado 2X, después del 3º, 3X y así sucesivamente.
Ejercicio 3.4
Un médico de familia desea comparar dos tipos de tratamientos para
dejar de fumar: parches de nicotina y Vareniclina. Diseña un estudio
donde el primer análisis intermedio lo realiza con los primeros 20
voluntarios (por grupo) que desean dejar de fumar. Al terminar el
seguimiento, en el grupo de los parches siguen sin fumar 8 de los 20,
por 16 de 20 en el de Vareniclina. Basándose en el estadístico de más
abajo, y según el criterio de Pocock, ¿debe finalizar el estudio?¿Y
según O'Brien-Flemming?
√ ( ) ( )
En R, la función groupseq del paquete GroupSeq permite calcular los límites para un
número determinado de análisis intermedios con una interfaz muy amigable.
Ejemplo de R
25
Control del riesgo alfa
26
Bioestadística para no estadísticos
-1- K=5
Function:O'Brien-Fleming Type, alpha=0.05
4
Standardized Z-Value
3
2
1
0
Ejercicio 3.5
Con el paquete GroupSeq, calcule los valores de los límites para un
ensayo con cuatro análisis intermedios equidistantes y con pruebas
unilaterales (α = 0.025) para Pocock y O'Brien-Flemming
Suponga que sólo desea demostrar que el tratamiento en estudio es superior y no tiene
interés en demostrar que es inferior. A cambio, quiere poder parar el estudio pronto si
disminuyen las posibilidades de alcanzar el objetivo de demostrar eficacia.
Estos estadísticos se dibujan en un plano junto con los puntos frontera: límites que
indican la finalización del estudio. Estos estadísticos están definidos de forma que sean
independientes entre sí.
27
Control del riesgo alfa
Los límites para los estadísticos están representados por dos líneas (roja y lila
punteada) que conjuntamente con el eje de ordenadas forman un triángulo (de
ahí el nombre). Los puntos azules denotan los valores de los estadísticos B y V
en los 3 primeros análisis (ver tabla siguiente).
B V
r
1 análisis 10 40
2º análisis 20 80
r
3 análisis 30 120
El estudio finalizó después del 3r análisis ya que los estadísticos rebasaron la
frontera. Al sobrepasarla por encima, el estudio demostró el beneficio del
tratamiento C respecto a P.
28
Bioestadística para no estadísticos
Tipo de respuesta
Tiempo hasta
Normal Dicotómica un evento
C E Total C E Total
( )
Efecto (θ) { } θ = Ln(HR)
( )
⁄ Bi = estadístico
Bi { } { ( )}
LogRank
Vi ≈ #events / 4
29
Control del riesgo alfa
En diseños con más paradas hay que ampliar el número de restricciones adicionales.
Ejercicio 3.6
Ojee el artículo de Bolland et al. sobre el análisis de un diseño
secuencial aplicado al estudio ICTUS y conteste las siguientes
cuestiones:
30
Bioestadística para no estadísticos
La estimación del efecto del tratamiento en los ensayos que finalizan de forma temprana
mostrando beneficio de alguna de las intervenciones, está sesgada en el sentido de que
magnifica el efecto de la intervención.
31
Control del riesgo alfa
^
1U ^
1U
^ ^
2U 2U
^
^
^
2L
^ ^
2L 1L
^
1L
Análisis Análisis
Obsérvese, por ejemplo, que para el primer análisis, el promedio de los 100 efectos
coincide con el valor real, pero si nos centramos únicamente en los resultados
significativos de la parte superior, su promedio es muy superior al valor real. Esta es la
explicación del sesgo. El valor esperado del efecto en el primer análisis intermedio
coincide con el valor real del efecto, pero el valor esperado del efecto en el primer
análisis condicionado a que se ha parado por eficacia, no coincide en absoluto.
Desgraciadamente, Stephen Senn explica que este sesgo aplica de forma más genérica a
todo tipo de ensayos. Un diseño insesgado es aquel en el que el promedio de todos los
resultados posibles coincide con el valor del auténtico parámetro de interés. Pero eso no
implica que el promedio de todos los parámetros coincida con la estimación obtenida.
Posiblemente, se trata de una versión moderna del problema de regresión a la media.
32
Bioestadística para no estadísticos
1.2 Sí. Por ejemplo, una variable podría ser principal, concentrando los riesgos, y la otra secundaria, con
valor para ratificar que, si los resultados se solapan razonablemente, un análisis de sensibilidad de las
conclusiones a las elecciones del diseño confirma que otras elecciones llevan a conclusiones
similares. También, haber especificado ambas como principales y que era preciso que ambas debían
ser significativas. Pero si hubieran dicho que el resultado sería positivo si cualquiera fuera positiva,
entonces, habría que ajustar –y perder la significación.
1.3 La correcta es la b: “Sensitivity analyses are useful to investigate whether or not the main results are
consistent with those obtained with alternative analysis strategies or assumptions”. Si encuentra en
las guías algo que apoye la afirmación ‘a’, les rogamos que nos informe.
1.4 Menciona todas ellas como premisas en las que descansa un estudio observacional. Un buen análisis
de sensibilidad debería descartar que las conclusiones dependan de alguna de ellas.
1.5 0.05/10=0.005. Al menos una prueba debería ser significativa al 0.5% para que el estudio fuera
positivo.
b) Sí, al pedir un riesgo más pequeño, las probabilidades de alcanzar resultados positivos
disminuyen: se pierde potencia.
1.7 Siguiendo el proceso, al poner a prueba H03, debe controlar que hasta k=3 hipótesis nulas podrían ser
ciertas, por lo que , se rechaza H03. Pero al poner a prueba H04
, nada se opone a aceptar H04 y se para el proceso. En resumen,
rechazamos las 3 primeras y aceptamos las 2 últimas.
1.8 Siguiendo el proceso de Hockberg, al poner a prueba el tercero hay que tener en cuenta que 3 podrían
ser simultáneamente ciertos, por lo que , se rechaza y se
para el proceso, llegando a la misma conclusión anterior.
1.9 Las pruebas de Bonferroni y Sidak ajustan por 5 posibles hipótesis nulas siempre, pero los otros 2
solo por las que quedan por rechazar (Holm) o las ya no rechazadas (Hochberg), 3 en ambos casos:
0.014*3≈0.041.
1.10
(a) Ajuste por Bonferroni:
Al poner a prueba las diferentes hipótesis, se considera un :
Observamos que todos los P valores obtenidos, excepto el obtenido para HDL, son mayores que el
nivel de significación individual ajustado, por consiguiente, se rechaza la hipótesis nula de HDL y
se aceptan el resto.
33
Control del riesgo alfa
Ejercicio reto. Como todas las comparaciones son entre el grupo 0 con 3 casos y los 3 casos del otro
grupo, el error típico es: 0.617*raíz(2/3)≈0.504, por lo que los 6 t-test valen -0.040, -0,119, 2.461, 2.382,
2.203 y 2.223. Empezamos por poner a prueba la dosis de 6 g y sólo seguimos si fuera significativa (para
proteger el global): Rechazamos todas excepto las de 1 y 2 g.
34
Bioestadística para no estadísticos
[1] 9.054851e+58
Con 200 pacientes, el resultado tiene casi 60 cifras antes del punto decimal. Un reto incluso para el
Mare Nostrum de la UPC.
Y, si se quieren asignar 5000 pacientes en dos grupos de 2500:
> choose(5000,2500)
[1] Inf
Observe como el número de combinaciones posibles es tan alto que R da cómo respuesta infinito.
2.1. Los puntos que deberían de haberse previsto de forma más efectiva en el protocolo son, por lo
menos:
(1) El criterio de elegibilidad. El objetivo de añadir criterios de elegibilidad es definir una muestra
en el que el efecto de la intervención sea homogéneo. A los investigadores les gusta añadir
muchos criterios de entrada y esto provoca que se disponga de pocos pacientes.
(2) El tiempo de recolección de los datos.
(3) Los eventos primarios y secundarios.
2.2. Los procesos en los que es necesario desvelar el tratamiento asignado son:
(1) Proceso de aleatorización
(2) Regímenes de tratamientos
(3) Tamaño muestral
(4) Introducción de tratamientos concomitantes
2.3. El conocimiento de la intervención a realizar puede influir en la actitud del responsable de
administrar el tratamiento, del sujeto experimental que recibe la intervención o del analista que
procesa la información resultante de la intervención. Este fenómeno puede llevar al error sistemático
o sesgo.
2.4. Son ciertas todas excepto la (4) y la (5). La (4) porque el análisis intermedio de seguridad no
requiere realizar inferencia y la (5) porque es una barbaridad.
2.5. Como los estudios de superioridad si salen positivos no necesitan probar la sensibilidad del estudio
(capacidad para demostrar que, caso de que hubieran diferencias, el estudio hubiera podido
establecerlas), al diseñarlos no se deja establecida su sensibilidad. Por tanto, si un estudio no logra
demostrar superioridad, no puede argumentarse que podría establecer equivalencia o no inferioridad
al no poder garantizar su sensibilidad.
3.1 define la hipótesis alternativa y forma parte, por tanto, de los objetivos del estudio; pero , de las
premisas. Por supuesto, cambiar los objetivos del estudio es mucho más comprometido.
35
Control del riesgo alfa
3.3 αG = P(+|noE) = P(+ en I1| noE) + P(+ en I2| noE) + P(+ en F| noE) = 0.05 + 0.95·0.05 +
0.95·0.95·0.05 = 0.143
Con el criterio de Pocock se pararía el estudio ya que |Z| = |-2.58| = 2.58 > 2.41. Con el criterio de
O'Brien-Flemming no se pararía ya que |Z| = |-2.58| = 2.58 < 4.23
3.5 Pocock: 2.36 en todos los análisis; O'Brien: 4.3326, 2.9631, 2.359 y 2.01.
3.6 a) α = 0.05; potencia = 0.80 ; b) n =2421 ; c) 4 análisis con n's = 1000, 1533, 2067 y 2600; d) UL
=25.28 en todos los análisis y LL = -5.83, 4.54, 14.90 y 25.28; e) αi = 0.0006, 0.0046, 0.0136 y
0.025; f) αi = 0.0001, 0.0023, 0.0101 y 0.025; g) 0.0749
36
Tema 15
Revisión sistemática y
meta-análisis
2014
Revisión sistemática y meta-análisis
Presentación ...................................................................................................................... 3
1. Introducción .................................................................................................................. 4
2. Heterogeneidad ............................................................................................................. 9
3. Meta-análisis ............................................................................................................... 13
4. Visualizando el meta-análisis...................................................................................... 26
2
Bioestadística para no estadísticos
Presentación
Este capítulo aborda las complejas circunstancias en las que se mueve una revisión sistemática. El
objetivo es que el lector sea consciente sobre todo de las dificultades que implica su realización,
especialmente si suponen una introducción de sesgos en la estimación del efecto de intervenciones
clínicas. Los autores de revisiones sistemáticas publican sus conclusiones y, como todos los autores,
pueden omitir consciente o inconscientemente limitaciones que tienen consecuencias en los
resultados. Otro objetivo del capítulo es que el lector pueda interpretar correctamente la parte
estadística de la revisión, conocida como meta-análisis. Con ayuda de R, contiene también las bases
que permitan ejecutar análisis básicos con datos propios. Finalmente, el capítulo incluye las
necesarias referencias a la declaración PRISMA, de modo que el lector la pueda utilizar como
fundamento para leer críticamente una publicación basada en una revisión sistemática.
Contribuciones: José Antonio González escribió esta versión que ha sido revisada por Erik Cobo y
editada por Marta Vilaró.
3
Revisión sistemática y meta-análisis
1. Introducción
El progreso científico, observado en detalle, no siempre es un proceso lineal. De hecho, ha
evolucionado para ser así, bajo el paradigma teórico-empírico que le obliga a formularse modelos
plausibles, mientras la realidad no sea tozudamente contradictoria. En ocasiones la ciencia hace un
alto para mirar a su alrededor. De esto vamos a hablar en las páginas que siguen. Quien hace una
revisión sistemática decide en un momento dado detener su avance individual para recapitular,
examinando todo el recorrido anterior, y no solo el suyo sino —mucho más importante— el de sus
compañeros de expedición.
En las ciencias de la salud, en especial, lo que revela este examen del statu quo es principalmente la
cantidad de estudios realizados en torno a cierta cuestión, y la variabilidad de los resultados
obtenidos por los investigadores que antecedieron a nuestro explorador. El origen de esta diversidad
es múltiple: aparte de la incertidumbre propia de los participantes escogidos en cada estudio, estos
fueron realizados en condiciones diferentes. El momento, el lugar o lugares, los criterios de
inclusión de pacientes, las formas de administración de las intervenciones o las variables recogidas
para su análisis, todo esto forma parte de la idiosincrasia de un estudio determinado.
Asumir la variabilidad presente como algo constructivo supone tratar de sintetizar la información
disponible. Las preguntas fundamentales a responder son: 1) ¿Podemos encontrar evidencias de que
una intervención es eficaz? Aún más: ¿Podemos aumentar la precisión disponible, y mejorar la
estimación del efecto de la intervención? 2) ¿La dispersión en sí es informativa? ¿Cuáles son las
fuentes de tal heterogeneidad?
4
Bioestadística para no estadísticos
Y la mayor parte de ellos sabe que se trata de una recopilación de diferentes estudios, compartiendo
un objetivo común. Por ejemplo, la Figura 1.1 busca la determinación de un efecto protector de la
aspirina (o fármacos similares) contra accidentes vasculares. Nuestro propósito en este capítulo es
que el lector conozca los conceptos más importantes asociados al mundo de las revisiones
sistemáticas y sea capaz de elaborar las suyas propias, o bien de interpretar críticamente una
revisión de otros autores.
Veamos primero una definición presente en el Diccionario de gestión sanitaria para médicos:
Definición
5
Revisión sistemática y meta-análisis
A systematic review attempts to identify, appraise and synthesize all the empirical evidence that
meets pre-specified eligibility criteria to answer a given research question. Researchers conducting
systematic reviews use explicit methods aimed at minimizing bias, in order to produce more reliable
findings that can be used to inform decision making.
La Colaboración Campbell, para educación y ciencias sociales, menciona, como requisitos para
minimizar sesgos:
A systematic review must have: (1) Clear inclusion/ exclusion criteria, (2) An explicit search
strategy, (3) Systematic coding and analysis of included studies; and (4) Meta-analysis (where
possible)
Ejercicio 1.1
b) Eligible studies were randomized controlled trials (RCTs) and cohort studies
examining the effects of BMC transplantation on cardiovascular outcomes in
patients with IHD.
c) […] were eligible for inclusion in this study: (i) RCTs, (ii) participants with a
clinical diagnosis of AMI, (iii) the intervention consisted of any autologous
BMSCs freshly isolated without restriction by dose or administration route,
(iv) in the comparator arm participants did not receive BMSC (e.g. control
media or plasma), and (v) co-interventions were allowed provided they were
equally applied to each treatment arm. Trials were excluded on the basis of
BMSCs cultured in vitro for longer than 24 h prior to infusion, as this may
result in enrichment of a particular progenitor cell population.
6
Bioestadística para no estadísticos
f) 19 RCTs (18 papers) in 1650 patients with IBS were identified. […]. There
were 10 RCTs involving 918 patients providing outcomes as a dichotomous
variable. Probiotics were statistically significantly better than placebo (RR of
IBS not improving=0.71; 95% CI 0.57 to 0.88) with a number needed to treat
(NNT)=4 (95% CI 3 to 12.5). There was significant heterogeneity (χ2=28.3,
p=0.001, I2=68%) and possible funnel plot asymmetry.
Recuerde
7
Revisión sistemática y meta-análisis
El meta-análisis es solo una parte de una revisión sistemática. Meta-análisis es la técnica estadística
que combina los resultados de estudios individuales para sintetizar sus resultados y dar una
estimación global. El término fue introducido por Glass en 1976, en el campo de la psicología.
Puede darse el caso de una revisión sistemática sin meta-análisis; sin embargo, lo contrario no tiene
lógica. Podemos aplicar la técnica del meta-análisis a un conjunto arbitrario de estudios (aunque
estén centrados en la misma cuestión clínica), pero si no ha habido intención de realizar una
búsqueda exhaustiva, y se han elegido de forma caprichosa, la estimación resultante pierde su valor.
Recuerde
Por supuesto, pueden usarse bases de datos específicas en un tema concreto. Complementariamente,
puede llevarse a cabo un proceso manual, mediante las referencias presentes en los artículos
hallados previamente, o consultando directamente con expertos en el área. La inclusión de la
llamada “literatura gris” (trabajos no publicados o aparecidos en publicaciones de segundo orden,
que los buscadores no suelen sacar a la luz) es importante, ya que contribuye a reducir el sesgo de
publicación.
8
Bioestadística para no estadísticos
Tengamos en cuenta que el proceso de búsqueda idóneo se enfrenta a varios retos: maximizar la
recuperación de literatura relevante y minimizar la recuperación de la irrelevante. Inevitablemente,
debe hallarse un compromiso entre la cantidad y la calidad del material seleccionado en primera
instancia. Construir una fórmula (utilizando lógica booleana) apropiada que emplee los términos
más significativos para escoger un original es una operación delicada, de la que dependen en gran
medida los resultados obtenidos.
Ejemplo 1.1: La declaración PRISMA contiene un ítem, “Búsqueda”, que pide a los
autores: “Presentar la estrategia completa de búsqueda electrónica en, al menos, una base de
datos, incluyendo los límites utilizados, de tal forma que pueda ser reproducible”. Además
de aportar transparencia al estudio, esta propuesta persigue generar una colección de
ejemplos dignos de ser imitados por otros investigadores.
Recuerde
2. Heterogeneidad
Desde el momento en que se dispone de un número suficiente de estudios se pone de manifiesto que
existe una enorme variabilidad en los resultados. De hecho, cualquier experto en el tema a
investigar conoce de antemano que hay discrepancias notables en los precedentes, ya antes de
iniciar un proceso sistemático.
9
Revisión sistemática y meta-análisis
Recuerde
La variabilidad es consustancial a los estudios clínicos, por las importantes diferencias biológicas
existentes entre los pacientes y participantes en general. Los ensayos clínicos controlados y
aleatorizados combaten este factor, que impide distinguir el efecto de las intervenciones, mediante
un número suficiente de participantes tal que probabilísticamente sea casi seguro que podremos
detectar una diferencia relevante, si es que esta existe. Sin embargo, en este tipo de estudios, los
participantes son seleccionados con los mismos criterios, de manera que a priori la población que
entra en un brazo del estudio es igual que la de otro brazo (suponiendo que no se introducen sesgos
indeseados). Idealmente, entre grupos de tratamiento no hay heterogeneidad: hablamos de
variabilidad sensible al muestreo. Si por azar se hubieran elegido otros individuos los resultados
habrían cambiado en el detalle, y muy probablemente los números generales no se habrían
modificado sustancialmente.
Por supuesto, en muchos ensayos clínicos hay factores diferenciales entre participantes: por
ejemplo, es habitual que en un estudio intervengan centros diversos, a menudo de distintos países (y
continentes). Sin embargo esta diversidad es intencionada, con el fin de poder alcanzar el mayor
grado de generalidad posible.
Ejemplo 2.2: Intervenciones para el dolor en la región lumbar. Este trabajo del año 2009
obtuvo material organizado según 8 técnicas distintas: In total 83 randomized controlled
trials met the inclusion criteria: exercise therapy (n = 37), back school (n = 5), TENS (n =
6), low level laser therapy (n = 3), behavioural treatment (n = 21), patient education (n =
1), traction (n = 1), and multidisciplinary treatment (n = 6). En vez de combinar todos los
estudios de una vez, el análisis se ha efectuado por separado según cada una de las técnicas.
De todos modos, aunque mezcláramos todos los estudios hallados y obtuviéramos un resultado
conjunto, ¿sería de alguna utilidad? ¿Cómo se interpretaría? Cuando tenemos intervenciones muy
diferentes, combinarlas no tiene sentido desde el punto de vista clínico.
10
Bioestadística para no estadísticos
En la literatura se diferencia entre heterogeneidad clínica (por ejemplo, diferencias entre pacientes,
intervenciones, respuestas, etc.), y heterogeneidad metodológica (relacionada por ejemplo con el
diseño del estudio, o el origen de determinado sesgo). La heterogeneidad estadística hace referencia
a la variabilidad de las estimaciones de los efectos del tratamiento estimados en los diferentes
estudios, y en gran medida tiene su origen en la heterogeneidad metodológica y clínica. Por
ejemplo: los ensayos clínicos que no realizan de forma adecuada la ocultación de la asignación a los
grupos de tratamiento son propensos a sobreestimar el efecto de la intervención.
La heterogeneidad clínica aparece cuando esta variabilidad del efecto está ligada a un factor,
característica o condición del paciente. Sin embargo, una diversidad de estas condiciones no implica
a la fuerza una variación en el efecto del tratamiento. Tampoco la heterogeneidad metodológica
supone necesariamente que exista un efecto del tratamiento variable.
Recuerde
Ejercicio 2.1
11
Revisión sistemática y meta-análisis
Por otro lado, la posición del investigador o del clínico ante la heterogeneidad clínica es algo
diferente. Cuando él o ella observa “Este trabajo presenta divergencias respecto al grueso del estado
del arte”, respecto a la heterogeneidad metodológica, la pregunta que viene a su cabeza será algo
como: “¿será porque contiene deficiencias metodológicas?”. Mientras que respecto a la
heterogeneidad clínica la pregunta sería: “¿será porque hay en él alguna característica de los
participantes que difiere del resto de los trabajos, y está asociada con la respuesta?”.
Una cosa es cuantificar un efecto estimado, incluida su variabilidad, y otra distinta sería poner el
foco en los motivos por los que el efecto es variable. Por supuesto, una revisión sistemática puede
adoptar cualquiera de las dos posiciones, y las dos son válidas. Pero una postura “exploratoria”
tiene mayor aplicación a la toma de decisiones. Un interesante trabajo de Gagnier et al. pone de
relieve que todavía hay un soporte insuficiente para la investigación en temas de heterogeneidad
clínica, al contrario de la de origen metodológico. En su estudio señalan que existe poco consenso al
respecto, aunque recogen una extensa colección de ideas que pueden servir para guiar un proceso
más formal. Apuntamos una síntesis de esas ideas en la Tabla 2.1:
Planificación a priori
Experiencia clínica
Fundamento de las covariantes
Pensar a través de las categorías de las covariantes
Jerarquía de las covariantes
Identificación de covariantes post-hoc
Métodos estadísticos
Fuentes de datos
Interpretación
Tabla 2.1 Síntesis de ideas. Tabla 5 de Gagnier et al.
12
Bioestadística para no estadísticos
3. Meta-análisis
Por supuesto, el tipo de información depende de qué tipo es la variable respuesta, y del análisis
estadístico realizado. Por ejemplo, si la respuesta es dicotómica (curación/no curación, éxitus/no
éxitus) y el estudio compara dos tratamientos A y B, la información puede venir dada de esta forma:
• núm. pacientes recibiendo tratamiento A/B (𝑛𝐴 /𝑛𝐵 )
• para cada grupo, núm. pacientes que ha tenido respuesta positiva (𝑘𝐴 /𝑘𝐵 )
Tratamiento A a = kA b nA
Tratamiento B c = kB d nB
Con estos cuatro números (de cualquiera de las dos formas) se dispone de la información esencial
de un estudio, y se puede hallar tanto la estimación puntual del efecto del tratamiento como el
cálculo de la variabilidad del estimador, que permite calcular intervalos de confianza.
𝑎𝑑
𝑂𝑅 = 𝑏 𝑐
𝑘 /𝑛
RR = 𝑘𝐴/𝑛𝐴
𝐵 𝐵
Ambos casos tienen el 1 como valor neutro: no existen diferencias entre los tratamientos. Sin
embargo, normalmente se toma el logaritmo natural ya que esta transformación logra una
distribución más próxima a la Normal (recordemos que todo estimador presenta incertidumbre por
el azar de la muestra).
13
Revisión sistemática y meta-análisis
1 1 1 1
𝑉(ln(𝑂𝑅)) = + + +
𝑎 𝑏 𝑐 𝑑
𝑘 𝑘
�1 − 𝑛𝐴 � �1 − 𝑛𝐵 �
𝐴 𝐵
𝑉(ln(𝑅𝑅)) = +
𝑘𝐴 𝑘𝐵
Si la variable respuesta es una variable cuantitativa (por ejemplo, cambio en el índice de masa
corporal de pacientes obesos), la información que se requiere de cada estudio sería la siguiente:
• núm. pacientes recibiendo tratamiento A/B (𝑛𝐴 /𝑛𝐵 )
• media muestral de la respuesta en cada grupo (𝑚𝐴 /𝑚𝐵 )
• desviación tipo muestral de la respuesta en cada grupo (𝑠𝐴 /𝑠𝐵 )
En este caso, nótese que la simple diferencia de medias (MD) no representa una medida
estandarizada, de manera que pueda decirse que representa una misma magnitud en cada estudio
recopilado: es habitual que los diferentes estudios definan la variable respuesta con criterios
particulares (por ejemplo, la dosis del tratamiento puede cambiar de un estudio a otro). Por esta
razón, en ocasiones se emplea un efecto estandarizado dado por:
(𝑚𝐴 −𝑚𝐵 )
𝑆𝑀𝐷 = , donde s2 es la variancia pooled de ambas muestras:
𝑠
De esta manera, para los K estudios incluidos en la revisión sistemática, se dispone finalmente de la
siguiente información:
• d1, …, dK, corresponde al estimador del efecto, estandarizado (ln OR, ln RR, SMD, etc.) o
no (MD, etc.)
• v1, …, vK, corresponde a la variancia del estimador dk.
14
Bioestadística para no estadísticos
Ejercicio 3.1
En realidad, los estudios con más participantes no siempre son los que tienen más
peso en el meta-análisis. Invéntese unos datos (basándose en la medida que
quiera, sobre una respuesta dicotómica) en los que se observe está situación.
Antes de abordar la cuestión anterior, introduciremos unas nociones sobre cómo usar R para realizar
un meta-análisis, incluyendo el ajuste de un modelo y las representaciones gráficas más habituales.
Aunque existen varios paquetes diseñados para ello, nos centramos en el package ‘metafor’, uno de
los más completos de entre los disponibles. Para obtener más información acerca de otros paquetes,
consulte la página que CRAN mantiene en su web.
En primer lugar, debe instalar ‘metafor’. En la versión actual (1.9-1) se requiere una versión de R
superior a la 3.0.0, así que actualice su programa R si todavía utiliza una versión 2.X.
Una posibilidad que permitiría combinar los K resultados sería promediar todos los efectos
calculados, a costa de considerar todos los estudios de la misma importancia. En la estimación
ponderada se sigue el siguiente procedimiento:
• Se halla un peso 𝑤𝑘 para cada estudio, igual a 1�𝑣𝑘 , k=1...K
∑ 𝑤𝑘 𝑑𝑘
• Se obtiene la estimación global puntual: 𝐷 = �∑ 𝑤
𝑘
15
Revisión sistemática y meta-análisis
Ejemplo 3.1: La Tabla 3.1 contiene los datos de una revisión sistemática sobre terapias de
rehabilitación en casa para pacientes que han sufrido un ictus. Aparecen solamente seis
estudios asociados con terapias ocupacionales, simplemente a efectos ilustrativos, y para
reducir la heterogeneidad del conjunto (uno de ellos posee el desafortunado nombre de
“Total”, pero solo es un estudio más). Las columnas 'N' se refieren al tamaño de cada grupo
de intervención, y las 'n' a los casos presentados en relación a la variable principal, deterioro
en la capacidad del paciente para llevar a cabo actividades de la vida diaria, o dependencia
para tales actividades, o muerte.
Ejercicio 3.2
Es muy interesante tener en cuenta que ninguno de los estudios originales había encontrado
evidencias de eficacia de la terapia de rehabilitación.
16
Bioestadística para no estadísticos
Ejemplo de R
> library(metafor)
# Este paquete dispone de la función escalc() que permite pasar
de los datos de los estudios (tamaños de cada grupo, medias y
desviaciones tipo, o bien las frecuencias observadas para las
distintas opciones de una respuesta dicotómica) a valores de dk y
vk. Por ejemplo, supongamos que los datos del ejemplo anterior
los cargamos en un data.frame llamado ocupa:
> ocupa = read.table(url("http://www-eio.upc.es/teaching
/best/datos-ejemplos/terapia-ocupa.txt"), header=TRUE)
> dat.ocu <- escalc(measure = "OR", ai = nt, n1i = Nt, ci = nc,
n2i = Nc, data = ocupa, append = TRUE)
# Nótese que se ha especificado que la medida sera un Odds-
Ratio, y que los parámetros ai, n1i, ci y n2i registran las
frecuencias observadas en las correspondientes tablas 2x2. En el
caso del OR y del RR, se adopta la transformación logarítmica.
Otras medidas se explican en detalle en la ayuda de escalc().
Tras esta operación, puede tener lugar el ajuste del modelo:
> res = rma(yi, vi, data = dat.ocu, method='FE')
# yi y vi son las columnas que la función escalc() ha obtenido y
dejado en el data.frame dat.ocu. El parámetro method='FE'indica
que los datos deben ajustarse siguiendo el modelo de efectos
fijos (Fixed Effect).
Ejercicio 3.3
Así, ¿hemos de ver el meta-análisis como una especie de lupa, que permite amplificar efectos
invisibles? Desde luego, en ausencia de heterogeneidad relevante entre los estudios, así funciona.
Tal vez los estudios originales carecían de potencia suficiente para detectar un efecto clínicamente
importante; en este sentido, el meta-análisis ha servido para aglutinar información dispersa y sacarla
a la luz.
Así era considerado el método, cuando aún no se le llamaba por su nombre actual, y era empleado
en los años 30 del siglo XX en investigaciones agrarias. En palabras de Ronald Fisher:
“When a number of quite independent tests of significance have been made, it sometimes
happens that although few or none can be claimed individually significant, the aggregate
gives an impression that the probabilities are, on the whole, lower than would have been
obtained by chance.
17
Revisión sistemática y meta-análisis
It is sometimes desired, taking account only of these probabilities, not of the detailed
composition of the data from which they are derived, which may be of very different kinds,
to obtain a single test of the significance of the aggregate”
Sin embargo, no se deben perder de vista las premisas de las que parte el modelo de efectos fijos,
porque solo si estas se pueden considerar aceptables el resultado es válido. La principal premisa es
que el meta-análisis de efectos fijos realiza una inferencia condicional sobre los K estudios
considerados. Para decirlo de otra forma: no es generalizable a una población diferente de estudios,
es decir, a condiciones diferentes de las contempladas. Desde un punto de vista estadístico
escribiríamos:
• 𝑑𝑘 = 𝜗𝑘 + 𝑒𝑘 , es el efecto estandarizado observado del k-ésimo estudio,
• 𝜗𝑘 es el auténtico (y desconocido) efecto en tal estudio,
• 𝑒𝑘 es una variable aleatoria, con distribución N(0, 𝜎𝑘 ), independiente de otros estudios, que
introduce azar en las observaciones.
Por supuesto, una premisa adicional al obtener el IC es que todos los estudios comparten un mismo
efecto 𝜗. Pero como cualquier otra premisa, esta no es más que una afirmación que se puede poner a
prueba.
𝑄 = � 𝑤𝑘 (𝑑𝑘 − 𝐷)2
𝑘=1
En condiciones ideales, es decir, si realmente todos los estudios estiman de forma insesgada un
único efecto 𝜗, Q sigue una distribución de probabilidad 𝜒 2 con K-1 grados de libertad. Esto
significa que las variaciones individuales, ponderadas por la inversa de la variancia de cada estudio,
se pueden atribuir simplemente al azar, mientras no sean muy grandes. Pero si algún o algunos
estudios se separan del valor común de forma notable, esto se traducirá en un valor Q
inaceptablemente grande. Como referencia, pensemos que el valor esperado de una distribución χ2
con K-1 grados de libertad es precisamente K-1.
Conviene prestar atención a este estadístico: como cualquier otro que se utilice para hacer un
contraste de hipótesis, no hay que llevar una conclusión estadística hasta sus últimas consecuencias.
En concreto, suponiendo que la prueba se realiza con un riesgo α que nos permita decidir si
18
Bioestadística para no estadísticos
rechazamos o no la homogeneidad de los efectos, si el valor P es mayor que α ello no supone que el
modelo de efectos fijos es correcto. Esto es especialmente cierto cuando el número de estudios es
escaso: una de las críticas habituales a la prueba de Q es su baja potencia cuando K es pequeño, por
lo que es relativamente fácil no encontrar significación estadística con Q aunque realmente exista
heterogeneidad. De la misma manera, se ha observado que este estadístico posee una potencia
excesiva en presencia de variabilidad negligible cuando estamos frente a un número alto de
estudios. Un inconveniente adicional es que el estadístico Q puede avisarnos de que estamos
enfrente de una situación con heterogeneidad, pero no de informarnos de la magnitud de la misma.
�𝑄 − (𝐾 − 1)�
𝐼2 = 𝑥100%
𝑄
I2 tomará el valor 0 cuando Q sea menor que K-1. Este estadístico, propuesto por Higgins en 2002,
considera que la heterogeneidad estadística es inevitable, por lo que la prueba pertinente no es ver si
existe heterogeneidad, sino si existe inconsistencia. Al descartar la parte “esperada” de alguna
manera estamos descontando la variabilidad atribuible al muestreo.
Con el valor de I2 no solo tenemos una medida que se puede calificar como “baja”, “media” o
“alta”, sino que es posible disponer de un intervalo de confianza para el grado de heterogeneidad
entre estudios. Una aplicación directa es que si el IC contiene el 0 la homogeneidad no es
descartable.
La mayor ventaja del estadístico I2 es que es fácil de interpretar, pero comparte prácticamente los
mismos problemas de potencia que Q.
Recuerde
19
Revisión sistemática y meta-análisis
Ejemplo 3.2: Utilizando el Ejemplo 3.1 de las terapias ocupacionales, hallaremos el valor
de Q:
Estudio OR w w(d-D)²
Cardiff 1.03 6.56 0.79
Nottingham 95 0.33 1.10 0.67
Nottingham 97 0.40 3.54 1.26
Nottingham 99 0.55 8.10 0.67
Glasgow 0.63 8.10 0.15
Total 0.89 20.30 0.84
Q= 4.396
Tabla 3.2 Datos del Ejemplo 3.1 para ilustrar el cálculo de Q
De este análisis podemos deducir que el grado de heterogeneidad entre los seis estudios ha
de ser escaso, ya que el valor de Q está por debajo de su valor esperado (K-1=5). Con un
poco más de rigor, la probabilidad de que una variable χ2 de 5 grados de libertad sea
observada con un valor superior a 4.3960 es aproximadamente un 50%. Es decir, el nivel de
dispersión entre estudios se corresponde con el esperado para estudios que tratan de estimar
el mismo efecto; las diferencias se pueden atribuir al azar.
Ejemplo de R
# Veamos cómo se puede reconstruir el valor de Q y su valor P,
tal como salen del objeto res.
> names(res)
# Esta instrucción le indica los diversos componentes calculados
por la función rma(): por ejemplo, res$b es la estimación
puntual. Pruebe a hacer lo siguiente:
> W = 1/res$vi
> H = W*(res$yi - res$b)^2
> sum(H)
> 1-pchisq(sum(H), 5)
20
Bioestadística para no estadísticos
Sencillamente, se trata de un sensato recordatorio de que no hay que “creerse” a pie juntillas un
modelo, sino utilizarlos porque son útiles. El modelo de efectos fijos puede ser bueno por el
principio de parsimonia: si explica lo que veo y lo hace de forma simple, ¿para qué buscar otro?
Para ilustrar el comentario, veamos el caso de las terapias ocupacionales. Los autores no aprecian
heterogeneidad, pero de hecho había más estudios que investigaban este tipo de terapias en la
revisión sistemática (la tabla de las características de los estudios incluidos hace referencia a dos
más), que no se pudieron utilizar porque no aportaban la información necesaria sobre la respuesta.
No sabemos si el meta-análisis ampliado a todos los estudios hubiera señalado indicios de
heterogeneidad, por no ahondar en la posibilidad de que la búsqueda realizada por los autores
podría haber sido más intensa.
Veamos primero qué es un modelo de efectos aleatorios desde un punto de vista más formal. Esto
puede plantearse con un modelo de las observaciones recogidas. Si el modelo de efectos fijos era:
𝑑𝑘 = 𝜗𝑘 + 𝑒𝑘 ,
𝑑𝑘 = 𝜇 + 𝑢𝑘 + 𝑒𝑘 ,
donde μ es el efecto real promedio y 𝑢𝑘 corresponde a la variación entre-estudios, que sigue una
distribución de probabilidad N(0, τ²).
Recuerde
Nota: Una tercera posibilidad que aparece a menudo es el modelo con efectos mixtos. Según
este enfoque, el valor observado de los datos de cada estudio depende de un efecto aleatorio y de
una combinación lineal determinista de una o varias covariantes 𝑥𝑘𝑗 :
21
Revisión sistemática y meta-análisis
𝑑𝑘 = 𝛽0 + 𝛽1 𝑥𝑘1 + ⋯ + 𝛽𝑝 𝑥𝑘𝑝 + 𝑒𝑘 ,
La variabilidad 𝑢𝑘 se distribuye como antes, N(0, τ²), pero ahora τ² se interpreta como la
heterogeneidad residual, es decir, la variabilidad entre los verdaderos efectos que no ha quedado
explicada previamente por las covariantes introducidas.
El primer paso en la estimación de los parámetros es estimar la variancia τ². (16) cita varios
métodos, entre ellos uno de los más sencillos de implementar, ya que no requiere un proceso
iterativo ni cálculos complejos. El método de DerSimonian y Laird consiste en hallar:
⎧ ⎫
⎪ Q – (K − 1) ⎪
𝑡 2 = 𝑚𝑎𝑥 0, 2
⎨ ∑ 𝑤 − ∑ 𝑤𝑘� ⎬
⎪ 𝑘 ∑ 𝑤𝑘 ⎪
⎩ ⎭
Una vez tenemos un estimador de τ² se realizará el proceso correspondiente al modelo elegido (de
efectos aleatorios o de efectos mixtos), obteniendo el resto de estimaciones.
En el caso del modelo de efectos aleatorios, el parámetro que falta por estimar es μ, para lo que se
sigue un procedimiento similar al del modelo de efectos fijos:
1
• Se halla un nuevo peso wk* para cada estudio, igual a , k=1...K
(𝑣𝑘 +𝑡 2 )
∑ 𝑤𝑘∗ 𝑑𝑘
• Se obtiene la estimación global puntual: 𝐷 ∗ = �∑ 𝑤 ∗
𝑘
∗ 1
• Se calcula la variancia del estimador global: 𝑉(𝐷 ) = ∑ 𝑤∗
𝑘
Ejemplo 3.3: Usaremos una parte de los datos recogidos en un estudio donde se analiza el
efecto de Tacrine, un medicamento para tratar la enfermedad de Alzheimer. La variable
respuesta es el cambio al cabo de doce semanas (ajustando cuando la duración del
tratamiento era distinta) en el componente cognitivo de la escala ADAS. Estos son los
mismos datos que se utilizan en otro estudio para explorar diferentes técnicas basadas en
modelos multinivel o jerárquicos. Los autores justifican que, como medida del efecto, puede
utilizarse en todos los casos la diferencia de medias entre ambos grupos de tratamiento.
Los autores constatan que la diferencia final menos basal da lugar a una variable con
distribución aproximadamente normal, así que la media y la desviación típica son buenos
22
Bioestadística para no estadísticos
Ejercicio 3.4
Complete con R los valores de las columnas que han sido suprimidos de la tabla
del Ejemplo 3.3. El fichero con los datos lo puede leer de este enlace.
La pequeña variabilidad muestral del trabajo de Knapp, junto con su mayor tamaño de muestra,
hacen que este estudio acapare más del 85% del peso total. La primera estimación, por el modelo de
efectos fijos, nos da un cambio promedio global de -1.45 puntos en la escala, con un error estándar
de 0.27. El valor de Q es 5.643, mayor que su promedio de 4, pero no estadísticamente
significativo.
Ejercicio 3.5
¿Cree usted que hay razones que justifican el uso del modelo de efectos
aleatorios?
23
Revisión sistemática y meta-análisis
Ejercicio 3.6
Ejemplo de R.
# El ajuste del modelo se efectúa con la función rma() con el
parámetro method=’DL’ (de DerSimonian-Laird; hay varios métodos
alternativos, que pueden consultarse en la ayuda de la función):
> res = rma(yi, vi, data = dat.tac, method='DL')
> summary(res)
Random-Effects Model (k = 5; tau^2 estimator: DL)
logLik deviance AIC BIC
-8.4578 5.9916 20.9157 20.1346
tau^2 (estimated amount of total heterogeneity): 0.4639 (SE =
1.1732)
tau (square root of estimated tau^2 value): 0.6811
I^2 (total heterogeneity / total variability): 29.11%
H^2 (total variability / sampling variability): 1.41
Test for Heterogeneity:
Q(df = 4) = 5.6426, p-val = 0.2275
Model Results:
estimate se zval pval ci.lb ci.ub
24
Bioestadística para no estadísticos
Hemos ilustrado la técnica con la ayuda del OR y del RR, cuando la respuesta es dicotómica, y con
la diferencia de medias (estandarizada o no) cuando la respuesta es aproximadamente normal, o
simplemente una variable continua (confiemos que el teorema central del límite hará el resto). No
vamos a ser exhaustivos, pero merece la pena mencionar algunas de las otras posibilidades que
pueden darse a la hora de realizar el meta-análisis.
𝑘𝐴 𝑘𝐵
𝑅𝐴 = � � − � �
𝑛𝐴 𝑛𝐵
𝑘 𝑘 𝑘 𝑘
�1 − 𝑛𝐴 � 𝑛𝐴 �1 − 𝑛𝐵 � 𝑛𝐵
𝐴 𝐴 𝐵 𝐵
𝑉(𝑅𝐴) = +
𝑛𝐴 𝑛𝐵
De estas variancias se derivarían los pesos w necesarios para llevar adelante el meta-análisis.
Conviene recordar que una de las ventajas del RA es que de él se deriva inmediatamente el NNT
(número necesario a tratar), uno de los indicadores que refleja mejor la eficiencia de un tratamiento.
Un indicador que recibe mucha atención, en especial en estudios observacionales (muchos de ellos
dentro del ámbito de las ciencias sociales) es el coeficiente de correlación r. Podemos transformar la
correlación r entre dos variables en una variable con distribución aproximadamente Normal:
1 1+𝑟 1
𝑍 = 2 log �1−𝑟�, donde 𝑉(𝑍) = 𝑛−3
25
Revisión sistemática y meta-análisis
único que se aporta es un estadístico y un valor de P. Es verdad que los valores de P contienen
bastante información, y que se pueden agregar entre sí, por ejemplo con el método de Fisher:
𝐾
� −2log(𝑃𝑘 ) → 𝜒𝐾2
𝑘=1
4. Visualizando el meta-análisis
Un meta-análisis es un análisis que involucra una cantidad importante de información: K estudios,
cada uno de los cuales supone un cierto número de parámetros relacionados con la respuesta de los
participantes, más las estimaciones que se derivan de estos datos en relación con la medida del
efecto de las intervenciones que, al fin, se agregan para obtener una estimación conjunta. Es normal
que tantos números resulten oscuros para quien desee hacer un estudio y, en cambio, agradezca la
existencia de algunas recomendaciones a la hora de crear representaciones gráficas inteligibles.
26
Bioestadística para no estadísticos
Ejemplo de R
# La función forest() usa como único argumento el modelo
ajustado por rma(), y dibuja un Forest Plot básico. Como suele
pasar en R, es una función con otros argumentos definibles por
el usuario para adaptar el gráfico a sus necesidades, junto con
otras funciones que añaden otros elementos al área de dibujo,
tales como textos. Este es el código utilizado para generar la
Figura 4.2:
> forest(res, slab = dat.tac$Study, xlim = c(-25, 16), at =
c(-8, -4, 4, 8), ilab = cbind(dat.tac$m1, dat.tac$s1,
dat.tac$m2, dat.tac$s2), ilab.xpos = c(-18,-16,-13,-11), cex =
0.9)
> op <- par(cex = 0.9, font = 2)
> text(c(-18,-16,-13,-11), 7, c("m T", "s T", "m C", "s C"))
> text(c(-17,-12), 8, c("Tacrine", "Control"))
> text(-25, 7, "Study", pos = 4)
> text(16, 7, "Diff. means [95% CI]", pos = 2)
> par(op)
27
Revisión sistemática y meta-análisis
El Forest Plot es propiamente una combinación de tabla y elementos gráficos, y está constituido
generalmente por:
• Una lista de los estudios implicados. A veces están ordenados de alguna forma especial: por
antigüedad, por la magnitud del efecto, o por peso.
• Para cada estudio, y concretamente en cada línea, tenemos datos de identificación, datos
sobre los grupos y la respuesta de los participantes, un segmento que representa el IC del
efecto en ese estudio particular, y valores numéricos del efecto puntual y del mismo IC.
• El IC tiene en el centro un cuadrado lleno de área proporcional al tamaño del estudio. Así
apreciamos mejor los estudios importantes, contrarrestando la impresión que producen los
amplios IC de los estudios pequeños.
• Si el IC sobrepasa los límites establecidos para el eje de la medida del efecto, se dibuja una
punta de flecha para indicar que el IC va más allá.
• En la parte inferior aparece un pequeño rombo lleno, que representa el IC del efecto global
obtenido por el meta-análisis, junto con las estimaciones puntuales y por IC a su derecha.
• Una línea vertical marca la referencia de no-efecto; en este caso, tratándose del riesgo
relativo, sobre el valor 1. Nótese que la escala es una escala logarítmica (1/4 y 4 están a la
misma distancia de 1). La línea facilita la lectura de los IC, para apreciar cuáles son los
estudios significativos.
• A veces también aparece información relativa a la heterogeneidad de los estudios (Q, I2).
La gran ventaja del Forest Plot es por supuesto visual, ya que es inmediato apreciar las tendencias
que puedan existir respecto a la existencia de un cierto efecto y, por otro lado, también se destaca la
posible heterogeneidad entre estudios, ya que los diferentes intervalos de confianza quedarán poco o
nada solapados.
El ejemplo de Tacrine aparece en la Figura 4.2. Aunque no se muestran los tamaños de los grupos,
esta información se deduce del área del cuadro situado en el centro del intervalo de confianza (y
queda claro que el quinto estudio es el más influyente). De todas maneras, con las herramientas de
R, uno puede mostrar en el Forest Plot aquello que considere oportuno.
Otro detalle interesante es que el grado de heterogeneidad (no significativo, pero no despreciable)
de este caso se manifiesta a través de una dispersión notable de las diferentes estimaciones.
28
Bioestadística para no estadísticos
Ejercicio 4.1
La Figura 4.3 muestra el Forest Plot de los datos del estudio sobre terapias
ocupacionales a pacientes con ictus. ¿Qué conclusiones puede extraer de dicho
gráfico? ¿Qué diría de la cuestión de la heterogeneidad de los estudios?
29
Revisión sistemática y meta-análisis
Figura 4.3. Forest plot del estudio sobre terapias ocupacionales a pacientes con ictus
La Figura 4.4 corresponde a un ejemplo que acompaña al paquete metafor, acerca de los riesgos
para la salud de los fumadores pasivos (trabajo de HackShaw publicado en 1998 en Stat Methods
Med Res). Cuando se escudriña un Funnel Plot se intenta determinar visualmente si los estudios se
disponen –en sentido horizontal, ya que la dirección vertical está determinada por el número de
participantes– según la lógica del azar: es decir, ninguna. En ese caso tendremos la expectativa de
tener tantos puntos a la izquierda como a la derecha de la línea central, asociada al efecto común.
Obviamente, no es fácil concluir que esta regla de la simetría se incumple flagrantemente. La
variabilidad inherente a los estudios clínicos perturba la lectura del gráfico, en especial si no hay
demasiados estudios.
30
Bioestadística para no estadísticos
Ejemplo de R
# load ETS data
> data(dat.hackshaw1998)
# fit fixed-effects model
> res <- rma(yi, vi, data=dat.hackshaw1998, measure="OR",
method="FE")
> funnel(res)
0.000
0.184
Standard Error
0.367
0.551
0.735
¿Qué puede quebrar la lógica del azar? Es decir: ¿qué podría provocar que en ciertas áreas los
estudios tuvieran más tendencia a ir hacia un lado en vez de al otro? Se ha señalado que este efecto
(o sesgo) tiene más propensión a producirse en la parte ancha del gráfico, entre los estudios que
contaron con menos participantes, y que fueron menos costosos. Además, el lado que presenta
carencias no es arbitrario: se trata del lado inesperado, el que está relacionado con efectos
indeseados para el equipo investigador. Por ejemplo, para quienes (para su sorpresa) encuentran que
en su propio estudio el humo de tabaco ambiental no aparece como perjudicial sino que resulta un
factor protector. Un estudio sencillo y con un resultado negativo tiene más posibilidades de ser
publicado solo en revistas de segundo nivel, o de no ser publicado nunca. Este es el denominado
sesgo de publicación.
31
Revisión sistemática y meta-análisis
Recuerde
4.3. L’ABBÉ
Para revisiones en las que se comparan dos intervenciones, puede emplearse el gráfico de L’Abbé.
La Figura 4.5 es un ejemplo que utiliza los datos del meta-análisis de la vacuna BCG. En el gráfico
de L’Abbé cada punto es un estudio y se representan los valores de la respuesta en un grupo
respecto al otro. De esta forma, los puntos que se ubican sobre la diagonal representan estudios en
los que el riesgo de infección no difiere entre las dos intervenciones. Cuanto más lejos esté situado
un punto de esta diagonal más marcado es el efecto diferencial (cuando el eje x se utiliza para el
tratamiento experimental y el eje y para la referencia, quedar por debajo de la diagonal significa que
hay ventaja para el nuevo tratamiento). Los estudios se dibujan con un círculo de área proporcional
al tamaño del estudio. La línea punteada paralela a la diagonal indica el efecto global estimado.
Usualmente, los estudios que se dispersan más son los menores, y los reflejados mediante los
círculos más grandes se suelen encontrar más cerca de la línea punteada. En este caso vale la pena
señalar el inmenso estudio MADRAS (el círculo mayor), de 1980: los autores de la revisión
sistemática declaran que los números de las cohortes han sido estimados porque no fueron
divulgados. Esto podría explicar en parte el nulo efecto hallado, aunque se ha visto que otros
factores (por ejemplo, la latitud de la región de estudio) están asociados con la variación del efecto
(ver Figura 4.6).
Ejemplo de R
# load BCG vaccine data
> data(dat.bcg)
# fit random-effects model
> res <- rma(ai=tpos, bi=tneg, ci=cpos, di=cneg, data=dat.bcg,
measure="RR")
> labbe(res, xlim=c(-7,-1),ylim=c(-7,-1))
> pts = c(1/1000,1/200,1/100,1/20,1/10,1/5,0.4)
> axis(3,at=log(pts),lab=pts)
> axis(4,at=log(pts),lab=pts)
32
Bioestadística para no estadísticos
0.4
-1
0.2
-2
0.1
Log Proportion
0.05
-3
-4
0.005 0.01
-5
-6
0.001
-7
-7 -6 -5 -4 -3 -2 -1
Log Proportion
Precisamente, el siguiente tipo de gráfico que se muestra resulta útil para explorar si determinada
covariante podría influir en el resultado de los diversos estudios. En el eje de la Y se muestra el
efecto para cada estudio, y en el eje de la X la variable que se utiliza como predictor. Los puntos
también son de mayor o menor tamaño en función de la precisión asociada a la estimación del
efecto observado. Adicionalmente, pueden incorporarse otros instrumentos visuales, tales como la
recta de metarregresión o las bandas de confianza.
4.4. Covariantes **
El ejemplo que figura en la Figura 4.6 es de nuevo el de la vacuna de la tuberculosis. La covariante
que se ha utilizado es la latitud absoluta de la región en donde se ha llevado a cabo el estudio. El
resultado que se deduce es que la vacuna parece ser más efectiva a medida que nos separamos del
ecuador. De esta manera se pueden plantear modelos de efectos mixtos, para determinar si la
inclusión de una covariante (también llamadas moderators) puede reducir la heterogeneidad
residual.
33
Revisión sistemática y meta-análisis
Ejemplo de R
> par(mar=c(5,5,1,2))
# predicciones del RR para latitudes absolutas de 0 a 60 grados
> preds <- predict(res, newmods=c(0:60), transf=exp)
# calcular tamaño de puntos según errores tipo
> wi <- 1/sqrt(dat$vi)
> size <- 0.5 + 3.0 * (wi - min(wi))/(max(wi) - min(wi))
> plot(dat$ablat, exp(dat$yi), pch=19, cex=size,
xlab="Absolute Latitude", ylab="Relative Risk",
las=1, bty="l", log="y")
# añadir predicciones y bandas de predicción (IC)
> lines(0:60, preds$pred)
> lines(0:60, preds$ci.lb, lty="dashed")
> lines(0:60, preds$ci.ub, lty="dashed")
# una línea en RR=1 (sin diferencias entre grupos)
> abline(h=1, lty="dotted")
1.6
1.4
1.2
1.0
Relative Risk
0.8
0.6
0.4
0.2
20 30 40 50
Absolute Latitude
Figura 4.6. Asociación de la latitud de la región de estudio con la variación del efecto
34
Bioestadística para no estadísticos
Ejemplo de R
> plot(influence(res), layout=c(2,4))
2.0
2
2.0
3
1
1.5
1.0
2
1.0
0
0.5
0.5
-1
0
-1
0.0
-2
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
10 20 30 40 50
5
0.4
0.8
0.2
0.4
3
2
0.0
0.0
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
35
Revisión sistemática y meta-análisis
La lista de 27 recomendaciones está estructurada en siete apartados, de los cuales los más
importantes son el de Métodos y el de Resultados. A lo largo de la lista aparece recurrentemente la
mención a un acrónimo derivado de las palabras Población, Intervenciones, Comparaciones,
Outcomes (respuesta) y Study design (diseño del estudio): PICOS. Estos términos recuerdan a los
investigadores (y también a los lectores) que han de prestar especial atención a lo que se refiera a:
• Los pacientes, es decir, una definición precisa de qué tipo de participantes entran en los
estudios.
• Las intervenciones a las que los participantes son expuestos, en los distintos estudios
incluidos.
• El comparador, o la intervención de referencia para el nuevo tratamiento.
• La variable de respuesta utilizada en cada estudio para medir el cumplimiento del objetivo.
• El tipo de estudio, que no siempre ha de ser un ensayo aleatorizado, sino que dependiendo
de la finalidad de la revisión puede considerar varios tipos de estudios observacionales.
A partir de PRISMA, el término “riesgo de sesgo” se emplea con generalidad para diferenciarse del
más ambiguo “calidad” del estudio, que se venía utilizando anteriormente, dado que el término
“calidad” no necesariamente implica haber puesto todos los medios al alcance para evitar la
posibilidad de un sesgo. Recordemos que en un ensayo clínico aleatorizado hay unos elementos,
tales como la ocultación de la asignación aleatoria o la forma de enmascarar a los agentes de la
intervención, que se consideran esenciales para garantizar la validez interna del estudio: de lo
contrario la posibilidad de un error sistemático destruye la credibilidad del resultado.
Una evaluación rigurosa del riesgo de sesgo también necesita una evaluación a nivel de resultados
(outcome-level), y no solo a nivel de estudios (study-level). Por ejemplo, considerando la fiabilidad
y validez de los datos a partir de los métodos utilizados para su medición en cada estudio particular.
Por supuesto, la declaración PRISMA insiste también en la importancia de los sesgos relacionados
36
Bioestadística para no estadísticos
con la publicación, y se anima a los autores a incorporar estrategias que permitan detectar sesgos de
esta especie, así como investigar su posible relación con el efecto de la intervención y la precisión
de la estimación.
No vamos a repetir aquí la lista de los ítems presentes en la declaración, ni a repetir los argumentos
con que se justifican, ya que aparecen perfectamente expuestos en el trabajo de Liberati, Moher y
colaboradores.
(Stephen Senn)
Los meta-análisis han recibido críticas desde bien pronto. Ha sido y es frecuente acusar al meta-
análisis de combinar resultados más o menos homogéneos para producir un efecto “promedio” que
al clínico le resulta de poca utilidad, ya que su interés está más cerca del paciente concreto, para el
cual desea saber cuál es el tratamiento más adecuado. Más allá incluso: como la selección de los
trabajos relacionados con determinado objetivo ni puede ser exhaustiva ni tampoco al azar, entonces
tal “promedio” está expuesto a riesgos de sesgo que pueden llevar a conclusiones dispares.
Las revisiones sistemáticas (vamos a dar por supuesto que se incluye el meta-análisis) son de hecho
estudios observacionales, sujetos a las limitaciones y sesgos potenciales propios de tales métodos.
Aunque el material del que se nutran sean ensayos clínicos aleatorizados, no tienen por qué tener las
mismas virtudes que estos: depende de qué estudios estemos poniendo juntos, de la definición de
“tratamiento” en todos ellos, o los métodos para sintetizar los resultados de variables respuesta
coherentes. En situación ideal, si los estudios de base son perfectamente coherentes entre sí, el
meta-análisis revelará información que tal vez ninguno de los trabajos originales había demostrado.
En la práctica, difícilmente se puede sortear la dificultad de tener que mezclar trabajos de diferente
naturaleza, en distintos contextos, o calidad diversa.
Cuando un método es calificado como “alquimia estadística” (25) hay que suponer que más bien
despierta poca confianza. Un artículo publicado en 2012 sugiere que todavía se considera las
revisiones sistemáticas como investigación secundaria o “no original”. Por lo menos, eso podría
deducirse de su encuesta, que solo el 55% de los editores de revistas médicas de primer nivel
contestaron, aunque el 71% de los que respondieron sí la calificaron como “original”, y la mayoría
de esas revistas publicaron (en 2009) alguna revisión sistemática.
Pero en general se puede ver que la mayor parte de las críticas que se han levantado son
posiblemente atribuibles a las resistencias iniciales, y actualmente no es fácil encontrar nuevos
37
Revisión sistemática y meta-análisis
Recuerde
38
Bioestadística para no estadísticos
El acceso a las revisiones sistemáticas que mantiene la CC es abierto. Puede accederse desde
http://www.bibliotecacochrane.com, o desde http://summaries.cochrane.org para acceder a los
resúmenes gratuitos de un número mayor de estudios. El acceso al estudio completo por esta vía
puede estar limitado a suscriptores.
Acerca de RevMan, se trata de un programa de libre distribución, pensado para que los autores de
revisiones según el estilo Cochrane puedan preparar más sencillamente el texto, las tablas, los
gráficos y el propio meta-análisis. Para usuarios registrados, se proporciona también ayuda en su
uso.
RevMan puede funcionar aisladamente, o puede interaccionar con Archie (curiosidad: Archie es el
nombre de pila del médico e investigador Archie Cochrane, que dio un impulso definitivo a la
epidemiología como ciencia). Archie es el repositorio en internet de la CC, que contiene los datos
de las personas involucradas con la Colaboración, y la documentación y revisiones producidas.
Junto con RevMan, componen el IMS (Information Management System, sistema de gestión de la
información) de Cochrane, con el fin de dar soporte a los colaboradores en la tarea de producir
revisiones sistemáticas de calidad que puedan ser diseminadas en la Cochrane Library o en otra
parte.
Un punto muy importante, y que probablemente distingue a estas revisiones de otras destinadas a
ser publicadas en una revista científica, es el interés de la CC por el mantenimiento de las
revisiones. Dentro del Manual Cochrane existe un capítulo dedicado a este aspecto, y dice “La
39
Revisión sistemática y meta-análisis
Las revisiones Cochrane tienen un formato muy estructurado, tanto para protocolos como para las
revisiones propiamente dichas. A continuación aparece la lista de secciones que definen una
revisión Cochrane (hemos omitido los elementos no obligatorios, la lista completa aparece en el
Manual):
Título*
Información de la revisión:
Autores*
Persona de contacto*
Fechas*
Resumen:
Antecedentes*
Objetivos*
Estrategia de búsqueda*
Extracción y análisis de los datos*
Resultados*
Conclusiones de los autores*
Resumen en términos sencillos:
Título en términos sencillos*
Texto resumido*
La revisión:
Antecedentes*
Objetivos*
Métodos:
Criterios de selección de estudios para esta revisión:
Tipos de estudios*
Tipos de participantes*
Tipos de intervenciones*
Tipos de medidas de desenlace*
Métodos de búsqueda para la identificación de estudios*
Extracción y análisis de los datos*
Resultados:
Descripción de los estudios*
Riesgo de sesgo de los estudios incluidos*
Efecto de las intervenciones*
Discusión*
40
Bioestadística para no estadísticos
41
Revisión sistemática y meta-análisis
Soluciones ejercicios
1.1. Hemos tomado algunos fragmentos tomados de diversos artículos. ¿Puede relacionar los mismos con alguno de los
elementos que todas las definiciones de revisión sistemática destacan?
a) La cuestión clínica
b) Criterios de eligibilidad
c) Otra vez criterios de eligibilidad
d) Estrategia de búsqueda
e) Evaluación de calidad
f) Combinación de resultados (o meta-análisis); suele explicarse extensamente en el cuerpo del artículo, pero el
abstract suele proporcionar un resumen compacto.
2.1. Según Wikipedia, un original se valora según tres preguntas:
1. ¿Se describe el estudio como aleatorizado?
2. ¿Se describe el estudio como doble-ciego?
3. ¿Hay una descripción sobre las retiradas y las pérdidas de participantes?
Por supuesto, cada punto debe estar correctamente justificado en el artículo. Según ello, se consideran premios o
penalizaciones que dan lugar a una valoración entre 0 y 5.
3.1.
Estudio 1 Estudio 2
posit negat posit negat
Trat. 10 200 210 Trat. 40 80 120
Control 5 90 95 Control 30 75 105
El primer estudio incluye 305 participantes, y el segundo 225. Si la medida es el ln(OR), hallamos las variancias de
sendos estimadores, y obtenemos para la tabla del estudio 1 v1 = 0.316 (w1 = 3.16), y para el estudio 2 v2 = 0.0842 (w1 =
11.88). En este caso observamos que la prevalencia en el primer estudio es mucho menor que en el segundo
(independientemente del brazo tratado), algo que clínicamente puede significar que ambos estudios son
consustancialmente heterogéneos, no porque los OR sean muy diferentes (0.9 y 1.25 respectivamente), sino porque hay
motivos para creer que la pregunta o las condiciones clínicas son distintas.
Observamos que, de acuerdo con esta estimación, el efecto de la intervención es estadísticamente significativo: la
terapia ocupacional reduce el número de eventos respecto a la terapia control con un odds-ratio de entre 0.55 a 0.97.
3.3.
> dat.ocu
Study nt Nt nc Nc yi vi
1 Cardiff 33 55 32 54 0.0308 0.1525
2 Nottingham-95 2 42 3 23 -1.0986 0.9083
3 Nottingham-97 6 53 14 58 -0.9133 0.2821
4 Nottingham-99 18 90 27 86 -0.6046 0.1234
5 Glasgow 33 66 41 67 -0.4555 0.1235
6 Total 106 248 56 123 -0.1130 0.0493
Lo más importante que se debe resaltar son las dos últimas columnas: yi representa el ln(OR) para cada estudio, lo que
hemos denominado el efecto dk; vi es la variancia de dicha estimación. Por ejemplo, el estudio “Total” puede
describirse con esta tabla:
42
Bioestadística para no estadísticos
positivos negativos
Tratados 106 142 248
Controles 56 67 123
El OR vale 106 67 /(56 142) = 0.8931 (cuyo logaritmo es -0.113047), y la variancia resultante se deriva de:
Recuerde que R ha calculado las variancias vi, de acuerdo con la medida MD: como suma de variancias de las
respectivas medias: por ejemplo, para el primer estudio:
9.942 9.232
+ = 1.726762
103 111
3.5. Hay buenas razones para adoptar el modelo de efectos aleatorios. Primero, la mención anterior de que se ha
introducido un factor distorsionante en los estudios adaptando las diferentes variables respuesta a un horizonte de
tiempo fijo, como si la progresión fuese lineal. Segundo, no parece prudente que un solo estudio, aunque tenga el 42%
de los participantes, tenga un peso del 85%, y esta desproporción afecta necesariamente a la estimación de Q. Un
modelo de efectos aleatorios redistribuirá los pesos para cada estudio de manera más ecuánime.
43
Revisión sistemática y meta-análisis
3.6. La segunda estimación puntual del efecto de Tacrine es -6.376/3.30 = -1.93, con un error estándar de 0.55 (por
tanto, continua teniendo un efecto significativamente diferente de 0). Un intervalo de confianza al 95% para medir el
posible efecto promedio en el descenso sobre el valor basal de la escala empleada se sitúa entre 0.85 y 3.01 puntos.
4.1. Se ve claramente que, aunque ninguno de los estudios individuales muestra significación estadística (que se
demuestra porque los IC cortan la línea vertical), la compilación final obtenida con el modelo de efectos fijos (FE
Model) no incluye el valor de 1. También es visible que las diferentes estimaciones no difieren mucho entre sí, lo que
justifica que no haya evidencias de heterogeneidad. Si bien otra opinión podría objetar que los IC en realidad se solapan
porque hay mucha variabilidad intra-estudio y, por ello, los intervalos son amplios.
44
MÓDULO 6:
Apartado I
1. Introducción
“The International Stroke Trial” es un ensayo abierto randomizado hasta 14 días del inicio de la
terapia antitrombótica tras la aparición de un accidente vascular cerebral.
El objetivo del ensayo fue proveer de nuevos datos sobre la evidencia y seguridad de la aspirina y la
heparina subcutánea, y las variables resultado primarias fueron la muerte en los primeros 14 días del
accidente vascular cerebral y la dependencia de terceras personas a los 6 meses del evento.
Se incluyeron 19.435 pacientes procedentes de 467 hospitales de 36 países, que fueron randomizados
en las primeras 48 horas del inicio de los síntomas.
El objetivo del presente informe es realizar una breve crítica del contenido del artículo en base a la
normativa y recomendaciones de la guía CONSORT10 de publicación de ensayos clínicos.
En un primer paso, especificamos 3 puntos del estudio que resaltamos por su calidad en la aportación
de la información y su adecuación a la guía CONSORT. Posteriormente, realizamos un apartado
donde especificamos puntos débiles o puntos a mejorar en base a los ítems de la guía antes
mencionada, así como propuestas de mejora de estos puntos en la redacción del contenido del
ensayo.
Finalmente, en una tabla anexa, se presentan de forma detallada los diferentes ítems de la guía
CONSORT10 en base al contenido del artículo a estudio, con la finalidad de detectar su correcta
implementación e identificar los puntos débiles o información a mejorar en la redacción del artículo.
2
2. Puntos fuertes del artículo
Seguidamente comentamos 3 puntos fuertes del artículo en relación a los ítems contenidos en la guía
CONSORT10 de publicación de ensayos clínicos.
1. Ítem 4a. Especifica de forma clara y precisa tanto los criterios de selección como los criterios
de exclusión de los participantes en el ensayo.
Criterios de selección: Paciente con evidencias de haber padecido un accidente
cerebrovascular (independientemente de su severidad) que haya tenido inicio en un tiempo
inferior a las 48 horas previas, que no haya evidencia de hemorragia intracraneal y que no
tenga indicaciones claras o contraindicaciones que no le permitan subministrar heparina
subcutánea o aspirina oral.
Además, en el artículo se especifica que en todos los pacientes se realizará un Scanner
Cerebral con la finalidad de descartar la presencia de hemorragia intracraneal, y por tanto,
comprobar si los pacientes cumplen criterios de inclusión (no evidencia de hemorragia
intracraneal).
Criterios de no inclusión: No se incluyen los pacientes que sólo tienen una pequeña
probabilidad de beneficio o que tienen un alto riesgo de mostrar efectos adversos como la
hipersensibilidad a la aspirina, ulceración péptica activa, sangrado gastrointestinal reciente,
etc.
En conclusión, permite seguir y reproducir de forma bastante precisa la selección de los
pacientes elegidos en el estudio.
2. Ítem 5. El informe presenta con suficiente detalle las intervenciones planeadas y los tiempos
de administración de los fármacos a los diferentes grupos, así como la forma de
administración de estas intervenciones. Por ejemplo, en cuanto a la heparina, se especifica
que la mitad de los pacientes fueron randomizados a recibir heparina subcutáneo no
fraccionada, y se indica la administración /tiempo de las dosis.
Por lo tanto, la información contenida en el artículo permite la replicación de las diferentes
intervenciones.
3. Ítem 6a. En el apartado Events and outcomes se describen y se detallan las dos variables
primarias y las seis variables secundarias. Destacamos las dos variables primarias: mortalidad
de los pacientes a los 14 días del evento, y la dependencia/mortalidad e incompleta
recuperación de los pacientes a los 6 meses del evento.
Todas las variables respuesta son variables dicotómicas (0 o 1) y se especifican los detalles
suficientes para conocer los casos que se incluyen y excluyen para cada una de las variables
(sobre todo las variables secundarias) y cuando se recogen estas variables.
3
3. Puntos débiles
2. Ítem 19. No se menciona en ningún punto del artículo si ha habido eventos adversos para
cada grupo. Además de mencionarlos, deberían indicarse el tipo de eventos adversos, el
número de pacientes que los presentaron, y el porcentaje respecto a la muestra total.
En futuros artículos relacionados con el ensayo, deberían de especificarse todos los daños o
efectos no intencionados que han aparecido a lo largo del estudio en los diferentes grupos con
el objetivo de poder considerar efectos secundarios o de conocer con más detalle los daños
que se pueden producir.
3. Ítem 24. No se especifica dónde se puede encontrar el protocolo del estudio. Disponer del
protocolo es importante porque pre-especifica los métodos que se querían utilizar en el
ensayo, así como la variable principal, y permite un mejor conocimiento del estudio y una
mayor comprensión en la lectura del artículo del ensayo. Además, no se especifica si hubo
modificaciones del diseño a lo largo del estudio.
De esta manera se puede conocer si ha habido cambios en los métodos o en las variables
respuesta (principales o secundarias) durante el estudio.
4
CONSORT: Checklist of Items To Include When Reporting a Randomized Clinical Trial
Artículo: The
International Stroke Trial (IST): a randomised trial of aspirin,
subcutaneous heparin, both, or neither among 19 435 patients with acute
ischaemic stroke
ESCALA (1) No lo dice o lo dice mal, sospecha de fraude,… (3) regular,… (5) impecable
No dedica un espacio al detalle del diseño del ensayo pero se sobreentiende que se
trata de un diseño de estudio prospectivo, aleatorizado, de tratamiento abierto y
respuesta emmascarada. (PROBE). El diseño sí está detallado en el artículo
“International Stroke Trial Database”. Sí se menciona la razón de asignación, tanto
3a 1 2 3 45 para el grupo Heparin como para el grupo Aspirin.
Trial design “Heparin Half of the patients were randomly allocated to receive subcutaneous unfractionated
heparin (one-quarter 5000 IU twice daily [low-dose] and one-quarter 12 500 IU twice daily
[medium-dose]); and half were allocated to “avoid heparin”. Aspirin Using a factorial design,
half of all patients were allocated to 300 mg aspirin daily and half to “avoid aspirin”.”
Se detallan bien los criterios de elegibilidad, tanto los criterios de selección como de
no inclusión de los pacientes.
“Eligibility: A patient was eligible if, in the view of the responsible physician, there was
4a 12345 evidence of an acute stroke (irrespective of severity) with onset less than 48 h previously, no
evidence of intracranial haemorrhage, and no clear indications for, or contraindications to,
. Methods
Sequence
8a 1 2 3 4 5 No menciona el método utilizado para generar la secuencia de asignación aleatoria.
generation
8b 1 2 3 4 5 No se indica el tipo de aleatorización.
El mecanismo utilizado para implementar la secuencia de asignación aleatoria ha
Allocation sido vía central telefónica. No se mencionan pasos realizados para ocultar la
concealment 9 1 2 3 4 5 secuencia hasta que se asignan las intervenciones.
mechanism “Patients were entered by telephoning the central randomisation service at the Clinical Trial
Service Unit (CTSU), Oxford, UK.”
Queda claro implícitamente que se procede de igual manera para todas las
11b 12345
intervenciones.
6
13b 1 2 3 4 5 No se especifica de forma clara separando por grupo pérdidas y exclusiones.
14b 12345 No se menciona ningún criterio para una finalización imprevista del estudio.
Numbers
analysed
16 12345 Aparecen tablas con el número de participantes analizados (Tablas 2 y 3).
Para las variables principales y las secundarias se dispone de resultados para cada
grupo, la magnitud del efecto y la precisión en gráficos. En la figura 2 se muestran
17a 1 2 34 5 los intervalos de confianza para la reducción en los odds de morir o sufrir
Outcomes and
estimation dependencia a los 6 meses. En el pie se especifica que se construyen con un nivel
de confianza del 99%.
“The IST was done in a wide variety of specialist and non-specialist hospitals in 36 countries,
but the average frequency of different outcomes, overall and in specific subgroups, was
Generalisability 21 12345 similar to that seen in Oxfordshire, UK, and the frequency of early recurrent stroke was
similar to that in a review of epidemiological studies and randomised trials in acute stroke.34
However, pulmonary embolism was reported much less frequently (0·7%) than in a recent
review (3-39%),35 so the generalizability of the IST result may be reduced by the likely
underascertainment of this secondary event. On the other hand the IST was very large so that
even in subgroups of patients the results are based on substantial numbers, and this helps in
the interpretation.”
7
MÓDULO 6:
Apartado 2
Ejemplos
Héctor Rufino
José Antonio González
1. Generación de los datos basales
Generar una tabla sobre los datos basales para, al menos, una variable categórica, una
ordinal, una numérica simétrica y una numérica asimétrica.
A la hora de mostrar el resumen de las diferentes variables para los datos basales se
siguen las indicaciones de la guía CONSORT, que en el ítem 15 especifica cómo resumir
una variable en función de cómo sea la misma. Entre las opciones disponibles,
mostramos:
Para este estudio, The International Stroke Trial, mostramos las siguientes variables
que se resumirán en una tabla sobre datos basales:
Histograma de la variable BP
Boxplot de la variable
300
5000
250
4000
Frecuencia
200
3000
150
2000
100
1000
0
100
3500
3000
80
2500
Frecuencia
2000
60
1500
40
1000
500
20
0
20 40 60 80 100
AGE
AGE
VARIABLE RESUMEN
BASAL
Systolic BP (mm Hg) 160.16 (27.61)
Age (yr) 73 (65 / 80)
Gender
Female 9028 (46.45%)
Male 10407 (53.55%)
Conscious level
Unconscious 260 (1.33%)
Drowsy 4254 (21.89%)
Alert 14921 (76.77%)
Delay (h)
0-3 843 (4.34%)
4-6 2322 (11.95%)
7-12 4114 (21.17%)
13-24 3180 (20.48%)
25-48 8176 (42.07%)
Se aporta, para cada variable, media (sd) o mediana (1r cuartil /
3r cuartil) o número (porcentaje)
2. Generación de los resultados principales
Para estudiar estas diferencias se puede utilizar la Diferencia de proporciones (RA), el Riesgo
relativo (RR), o el Odds Ratio (OR). En este informe se realizará el análisis para las tres. Repase
su definición y cálculo en el capítulo 8 del módulo 3.
A continuación se muestra una tabla con el cálculo de la estimación del RA para los dos
análisis que se quieren realizar y del intervalo de confianza del RA(95%).
Gráficamente:
Como los intervalos de confianza del logaritmo del RR incluyen el valor 0 (y el intervalo
de confianza del RR incluye el valor 1), tampoco con el RR hay diferencias significativas
ni para Heparina, ni para Aspirina.
Odds ratio (OR)
Para los datos que se están tratando se tienen los siguientes resultados:
Y, gráficamente:
Y se llega a la misma conclusión que con las medidas de riesgo anteriores ya que
ambos IC95% cubren los valores de no efecto.
En la siguiente tabla se muestra, para ambos grupos, la media y la desviación estándar entre
paréntesis. Además, se incluye la estimación puntual y por intervalo de la diferencia entre
medias que estima la magnitud del efecto:
Diferencia medias
Acupuntura Control
(desviación típica)
3.92 (63.08) 8.68 (53.13) 4.76 (58.58) (-7.91, 17.42)
También se observa que el grupo que ha recibido acupuntura aumenta menos el dolor, pero
esta diferencia no es significativa, ya que su IC95% incluye el valor 0. En resumen, no se ha
logrado establecer un efecto significativo de la acupuntura.
2.3. Respuesta tiempo de supervivencia
Datos: Anderson
Una de las vías para ello es comparar la función de supervivencia de ambos grupos. El método
de Kaplan-Meier, para comparar la frecuencia de eventos a lo largo del tiempo, estima una
única razón de tasas común para todos los tiempos de seguimiento.
El primer paso consiste en representar las funciones del tiempo hasta la recaída en ambos
grupos en un mismo gráfico.
Funciones de Supervive
1.0
Tratamiento
Supervivencia
0.8
Placebo
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30 35
Tiempo en semanas
Call:
coxph(formula = leuk ~ g)
De la salida de R se observa que el HRR del tratamiento respecto al placebo vale 0.2076, con
un Intervalo de confianza del 95%= (0.09251, 0.4659), de dónde se desprende que el
tratamiento reduce la frecuencia de eventos en un 79,2% (53.4 a 90.7%).
El intervalo de confianza del HRR no incluye el valor 1, por lo que el tratamiento reduce el
riesgo de recaída de forma significativa.
Parece razonable representar la reducción del riesgo con un HRR constante ya que la
inspección visual apoya la premisa de proporcionalidad de los riesgos entre estas 2
intervenciones: a lo largo de todo el periodo de seguimiento considerado, administrar el
tratamiento reduce a una quinta parte la frecuencia de eventos.
Nota: El curso de observacionales enseña a reproducir estos resultados ajustando por terceras
variables.
Nota técnica: la aleatorización hace que este ajuste no sea necesario en los ensayos clínicos
bien ejecutados (p.e., sin pérdidas). Pero como puede tener otras ventajas (p.e., en eficiencia),
algunos autores especifican como análisis principales o análisis ajustado.
3. Scripts R
##VARIABLE CONTINUA
###Simétrica: BP
#Histograma de la variable
hist(datos$RSBP,col="steelblue",xlab="BP",ylab="Frecuencia",
main="Histograma de la variable BP")
#Media
mediaBP<-mean(datos$RSBP)
#Desviación estándar
sdBP<-sd(datos$RSBP)
###Asimétrica: AGE
#Histograma de la variable
hist(datos$AGE,col="steelblue",xlab="AGE",ylab="Frecuencia",
main="Histograma de la variable AGE")
#Mediana
medianaAGE<-median(datos$AGE)
#Primer y tercer cuartil
pencentilesaAGE<-quantile(datos$AGE,probs=c(0.25,0.75))
#VARIABLE CATEGÓRICA
#Conscious level
##Recuentos
tablaCL <- table(datos$RCONS)
tablaCL
##Porcentajes
prop.table(tablaCL)*100
#Sex
##Recuentos
tablaSEX <- table(datos$SEX)
tablaSEX
#Porcentajes
prop.table(tablaSEX)*100
#VARIABLE ORDINAL
#Categorización la variable continua: Delay
datos$Delay_cat <- cut(datos$RDELAY,breaks=c(0,4,7,13,24,49),
right=FALSE)
#La función cut permite categorizar una variable numérica.
#El parámetro breaks especifica los cortes que quieres
#realizar. El parámetro right=FALSE indica que el intervalo
#lo coge cerrado por la izquierda y abierto por la derecha
#Construimos la tabla con los recuentos de las categorías
tabla <- table(datos$Delay_cat)
tabla
#Construimos la tabla con los porcentajes de las categorías
prop.table(tabla)*100
3.2. Generación de los resultados principales
###Grupo No Herapin
#Recuentos
TNHEP <- sum(datos$ID[datos$RXHEP=="N"])
#Proporciones
PTNHEP <- TNHEP/length(datos$RXHEP[datos$RXHEP=="N"])
###Análisis
###Grupo No Aspirin
#Recuentos
TNASP<-sum(datos$ID[datos$RXASP=="N"])
#Proporciones
PTNASP<-TNASP/length(datos$RXASP[datos$RXASP=="N"])
###Análisis
# Estimación puntual e IC para el RA
nNASP<-length(datos$RXASP[datos$RXASP=="N"])
nASP<-length(datos$RXASP[datos$RXASP!="N"])
RAasp<-PTNASP-PTASP
IC.Lasp<- RAasp-
(1.96 * sqrt((PTASP*(1-PTASP))/nASP+
(PTNASP*(1-PTNASP))/nNASP))
IC.Uasp<- RAasp +
(1.96 * sqrt((PTASP*(1-PTASP))/nASP+
(PTNASP*(1-PTNASP))/nNASP))
##RA
forestplot2(mean=c(RAhep, RAasp),
lower=c(IC.LRAhep,IC.Lasp),
upper=c(IC.URAhep,IC.Uasp),
labeltext=c("Heparina vs. No Heparina", "Aspirina vs.No
Aspirina"),
clip=c(-1,1.5),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=-0.02,to=0.02,by=0.01),
boxsize=0.1,
col=fpColors(box=c("blue", "darkred")),
xlab="Diferencia de proporciones (RA)",
main="Forest Plot (RA)",
new_page=TRUE)
##RR
forestplot2(mean=c(exp(logRRhep), exp(logRRasp)),
lower=c(exp(IC.LRRhep),exp(IC.LRRasp)),
upper=c(exp(IC.URRhep),exp(IC.URRasp)),
labeltext=c("Heparina vs. No Heparina", "Aspirina vs. No
Aspirina"),
clip=c(-1,1.5),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=0.5,to=1.5,by=0.25),
boxsize=0.1,
col=fpColors(box="red"),
xlab="Riesgo Relativo (RR)",
main="Forest Plot (RR)",
new_page=TRUE,zero=1)
##OR
forestplot2(mean=c(exp(logORhep), exp(logORasp)),
lower=c(exp(IC.LORhep),exp(IC.LORasp)),
upper=c(exp(IC.UORhep),exp(IC.UORasp)),
labeltext=c("Heparina vs. No Heparina", "Aspirina vs. No
Aspirina"),
#clip=c(-1,1.5),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=0.5,to=1.5,by=0.25),
boxsize=0.1,
col=fpColors(box="green"),
xlab="Odd ratio (OR)",
main="Forest Plot (OR)",
new_page=TRUE,zero = 1)
##Diferencia de medias
forestplot2(mean=-dm,
lower=test$conf.int[1],
upper=test$conf.int[2],
labeltext=c("Acupuntura vs. control"),
clip=c(-10,20),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=-10,to=20,by=2),
boxsize=0.1,
col=fpColors(box="blue"),
xlab="Diferencia de medias",
main="Forest Plot",
new_page=TRUE)
#Modelo de Cox
mod.cox <- coxph(leuk ~ g)
summary(mod.cox)
MÓDULO 6:
Apartado 3
Alexandre González
RESUMEN DEL PROTOCOLO
*Sujetos: pacientes con primer episodio psicótico de entre 18 y 35 años que inicien su
primer contacto en un Centro de Salud Mental.
*La variable resultado sería la puntuación de la escala PANSS a los 3 meses del inicio
del tratamiento.
*Estrategia de análisis:
Eventos adversos
Leves Cansancio
Déficit de concentración
Sedación
Inquietud
Embotamiento
Náuseas
Moderados Vómitos
Parestesias
Rigidez
Temblor
Insomnio
Hipersomnia
Alteraciones amnésicas
Graves Distonía
Rigidez grave
Rash cutáneo
Anafilaxis
#Tamaño muestral
n1<-TwoSampleMean.Equality(alpha=0.05,beta=0.20,sigma=15.49193338,margin=5,k=1)
n2<-TwoSampleMean.Equality(alpha=0.05,beta=0.20,sigma=20,margin=5,k=1)
n3<-TwoSampleMean.Equality(alpha=0.05,beta=0.20,sigma=23.664319132,margin=5,k=1)
MÓDULO 6:
Apartado 3
SIMULACIÓN de un ECA
Para el caso en que la correlación basal – final es 0.5, el tamaño muestral es de 252 pacientes
por rama si se quiere obtener una potencia del 80%. Simularemos para cada paciente el valor
basal y final de la escala PANSS, teniendo en cuenta que siguen una distribución normal
multivariante. Sin considerar aún el efecto del tratamiento, si ‘0’ representa el valor inicial, ‘f’
el final, y (0,f) su covarianza:
-
-
-
-
Para cada simulación, los datos se guardarán en una matriz Y de N = 504 filas (cada fila será un
paciente) y dos columnas, donde la columna 1 será la PANSS basal y la columna 2 será la
PANSS final.
Un vector adicional g contendrá el grupo de asignación, determinado al azar. Creamos los dos
grupos de pacientes, según el tratamiento recibido:
- En el grupo 1, suponemos que la media de la escala PANSS al inicio y al final es la
misma.
Por lo tanto, para uno de los tratamientos no hay cambio en la escala PANNS y para el otro
tratamiento sí. Queremos ver si podemos detectar esa diferencia de 5 unidades.
Dado que la escala PANSS se mueve en un rango de valores entre 30 y 210, al escoger una
, es posible que simulemos algún valor por debajo de 30, por lo que truncamos a 30 y
ponemos los valores inferiores iguales a 30. También redondeamos las variables, para que den
valores enteros (ello da a los valores simulados un aspecto más realista, pero no es un paso
necesario, en verdad).
Este proceso lo repetiremos M veces (5000, en nuestra simulación). En cada ejecución, una vez
generados los datos, calcularemos el cambio C = Y[,2] –Y[,1] entre la respuesta final y la inicial.
Y luego miraremos si hay diferencias entre la media del cambio del grupo 1 y la media del
cambio del grupo 2 mediante el test de la t de Student (sin suponer igualdad de varianzas
entre los dos grupos).
Aquí partimos de que conocemos el tamaño muestral que da una potencia del 80%. Pero en
caso de que la distribución de la variable sea más compleja y no sepamos calcular el tamaño
muestral con una fórmula, habría que probar con varios tamaños muestrales (cambiar la N del
código) hasta dar con aquella que proporcione una potencia similar a la deseada. Esta es la
gran ventaja de la simulación.
N = 504 # Nº de pacientes
X = matrix(NA, nrow=N, ncol=2) # Matriz donde se guardaran los datos
M = 5000 # Nº de simulaciones
F = 0 # Contador de p-valores, inicialmente a 0
# Parámetros
delta = 5
mu = 60
sigma = 20
var = sigma^2
rho = 0.5
# Covariancia
u = rho*sigma*sigma
# Matriz de varianzas y covarianzas
var_covar = matrix(c(var, u, u, var), nrow=2)
# Simulación
for (i in 1:M)
{
# Asignamos cada paciente (cada fila) a un grupo de tratamiento
g = sample(c(rep(1,N/2), rep(2, N/2)))
# Generamos los valores
X[g==1,] = rmvnorm(n = N/2, mean = c(mu, mu), sigma = var_covar)
X[g==2,] = rmvnorm(n = N/2, mean = c(mu, mu + delta), sigma =
var_covar)
# Truncamos y redondeamos
X[X[,1]<30,1]=30
X[X[,2]<30,2]=30
X = round(X)
# β
F/M
# Potencia
(M-F)/M
Si, por ejemplo, la correlación fuera 0.3, esta es una posible salida (la potencia sería
insuficiente):
> F/M
[1] 0.5594
> (M-F)/M
[1] 0.4406
-
Capítulo 16:
Estudios observacionales.
Objetivos, diseños y retos
Erik Cobo
José Antonio González, Jordi Cortés y Nerea Bielsa
Septiembre 2014
Estudios observacionales
2
Bioestadística para no estadísticos
Presentación
Los quince capítulos precedentes han expuesto las técnicas estadísticas aplicadas a la pregunta más
importante en salud: ¿cómo mejorar el futuro de los pacientes? Por ejemplo, el capítulo 4 expuso
cómo el IC95% cuantifica la influencia de la asignación al azar y el capítulo 11 definió el efecto de
una nueva intervención.
Los estudios observacionales también podrían querer estimar el efecto de una intervención, pero son
especialmente adecuados en aquellas preguntas que no implican asignación, como lo son las
diagnósticas, pronosticas o etiológicas. Veremos que cada una de ellas tiene sus propios retos.
Mientras diagnóstico y pronóstico se centran en la capacidad de una buena clasificación (que
requiere una buena asociación estadística); la búsqueda de causas de la etiología, como la
estimación de efectos de los ensayos clínicos, requiere relación causa-efecto. Al no disponer de las
ventajas del diseño de experimentos, la interpretación etiológica de un estudio observacional debe
afrontar retos adicionales: sesgo impredecible, sesgo de confusión y sesgo de selección; que son el
resultado, respectivamente, de ausencia de azar en el diseño, causas relacionadas, y respuestas
condicionadas. También amenazan otros peligros comunes con los ensayos clínicos, como la
regresión a la media, vista en el tema 10. A lo largo de este curso veremos qué técnicas estadísticas
y lógicas pueden ayudar a afrontarlos.
Este capítulo repasa los conceptos generales vistos en el capítulo 1, los diferentes tipos de objetivos
médicos, los retos de los estudios observacionales y el análisis con R de variables categóricas.
Contribuciones: Basado en el material previo habitual, Erik Cobo redactó un primer borrador que
fue revisado por José Antonio González, Jordi Cortés y Nerea Bielsa, quienes, además, han
diseñado los ejercicios adicionales implementados en e-status.
3
Estudios observacionales
1. Introducción
Figura 1.1
4
Bioestadística para no estadísticos
5
Estudios observacionales
Un EC estudia los efectos de una intervención bien definida. En el fondo, un EC bien diseñado,
ejecutado y analizado es fácil de interpretar: en el futuro, al cambiar la intervención de referencia
por la experimental, la evolución de los pacientes con los mismos criterios de elección cambiará tal
y como cuantifica el efecto observado (y su intervalo de incertidumbre).
Historieta: un artículo de un buen EC termina con los resultados, porque no precisa discusión.
6
Bioestadística para no estadísticos
Recuerde
Un EE busca las posibles causas de un efecto determinado
El camino para definir con precisión una intervención y documentar sus efectos es arduo y largo. El
paso final, documentar sus efectos, lo dará el EC. Pero el primer paso es descifrar cuáles son las
causas, los “determinantes” de la respuesta. Este es el objetivo de los estudios etiológicos (EE).
Recuerde
En el EC lo bien definido es la causa (intervención); pero en el EE es el efecto (la
enfermedad).
Ejemplo 2.1: Recuerde el ejemplo del asma y la soja. Todo empezó porque existían
epidemias de asma en Barcelona de causa desconocida. Joan Clos, responsable municipal de
salud, pidió a Jordi Sunyer y Josep Maria Antó que buscaran sus posibles causas y ellos
estudiaron “¿cuándo y dónde ocurrían los episodios de asma y qué pasaba esos días en
Barcelona? Sus conocimientos previos les llevaron a mirar las descargas de soja en el puerto
y si las condiciones meteorológicas explicaban los barrios en los que ésta aparecía. En datos
pasados vieron que “soja más viento” era una posible explicación. Luego, al reparar los silos
y proteger la descarga con lona protectora, vieron bajar el asma. Está confirmación requirió
proponer una intervención y esperar para observar sus efectos.
Recuerde
Los EE buscan causas de efectos; y los EC estiman efectos de causas.
Recuerde
En la I+D, los EE son I; y los EC, D.
7
Estudios observacionales
Ejemplo 2.1 (cont): En el ejemplo de asma y soja, Suñer y Antó no propusieron parar el
viento que llevaba los alérgenos porque no les “pertenecía”: no podían decidir la dirección
ni la intensidad del viento. Y tampoco propusieron (o quizás consiguieron) terminar con la
descarga de soja en el puerto de Barcelona. En sus manos sí que estaba sellar bien los silos y
añadir una lona protectora para evitar el escape del alérgeno.
Dudo que este caso sea el mejor ejemplo. Yo no diría muy alto que la pregunta es posterior a la
detección de la causa asignable. Y cambiaría ese trozo del párrafo:
8
Bioestadística para no estadísticos
Recuerde
Pasar de la etiología a la intervención requiere una causa asignable.
Además, esta intervención tiene que estar descrita con suficiente detalle para permitir su replicación
posterior por quienes deban ejecutarla. La nueva guía de publicación TIDIER, especifica qué
detalles deben permitir su replicación.
Como la pregunta diagnóstica implica a dos variables en el mismo momento del tiempo, basta un
estudio transversal para contestar cuáles son los valores de sensibilidad, especificidad, etc.
Ejemplo 2.4: el estudio Framingham encontró una relación positiva entre los valores de
presión arterial y la aparición posterior de eventos cardiovasculares.
Ahora, el pronóstico sí necesita que pase el tiempo (estudios longitudinales); pero, igual que en el
diagnóstico, el indicador es una característica del paciente, una condición, no una causa que el
investigador pueda asignar al paciente.
Recuerde
Los estudios diagnósticos y pronósticos no requieren asignación al azar.
9
Estudios observacionales
cambiar una estrategia diagnóstica por otra. Mediante un ensayo en grupos (cluster),
diferentes zonas de salud se asignan al azar a ambas “intervenciones” y se comparan los
resultados en salud años después.
Contra-ejemplo 2.6: Para ver si cierta intervención desciende los eventos cardiovasculares
en pacientes hipertensos, hay que estimar estos efectos mediante un EC con asignación al
azar de la intervención en estudio.
Incluir una pauta diagnostica o una pronóstica en una guía de práctica clínica es una intervención de
salud, cuyos efectos pueden ser valorados en EC. Estas intervenciones, como implican a más
colectivos, suelen denominarse intervenciones complejas y suelen valorarse mediante EC en grupo
(“cluster”).
Recuerde
Incluir una pauta diagnóstica o una pronóstica en el protocolo es una intervención
compleja, cuyos efectos suelen estimarse con EC en cluster.
Los estudios diagnósticos y pronósticos usan un indicador para predecir (“adivinar”) el valor de otra
variable. En ambos, lo importante es la capacidad para clasificar bien a los pacientes, sea en el
presente, diagnóstico; o sea en el futuro, pronóstico. Así, conviene que la relación sea intensa, pero
no es preciso que sea causal.
Los ensayos clínicos estiman efectos y los estudios ecológicos exploran causas. En ambos, la
relación de causa-efecto es crucial. Por supuesto, cuanto más intensa sea la relación, mejor. Pero el
requisito fundamental es que la relación sea de tipo causa-efecto.
Recuerde
Los estudios diagnósticos y pronósticos requieren relaciones intensas; los
etiológicos y de intervención, primero que sean causales; y luego, si son intensas
mejor.
10
Bioestadística para no estadísticos
editores y metodólogos que las desarrollaron prefirieron hacer una guía diferente para cada tipo de
estudio.
Lectura: Vd. ya ha estudiado algunos de los documentos adicionales “Explanation and Elaboration, E&E”.
Y Vd. ya sabe que son magníficos medios de aprendizaje.
Recuerde
Diferentes objetivos, diferentes diseños y diferentes guías de publicación.
Si una variable ha quedado fuera del proceso aleatorio, éste no la puede tener en cuenta. No queda
incluida dentro de las oscilaciones posibles.
Recuerde
El error típico y medidas similares sólo cuantifican la oscilación aleatoria.
11
Estudios observacionales
Ejemplo 3.2: La copa y el puro. Si los que beben también fuman, ¿cómo elucidar si las
respuestas observadas son debidas al alcohol o al tabaco?
Historieta: Un profesor sesentón se casa con una treintañera, que lamenta no encontrar satisfacción, por
lo que acuden al médico. Tras varias recomendaciones infructuosas, éste les aconseja que un treintañero
les abanique para evitar el sudor. Como esto tampoco funciona, el médico pide al profesor que
intercambie su rol con el joven. Entonces, cuando la esposa grita “ahora sí, ahora sí”, el profesor reprocha
al joven: “¿lo ves cómo hay que abanicar?”
Nota: adaptado (el rabino original es ahora el profesor) del libro de Cathcart y Klein.
En un EC, en cambio, la causa en estudio se asigna de forma que sea independiente de todas las
otras variables iniciales. Unas, porque quedan eliminadas con las restricciones de los criterios de
elegibilidad; y otras, porque la estratificación o la minimización garantizan su equilibrio. Incluso,
las variables desconocidas y las imposibles de medir quedan equilibradas por la aleatorización.
Estas garantías son probabilísticas, mayores para muestras más grandes. Pero esto es precisamente
lo que cuantifica el análisis estadístico: “hasta qué punto el azar puede explicar los resultados”.
Tampoco el EC no está libre de este reto, que puede aparecer, por ejemplo, cuando un investigador
no enmascarado aplica intervenciones adicionales a uno de los grupos. Una vez más, un buen
enmascaramiento le protegerá de este reto.
Lectura: el capítulo 17 aborda este reto.
Ejemplo 3.3: Flebitis y anovulatorios. Si por saber que toma la pastilla, estudia más a la
respuesta flebitis, generará asociación entre ambas.
12
Bioestadística para no estadísticos
de la respuesta. También puede aparecer sesgo de selección cuando elimina del estudio a los que no
quieren seguir con el tratamiento porque ya se han curado.
Recuerde
No confunda quitar el tratamiento con quitar del estudio.
Estos 3 retos resaltan la importancia de diseñar, ejecutar y analizar de forma impecable el EC.
Veremos porqué un diseño observacional lo tiene más difícil. En el ejemplo 3.2, Vd. observa los
casos tal y como son. Por tanto, si las 2 causas en competición, alcohol y tabaco, van juntas en esa
población, el reto existe.
Nota: Los EC no incluían en su inicio histórico a un tratamiento de referencia: todos los pacientes eran
tratados con el experimental. Al añadirla, se les denominó EC controlados. Luego quedó claro que debía
asignarse al azar, y se les llamó EC controlados aleatorizados. Ahora estas etiquetas no son necesarias
porque EC bien hecho debe tener referencia y asignación al azar.
13
Estudios observacionales
en el I+D; y los EC, más finales, es coherente que los primeros propongan nuevas hipótesis de
forma exploratoria. Pero si desea confirmar o refutar una hipótesis, recuerde que debe ser previa y
estar documentada.
Lectura de STROBE E&E, item 17: “We advise authors to report which analyses were planned, and
which were not. This will allow readers to judge the implications of multiplicity, taking into account the
study’s position on the continuum from discovery to verification or refutation.
Por supuesto, los datos pueden traer sorpresas y siempre es lícito sugerir nuevas ideas o hipótesis,
tanto en DO como EC, pero debe quedar muy claro que son una sugerencia, una interpretación, pero
no un resultado que confirma una
hipótesis previa.
Ejercicio 4.1
Busque en STROBE y STARD las palabras ‘blind’ y ‘mask’ ¿Qué encuentra?
14
Bioestadística para no estadísticos
que no exista una tercera variable que modifique el efecto. El primero exige que el efecto sea el
mismo en todos los casos, es decir que sea constante, fijo. Y se puede relajar con los modelos de
efectos aleatorios. El segundo es la interacción con otras variables.
Ejemplo 4.3: un enzima modifica una reacción biológica; y un catalizador, una química.
5. Diagramas causales
Nota: Los diagramas causales representan esquemáticamente relaciones causales entre variables conectadas
por flechas. En un Directed Acyclic Graph (DAG), las flechas tienen inicio y final (“directed”); y una
variable no puede causarse a sí misma (“acyclic”).
Ejemplo 5.2 (prestado de Miguel Hernán): El tabaco Z provoca los “dedos amarillos” Z2
y el cáncer Y. Aunque Z2 no causa Y, la colinealidad entre Z2 y Z, provocará que tengan
ambas sus efectos en Y confundidos, mezclados,
por lo que observaríamos asociación entre Z2 e Y
(Figura 5.2).
Figura 5.2
Diremos que: (1) Z tiene efecto causal en Y; (2) Z2 no tiene efecto causal en Y; pero (3) Z2 e Y
están asociados.
Recuerde
Distinguiremos entre expresiones “causales” y expresiones “relacionales”.
15
Estudios observacionales
En el DAG representa el bloqueo por un cuadrado alrededor de la variable controlada (Figura 5.3).
Definición
Condicionaremos (“blocking”) por una variable cuando, mediante el ajuste, la
dejemos “fija”, constante y, así, anulemos su relación con otras variables.
Nos preguntamos (hipótesis), si el gen X tiene algún efecto directo, que no pase por Z, en
los eventos adversos Y. Es decir, como clínicos, queremos saber si, controlando la
hipercolesterolemia Z, eliminaremos todos
los efectos de X en Y o bien aún quedarán
otros (Figura 5.5).
Figura 5.5
Ejercicio 5.1
Sean los datos inventados de la siguiente tabla. Conteste si el gen tiene algún
efecto directo en AVC o más bien todos sus efectos pasan por el camino de los
lípidos altos.
Notación
ORXY representa el OR entre X e Y sin ajustar
16
Bioestadística para no estadísticos
En la figura 5.6 puede ver un ejemplo completo de confusión que muestra las relaciones de Z con Y
(verde), de Z con Z2 (azul); y cómo Z2 es independiente de Y condicionada por Z (lila), pero está
relacionada con Y, al dejar libre a Z (rojo).
Ejemplo 5.4: La figura 5.6 muestra unos datos inventados desde todas las perspectivas. La
primera fila de subtablas muestra que la variable Z está relacionada con la respuesta Y (sea
porque tiene relación causal, sea porque es predictora). La segunda fila reordena los mismos
datos para mostrar que Z también está relacionada con Z2. Nótese que la más relevante de
las 3 subtablas de esta fila es la última: como la variable Y es posterior en el tiempo a las
otras dos, es difícil interpretar qué significan las dos primeras columnas. Finalmente, la
última fila muestra la relación entre Z2 e Y: condicionado por Z, son independientes (dos
primeras columnas), pero al dejar a Z libre, aparece relación (tercera columna).
Figura 5.6
Recuerde
Causas relacionadas implica efectos confundidos (sesgo de confusión)
17
Estudios observacionales
Ejercicio 5.2
¿Cualés de estos 4 DAGs representan confusión?
Ejercicio 5.3
1) ¿Y cuáles representan la siguiente situación? Sólo los pacientes que tienen
ciertas condiciones iniciales buenas son candidatos para una cierta intervención.
Por supuesto, esas condiciones iniciales buenas son un buen predictor de la
evolución. Sin embargo, acabamos de saber que la intervención que
administramos, con tanta ilusión, no tiene ningún efecto. 2) ¿Hay confusión?
Ejercicio 5.4
1) ¿Y cuáles la siguiente? La cirugía es un remedio útil para ciertas enfermedades
que están en su fase más inicial. [Use sus propios conocimientos sobre el tema
para completar el enunciado.] 2) ¿Hay confusión?
Ejemplo 5.5: Suponga (premisa 1) que las mujeres que toman anovulatorios Z van más al
centro sanitario Y que las que no toman. Representamos a los anovulatorios por Z para
remarcar el carácter observacional del estudio: el investigador no decide o aconseja los
anovulatorios, sino que la paciente ya llega con valor en esta variable. Suponga también
(premisa 2) que las mujeres que tienen cierta enfermedad Z2 (flebitis, por ejemplo) van más
al centro sanitario que las que no. Y Vd. se pregunta (hipótesis) si los anovulatorios Z están
relacionados con esta enfermedad Z2. En la representación de este DAG, diríamos, en
términos relacionales, que Z y Z2 son
independientes; y, en términos causales, que Z
no tiene efecto en Z2 (Figura 5.7).
Figura 5.7
18
Bioestadística para no estadísticos
En cambio, si se estudian los casos que van al hospital, aparecerá relación entre ambas
variables: al condicionar por la respuesta Y,
aparece una relación no causal entre Z y Z2
(Figura 5.8).
Figura 5.8
Ejemplo 5.5 (cont): La tabla 5.1, en la tercera columna muestra que anovulatorios Z y
enfermedad Z2 son independientes en la población. Pongamos que en esta población, las
pacientes que o no toman anovulatorios Z o no tienen la enfermedad Z2 un 20% van al
centro sanitario. En cambio, las que cumplen ambos van un 80%. Así, en el centro sanitario
Y+, primera columna aparece una relación positiva entre Z y Z2.
Tabla 5.1: a nivel global, tercera columna, Z y Z2 son independientes; pero si la probabilidad de ir al centro
es menor en las que no son o Z i Z2, la primera columna muestra relación entre Z y Z2. Las 2 últimas
columnas muestran que ambas Z predicen la respuesta.
Ejercicio 5.5
Suponga que cierto gen Z provoca eventos adversos Y. A la vez, lípidos altos Z2
también provocan Y. La tabla siguiente muestra la situación. Suponga también
que su centro solo atiende los Y+: ¿Qué observa?
Z+ 80 45 Z+ 10 45 Z+ 90 90
Z- 45 10 Z- 45 80 Z- 90 90
OR=0.4 OR=0.4 OR=1
IC95%=0.18 to 0.86 IC95%=0.18 to 0.86 IC95%=2/3 to 3/2
19
Estudios observacionales
Ejercicio 5.6
Una chica acepta citas si sus pretendientes son o guapos o simpáticos; y observa,
desolada, que los que son una cosa suelen no ser la otra. Explique porqué eso no
implica que, en la población general, ambas variables tengan una relación
negativa (pista: los que no cumplen ninguna condición tienen una probabilidad
menor de ser seleccionados).
Recuerde
Respuestas condicionadas implica causas relacionadas (sesgo de selección)
Diferencia de riesgos: se define como la diferencia entre la probabilidad de que un caso expuesto al
factor desarrolle la enfermedad y la misma probabilidad en un caso no expuesto al factor (diferencia
de riesgo entre expuestos y no expuestos).
Riesgo relativo: se define como el cociente entre las probabilidades de desarrollar la enfermedad;
los expuestos dividida por la de los no expuestos (razón entre riesgo en expuestos y riesgo en no
expuestos).
Odds ratio: se define como el cociente entre las odds (o razones sí/no) de desarrollar la enfermedad
entre los expuestos y los no-expuestos.
Ejemplo 6.1: Repasemos el cálculo de estas medidas en R tomando la siguiente tabla como
ejemplo:
Y+ Y- Total
X+ 7 125 132
X- 8 860 868
Total 15 985 1000
20
Bioestadística para no estadísticos
Ejemplo R
Ejemplo 6.2 : Después de cargar las funciones del curso que se encuentran en el Apéndice,
creamos una tabla mediante con array; los datos son los siguientes (Tabla 6.2):
Z+ Z-
Y+ Y- Y+ Y-
X+ 3 176 17 197
X- 4 293 2 23
Tabla 6.2
Ejemplo R
>tabla<- array(c( 3, 4, 176, 293, 17, 2, 197, 23), dim=c(2, 2, 2),
dimnames=list(c("X+","X-"),c("Y+","Y-"),c("Z+","Z-")))
Ejemplo R
>OR <- ORlogit(tabla)
>OR
LI OR LS
21
Estudios observacionales
Ejemplo R
>ORforest(OR)
OR Logit
OR G
OR2
OR1
OR
Ejercicio 6.1.
Obtenga la mediana de peso de los niños según si el período de gestación fue
inferior a 37 semanas o no lo fue.
Ejercicio 6.2
Obtenga con R el OR, el RR y el RA de la siguiente tabla a) ¿Porqué se asemejan
tanto el OR y el RR? b) ¿En qué tipo de tablas se diferencian más estas dos
medidas?
Y+ Y- Total
X+ 200 250 450
X- 100 150 250
Total 300 400 700
22
Bioestadística para no estadísticos
Ejercicio 6.3
Ejercicio 6.4
Diga cuáles de las siguientes son ciertas y corrija la expresión en caso contrario.
23
Estudios observacionales
item 11. describe whether or not the readers of the index tests and reference standard were blind (masked) to the results
of the other test and describe any other clinical information available to the readers.
Withholding information from the readers of the test is known as blinding or masking.
Observe que considera que las palabras blind y mask son sinonimos, y en este contexto significan ocultar información
(de asignación???) a los lectores.
STROBE: Sólo aparece el término “blinded”. Hace referencia a la utilidad de ‘‘cegar’’ a los participantes del estudio y
a los investigadores para evitar sesgo información y, en concreto, el sesgo del entrevistador.
5.1 A nivel global, sin controlar por lípidos (Z), la estimación puntual del ORXY es 2.7, con un IC95% razonablemente
preciso: los valores mínimos y máximos de esta relación, compatibles con los datos, serían 2.2 y 3.3. Controlando por
lípidos (Z), las estimaciones puntuales de los ORXY|Z son muy próximas a 1 (ORXY|Z1=1.01 y ORXY|Z2=0.99), con IC95%
razonablemente precisos: la máxima relación compatible con estos datos sería de 1.4 y 1.5. En estos datos, los lípidos Z
“vehiculizan” todos los efectos que el gen X tiene en los eventos adversos Y.
5.2 A y C cumplen con ‘variables relacionadas’ y que la tercera variable Z prediga la respuesta.
5.3 1) C: Z son las condiciones iniciales que determinan tanto la evolución Y como la posibilidad de recibir el trat X.
Pero X no tiene efecto en Y. 2) Esta situación podría provocar que, si no ajustamos por Z, observaramos una falsa
relación entre X e Y: Sí, hay confusión.
5.4 1) A: El enunciado dice que X->Y. Nosotros sabemos que la cirugía suele exigir que las condiciones iniciales sean
buenas (ZX) y también que estas condiciones suelen predecir la respuesta (ZY). 2) Igual que el anterior, pero ahora sí
que hay efecto XY, pero el que observáramos añadiría el otro camino, por lo que el efecto observado juntaría ambas
vías y mostraría un efecto diferente del real.
5.5 Se observa que Z y Z2 son independientes. Además en los pacientes con Y+ existe una relación negativa entre Z y
Z2 debido a que la probabilidad de no Z y no Z2 es menor que el resto de probabilidades de los pacientes con Y+.
5.6 Si hubiera independencia en la población general y clasificaramos según la mediana, la mitad de los casos serían
positivos en cada categoría y, en la población general habría una tabla “plana” con el mismo número de casos en cada
celda (como la de la derecha), mostrando independencia entre ambas variables.
Z+ 80 80 Z+ 20 20 Z+ 100 100
Z- 80 20 Z- 20 80 Z- 100 100
OR = 1/4 OR = 4 OR = 1
Si la chica dice que sí a un 80% de los casos que cumplen alguna de las condiciones y un 20% a los que no cumplen
ninguna, observaría la tabla de la izquierda, con un OR de ¼ mostrando relación negativa que no es real. La versión
inglesa de Wikipedia, en paradoja de Berkson, explica este mismo ejemplo, de Ellemberg de manera más formal.
24
Bioestadística para no estadísticos
6.2 install.packages('epibasix')
library(epibasix)
attach(results)
rdCo;rdCo.CIL;rdCo.CIU
RR;RR.CIL;RR.CIU
OR;OR.CIL;OR.CIU
a) La lejanía del OR y el RR se debe a que las probabilidades de la respuesta Y+ son altas (la más baja es
150/700=0.14)
b) Cuando el evento es raro y su probabilidad es pequeña, ya que OR=p/(1-p) y si la p es pequeña (1-p) tiende a 1.
6.3 >install.packages('Epi')
>library(Epi)
>data(births)
>births
>attach(births)
#b) Estimación puntual (e IC) para el RA
>rdCo;rdCo.CIL;rdCo.CIU
#c) Estimación puntual (e IC) para el RR
> RR;RR.CIL;RR.CIU
#d) Estimación puntual e IC para el OR
> OR;OR.CIL;OR.CIU
6.4 a) Verdadera
c) Cierta.
d) Cierta.
25
Estudios observacionales
Apéndice I: Funciones
#Cálculo del OR y su IC95% a partir de una tabla 2x2
> OddsRatio <- function(t){
or <- t[1,1]*t[2,2]/t[2,1]/t[1,2]
var <- sum(1/t)
LI <- exp(log(or)-1.96*sqrt(var))
LS <- exp(log(or)+1.96*sqrt(var))
return (c(LI,or,LS))
}
return(OR)
}
plot(NULL, xlim=c(xmin,xmax+1),ylim=c(0,n+1),
xlab="OR",ylab="",yaxt="n",log="x") # Marco del gráfico
26
Capítulo 17:
Confusión:
Causas relacionadas implica efectos confundidos
Erik Cobo
José Antonio González, Jordi Cortés y Nerea Bielsa
Septiembre 2014
Confusión
Confusión
Presentación ..................................................................................................................... 3
1. Causas relacionadas implica efectos confundidos ............................................ 4
1.1. X representa causas; Z, condiciones ...................................................................... 4
1.2. Z y X deben estar relacionadas (ser “colineales”) ................................................. 4
1.2. Premio al diseño en EC: ausencia de confusión .................................................... 8
1.3. La tercera variable debe estar relacionada con la respuesta ................................. 11
1.4. Definición epidemiológica de variable confusora ............................................... 12
1.5. Generando confusión ........................................................................................... 15
1.6. No confusión como premisa para la inferencia causal ......................................... 16
2. Ajuste por terceras variables ........................................................................... 19
2.1. Estimador ajustado Mantel-Haenszel (MH) ........................................................ 19
2.2. Extensión a un mayor número de subtablas ......................................................... 23
2.3. Ajuste por ponderación ........................................................................................ 26
ANEXO .............................................................................................................................. 29
3. Pruebas de hipótesis para tablas de frecuencias ............................................ 29
3.1. Prueba χ2 de Pearson ............................................................................................ 29
3.2. Prueba χ2 de Pearson con corrección de Yates* .................................................. 33
3.3. Prueba exacta de Fisher........................................................................................ 34
3.4. PH ajustada de MH .............................................................................................. 36
Soluciones a los ejercicios.................................................................................................. 39
2
Bioestadística para no estadísticos
Presentación
Este capítulo está dedicado en exclusiva al tema estrella de los diseños observacionales: la
confusión, usando tanto la definición estadística, como la epidemiológica. Luego expone tanto las
condiciones que originan la confusión, como aquellas que deben darse para que no aparezca.
La segunda parte expone las herramientas estadísticas para abordar la confusión en el caso de
variables dicotómicas. El objetivo es estimar el efecto de X en Y controlando por las terceras
variables conocidas Z.
En éste veremos dos métodos alternativos. El primero hace estratos de las terceras variables Z para
estimar, dentro de cada uno, el efecto de X en Y. El estimador de Mantel-Haenszel pondera los
efectos XY observados en estos estratos para obtener un estimador único del efecto de X en Y
común para todos los estratos definidos con las Z.
El método de ponderación por el inverso de la probabilidad intenta construir una tabla en la que los
grupos sean comparables y en la que calcular directamente el efecto de X en Y.
Contribuciones: Basado en el material previo habitual, Erik Cobo redactó un primer borrador que
fue revisado por José Antonio González, Jordi Cortés y Nerea Bielsa, quienes, además, han
diseñado los ejercicios adicionales implementados en e-status.
3
Confusión
Recordemos que X representa a las variables cuyo valor puede depender, al menos potencialmente,
del individuo. Son intervenciones, por tanto. Desde consejos de vida saludable (“higiénico-
dietéticos”) hasta las empleadas por las diferentes disciplinas (farmacología, cirugía,
fisioterapia,…). En cambio, Z representa las condiciones del paciente cuyo valor no puede ser
decidido ni por el paciente ni por el investigador. Las más habituales son el género y la edad, pero
toda la historia pasada forma parte de estas condiciones. Como no tienen el protagonismo de la
respuesta Y ni de la intervención X, suelen llamarse “terceras variables”.
Esta distinción entre las variables iniciales es clave para interpretar correctamente los resultados. En
un EC, el tratamiento en comparación es X; pero los criterios de elegibilidad y las variables de
estratificación, Z. En un diseño observacional todas las variables iniciales son Z: el buen
investigador especulará sobre cuál convertir en X.
Nota: Estas variables iniciales, sean Z o X, suelen etiquetarse con un mismo nombre: covariantes y
regresoras son frecuentes.
Recuerde
Es más correcto “variables relacionadas implica respuestas confundidas”.
4
Bioestadística para no estadísticos
Ejemplo 1.2: Dos tratamientos se utilizan en dos centros diferentes, si bien en Primaria
prefieren A, de forma que se administra 5 veces por cada una que se ofrece B (5/1): la odd o
momio está “5 a 1” o bien 5/1. En cambio, en el centro de referencia es justo al revés, ya que
A sólo se administra 1 vez por cada 5 de B: la odd ahora vale “1 a 5”. Todo ello conduce a
un desequilibrio que el OR cuantifica en 25 (Tabla 1.1).
OR = (5/1) / (1/5) = 25
Tabla 1.1
Existe, por tanto, una fuerte relación entre el tratamiento en estudio X y la tercera variable
centro Z.
Se dice, en esta situación, que X y Z son colineales y que sus posibles efectos estarán confundidos,
como se muestra a continuación.
Ejemplo 1.2 (cont.): Suponga que, en el primer centro, los pacientes que evolucionan bien
doblan a los que no lo hacen: odd = 2 a 1. Mientras en segundo centro, los que evolucionan
bien son la mitad de los que no lo hacen: odd = 1 a 2, es decir, “½”. El OR vale 4, indicando
que la evolución favorable es 4 veces más frecuente en el primer centro (Tabla 1.2):
Y+ Y- Razón
OR = (2/1) / (1/2) = 4
Tabla 1.2
Dicho de otra manera, en primaria van bien, por el motivo que sea, 4 veces más. No es
preciso ni se pretende afirmar que primaria sea mejor (relación causal): quizás los pacientes
estén en un estado más inicial de su enfermedad o tengan menos comorbilidades. Por la
5
Confusión
razón que sea (“las cosas de la vida”), los de primaria tienen mejor pronóstico: el centro es
un predictor de la respuesta.
Imaginemos que los 2 tratamientos A y B tienen idéntica eficacia, como muestran las tablas
siguientes, una para cada centro (Tabla 1.3):
Primario Terciario
Y+ Y- Odd Y+ Y- Odd
X=A 100 50 2a1 10 20 1a2
X=B 20 10 2a1 50 100 1a2
OR 1 1
Tabla 1.3
En cada centro, cambiar de A a B no modifica la respuesta, OR=1. Pero si, por brevedad o
descuido, no tiene en cuenta el centro y estudia únicamente la tabla conjunta, obtendrá un
OR=2,5 (IC95% de 1,6 a 3,8), indicando asociación entre tratamiento y evolución (Tabla
1.4):
Y+ Y- Odd
X=A 110 70 11 a 7
X=B 70 110 7 a 11
OR 2,5 IC95%=1,63,8
Tabla 1.4
Figura 1.1
6
Bioestadística para no estadísticos
Al estudiar ambos centros en conjunto, el tratamiento parece tener un efecto (OR=2,5) que
en realidad no tiene (OR=1). ¿Qué sucede? Observe los 180 casos asignados a A (Tabla 1.4)
y mírelos en la tabla 1.1: la mayoría, 150, vienen de primaria, justa al revés que lo que pasa
con los asignados a B. La comparación no es “justa”, ya que los asignados a A parten con
ventaja. En resumen, como Intervención y Centro están relacionados se confunden sus
efectos. Aquí no engaña la intuición: si el tratamiento A se estudia más en el centro 1, que
tiene mejores resultados, y el tratamiento B en el centro 2, que tiene peores resultados, esta
comparación estará sesgada a favor del tratamiento A.
Recuerde
Variables relacionadas implica efectos confundidos.
Ejercicio 1.1
Represente en un DAG este ejemplo.
El problema es que ahora los datos no conducen a una única interpretación, pues puede
argumentarse que la diferencia entre los resultados viene por cualquiera de las dos diferencias entre
los dos grupos.
Ejemplo 1.3: en la historieta del capítulo anterior que cambia a la vez quién abanica y quién
yace, la interpretación del profesor es lícita, en el sentido de ser compatible con los
resultados. Es la información externa sobre los nulos efectos del abanico la que desaconseja
esa interpretación —pero no la información de los datos.
Si las variables (sean Z o X) están relacionadas, los resultados del estudio no tienen una única
interpretación. La atribución de los efectos a una u otra variable debe ser discutida de acuerdo con
los conocimientos teóricos y las características del estudio.
Recuerde
Si hay colinealidad, más de una interpretación es compatible con los datos.
7
Confusión
Ejemplo 1.4: un buen diseño implicaría idéntica razón entre tratados y controles para
ambos centros, lo que se traduce por un OR = 1 (Tabla 1.5):
Primario 90 90 1a1
Terciario 90 90 1a1
OR = (90/90) / (90/90) = 1
Tabla 1.5
Es decir, ahora el tratamiento está balanceado entre centros, ya que la razón tratados con A
versus tratados con B (1 a 1) es idéntica en ambos. Ahora, la comparación será justa (“fair”)
porque los grupos de las intervenciones son comparables: los pacientes proceden, con la
misma razón, de ambos centros.
Recuerde
En una comparación “justa”, todas las terceras variables están igualmente
distribuidas en los grupos
Si igual que antes no existieran diferencias entre los tratamientos, se podría observar, en
cada centro, una situación idéntica a la anterior, como la que muestra la tabla 1.6.
C1 C2
Tabla 1.6
Y+ Y- Odd Y+ Y- Odd
X=A 60 30 2a1 30 60 1a2
X=B 60 30 2a1 30 60 1a2
OR 1 1
8
Bioestadística para no estadísticos
En los dos centros, estudiados por separado, el tratamiento no tiene efecto: en ambos OR=1.
Si, por parsimonia o por claridad, este investigador quisiera presentar los resultados
comparativos de los tratamientos sin distinguir por centro, obtendría los siguientes datos,
concluyendo también que no existe relación entre tratamiento y evolución (Tabla 1.7):
Y+ Y- Razón
X=A 90 90 1a1
X=B 90 90 1a1
OR = 1 IC95%=0,71,5
Tabla 1.7
Es decir, estudiando ambos centros a la vez, el tratamiento tampoco muestra efecto alguno,
como era deseable.
Figura 1.2: Independencia de X con Z conduce a idéntica estimación global y por grupos
Recuerde
Si la tercera variable Z no está relacionada con la intervención X, no cambiará la
estimación del efecto de X en Y – aunque Z prediga la respuesta Y.
Ejercicio 1.2
Dibuje el DAG de este ejemplo y compárelo con el del ejemplo anterior.
9
Confusión
Ejercicio 1.3
En la tabla figuran 4 estudios que han asignado la intervención Experimental E y
la de referencia R, tanto a hombres como a mujeres. Explique la razón de las
diferencias de los números observados, cuáles tienen confundidos los efectos del
género y la intervención; y porqué.
A B C D
E R E R E R E R
Así, mediante un buen diseño, el EC, puede garantizar que las variables Z balanceadas están
equilibradas en ambos grupos, por lo que no podrán provocar confusión.
Figura 1.3: Control de las variables conocidas Z mediante el
ajuste
Pero, ¿qué pasa con las variables no balanceadas? Suponga
que en unos años se descubre cierta medida Z de la “paz
interior” que tiene una gran capacidad pronóstica en la
evolución de los pacientes. ¿Deberemos repetir todos los
estudios que emplearon respuestas Y relacionadas con esta Z
—ahora balanceando con ella?
10
Bioestadística para no estadísticos
Recuerde
Un EC controla las variables conocidas Z mediante el ajuste y las desconocidas W
mediante el azar.
Por supuesto, hay que evitar los riesgos de sesgo que vimos en el capítulo 10.
Recuerde
Un EC bien diseñado, ejecutado y analizado está protegido contra la confusión.
La tercera variable Z puede predecir la respuesta Y por cualquier razón. No importa que sea causal.
Definición
Decimos que Z es predictor de Y si ambas están relacionadas —causalmente o no.
La solución de un buen diseño no “rompe” la relación ZY; sino ZX, con un diseño balanceado.
Ejercicio 1.4
Dibuje el DAG de un buen EC y explique porqué no puede haber confusión, ni
siquiera para variables desconocidas W que estén relacionadas con la respuesta Y.
Ejercicio 3.5
En la tabla figura un ejemplo de Bishop (32) –analizado también por Freeman
(43)- sobre la evolución de un recién nacido (vive, muere) en función de la
duración de la preparación materna al parto (cuidados ><1 mes) y del hospital
(A,B) . Clasifique las variables en respuesta, intervención y condición. ¿Qué
opina sobre la influencia de los cuidados en la evolución?
11
Confusión
Definición
Una variable Z confunde la relación entre X e Y cuando la estimación del efecto
de X en Y cambia si se ajusta o no se ajusta por Z.
Recuerde
Para que Z confunda, debe (1) ser colineal con X; y, (2) predecir Y.
Ejercicio 1.6
Dibuje un DAG que represente confusión
Ejemplo 1.5: La tabla 1.8 muestra: (a) un efecto ajustado ORXY|Z1= ORXY|Z2=2; (b) un
efecto sin ajustar ORXY=3.36; una colinealidad ORXZ=5.76; y (c) un capacidad predictiva
ORZY=5.76.
Z1 Z2 Todos
Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2
X1 450 150 100 150 550 300 X1 600 250 Z1 600 250
X2 150 100 150 450 300 550 X2 250 600 Z2 250 600
Tabla 1.8
12
Bioestadística para no estadísticos
La DAG izquierdo de la figura 1.5 muestra el diagrama completo con todos los efectos
“directos” entre estas variables. Pero la figura derecha muestra lo que pasaría si
erróneamente se obviara la tercera variable Z: el efecto sin ajustar combina los 2 caminos, el
mediado por Z (ORXZ y ORZY); y el directo (ORXY|Z) para dar una estimación
combinada (ORXY=3.36).
El ejemplo anterior muestra que cuando X y Z tienen sus efectos confundidos, el cambio en la
relación XY observada puede ir en cualquier dirección: (1) en el ejemplo habitual, al ajustar por Z
disminuye (o hasta desaparece) la relación XY; pero (2) también podría aumentar (o incluso
aparecer).
Recuerde
La relación XY sin ajustar mezcla el camino directo y el que pasa por Z.
Ejercicio 1.7
En cierta Facultad muy masificada, la mitad de los alumnos faltan a clase. El
profesor estudia las notas finales y observa que los que van a clase: (1) sacan, en
promedio 2 puntos más (IC95% de 1.5 a 2.5); y (2) aprueban un 30% más (IC95% de
15 a 45%). Diga cuáles de las siguientes son falsas y porqué:
a) Al hacer la diferencia de sus medias, ha observado 2; y al hacer el cociente de
las proporciones de aprobados ha observado 1.3
b) Al hacer las medias, conviene incluir en el análisis a aquellos que no se
presentaron al examen final (por ejemplo, con un 0).
c) El efecto de las clases de este profesor en las notas de los alumnos es de 2
puntos (IC95% de 1.5 a 2.5).
d) Faltar a clase es un indicador (‘chivato’) de que las notas pueden terminar
mal: todo apunta a 2 puntos por debajo (IC95% de 1.5 a 2.5).
13
Confusión
Ejercicio 1.8
Invéntese un ejemplo en el que una variable tenga valor predictivo pero no se
pueda hablar de efecto causal. Puede ser un ejemplo de salud o de la vida
cotidiana. Si es de una revista científica, perfecto.
Ejercicio 1.9
En la tabla siguiente:
a) ¿Son X y Z colineales?
b) ¿Predice Z la respuesta Y?
c) Ajustando por Z1, ¿hay relación XY?
d) Ajustando por Z2, ¿hay relación XY?
e) Sin ajustar por Z, ¿hay relación XY?
f) ¿Tienen X y Z sus efectos confundidos?
g) Confunde Z al estudiar la relación XY?
Z1 Z2 Todos
Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2
14
Bioestadística para no estadísticos
Recuerde
Si una tercera variable inicial Z está relacionada con las dos variables en estudio
(es colineal con X y es predictora de la respuesta Y), debe estudiar el efecto de X
en Y ajustado por Z.
Ejercicio 1.10
Si quisiera inventar unos datos en los que haya confusión, ¿qué tendría que vigilar
que pasara?
Recuerde
Para que Z sea confusora debe estar relacionada con las dos variables en estudio.
Si queremos inventar unos datos en los que haya confusión, deberemos provocar que tengan las dos
relaciones XZ y ZY.
Ejemplo 1.6: Partimos de una tabla lo más simple posible (“plana”), por ejemplo la tabla
1.9:
Z1 Z2 Todos
Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2
X1 100 100 100 100 200 200 X1 200 200 Z1 200 200
X2 100 100 100 100 200 200 X2 200 200 Z2 200 200
OR 1 1 1 1 1
Tabla 1.9
Primero creamos la colinealidad ZX haciendo que en Z1 haya el doble de X1, pero en Z2, de
X2. Su ORZX vale (2/1) / (1/2) = 4 (Tabla 1.10).
15
Confusión
Z1 Z2 Todos
Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2
X1 200 200 100 100 300 300 X1 400 200 Z1 300 300
X2 100 100 200 200 300 300 X2 200 400 Z2 300 300
OR 1 1 1 4 1
Tabla 1.10
Luego hacemos que Z prediga Y haciendo que en Z1 haya el triple de Y1; pero en Z2, de Y2.
Su ORZY vale (3/1) / (1/3) = 9 (Tabla 1.11).
Z1 Z2 Todos
Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2
X1 600 200 100 300 700 500 X1 800 400 Z1 900 300
X2 300 100 200 600 500 700 X2 400 800 Z2 300 900
OR 1 1 ≈2 4 9
Tabla 1.11
El resultado es que ORXY = 49/25 ≈2, mientras que ORXY|Z1 = ORXY|Z2 =1.
Ejercicio 1.11
Invente unos datos en los que haya confusión
La primera, “suficiencia del modelo” dice que no quedan variables no observables W que predigan
la respuesta. Por tanto, requiere conocer y medir sin error a todas las variables que influyen en la
respuesta. De esta forma, es posible tener ‘controladas a todas las terceras variables relevantes: sea
por diseño, sea por ajuste en el análisis, el efecto observado de X en Y coincidirá con el efecto real.
Es una premisa habitual de las ciencias más deterministas, donde la gran capacidad de predicción de
16
Bioestadística para no estadísticos
la respuesta puede hacerla razonable. Pero es poco verosímil en Ciencias de la Vida y de la Salud
donde se acepta que queda mucho camino por recorrer.
La segunda, “aleatorización”, establece que todas las terceras variables son independientes del
tratamiento X: las observables Z porque el diseño permite balancearlas; y las no observables W
porque el reparto al azar garantiza que vienen de una misma población. Dada esta independencia,
también ahora el efecto observado de X en Y coincidirá con el efecto real.
La tercera, “ausencia de variables confusoras”, requiere independencia con el tratamiento para las
posibles terceras variables W que influyan en la respuesta. Es decir, supone que las terceras
variables W son independientes, o bien de la respuesta (ORWY=1), o bien de la intervención
(ORWX=1). Así, ninguna W abre un camino entre X e Y por lo que, también ahora, “correlación
implica causalidad”.
Observe que estas 3 condiciones hacen referencia a variables no observables W, por lo que no son
refutables (contrastables).
Observe también que cada una de las dos primeras implica a la tercera. Suficiencia del modelo
implica no confusión porque, si no quedan terceras variables no observables W, ninguna de ellas
(que no existen) puede ser colineal con la intervención. También asignación al azar implica no
confusión porque, si todas las variables no observables W son independientes de la intervención,
también lo serán aquellas W relacionadas con la respuesta.
Recuerde
Aleatorización implica no confusión.
Es muy importante resaltar que, de estas 3 condiciones, sólo una de ellas puede ser garantizada con
un buen diseño: aleatorización. Las otras dos condiciones establecen premisas sobre variables
desconocidas y no pueden por tanto estudiarse: se quedan en el campo etéreo de las premisas no
contrastables.
17
Confusión
Repitamos, para terminar, que la asignación al azar genera grupos que vienen de la misma
población y, por tanto, a nivel poblacional, tienen la misma distribución en todas las variables,
observadas y no observadas. Las posibilidades de que el azar genere grupos desequilibrados es
precisamente lo que cuantifica el análisis estadístico.
Recuerde
De las condiciones que permiten la inferencia causal, la única que puede ser
garantizada es la asignación al azar.
Una premisa menos exigente que las anteriores es la intercambiabilidad, según la cual se hubiera
obtenido el mismo resultado, si la asignación hubiera sido justo al revés. Es algo menos dura porque
todas las anteriores implican intercambiabilidad.
Nota técnica: Como suficiencia del modelo y aleatorización implican no confusión, basta con ver que no
confusión implica intercambiabilidad. Y para ello, basta con ver que, en ausencia de efecto de la
intervención, si no hay confusión, la respuesta Y tiene el mismo valor esperado en los que reciben una u otra
intervención (ya que las terceras variables que influyen en la respuesta son independientes del tratamiento).
Por tanto, la única diferencia entre los grupos será el efecto del tratamiento y se observaría lo mismo si la
asignación hubiera sido la contraria.
Ejercicio 1.12
Diga si son ciertas y, caso contrario, escriba la frase correctamente:
(3) La premisa de no confusión asume que todas las variables no observables son
independientes del tratamiento.
(4) La premisa de suficiencia del modelo dice que las variables no observables
relacionadas con la respuesta son independientes del tratamiento.
(5) la gran ventaja de los estudios observacionales es que pueden garantizar, por
diseño, que las terceras variables son independientes de la intervención.
18
Bioestadística para no estadísticos
ai d i
ni
OR MH i
b c
i in i
i
Para entenderla, recuerde que un OR hace el cociente entre la magnitud de las dos diagonales de la
tabla: la de los casos “coincidentes” (‘a’ y ‘d’) y la de los casos discordantes (‘b’ y ‘c’). MH
primero combina los casos de todas las diagonales y luego hace el cociente final. Para compensar
las subtablas mayores, antes de sumar las diagonales, MH divide por el número total de casos en ese
estrato.
ai d i
i ni
OR MH = =1
b c
i i
i ni
19
Confusión
Tabla 2.1
Ejercicio 2.1
Calcule el ORMH del ejercicio 1.9. Aquí tiene la tabla por estratos.
Z1 Z2
Y1 Y2 Y1 Y2
Esta estimación común tiene sentido si los OR de todas las subtablas son iguales; es decir, si el
efecto de X en Y es el mismo en todos los estratos de las terceras variables. Es la premisa habitual
de homogeneidad del efecto en diferentes condiciones que veremos a fondo en el próximo capítulo.
La varianza del estimador MH tiene una expresión muy larga, imposible de calcular a mano, por lo
que hay que usar R.
Nota técnica:
2
wi vi bi ci ai ci bi d i
V ln( OR MH ) i
donde wi y vi
2
ni a i ci bi d i
wi
i
Ejemplo R
> source(url("http://www-eio.upc.es/teaching/best/funciones/cap17.R"))
tabla1.3<- array(c( 100, 20, 50, 10, 10, 50, 20, 100), dim=c(2, 2, 2),
20
Bioestadística para no estadísticos
dimnames=list(c("X+","X-"),c("Y+","Y-"),c("Z+","Z-")))
# Se realiza el test
data: tabla1.3
0.5554431 1.8003646
sample estimates:
Nota: La primera de línea de código permite cargar las funciones desde la página web del curso. Si ejecuta
esta primera línea tendrá cargadas las funciones necesarias para realizar los ejercicios de este capítulo.
Ejemplo R
> OR1.3
LI OR LS
> ORforest(OR1.3)
21
Confusión
OR MH
OR Global
OR2
OR1
OR
Ejercicio 2.2
Interprete los resultados del ejemplo de R anterior:
c) ¿Tenía sentido hacer una estimación común de los efectos observados en los 2
grupos por separado?
22
Bioestadística para no estadísticos
Ejercicio 2.3
Calcule con R los IC95% de los ORMH de la tabla 1.6 y de la tabla estratificada del
ejercicio 1.5.
El resultado mostró que fumar protegía: OR < 1 indica que las fumadoras tenían menor
probabilidad de morir. Pero al ajustar por edad, OR > 1 (no significativos) en todas las
categorías (Tabla 2.3):
Tabla 2.3
23
Confusión
Las variables tabaco y edad tienen sus efectos confundidos ya que la franja de edad de más años,
con mayor probabilidad de morir a los 20 años, estaba formada mayoritariamente por no
fumadoras.
Ejemplo R
> Tabaco <-array(c(2, 1, 53, 61, 17, 12, 216, 266,78, 52, 167, 147,
> mantelhaen.test(Tabaco)
data: Tabaco
0.9722833 1.8995900
sample estimates:
1.359022
> ORTabaco<-OR(Tabaco,"MH")
> ORTabaco
LI OR LS
> ORforest(ORTabaco)
24
Bioestadística para no estadísticos
OR MH
OR Global
OR2
OR1
OR
La salida muestra ORMH = 1.36 [0.97 a 1.90], no significativo, pero con la mayor parte de
sus IC95% más coherente con lo que se sabe sobre el tema.
Ejercicio 2.4
La confusión también puede ofuscar las revisiones sistemáticas. En 2001, el meta-
análisis “Nursing interventions for smoking cessation” mostró los siguientes
resultados en 4 de los estudios, a partir de ellos, conteste las siguientes preguntas:
1) Estime el efecto global sin ajustar, ¿a qué conclusión llega?
2) Estime el efecto ajustado
3) ¿Cree que el estudio actua como variable confusora?
4) ¿Cómo presentaría los resultados?
, , Hollis 1993
Dejaron de Fumar No dejaron de fumar
Intervención 79 1918
Control 15 695
, , Miller 1997
Dejaron de Fumar No dejaron de fumar
Intervención 245 755
Control 191 751
25
Confusión
, , Taylor 1990
Dejaron de Fumar No dejaron de fumar
Intervención 47 37
Control 20 62
, , Debusk 1994
Dejaron de Fumar No dejaron de fumar
Intervención 92 39
Control 64 57
Ejemplo 2.4: el protocolo de intervención de una neoplasia aconseja que los casos de nivel
I (ZI) reciban Cirugía (XC), mientras que los de nivel II (ZII), Quimioterapia (XQ). Cierto
centro, tiene 45 casos en cada fase; y, en ambas, una tercera parte no siguen las
recomendaciones y son finalmente tratados con la otra opción. En este ejemplo hipotético,
XC y XQ no tienen diferencia en sus efectos, pero en ZI la evolución tiene una razón Y+/Y—
de 4 a 1, mientras que en ZII es 1 a 4. La tabla 2.4 muestra estos resultados.
ZI ZII Global
Y+ Y— Y+ Y— Y+ Y—
XC 24 6 3 12 27 18
XQ 12 3 6 24 18 27
OR 1 1 9/4
Tabla 2.4
La figura 2.1 representa estos mismos datos en forma de árbol de probabilidades, siguiendo el orden
natural de estas variables, primero la condición Z, luego la intervención X y finalmente, la
evolución Y. Ello permite imaginar qué hubiera pasado con los casos ZI si en lugar de 30, los 45
26
Bioestadística para no estadísticos
hubieran sido tratados con XC: para convertir 30 casos en 45, basta por multiplicar por 45 y dividir
por 30, es decir, 45/30=3/2. Así, para imaginar que habría pasado si todos los casos hubieran sido
tratados con una opción, basta con multiplicar por el inverso de la probabilidad (IPW) de ser tratado
con esa opción, lo que muestra la parte derecha de la figura 2.1. En el nivel ZI, para convertir esos
2/3 tratados con XC en todos, multiplicamos por 3/2. Para convertir el 1/3 tratado con XQ en todos,
por 3/1. Y así sucesivamente.
Figura 2.1
Recuerde
IPW pondera por el inverso de la probabilidad de ser tratado.
Así, tenemos que la nueva comparación dentro de ZI es, qué habría pasado si tratamos todos los
casos con XC frente a qué habría pasado si los hubiéramos tratado todos con XQ. Que es
precisamente la pregunta sobre el efecto causal en una población.
Y lo mismo para el nivel ZII. Ahora, cada intervención ha tratado a todos los pacientes de cada
condición Z. Por tanto, los grupos en comparación tienen idéntica composición por Z y ya se
pueden comparar a nivel global: el efecto de X en Y que se habría observado si toda la población
hubiera sido tratada con ambas opciones reproduce el observado en cada nivel de Z (Tabla 2.5).
27
Confusión
ZI ZII Global
Y+ Y— Y+ Y— Y+ Y—
XC 36 9 9 36 45 45
XQ 36 9 9 36 45 45
OR 1 1 1
Tabla 2.5
Recuerde
IPW reconstruye los datos como si cada opción X en comparación hubiera sido
aplicada a todos los casos en estudio.
Ejercicio 2.5
Tras sufrir un Ictus, los pacientes tardan un tiempo variable en llegar al hospital,
que condiciona tanto la evolución como las intervenciones disponibles y que
depende del Entorno Z, sea Rural, P(ZR)=1/3, o Urbano, P(ZU)=2/3. En cierto tipo
de AVC se añaden tromBolíticos (XB) al protocolo (XP) en los pacientes que
llegan pronto. En ZR, la proporción de casos tratados con XB es 1/5, mientras que
en ZU es de 4/5. El siguiente árbol muestra la evolución de todos los casos.
28
Bioestadística para no estadísticos
2) Aplique el IPW al árbol para reproducir qué se habría observado si todos los
casos de cada nivel Z hubieran sido tratados con cada opción X.
3) Reconstruya la tabla XYZ con los nuevos casos y vuelva a calcular ORXY,
ORXY|ZR y ORXY|ZU.
4) Interprete.
ANEXO
Como el OR, puede aplicarse sea cual sea el plan de muestreo, si las 2 variables proceden de 1
muestra, hablaremos de la prueba de independencia.
Ejemplo 3.1: En un estudio de cohortes, se ha recogido información del tabaco al inicio del
periodo de seguimiento y de la HTA (si/no) al final del mismo. Puede obtener el p valor de
la H0 de independencia entre tabaco y HTA con esta prueba.
Ejemplo 3.2: En un estudio de casos y controles cohortes, se han seleccionado una muestra
de hipertensos y otra de normotensos. Puede obtener el p valor de la H0 de Homogeneidad
de hábito tabáquico en hipertensos y normotensos con esta prueba.
29
Confusión
Ambas pruebas, (independencia y homogeneidad) contestan la misma pregunta ¿Tabaco y HTA van
juntos? Además, ambas tienen la misma mecánica.
Nota técnica: Recuperando los conceptos del capítulo 4 sobre independencia y probabilidad
condicionada, la prueba de homogeneidad es H0: P(Tabaco|hipertenso) = P(Tabaco|normotenso). Y la de
independencia, H0: P(Tabaco ∩ hipertenso) = P(Tabaco)*P(hipertenso). Ya se vio que ambas son
equivalentes.
Ejemplo 3.3: Siguiendo con el estudio casos-controles, con 2 variables dicotómicas la tabla
de frecuencias (o de contingencia) tiene 4 posibles combinaciones, cada una con su recuento
de casos o frecuencias observadas fij (Tabla 3.1).
Tabla 3.1
En esta tabla, la frecuencia f observada en la fila 1, columna 2, es f12 = 27. Las proporciones
observadas de fumadores son 73% y 64% entre los hipertensos y los normotensos. Si ambas
filas pudieran combinarse porque este hábito fuera homogéneo en ambas poblaciones, la
proporción global de fumadores sería 137/200=68.5%. La H0 dice que, a nivel poblacional
las 3 probabilidades que habrían generado estas 3 proporciones muestrales son iguales:
El primer paso calcula las frecuencias esperadas eij si: (1) fuera cierta H0; y (2) los valores
de los márgenes (137, 63, 100 y 100) permanecieran iguales. Es decir, si la proporción
general observada de fumadores (137/200=0.685) se hubiera reproducido en cada
submuestra, ambas, como tienen 100 casos, “deberían” haber observado 68.5 casos. Como
son un valor esperado bajo H0 no debe preocupar el decimal.
Nota técnica: recuerde que en el caso de variables discretas, la esperanza no tiene porqué ser un valor
posible de la variable.
A partir del valor esperado de fumadores, por diferencia puede obtenerse el de no fumadores
y completar así la tabla (Tabla 3.2) de frecuencias esperadas eij:
30
Bioestadística para no estadísticos
Tabla 3.2
Estos efectivos esperados eij son el resultado de multiplicar el total de fila (fi·) por el total de
columna (f·j) y dividirlo por el total de totales (f··):
f i. f j .
eij
f ..
Recuerde
Los efectivos esperados eij son total de fila (fi·) por total de columna (f·j) dividido
f i. f j .
eij
por total de totales (f··):
f ..
Así, los efectivos esperados representan H0. Cuanto más diferentes sean de los observados, más
evidencia en contra de H0 tendremos.
Definición
( f ij eij ) 2
2
Estadístico X de Pearson: X 2
i, j eij
31
Confusión
Como la posibilidad de observar diferencias aumenta con el tamaño muestral, este estadístico divide
por los efectivos esperados.
Nota técnica: Si asumimos una distribución de Poisson para cada fij con el valore esperado eij , la
variancia sería también eij , por lo que podríamos ver cada sumando de la fórmula como el cuadrado de
una variable centrada y reducida.
Se demuestra que este estadístico sigue una distribución de Ji Cuadrado (2) con tantos grados de
libertad (gdl) como el número de filas (I) menos uno por el número de columnas (J) menos uno:
Tabla 3.3
Dado que X 2 =1.88 < 3.84 = 12,0.95 , (p-valor = 0.171) no hay evidencia para rechazar H0 y
por tanto, no se puede establecer que existan diferencias de hábito tabáquico previo entre
hipertensos y normotensos.
La diferencia absoluta entre los efectivos observados y esperados ha sido siempre la misma:
4.5, cambiando únicamente el signo.
Nota: Dado que tanto los efectivos observados como los esperados deben sumar exactamente la
frecuencia del marginal, se debe compensar en la segunda fila (o columna) la diferencia de la primera fila
(o columna). En realidad, el hecho de que esta diferencia tenga un valor absoluto único es un reflejo de la
existencia de un único grado de libertad: una vez calculado el valor esperado de la primera casilla, los
otros tres se pueden obtener por diferencia.
Nota: Cuanto mejor reproduzcan los datos H0, más se parecerán fij y eij en cada sumando. En el extremo,
si coincidieran, su valor sería cero: El hecho de elevar al cuadrado provoca que todas las diferencias se
manifiesten en valores positivos del estadístico, por lo que el área en contra de H0 debe ser unilateral —a
pesar de que el planteamiento de hipótesis es bilateral.
32
Bioestadística para no estadísticos
| f ij eij | 0.52
X2
i, j eij
Nota: Se basa en que los recuentos son discretos pero la distribución ji-cuadrado continua.
Ejemplo R
> chisq.test(M)
data: M
Ejercicio 3.1
La siguiente tabla estudia la gravedad de un tumor cerebral (maligno/benigno)
frente a su localización (lóbulo frontal o temporal). Calcule el p-valor de la prueba
de Pearson con y sin corrección de Yates.
Frontal 9 23 32
Temporal 4 21 25
Total 13 44 57
33
Confusión
Nota técnica: La prueba consta de 2 pasos. Primero calcula la probabilidad de obtener cada una de las
posibles tablas 2x2 con la hipergeométrica:
Obtiene el p-valor como la suma de las probabilidades de todas aquellas tablas con un resultado
igual o más en contra de H0 que la tabla observada. Cuanto menor sea esta probabilidad, mayor
evidencia de no independencia.
Ejemplo 3.5: Una madre preocupada por los catarros de su hijo pregunta a sus vecinos si
llevan sus hijos a la guardería y si han padecido algún catarro los últimos 3 meses. Los
resultados se muestran en la tabla 3.4:
Catarro No Total
Guardería 3 3 6
Casa 1 5 6
Total 4 8 12
Tabla 3.4
Dado que la primera columna debe sumar 4, sólo hay 5 tablas posibles (todas incluidas en la
tabla 3.5):
34
Bioestadística para no estadísticos
Las tablas 2 y 4 son idénticas, pero apuntando en direcciones opuestas: la 2ª a favor de más
catarros en casa; y la 4ª a favor de más en la guardería. Así, en un planteamiento bilateral,
tablas iguales o más extremas son 1, 2, 4 y 5, por lo que:
Ejemplo R
> fisher.test(M)
data: M
p-value = 0.5455
0.003194460 4.500423531
sample estimates:
odds ratio
0.230358
Nota: Puede usar esta prueba en tablas más grandes, pero la fórmula incluye factoriales (!), por lo que el
coste computacional podría ser no asumible por un ordenador habitual.
Ejercicio 3.2
Compare la seguridad de 2 tipos de estimulación cardiaca según si el paciente
padece o no un síncope. Calcule con R el p-valor de la prueba de Fisher:
35
Confusión
Estimulación A 2 28 30
Estimulación B 4 17 21
Total 6 45 51
3.4. PH ajustada de MH
Además de proporcionar estimaciones ajustadas del efecto, con su IC95%, MH también da el p valor
del efecto de una causa X en una respuesta Y ajustado por una condición Z.
La PH de MH cuantifica la distancia entre la suma de los casos observados en las celdas principales
de cada subtabla (ai, por ejemplo, fumadores con cáncer) y la suma de los casos esperados en dichas
celdas si fuera cierta la hipótesis de independencia. Luego, divide esta distancia por la suma de las
varianzas respectivas. El resultado sigue una distribución de Ji cuadrado con 1 grado de libertad.
2
a i E ( a i ) (ai bi )(ci d i )
MH : i i 2 donde E (ai )
V (ai )
1
ni
i
Nota técnica: La esperanza es como los valores esperados de la prueba de Pearson. La varianza usa la
distribución hipergeométrica en cada subtabla. Efectivamente, esta distribución se aplica al caso en que se
tiene una población de N elementos de los cuales, M pertenecen a la categoría A y N-M a la B. La
distribución hipergeométrica mide la probabilidad de obtener x (0≤ x ≤ M) elementos de la categoría A en
una muestra de K elementos de la población original. Aplicándolo al caso de una tabla 2x2 con los
marginales fijos:
x M
K-x N-M
K N-K N
36
Bioestadística para no estadísticos
Ejemplo 3.7: Ejemplo genérico con Y, X y Z, todas ellas 0, 1. La misma instrucción da el p valor:
Z=0 Z=1
X=0 5 10 7 5
X=1 7 5 7 4
Ejemplo R
> table(X,Y,Z)
, , Z = 0 , , Z = 1
Y Y
X 0 1 X 0 1
0 5 10 0 7 5
1 7 5 1 7 4
data: table(X, Y, Z)
0.1669340 1.6256596
sample estimates:
0.5209393
37
Confusión
Ejemplo R
> names(TMH)
> TMH[1]
$statistic
Mantel-Haenszel X-squared
1.237815
0.5209393
> TMH$p.value
[1] 0.2659
Ejercicio 3.3
Calcule el valor de p en el ejemplo 2.3
Ejercicio 3.4
Obtenga e interprete, conjuntamente con todos los resultados previos, el valor de
p del ejercicio 2.4: ¿Qué puede decir sobre el efecto de la intervención educativa
en el hecho de dejar de fumar?
38
Bioestadística para no estadísticos
1.2. Z no está relacionada con la intervención X, por lo tanto, aunque Z pueda predecir la respuesta, no cambiará la
estimación del efecto de X en Y.
1.3. Sólo en el estudio D hay relación entre genero e intervención, con un OR=4. En los 3 primeros el OR vale 1. Sólo
el estudio 4 tendrá confundidos los efectos de ambas variables.
El estudio A ha incluido al doble de mujeres, pero el OR=1, ya que la asignación ha sido “1 a 1” tanto en mujeres como
en hombres.
El estudio B ha incluido al mismo número de mujeres que de hombres, pera la asignación ha sido “2 a 1” en los dos
géneros, resultando otra vez en un OR=1. Aunque hay el doble de casos tratados con E que con R, los dos grupos de
tratamiento tienen la misma distribución de géneros, cada uno “mitad y mitad”.
En el estudio C se combina (1) que hay el triple de hombres; y (2) que se han asignado más casos a R. Como la razón de
asignación siempre ha sido de “1 a 3”, OR=1 y no hay confusión: ambos grupos de tratamiento tienen el mismo “case-
mix”: “3 hombres por cada mujer”.
En cambio, en el estudio D, aunque hay el mismo (1) número de hombres y de mujeres; y (2) de tratados con E y con R,
la razón de asignación ha sido “2 a 1” en los hombres y de “1 a 2” en las mujeres, resultado en OR=4, que refleja la
diferente composición de los grupos que se quieren comparar, mientras en los tratados con E dominan los hombres, en
R lo hacen las mujeres: los efectos, potenciales, del género y la intervención, estarán confundidos..
1.4. Al no existir flecha entre W y X, no pueden abrir un camino alternativo a la relación XY (aunque exista relación
WY)”; esto se debe a que la aleatorización garantiza que las sub-muestras vienen de la misma población, por lo que, a
nivel poblacional, ambas muestras son idénticas: tienen exactamente la misma composición a nivel poblacional en todas
las variables desconocidas W.
39
Confusión
1.5. Y=evolución, X=cuidados, Z=clínica, porque nos situamos en la pregunta del clínico que debe decidir si aconseja o
no los cuidados. Si nos situáramos en la pregunta de la madre que desea decidir a dónde acude, su opción sería el centro
A. Es fácil ver que el diseño es no balanceado: en la clínica A predominan los cuidados superiores a 1 mes, y en la B lo
contrario, por lo tanto cabe esperar que los efectos de X y Z estén confundidos; en efecto, si la clínica (o cualquier
factor relacionado con ella, como que los embarazos más problemáticos se derivan preferentemente a B) puede predecir
la evolución, en este diseño el posible efecto de los cuidados no se puede separar del de Z. Lo que sí se observa es que,
ajustando por la clínica, no hay un efecto significativo de los cuidados, en contra de lo estimado si no se considera Z.
Para saber si los cuidados afectan o no habría que repetir el estudio con un diseño balanceado, es decir, estratificando
por la clínica.
1.6
1.7. a) Cierto que haya hecho una diferencia de medias, pero no un cociente de proporciones: también su diferencia (DR
en tema 4). Si no lo tiene claro, repase el tema 4.
b) Efectivamente, los casos que no se presentan al final no son una muestra a azar de todos los casos, eliminarlos
sesgaría los resultados. Asignarles un 0 cara a este análisis es coherente y transparente, ya que queda claro qué se ha
hecho y en qué se basa.
c) Falso, asistir a clase es Z (observacional), no X (experimental). Por si hay confusoras, evite interpretar causalmente
de forma automática.
d) Cierta, faltar a clase tiene capacidad predictiva. Quizás la solución no sea volver a clase, quizás sí, pero no hay duda
de que pinta mal. Es un predictor de la respuesta, un “chivato”.
f) Cierta.
i) Lo que dice podría ser correcto, aunque tiene muchas premisas adicionales, como por ejemplo, que su intervención
tendrá efecto en ese grupo; o que estos alumnos, al menos potencialmente, pueden alcanzar el mismo nivel de éxito que
los restantes.
1.8. Muchos ejemplos son posibles. Si quiere comprobar su respuesta, cuélguela en el foro o discútala con su tutor o
con los directores del curso.
40
Bioestadística para no estadísticos
1.9. a) Sí, no se ha hecho un buen ajuste por Z. Puede ver que hay confusión porque ajustar o no por Z cambia las
estimaciones del efecto.
b) Sí
c) Sí
d) Sí
e) No
f) Sí (vea respuesta A)
1.11. Muchos ejemplos son posibles. Si quiere comprobar su respuesta, cuélguela en el foro o discútala con su tutor o
con los directores del curso.
1.12. (1) Falsa. Intercambie observacionales con experimentales en la primera línea, o léalo así: la diferencia esencial
entre estudios es que en los EC la causa en estudio es asignada por el investigador, pero en los observacionales es un
atributo de los pacientes en estudio, ya que ellos llegan con su valor.
(2) Falsa: la asignación al azar sabe que las variables no observables que influyen en la respuesta serán independientes
de X y, por tanto, no confundirán.
(3) Verdadera. La premisa de no confusión incluye suficiencia del modelo, aleatorización y ausencia de variables
confusoras
(4) Falsa. La premisa de aleatorización del modelo dice que las variables no observables relacionadas con la respuesta
son independientes del tratamiento, y la de suficiencia que las W no observables no están relacionadas con la respuesta..
(5) Falsa, precisamente esto es lo que pueden garantizar los EC, por el hecho de que la intervención se asigna al azar (y
será independiente de terceras variables).
(6) Verdadero
(7) Verdadero
ai d i
i ni
2.1 OR MH = = 2.777778
bi ci
i ni
41
Confusión
2.2 a)Si ejecuta la función en vez de con el parámetro MH, con Logit obtendrá lo siguiente:
LI OR LS
OR1 0.4353706 1.000000 2.296894
OR2 0.4353706 1.000000 2.296894
OR Global 1.6163480 2.469388 3.772626
OR Logit 0.5554370 1.000000 1.800384
Fíjese que OR Logit y OR MH coinciden hasta el cuarto decimal.
b) Puede ver que el sesgo por composición ha sido corregido al estratificar por centro.
c) No tenía sentido hacer una estimación común de los efectos observados, ya que, al estar X y Z relacionadas, la
variable Y tenía sus efectos confundidos.
d) Gráficamente puede ver que loes estimadores con mayor incertidumbre son OR1 y OR2, es decir, los OR calculados
a partir de la estratificación por centro.
e) Los IC de las subtablas tienen mayor amplitud que MH, una razón para proporcionar un estimador único, bien el
ajustado, bien el global o marginal, si la ausencia de interacción lo justifica.
f) Si no utiliza el gráfico para medir la incertidumbre, si no los valores numéricos, verá que los OR’s coinciden y los LI
se asemejan; la diferencia de amplitud radica (mayoritariamente) en el LS de los OR1 y OR2, que es 0.5 unidades
superior al ORMH.
2.3
Ejemplo 1.6
> tabla1.6<- array(c( 60, 60, 30, 30, 30, 30, 60, 60), dim=c(2, 2, 2),
+ dimnames=list(c("X+","X-"),c("+","Y-"),c("Z+","Z-")))
> TMH <- mantelhaen.test(tabla1.6)
> TMH
Mantel-Haenszel chi-squared test without continuity correction
data: tabla1.6
Mantel-Haenszel X-squared = 0, df = 1, p-value = 1
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.6451572 1.5500098
sample estimates:
common odds ratio
1
Ejercicio 1.5
> tabla1.4<- array(c( 3, 4, 176, 293, 17, 2, 197, 23), dim=c(2, 2, 2),
+ dimnames=list(c("X+","X-"),c("+","Y-"),c("Z+","Z-")))
> TMH <- mantelhaen.test(tabla1.4)
> TMH
42
Bioestadística para no estadísticos
Si suponemos que no existe variable confusora, se concluiría que no existe ningún efecto de la intervención (el intervalo
contiene el 1)
> mantelhaen.test(Tabaco2)
Mantel-Haenszel chi-squared test with continuity correction
data: Tabaco2
Mantel-Haenszel X-squared = 22.7, df = 1, p-value = 1.934e-06
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
1.29 1.85
sample estimates:
common odds ratio
1.55
El efecto ajustado muestra un efecto positivo de la intervención sobre el abandono del hábito de fumar.
3) El estudio es una variable confusora ya que el efecto ajustado es distinto al que se obtiene sin ajustar.
4) Presentaría los resultados con uno de los OR’s ajustados (ORMH o ORLOGIT) ya que existe confusión.
43
Confusión
2) 3)
ZR Y+ Y— ZU Y+ Y— Y+ Y—
XB 20 20 XB 60 20 XB 80 40
XR 10 30 XR 40 40 XR 50 70
OR = 3 OR = 3 OR = 2.8
4) [El efecto estimado del tratamiento vale 3 en cada estrato y aproximadamente 3 (2.8) en la tabla global: el método de
ponderación por el inverso de la probabilidad ha conseguido reducir el sesgo originado por la diferente evolución de los
pacientes de ambos entornos.]
Hemos explicado cómo usar el método IPW para corregir las estimaciones puntuales de los ORXY, pero dejamos para su
colaborador estadístico el cálculo de la incertidumbre de su estimador. Tenga en cuenta: (1) que las tablas resultantes
están “infladas” y, por tanto, los errores típicos estudiados previamente no sirven; (2) que los factores de ponderación
IPW generan incertidumbre adicional; y (3) que, en el fondo, se trata de un análisis de sensibilidad de las conclusiones a
las premisas, ya que se trata de aportar a la discusión si un posible factor de confusión puede explicar los resultados
observados.
44
Bioestadística para no estadísticos
data: M
X-squared = 1.172, df = 1, p-value = 0.279
Según esta prueba (ya sea con corrección o sin) no se puede afirmar que exista relación entre la gravedad de tumor y la
localización.
No se han hallado evidencias que permitan relacionar el tipo de estimulación aplicada al paciente con la ocurrencia de
síncope. El resultado es compatible con la posibilidad de que sean independientes.
3.3 > Tabaco <-array(c(2, 1, 53, 61, 17, 12, 216, 266,78, 52, 167, 147, 42, 165,
7, 28), dim = c(2, 2, 4), dimnames = list(c("Fumadoras", "No
fumadoras"),c("Muertas",
"Vivas"),c("18-24", "25-44", "45-64", "65+")))
> mantelhaen.test(Tabaco)$p.value
[1] 0.08488535
Por tanto, teniendo en cuenta la franja de edad, la relación entre fumar y la supervivencia a los 20 años no alcanza la
significación estadística.
3.4 > Tabaco2 <-array(c(79, 15, 1918, 695, 245, 191, 755, 751, 47, 20, 37, 62,
92, 64, 39, 57),dim = c(2, 2, 4), dimnames = list(c("Intervención",
"Control"),c("Dejaron de Fumar", "No dejaron de fumar"),c("Hollis 1993", "Miller
1997", "Taylor 1990", "Debusk 1994")))
> mantelhaen.test(Tabaco2)$p.value
[1] 1.933991e-06
Existe un efecto positivo de la intervención sobre el abandono del hábito de fumar, por lo tanto diría que sí que existe
relación entre la intervención y el hábito tabáquico.
45
Capítulo 18:
Interacción. Sesgo de selección
Efectos condicionados implica sesgo de selección
Erik Cobo
José Antonio González, Jordi Cortés y Nerea Bielsa
Septiembre 2014
Interacción. Sesgo de selección
2
Bioestadística para no estadísticos
Presentación
La interacción y el sesgo de selección fueron introducidos, junto con todos los retos, en el tema 16.
En el 17 vimos a fondo las amenazas que plantea la confusión de efectos y algunas herramientas
estadísticas para abordarlo: los DAGs para representar el papel de las diferentes variables en el
modelo, y el ajuste tanto mediante estratificación (Mantel Haenszel) como por ponderación (IPW).
Ahora aplicamos este tipo de herramientas a la interacción y el sesgo de selección.
Una vez más, será importante distinguir entre hipótesis y premisas. Por ejemplo, la homogeneidad
de la relación (ausencia de interacción) será una premisa necesaria para obtener un único estimador
de la relación ajustando por terceras variables para controlar la confusión.
Contribuciones: Basado en el material previo habitual, Erik Cobo redactó un primer borrador que
fue revisado por José Antonio González, Jordi Cortés y Nerea Bielsa, quienes, además, han
diseñado los ejercicios adicionales implementados en e-status.
3
Interacción. Sesgo de selección
1. El reto de la interacción
Recuerde
A diferencia del EC, nos interesamos por exposiciones E, no intervenciones X
Ejemplo 1.1: la ingesta de una misma cantidad de alcohol (E) tiene un efecto negativo en
las habilidades motoras (Y). Este efecto es mayor en las mujeres que en los hombres (Z).
Esta modificación del efecto se conoce, en términos estadísticos, como interacción entre las
variables E y Z en la respuesta Y. Esta situación es muy diferente de la provocada por la confusión.
La primera diferencia es que un diseño balanceado no protege contra la interacción.
Ejemplo 1.2: suponga que, para estudiar el efecto del tratamiento T frente a tratamiento C,
tanto en hombres como en mujeres, ha realizado la siguiente asignación equilibrada (misma
razón tratados T/C en ambos géneros) (Tabla 1.1).
Z=Hombres 60 60 1a1
Z=Mujeres 60 60 1a1
OR 1
Tabla 1.1: ausencia de colinealidad entre Z y X
Si la variable género fuera modificadora del efecto, podrían observarse, por ejemplo, los
resultados de la tabla siguiente (Tabla 1.2) en las que se observa que en los hombres el
tratamiento C proporciona mejores resultados; pero en las mujeres es T.
4
Bioestadística para no estadísticos
Hombres Mujeres
Y+ Y- Odds Y+ Y- Odds
T 20 40 1a2 40 20 2a1
C 40 20 2a1 20 40 1a2
OR 1/4 4
Recuerde
La interacción puede aparecer aunque no exista colinealidad.
Ejemplo 1.2 (cont): La Tabla 1.3 muestra la información agregada de todos los casos.
Nótese que no tiene ningún sentido, ya que no informa ni del efecto en los hombres ni del
efecto en las mujeres. Una vez más, si un investigador no considera a la tercera variable
género, los resultados carecen de validez, ya que hablarían de dos tratamientos que tienen la
misma eficacia, cuando se ha visto que sí es eficaz, aunque de forma diferente (y contraria,
en este ejemplo) según la tercera variable.
Y+ Y- Razón
X=T 60 60 1a1
X=C 60 60 1a1
OR 1
Tabla 1.3: La tabla global no muestra efecto de X en Y
Si hay interacción, explique la relación entre X e Y para cada nivel de la tercera variable Z. En el
caso de la confusión, era necesario considerar la tercera variable en el análisis y analizar los
resultados condicionando o ajustando por ella, pero se podía presentar un único valor de la relación,
ya que era el mismo en los diferentes niveles de la variable Z.
Recuerde
Si E y Z tienen sus efectos en Y confundidos, la relación parcial (condicionando
por Z) difiere de la marginal (sin ajustar por Z): OREY|Z ≠ OREY
5
Interacción. Sesgo de selección
En el Ejemplo (cont) (Tabla 1.2) de modificación del efecto, el OR para los hombres vale ¼
mientras que el de las mujeres es de 4.
Recuerde
La interacción, a diferencia de la confusión, obliga a especificar los resultados
para cada nivel de Z.
Ejemplo 1.4: La Tabla 1.4 muestra idéntico cociente de riesgo (RR) en ambos sub-grupos
(1.5); unos OR algo diferentes (2.25 y 1.59); y unas diferencias de proporciones muy
distintas (20% y 5%). Usando el riesgo relativo puede decir que el tabaco multiplica por 1.5
la probabilidad de que suceda el evento, sea cual sea el valor inicial del alcohol; mientras
que si usa la diferencia de riesgos, deberá especificar que, cuando se consume alcohol, la
proporción de sucesos de evento aumenta un 20% mientras que si no se consume alcohol,
sólo lo hace un 5%.
6
Bioestadística para no estadísticos
Recuerde
La interacción puede depender del análisis escogido.
Las medidas basadas en cocientes, cono el RR o el OR suelen ser más estables que las medidas
aditivas, como la DR. Por ello, el objetivo científico de parsimonia, que aconseja utilizar el número
mínimo de parámetros para explicar un fenómeno, puede llevar a escogerlas. En cambio, cara al
beneficio observado en una comunidad es más fácil interpretar la diferencia de riesgos.
Nota: la vida sería más fácil si no existiera interacción. Pero demostrar o negar su existencia no es un
objetivo tan importante como estudiar la relación de E con Y. Si no puede asumirse que no haya
interacción, posiblemente el primer paso puede ser establecer el efecto en un subgrupo homogéneo.
El objetivo principal de un estudio observacional suele ser dilucidar si la exposición E1 puede ser
una causa de la respuesta Y observada. La cuestión sobre si la exposición E2 confunde o modifica
es, en el fondo, secundaria y sirve para decidir el tipo de análisis, la presentación de resultados o la
población objetivo. En un estudio confirmatorio, debería ser conocido previamente y formar parte
de sus premisas. En cambio, en uno exploratorio puede ser más interesante observar si
planteamientos alternativos conducen a la misma conclusión.
Definición estadística
Dos intervenciones son sinérgicas cuando el efecto al administrarlas
conjuntamente es mayor que la suma de sus efectos por separado.
Ejemplo 1.5: Supongamos que valoramos la PAS a las 12 semanas de una intervención
conjunta de monitores deportivos (Ejercicio, XE+) y dietistas (XD+) comparada con tres
referencias, consejo sólo dietético, sólo deportivo, y ausencia de consejo (XD- y XE-). Estos
4 brazos de tratamiento pueden situarse en una tabla 2x2 (Tabla 1.5). Este ejemplo, al habla
de intervenciones puede ser balanceado, sin colinealidad: todas las combinaciones de XE
con XD tienen 10 casos. Por simplicidad, una única la desviación típica, de 10mmHg, aplica
a todos los grupos (homoscedasticidad).
7
Interacción. Sesgo de selección
XE baja la PAS 10 mmHg, mientras que XD la baja 20 mmHg. La suma de sus efectos es 30
mmHg, que es justamente la diferencia entre la media del grupo que no recibe nada (140
mmHg) y la del grupo tratado con ambas intervenciones (110 mmHg). Desde un punto de
vista estadístico, diríamos que no hay interacción —ni sinergismo.
Ejemplo 1.6: En cambio, si la media del grupo tratado con las 2 intervenciones hubiera sido
100 mmHg en lugar de 110, el efecto combinado hubiera sido mayor (40 mmHg) que la
suma de los efectos por separado en ausencia de la otra intervención (10 + 20 =30 mmHg) y
hablaríamos de sinergismo o interacción positiva.
Definición estadística
Dos intervenciones son sinérgicas si el efecto conjunto es mayor que la suma de
sus efectos aislados.
Ejemplo 1.7: En el ejemplo anterior, si la media del grupo XE+XD+ hubiera sido 115
mmHg, el efecto combinado hubiera sido menor (25 mmHg) que la suma de los efectos
aislados (10 + 20 =30 mmHg) y hablaríamos de antagonismo o interacción negativa.
Definición estadística
Dos intervenciones son antagónicas si el efecto conjunto es menor que la suma de
sus efectos aislados.
Ahora bien, en este ejemplo 1.7, el grupo que más baja la PA es precisamente el que recibe
ambas intervenciones, dieta y ejercicio. A pesar de que hay una interacción estadística
negativa (moderada), el mejor consejo podría incluir ambas intervenciones.
Recuerde
Dos intervenciones son clínicamente combinables si el efecto conjunto es mayor
que el mejor efecto aislado.
8
Bioestadística para no estadísticos
Tabla 1.6
Lectura: Jockin de Irala y colaboradores.
9
Interacción. Sesgo de selección
Ejercicio 1.1
Según el punto 12a del documento E&E de STROBE, ¿cuáles son ciertas?
a) En general, hay un único análisis estadístico correcto
b) En general, hay varios análisis correctos que difieren en sus premisas
c) El protocolo debe predeterminar el análisis del objetivo principal
Ejercicio 1.2
Según 12a de E&E STROBE, ¿cuáles son ciertas del análisis post-hoc o ad-hoc?
a) No deben realizarse
b) Si se realizan, debe informarse al lector que los análisis han sido sugeridos por
los datos.
c) Los análisis en estudios observacionales siempre son post-hoc.
Ejercicio 1.3
Ejercicio 1.4
A) Mire la siguiente tabla y diga de qué caso se trata: ¿Qué papel juega el
alcohol?
No Alcohol (E2-) Alcohol (E2+) Todos
Evento No evento Evento No evento Evento No evento
(Y+) (Y-) (Y+) (Y-) (Y+) (Y-)
Tabaco
3 176 19 197
(E1+) 22 373
No Tabaco
4 257 2 23
(E1-) 6 280
OR 1.095 1.109 2.752
IC95% OR [0.241 , 4.953] [0.243 , 5.070] [1.101 , 6.878]
10
Bioestadística para no estadísticos
Ejercicio 1.5
Basandose solo en los OR que aparecen en la tabla siguiente diga qué papel juega
el alcohol.
No Alcohol (E2-) Alcohol (E2+) Todos
Evento No evento Evento No evento Evento No evento
(Y+) (Y-) (Y+) (Y-) (Y+) (Y-)
No Tabaco (E1-)
Tabaco (E1+)
OR 1.89 19.871 9.796
IC95% OR [0.304 , 11.750] [4.461 , 88.504] [3.258 , 29.454]
Ejercicio 1.6
Ejercicio 1.7
Este estadístico suma, para las K categorías de la condición, la diferencia al cuadrado entre los
casos observados y los esperados dividida por su varianza, pero únicamente en la primera celda,
p.e., fumadores (E=+) con cáncer (Y=+):
11
Interacción. Sesgo de selección
Estrato “i” Y+ Y-
E+ ai bi
E- ci di
Tabla 1.7
E(ai) es el valor esperado si todas la subtablas reflejaran la misma magnitud de la relación estimada
por el ORMH. Por tanto, BD se construye sumando las desviaciones del patrón de una asociación
idéntica en cada subtabla. De esta forma, valores grandes del estadístico representarán relaciones
heterogéneas ya que las frecuencias observadas discreparán sensiblemente de las esperadas en caso
de no interacción.
El valor del estadístico a partir del cual consideraremos que existe interacción dependerá del
número de categorías que definen los estratos y las subtablas. Por ejemplo, para un nivel de
significación del 5%, con 2 categorías será 3.84 y para 3, 5.99.
Ejemplo 1.8: Recupere los datos de la Tabla 1.4. Con R, evalúe la interacción en la escala
del OR usando la prueba de Breslow-Day.
Ejemplo R
# Instale (si no lo ha hecho previamente) y cargue el paquete epiR
> install.packages('epiR')
> library('epiR')
# Se realiza el test construyendo la tabla 2x2x2 previamente
> tabla <- array(c(60,40,40,60,15,10,85,90),dim=c(2,2,2))
> test <- epi.2by2(dat = tabla, homogeneity = "breslow.day",
outcome = "as.columns")
> test$rval$OR.homog
test.statistic df p.value
1 0.4456871 1 0.5043902
12
Bioestadística para no estadísticos
BD vale 0.45 que, con 1 grado de libertad (2 estratos menos 1), da p=0.50 no significativa.
Por tanto, no hay evidencia para afirmar que haya interacción con el dolor basal.
Nota técnica: La instrucción array construye una tabla con las dimensiones que le pongamos en el
argumento dim (en este caso tiene 2 tratamientos, 2 posibles respuestas y 2 estratos). Los datos se han de
introducir por columnas (es decir, empezando por la 1ª columna del 1r estrato, luego la 2ª columna del 1r
estrato,…, 1ª columna del último estrato, 2ª columna del último estrato)
Nota: La función epi.2by2, además de la prueba de homogeneidad, también calcula las medidas del
efecto ajustadas por estrato que usaremos en caso de efecto homogéneo.
Ejercicio 1.8
Evalue con R si existe interacción en este caso. Primero mire los ORs y sus IC95%
e intente adivinar que resultado dará BD.
Historieta.
Recuerde
El capítulo 14 expuso que escoger la prueba significativa entre las muchas
realizadas implica perder el control del riesgo e incurrir en multiplicidad.
La aberración última de este método consiste en concluir que existe interacción porque “en unos
subgrupos la relación es significativa y en otros no”. Esto sucede porque el p valor combina la
13
Interacción. Sesgo de selección
magnitud de la relación observada con la información disponible sobre la misma. Por eso, una
relación puede ser no significativa porque realmente la relación sea inexistente, o bien porque
poseemos poca información (p.e., muestra insuficiente) para determinar significación. En el caso
extremo, podría darse que subgrupos con idéntica magnitud de la relación (homogeneidad absoluta
del efecto) tuvieran valores de p a ambos lados del umbral de significación.
Ejemplo 1.9: Las 3 tablas siguientes muestran el mismo valor del OR, pero sólo la central
tiene información suficiente para alcanzar resultados significativos. La primera columna
resulta poco informativa porque hay muy pocos casos con el evento, y comparar 1 con 3
difícilmente será significativo. Y en la última columna, el tamaño total es casi 10 veces
inferior, por lo que resulta insuficiente para alcanzar la significación con esta magnitud del
efecto. Una burda y errónea comparación de los niveles de p llevaría a decir: “el tabaco sólo
provoca eventos en el grupo de alcohol moderado, por lo que hemos demostrado interacción
entre tabaco y alcohol”.
Recuerde
No compare valores de p.
Ejemplo 1.9 (cont): Las 3 condiciones de alcohol (E2) muestran un OR=4, perfectamente
compatible con una idéntica magnitud del efecto a nivel poblacional en los 3 estratos. El
Forest Plot (Figura 1.1) permite ver al mismo tiempo la estimación puntual y por intervalo
de esta magnitud del efecto, facilitando su comparación.
14
Bioestadística para no estadísticos
Figura 1.1
Recuerde
Compare las medidas de la magnitud del efecto.
Ejemplo 1.10: ninguna evidencia previa ni ningún argumento lógico parecen apuntar a que
el color de los ojos (Z) modifique el efecto del tabaco (E) en los eventos cardiovasculares
(Y). Tiene sentido tratar conjuntamente a todos los casos, sin distinguir según el color de los
ojos. También puede ser razonable mirar luego si, a la luz de los nuevos datos, esta premisa
de homogeneidad entre los subgrupos continua siendo razonable.
Recuerde
La premisa de homogeneidad del efecto se estudia a nivel descriptivo y gráfico.
15
Interacción. Sesgo de selección
Ahora bien, la información previa, sea deducción lógica o evidencia empírica, podría apuntar en
dirección contraria, a que sí exista interacción y la relación entre E e Y cambie según los niveles de
Z. En este caso, tiene sentido poner formalmente a prueba la hipótesis de interacción.
Recuerde
La hipótesis de interacción puede ponerse a prueba formalmente.
Ejercicio 1.9
Lea la tabla de la guía del NEJM y diga cuál de las siguientes es necesaria para
poder resaltar en el resumen un resultado de un subgrupo:
a) Que se base en una respuesta principal
b) Que estuviera pre-especificado
c) Que se interprete considerando la totalidad de análisis de subgrupos realizados
d) Que se base en una prueba significativa de interacción.
En las revisiones sistemáticas, tanto Prisma como el manual Cochrane, reconocen las fuentes
anteriores de heterogeneidad biológica y clínica. Además, añaden una fuente adicional: la diferente
calidad metodológica de los estudios. Prisma y Consort no la consideran ya que asumen la misma
calidad dentro de un mismo estudio.
En estudios observacionales, el punto 12b de Strobe, pide detallar los métodos usados para estudiar
subgrupos e interacciones y aconseja presentar tanto el efecto conjunto como el observado a niveles
de la tercera variable. El punto 16c aconseja presentar los resultados con medidas absolutas del
riesgo, como la diferencia de proporciones.
16
Bioestadística para no estadísticos
Ejercicio 1.10
Ejercicio 1.11
Veamos 2 formas diferentes de definirlo. La primera, más operativa, compara las probabilidades de
incluir en el estudio para las 4 combinaciones de las 2 variables que se relacionan. La segunda, más
conceptual, recurre a los DAGs.
Kleimbaum, Kupper y Morgenstein estudian las probabilidades de ser incluido en el estudio para
cada combinación de la causa potencial E con el efecto estudiado Y. La Figura 2.1representa los
casos que existen en la población (a, b, c, y d) y los incluidos en el estudio (a’, b’, c’, y d’). La
proporción incluida en cada celda es diferente. Llamemos a estas proporciones α, β, γ, y δ.
Por ejemplo, α=a’/a. Según estos autores, aparece sesgo de selección cuando estas probabilidades
de incluir en el estudio guarden entre sí relación. En concreto, su OR sea diferente de 1: αδ/βγ ≠1.
17
Interacción. Sesgo de selección
Ejemplo 2.1: (Continuación ejemplo 5.5 capítulo 16). Recuerde el ejemplo de los
anovulatorios E y la flebitis Y: la probabilidad de acudir al centro sanitario y ser
Seleccionado para el estudio (S+) puede ser razonablemente baja para todas las mujeres que,
o no toman anovulatorios o no tienen flebitis; pero, por la alerta existente, ser alta en las que
sí cumplen con ambas características (Tabla 2.1)
S+ S- Global P(S+)
Y+ Y− Y+ Y− Y+ Y− Y+ Y−
E+ a’=70 b’=30 30 70 a=100 b=100 α=0.7 β=0.3
E− c’=30 d’=30 70 70 c=100 d=100 γ=0.3 δ=0.3
OR 21/9 9/21 1 21/9
Tabla 2.1: Sesgo de selección según probabilidades de inclusión en el estudio
Ejercicio 2.1
Recuerde la chica que seleccionaba para sus citas, o guapos (Z1) o simpáticos
(Z2). Las 3 columnas de la izquierda de la tabla muestran aquellos datos. Calcule
en la última columna las probabilidades de que un pretendiente sea seleccionado.
S+ S- Global P(S+)
OR ¼ 4 1
18
Bioestadística para no estadísticos
Recuerde
Para que el sesgo de selección distorsione la relación entre dos variables, las
probabilidades de selección de sus combinaciones deben tener un OR≠1.
Ejemplo 2.2: Siguiendo con el ejemplo de los anovulatorios (E) y la flebitis (Y), observe
que ambas están relacionadas con la selección (S), por lo que aparecerá una relación falsa
entre las dos variables por sesgo de selección. La Tabla 2.2 muestra esta relación:
S+ S- S+ S-
E+ 100 100 Y+ 100 100
E- 60 140 Y- 60 140
OR=7/3 OR=7/3
Tabla 2.2
Recuerde
Aparece relación falsa entre 2 variables por sesgo de selección si condicionamos
por una respuesta común.
Ejercicio 2.2
Recupere los datos del ejemplo 2.2 de la chica y muestre que ambas
características están asociadas con la selección completando la tabla siguiente y
calculando los OR respectivos.
S+ S- S+ S-
E1 + E2 +
E1 - E2 -
OR = OR =
19
Interacción. Sesgo de selección
Ejercicio 2.3
a. Represente el DAG para el ejemplo de las parejas de la chica.
b. Intente explicar con sus propias palabras qué está pasando.
Ejemplo 2.3: Cierta empresa procesa un producto tóxico (T) del que se sospecha que
provoca varias enfermedades (E) que son, por otro lado, frecuentes en el entorno. Vd.
estudia sus 157 trabajadores actuales para ver si tienen o no la enfermedad E y si estuvieron
o no expuestos a T. Obtiene la primera columna de la Tabla 2.3, por lo que concluye que no
puede decir que haya relación: los resultados son compatibles con que en la población
origen la exposición tenga un OR tanto de 0.41 (protector) como de 2.97 (nocivo).
E No E E No E E No E E No E E No E
Algo decepcionados por los resultados, Vds. buscan en los archivos de la empresa los
trabajadores previos y el empresario confirma que los expuestos a T habían sido muy
vigilados y por ello, aquellos que resultaban afectados por la enfermedad tenían gran
tendencia a cambiar de entorno, por lo que, desde sus inicios, aproximadamente 5 de cada 6
de los enfermos (E) expuestos (T) cambiaron de trabajo, mientras que en el resto de grupos,
lo hicieron 1 de cada 2. La tabla muestra las probabilidades de cambiar y de quedarse. Así,
para el grupo ET las probabilidades de ser incluido eran de 1/6, por lo que su inverso sería:
IPW(ET)=6/1. La subtabla IPW muestra las ponderaciones para cada celda.
20
Bioestadística para no estadísticos
La tabla Final “reconstruida” muestra los casos que se habrían observado si no se hubieran perdido
casos —asumiendo que éstos últimos eran idénticos a los de su mismo grupo.
Recuerde
Si se conocen las probabilidades de selección, el IPW permite reconstruir la tabla.
Ejemplo 2.3 (cont): Ahora, sí parece existir relación: un OR de 4 podría ser importante.
Esta reconstrucción artificial no puede “demostrar” que la relación exista, pero sí puede cuestionar
los resultados observados.
Ejemplo 2.3 (cont): La no relación observada (OR=54/49, con IC95% de 0.41 a 2.97) podría
ser explicada por un posible sesgo de selección.
Recuerde
La tabla reconstruida permite cuestionar los resultados observados.
IPW infla artificialmente la tabla, por lo que no puede calcular su IC por los métodos vistos, ya que
su incertidumbre es mayor que la que indica su ‘n’.
Nota: El cálculo de este IC debería incluir también la incertidumbre en la estimación de los IPW.
Recuerde
No haga IC con la tabla reconstruida por el IPW.
El ejemplo anterior muestra cómo usar el IPW para comprobar si los resultados observados resisten
un análisis que incorpore información externa o incluso hipotética. En el ejemplo, no hay
conclusiones estables: la información externa a los datos hace tambalear el argumento.
Recuerde
El IPW mira si los resultados son consistentes ante posibles sesgos de selección.
21
Interacción. Sesgo de selección
Figura 2.2).
Figura 2.2: E1 (tabaco) y E2 (alcohol) influyen
negativamente en el rendimiento deportivo Y:
aunque sean independientes en la población, entre
los que paricipan en pruebas deportivas,habrá
relación entre E1 y E2
Pero el sesgo de selección también puede aparecer si esta variable es intermedia (Figura 2.3).
Ejercicio 2.4
Para mejorar el rendimiento, cierta universidad ofrece unos cursos voluntarios de
nivelación iniciales a una cohorte de 900 alumnos que empiezan sus estudios.
Como los créditos son bajos, sólo 1/3 de alumnos los hacen (C=S vs C=N).
Deseamos estudiar si hacerlos ayuda a encontrar trabajo en menos de 3 meses
desde la titulación (Y=S vs Y=N). Ahora bien, terminan su titulación en los años
previstos (Seg=OK), 2/3 de los que hicieron el curso y 1/3 de los que no lo
hicieron.
Así, el orden temporal de estas 2 variables es: C, Seg, Y. El árbol muestra las
siguientes probabilidades de Y para las 4 combinaciones de C y Seg.
Entre los alumnos que han hecho el curso, (1) el 50% de los que terminan en el
plazo encuentran trabajo; pero (2) los que no terminan en el plazo suele ser
22
Bioestadística para no estadísticos
porque ya antes de terminar han encontrado trabajo y van más lentos, por lo que
un 90% tienen trabajo relacionado al terminar.
Entre los que no hicieron el curso, (3) los que terminan en el plazo son muy
espabilados, de forma que el 90% encuentra ese trabajo; por (4) un 50% de los
que no han terminado en el plazo.
Para estudiar si encuentran más trabajo los que hicieron el curso inicial, se puede
(A) no esperar o (B) esperar a que terminen todos.
a. Complete las ‘n’ que llegarían al final de cada rama del árbol y reconstruya
las tablas que se observarían en ambas situaciones y calcule sus OR.
b. Explique por qué llega a esos resultados y qué nombre técnico recibe.
c. A partir de las dos tablas anteriores, calcule las probabilidades de ser incluido
en el estudio A (Seg=OK) para cada combinación de C con Y. Calcule los
IPW correspondientes. Aplique este IPW para reconstruir la tabla de todos los
alumnos [Compruebe que recupera la tabla con todos.]
d. Calcule los OR de estas nuevas tablas. Vuelva a intentar explicar por qué
aparece sesgo de selección y por qué IPW lo corrige.
23
Interacción. Sesgo de selección
Recuerde
El IPW pretende corregir el sesgo de selección.
Ejercicio 2.5
a. Recuerde el orden cronológico de estas 3 variables y observe que la variable
que provoca el sesgo de selección es intermedia. Dibuje su DAG.
Ejercicio 2.6
24
Bioestadística para no estadísticos
Recuerde
Seleccionar a los casos por una variable inicial en el momento en que acaece
permite detectar posibles pérdidas y, si no las hay, documentar la ausencia de
sesgo de selección.
Ejercicio 2.7
Explique las razones por las que, en un EC, la asignación oculta protege contra el
sesgo de selección.
Ejercicio 2.8
El buen seguimiento de un EC documenta la existencia de pérdidas de
seguimiento. Diga de las siguientes posibles razones, cuáles podrían conducir a un
posible sesgo de selección y cuáles no. [Recuerde que, para que el sesgo de
selección afecte la relación XY, el OR de las probabilidades de ser excluido para
la tabla XY debe diferir de 1.]
25
Interacción. Sesgo de selección
Recuerde
El sesgo de selección también afecta a variables numéricas.
2.7. Sobreajuste
En resumen, el sesgo de selección aparece cuando se condiciona por respuestas comunes. Es un
sobre-ajuste que debe evitar.
Recuerde
Evite ajustar por respuestas comunes.
26
Bioestadística para no estadísticos
Ajustar la relación entre E e Y por la variable intermedia I permite observar la parte de la relación
EY que no “pasa” por I, lo que en algunas disciplinas (p.e., sociología) denominan efecto “directo”
para diferenciarlo de los efectos globales de E en Y que no pasan por I.
Recuerde
Ajustar por variables intermedias para estudiar los efectos directos.
27
Interacción. Sesgo de selección
1.1. a) FALSO (En general no hay único análisis estadístico correcto, sino que más bien existen varias posibilidades
que pueden atender a la misma cuestión haciendo diferentes suposiciones).
b) VERDADERO
c) VERDADERO (en el protocolo de investigación los investigadores deben determinar por anticipado al menos los
análisis para los objetivos principales del estudio.)
1.3. La respuesta correcta es la c) Ajustar por las potenciales variables confusoras a través de regresión multivariante.
(Si los grupos de comparación no son similares respecto a algunas características, el ajuste se debe hacer para las
posibles variables confusoras mediante estratificación o regresión multivariada)
podemos pasar a estudiar si hay confusión según el criterio epidemiológico y vemos que
. Si miramos el criterio estadístico vemos que hay colinealidad entre tabaco y alcohol porque los que
no bebedores (primera subtabla) son más no fumadores (segunda fila), mientras que los bebedores (segunda subtabla)
son más fumadores (primera fila), por lo que . Además, la tercera variable alcohol E2 predice la respuesta:
en los no bebedores (primera subtabla) hay 7 eventos en 440 casos, mientras que en lo bebedores (segunda subtabla)
hay 21 eventos en 241 casos, por lo que .
1.5. Ahora hay interacción ya que los OR si se condiciona por E2+ o por E2- son diferentes ya que sólo en presencia de
alcohol, el tabaco tiene relación con los eventos: . Como un estimador
28
Bioestadística para no estadísticos
1.6. Los sesgos que detectan los análisis de sensibilidad son: a) Selección, c) Información y d) Sesgo de procedimiento.
Porque interpretamos que el procedimiento incluye también a las decisiones sobre el tratamiento estadístico de los datos
(elección de puntos de corte, método de análisis, etc.).
1.7. Los análisis se sensibilidad pueden estudiar: a) Los criterios de elegibilidad, b) Las definiciones de las exposiciones
y de la respuesta, c) El tratamiento de los datos ausentes y d) La elección de los análisis estadísticos. Por lo tanto, todas
son correctas.
1.8. Se observa que los IC95% de los ORs no se solapan. Por tanto, cabe esperar que la prueba de Breslow-Day saldrá
muy significativa a pesar de que el efecto sea positivo (>1) en ambos casos.
Con R:
> tabla <- array(c(100,50,150,200,120,20,100,150),dim=c(2,2,2),
dimnames=list(c("E1+","E1-"),c("Y+","Y-"),c("E2+","E2-")))
> test <- epi.2by2(dat = tabla, homogeneity = "breslow.day",outcome =
"as.columns")
> test$rval$OR.homog
test.statistic df p.value
1 12.96852 1 0.0003167718
1.9. Exige las 3 primeras. Es cierto que recomienda luego las pruebas de interacción, pero no la exige para incluir el
resultado en el resumen.
1.10. Sólo la b) es correcta. La a) es falsa porque ningún modelo tiene necesariamente interpretación biológica o clínica.
La c) porque, aunque el análisis proporcione una estimación relativa del riesgo, aun así conviene derivar los efectos en
la escala aditiva.
1.11. a) Su principal crítica es sobre multiplicidad, ya que está haciendo numerosas pruebas de hipótesis para quedarse
luego con el resultado más significativo. Prueba lo mismo 20 veces en 20 condiciones diferentes, cada una con P=0.05.
Si las pruebas son independientes entre sí (como parece) la esperanza del número de pruebas significativas es
precisamente 1 (=0.05*20) . Ese valor significativo no tiene, pues, ningún valor, ya que es explicable por la
multiplicidad.
29
Interacción. Sesgo de selección
b) Debe decidir qué papel juega la tercera variable. Si sospecha que hay interacción, quizás convendría ponerla a prueba
directamente con una prueba tipo BD. Si sospecha que podría ser confusora, debería hacer una tipo MH. En resumen:
debe hacer menos pruebas y pensar más.
2.1.
S+ S- Global P(S+)
OR ¼ 4 1 ¼
Note que la relación de los casos seleccionados (OR=1/4) es la relación que ya había entre las probabilidades
iniciales.
2.2. Los OR coinciden y se crea una relación falsa por sesgo de selección.
Y+ Y- Y+ Y-
OR = 4 OR = 4
b.Las dos características (guapo y simpático) están relacionadas con la selección, además las probabilidades de
inclusión en el estudio son diferentes para cada individuo y vienen condicionadas por la variable respuesta; esto hace
que aparezca una relación falsa (ORZ1Y = ORZ2Y=4) entre las dos variables por sesgo de selección
2.4. a. Si nos centramos en los que terminan ‘a tiempo’ (A) existe una fuerte relación: encuentran 9 veces más
trabajo de lo suyo los que NO hicieron el curso. [La interpretación más correcta del 9 es: “la razón si/no trabajan en lo
suyo es 9 veces mayor en los que no lo hicieron”] En cambio, en todos (B), el OR muestra independencia.
OK NO TOTAL
30
Bioestadística para no estadísticos
YS YN YS YN YS YN
OR 1/9 9 1
b. En la primera tabla, centrada en los que terminan ‘a tiempo’ existe sesgo de selección: los casos “perdidos” en los
dos grupos (CS y CN) son claramente diferentes.
En cambio, al estudiar todos los casos, sin condicionar por una variable posterior a la intervención (cursos de
nivelación), la evolución es la misma en ambos grupos, independientemente de si hicieron o no el curso.
c.
Seg=OK P(Seg=OK) IPW Todos
Y Y Y Y Y Y Y Y
S N S N S N S N
OR 1/9 1/9 9 1
d. Las probabilidades de ser incluido en el estudio A [P(Seg=OK)] tienen entre ellas un OR=1/9, lo que genera en la
tabla A un OR de la misma magnitud. Por su parte, al hacer la inversa de estas probabilidades, los IPW muestra un
OR=9 que permite corregir el sesgo de selección anterior (1/9 * 9 = 1).
2.5. a.
b. La tercera variable, igual que en la confusión, está relacionada con las otras dos, pero ahora está dentro del camino
causal entre ambas, es posterior (una respuesta) a la intervención C.
2.6. a. El DAG sería , por lo que seleccionar a los casos según la estancia
31
Interacción. Sesgo de selección
entre S e IN. Por eso, condicionar o bloquear por C permite estudiar la relación directa de
S con IN.
2.7. Si el investigador conoce el grupo al que irá asignado el paciente, sus motivaciones clínicas le podrían llevar a
“reconducir” los casos más graves hacia la intervención que considera superior. Si finalmente los más graves
evolucionan peor, los grupos estarían desequilibrados en cuanto a la evolución. Más formalmente, según la tabla XY las
probabilidades podrían ser las siguientes, conduciendo a un OR diferente de 1.
Y Y
+ -
E1
NUEVO
E1
REFERENCIA
OR= / <1
2.8. Únicamente en las eliminaciones antes de administrar la intervención podemos garantizar que no introducen una
diferencia entre los grupos. Podemos imaginar que la decisión puede depender de la gravedad de la enfermedad (quizás
los más leves quieran asumir menos riesgos ante intervenciones nuevas) y que esta gravedad esté relacionada con la
evolución posterior. Pero, si el grupo asignado está oculto, está tendencia a no participar será idéntica en ambas ramas y
el OR=1, por lo que no podrá haber sesgo de selección y la validez interna no estará comprometida (otro tema es la
externa: quizás los casos finalmente incluidos se diferencian de la población objetivo inicial). En cambio, en las otras 3
situaciones, si esta característica ligada con la evolución (defunción, curación, eventos adversos) también está ligada
con la intervención, una vez más los grupos estarán desequilibrados. Como antes, las probabilidades de eliminar caso
podrían ser diferentes en las 4 celdas que combinan E1 con Y y conducir a un OR distinto de 1.
32
Capítulo 19
Febrero 2015
Regresión Lineal Simple
Presentación ....................................................................................................................... 3
1 Variables en el modelo de regresión .................................................................. 4
1.1. La respuesta observada Y frente a la respuesta predicha ................................... 6
1.1. El término variable ............................................................................................ 7
1.2. El predictor suele ser una condición (Z) del caso .................................................. 8
2 El modelo de regresión lineal simple ................................................................. 9
2.1. Cuantifique la incertidumbre de la predicción ....................................................... 9
2.2. El modelo contempla una relación lineal, una recta. ........................................... 10
2.3. La pendiente resume la relación de la respuesta con el predictor. ....................... 11
2.4. Interpretación del término aleatorio ................................................................ 13
2.5. Descripción conjunta de todos los ................................................................... 14
3 Inferencia: de la muestra fugaz a la población objetivo ................................ 15
3.1. Estimación puntual ............................................................................................... 15
3.2. Fórmulas de los estimadores* .............................................................................. 16
3.3. Obtención con R de los estimadores .................................................................... 17
3.4. Imprecisión de la estimación................................................................................ 18
3.5. El cociente t señal/ruido ....................................................................................... 20
3.6. Cálculo de IC95%( 1)* .......................................................................................... 21
3.7. Los p valores ........................................................................................................ 23
4. Interpretación pronóstica o causal de los coeficientes ................................... 25
5. Predicción........................................................................................................... 27
5.1. Fórmulas *............................................................................................................ 28
5.2. Interpretación ....................................................................................................... 29
5.3. Obtención con R................................................................................................... 30
6. Coeficiente de determinación (R2) ................................................................... 31
6.1. Detalles *.............................................................................................................. 31
6.2. Interpretación ....................................................................................................... 33
7. Resumen ............................................................................................................. 34
Soluciones a los ejercicios ............................................................................................. 35
2
Bioestadística para no estadísticos
Presentación
En este primer tema de modelado estudiamos como anticipar una variable numérica a partir de otra
también numérica.
En el ensayo clínico, la estadística estima la capacidad para cambiar el futuro: “si Vd. sigue mis
consejos, su presión arterial bajará entre 15 y 25 mmHg”. El pronóstico no pretende cambiar el
futuro, sólo anticiparlo: adivinar el valor de una variable a partir de la información contenida en
otra. Por ejemplo, para cualquier gestación, el peso esperado de un recién nacido (RN) será de 3.1
Kg, y estará entre 1.9 y 4.4 kg en el 95% de las ocasiones. Pero sabiendo que tiene 40 semanas de
gestación, su peso esperado será de 3.4 Kg y estará (95%) entre 2.5 y 4.3 Kg. Conocer la gestación
ha aportado información que: (1) cambia el valor esperado; y (2) reduce el rango de incertidumbre.
Figura 1: Interpretación de la regresión del peso del RN según la gestación (salida R reordenada).
En este capítulo, Vd. aprenderá (1) a obtener con R los resultados de la figura 1; y (2) a
interpretarlos, distinguiendo entre su uso para anticipar o para cambiar el futuro (pronóstico o
intervención, respectivamente), según la naturaleza de los datos (observacionales o experimentales).
Contribuciones: basado en apuntes previos elaborados por PM, JAG, JC y EC; Ángel Ruiz, JC,
Nerea Bielsa y EC lo actualizaron; y JAG lo revisó.
3
Regresión Lineal Simple
Un modelo estadístico expresa una variable respuesta en función de otras variables predictoras. En
la correlación las 2 variables en estudio tienen un papel simétrico, pero en el modelo de regresión es
asimétrico: la respuesta representa la futura incógnita, y la predictora, la información que estará
disponible.
Los 2 objetivos del modelo de regresión son: (1) anticipar el valor que tomará la respuesta; y (2)
cuantificar la precisión de esta predicción.
Ejemplo 1.1: Conocida la presión arterial diastólica (PAS), Vd. quiere determinar el nivel
de hipertrofia ventricular izquierda.
Ejemplo 1.2: Han predicho un terremoto cerca de Java en un plazo de entre 3 meses y 30
años.
Antes de su aplicación, el modelado requiere 3 fases (figura 1): (1) especificar el modelo; (2)
estimar sus coeficientes; y (3) validar sus premisas. Este tema aborda los 2 primeros. El tercero lo
vemos en Cap. 21.
Ejemplo 1.3: El peso de una persona se puede adivinar, en parte, por su altura. La Tabla 1.1
muestra su descriptiva en 30 individuos (ejemplo simulado).
Ejemplo R
> # Generación de datos inventados
> set.seed(12345) # Garantiza que los datos serán siempre iguales
> altura <- rnorm(30,171,8) # Generar la altura
> peso <- altura-100+rnorm(30,0,5) # Generar el peso
4
Bioestadística para no estadísticos
> summary(data.frame(peso,altura))
peso altura
Min. :54.86 Min. :156.5
1st Qu.:66.30 1st Qu.:167.2
Median :74.48 Median :171.8
Mean :73.19 Mean :171.6
3rd Qu.:80.02 3rd Qu.:176.0
Max. :92.38 Max. :185.5
Ejemplo R
> # Modelo
> lm(peso ~altura)
(Intercept) altura
-107.348 1.052
Nota: Recuerde que dibujar una recta sólo necesita 2 coeficientes: (1) mayor pendiente indica mayor
inclinación; y (2) mayor constante, recta más hacia arriba.
b1=1.05
b0 = -100
Figura 1.2: Figura izquierda: Los puntos son los valores de talla y peso de 20 casos. La línea recta es el modelo lineal
obtenido. Figura derecha: Es la figura izquierda sin ampliar, observe la constante (b0) que cruza al eje de ordenadas en
el punto -100 y el ángulo que forma la pendiente b1.
5
Regresión Lineal Simple
Ejercicio 1.1
El juego de datos diet del paquete Epi contiene información sobre 337 individuos
que participaron en un estudio de cohortes sobre enfermedad coronaria. Dos de
las variables recogidas fueron las kilocalorias (energy) y la cantidad de grasa (fat)
consumidas diariamente. Cargue los datos:
> install.packages("Epi") # si no lo tiene instalado
> library(Epi)
> data(diet)
Realice el gráfico izquierdo de la Figura 1.2 con estas dos variables haciendo uso
de la instrucción plot.
Así, el modelo permite calcular el peso predicho para una persona de, por ejemplo, 170 cm:
Notación
Indicamos las variables en mayúsculas: Y, , Z, X
Ejemplo 1.3 (cont): Z representa a la variable altura, es decir al resultado numérico del
proceso de determinar la talla.
es la respuesta predicha;
6
Bioestadística para no estadísticos
Ejercicio 1.2
¿Puede decirse “sigue” en lugar de ”acompaña”? ¿Qué implicaría?
Nota técnica: la variable Y es un concepto que representa al proceso de medida en sí mismo, e indica el
paso de asignar un número o un código al elemento en estudio. Contiene todos los posibles valores.
Recuerde
Distinga las variables, Y, Z, del valor que toman, y, z.
La recta es común para todos los casos, pero no todos los casos están en la recta. Cada caso tiene
sus propias características que lo distancian de la recta en una cantidad que representaremos por
(concretamente, para el caso iésimo “i”, ).
Ejemplo 1. (cont): El valor de la talla en el paciente iésimo es zi, por ejemplo, z6=173cm.
Así, el modelo se descompone en una parte determinista, la “función” “f(Z)”; y una estocástica o
aleatoria, :
Ejercicio 1.3
Si dado Z, determina Y exactamente, ¿tiene interés recoger Y?
7
Regresión Lineal Simple
La parte determinista del modelo es reproducible, por lo que, en argot, podría hablarse de señal
(parte determinista) y ruido (parte aleatoria).
Recuerde
Un modelo estadístico contiene una señal ‘determinista’ y un ruido ‘aleatorio’.
Ejercicio 1.4
a) ¿Qué diferencia el uso de mayúsculas (Y, Z) o minúsculas (y, z)?
b) ¿Por qué llamamos ‘respuesta’ a la variable a la izquierda del signo igual, = ?
c) ¿En qué 2 partes se descompone el modelo? ¿Cómo se llaman y qué
representan?
d) ¿En qué se diferencian regresión y correlación?
Recuerde
En el EC, el investigador aconseja la intervención X al paciente.
Lectura. La guía SAMPL pide describir el objetivo de la regresión: “Describe the purpose of the analysis”
Ejercicio 1.5
Diga si son ciertas. En un modelo de predicción:
a) La variable predictora debe ser una causa asignable
b) La variable predictora debe necesariamente ser una condición de la unidad
c) La variable respuesta debe preceder en el tiempo a la predictora
8
Bioestadística para no estadísticos
Ejercicio 1.6
Ojee estos dos enlaces y diga si las siguientes variables son condiciones o
posibles intervenciones:
a) Enlace 1. Variable “Estar en edad del primer ciclo menstrual (Sí/No)”
b) Enlace 2. Variable “Ingesta de bebidas azucaradas (Sí/No)”
Observe en este ejemplo, como la información adicional aportada por lugar y fecha va reduciendo el
rango de incertidumbre.
Recuerde
Cuantifique la reducción de incertidumbre de la predicción.
Ejercicio 2.1
En un modelo de predicción, ¿deseamos saber si es el mejor posible o conocer
cuál es su capacidad para reducir la incertidumbre sobre la respuesta?
Recuerde
Todos los modelos son erróneos, pero algunos son útiles (Cox)
9
Regresión Lineal Simple
Definición
Modelo de Regresión Lineal Simple
valor de la variable respuesta en el caso i-ésimo
constante o término independiente (intercept)
pendiente (slope)
valor de la variable predictiva en el caso i-ési mo
oscilación aleatoria del caso i-ésimo
Ejercicio 2.2
En el ejemplo del peso y la altura ¿qué unidades tiene la constante? ¿Y la
pendiente?
Al establecer la relación con una línea recta, sólo necesita estimar 2 parámetros: la constante y la
pendiente.
10
Bioestadística para no estadísticos
Recuerde
Función lineal significa que la relación se representa con una recta.
Ejercicio 2.3
Interprete una pendiente con valor 0. ¿Qué quiere decir? Por ejemplo, la regresión
del número de respuestas correctas en el examen MIR (Y) en función de la altura
(Z) de los participantes, tiene una pendiente β1=0. ¿Qué significa?
Recuerde
Una pendiente nula indica independencia lineal entre las variables
Lectura: la guía SAMPL para la publicación de resultados estadísticos dice: “Do not extend the regression
line (or the interpretation of the analysis) beyond the minimum and maximum values of the data”.
11
Regresión Lineal Simple
Ejercicio 2.4
La constante es el punto en que la recta intercepta el eje vertical o de
ordenadas. En el ejemplo de talla y peso, a una altura de 0 cm le corresponde un
peso de = - 100 Kg (Z=0, Y=-100). ¿Debe interpretar que cabe esperar un peso
negativo de - 100 Kg en los adultos sanos con una altura nula?
Al rango de las observaciones estudiadas se le conoce como ventana (recuadro azul en la Figura 2.1:
Modelo de peso según alturas entre 0 y 200 cms.Figura 2.1) y define la población en estudio. Antes
de aplicar la regresión fuera de estos límites necesita nueva evidencia empírica para esa población
más amplia. Si expande o transporta los resultados, debe especificar que es una extrapolación
teórica tentativa: es decir, una interpretación, no un resultado.
Recuerde
Especifique la ventana o rango estudiado.
Ejemplo 1.3 (cont): Peso de varones adultos sanos para alturas entre 150 y 195cms.
Ejemplo 2.3: Se tiene el siguiente modelo donde se quiere predecir la capacidad vital
forzada (CVF, variable respuesta) en función de la capacidad vital (CV, variable predictora).
0.314 0.909
El valor 0.314 (Intercept) indica la CVF de una hipotética persona cuyo valor de CV fuera
nulo (CV=0); y tiene poco sentido. El valor 0.909 de la pendiente indica que un incremento
de 1 unidad en CV se asocia con un incremento de 0.909 unidades en la CVF.
Ejercicio 2.5
Se quiere predecir la PAS en mmHg (Y) en función de la Edad en años (Z) en
pacientes adultos (entre 20 y 50 años). Un posible modelo simplificado sería:
12
Bioestadística para no estadísticos
Recuerde
i representa una distancia vertical
Nota técnica: “Distancia” en sentido coloquial, no formal —que sólo toma valores positivos.
Hay que insistir en que i representa una separación y nada más. Desde Darwin y Galton ya no es
un desvío de un valor central que es el único correcto. El término Perturbación puede ser correcto
en contextos de fabricación o de control de calidad. Al hablar de personas, aquello que es particular
de cada una preferimos llamarlo idiosincrasia, peculiaridad o característica. Si sólo contiene
aquello que no es compartido con otros casos podemos llamarle singularidad. No obstante, cuando
la finalidad de establecer este modelo es predecir el valor de la respuesta, tiene pleno sentido decir
que i representa el error de predicción o el residuo, indicando que se trata del resto: aquella parte
de la respuesta que no ha sido posible predecir.
Recuerde
El término aleatorio i representa la singularidad del caso i-ésimo.
Indica el error o el residuo en la predicción de la respuesta.
13
Regresión Lineal Simple
Esta dispersión σ2 indica la distancia (cuadrada) “promedio” de los casos a la recta. Cuanto mayor
es su valor, más amplia es la nube de puntos. Al asumir que los residuos son Normales, cabe esperar
que el 95% de los puntos estén comprendidos entre 2 σ.
Ejercicio 2.6
Los gráficos de la siguiente figura muestran la forma de la nube de puntos para 3
hipotéticos valores de : 2Kg, 10Kg y 18Kg. ¿Cuál de los 3 valores de σ le parece
más razonable para la relación entre el peso y la altura?
14
Bioestadística para no estadísticos
Ejercicio 2.7
Siguiendo con el Ejemplo 2.3 anterior, ¿cuál de los siguientes valores de sigma
para la capacidad vital le parece más probable?
Ejercicio 3.1
Es importante distinguir entre y b? ¿Qué diferencia 1 de b1? ¿Cuál es más
importante? ¿Cuál es accesible?
Ejemplo 3.1: La aplicación del modelo a la unidad Juan, que pesa 73 Kg y mide 170cm
permite obtener un peso predicho de:
15
Regresión Lineal Simple
ŷ i = b0 + b1 · zi =
= -100 Kg + 1 Kg/cm ·170Kcm = 70 Kg.
Tiene sentido intentar que el valor predicho ŷ i se acerque al real yi. El método de mínimos
cuadrados propone como estimadores de los parámetros 0 y 1, aquellos valores b0 y b1 que hacen
pequeños los residuos ei –en concreto, minimizan la suma de sus cuadrados.
Tabla 3.1: Fórmulas de los estimadores de los coeficientes de regresión. , , y son las medias y desviaciones
típicas de la respuesta y el predictor; y , su covarianza.
La pendiente será más grande cuanto mayor sea la covarianza que mide su variación conjunta; es
decir: cuanto más relacionadas, mayor pendiente. Y viene dividida por la variabilidad del predictor.
Nota: a covarianza tiene las unidades de ambas variables y la pendiente las de la respuesta divididas por las
del predictor.
El estimador S² de ² es el promedio del cuadrado de los residuos —a veces se representa por Se²
Nota: dividido por los grados de libertad ‘n-2’ para ‘corregir’ por el gasto de información que implica haber
estimado previamente los 2 coeficientes de la recta.
Nota: La varianza residual tiene 2 formulas equivalentes más eficientes en cuanto al número necesario de
cálculos: y .
16
Bioestadística para no estadísticos
Ejemplo 3.2: Suponga que las medias (S) de peso y altura de 30 individuos son 70 Kg ( :
11.5Kg) y 170cm ( : 8cm), respectivamente; con una correlación rZY = 0.7
[Recuerde que ]
Ejercicio 3.2
Suponga que, en una muestra de 10 pacientes, la fracción de eyección (Y)
observada al final del seguimiento y la presión arterial diastólica (Z) inicial tienen
medias (DE) de 45% (8%) y 85 mmHg (12 mmHg), con una correlación de 0.2.
Calcule los estimadores b1 y b0 de la regresión para predecir Y a partir de Z.
Ejemplo R
> altura <- c(176,177,170,167,176) # altura de 5 individuos
> peso <- c(80,88,80,76,77) # peso de esos 5 individuos
17
Regresión Lineal Simple
Iremos viendo todos estos coeficientes. Ahora interprete los 3 que ya ha estudiado.
Ejercicio 3.3
Interprete b0, b1 y S. Note que no tienen los mismos valores que antes. ¿Por qué?
Ejercicio 3.4
Repita el Ejercicio 3.2 con R sabiendo que los datos originales han sido:
Y - FE 46 39 45 43 47 52 56 53 33 33
Z - PAD 96 73 86 56 89 94 87 88 88 90
Bajo ciertas condiciones, el estimador b1 sigue, a lo largo de las posibles muestras, una distribución
Normal, centrada alrededor del parámetro β1 y con varianza conocida.
Nota:
Que los valores de b1 estén centrados alrededor del parámetro β1 indica que el centro de la
distribución del estimador coincide con el parámetro: E(b1) = β1.
18
Bioestadística para no estadísticos
Ejercicio 3.5
¿Qué implicaciones tiene que E(b1) = β1? (Puede haber varias correctas).
a) Que b1 en promedio acierta
b) Que b1 es un estimador insesgado
c) Que b1 siempre acierta
d) Que b1 siempre toma el mismo valor
La fórmula sobre la imprecisión o error estándar del estimador b1, SE(b1) o , es más sofisticada:
Observe que esta oscilación del estimador b1 depende de 3 factores, los 2 primeros comunes con el
2
error estándar de la media: (1) , la dispersión ‘natural’, aleatoria de la idiosincrasia i, estimada
por S2: (2) el número de observaciones disponibles; y (3) la dispersión o disposición de las Z en
la ventana muestreada.
Ejercicio 3.6
La estimación b1 de 1 es más precisa cuando... (varias correctas):
a) menor es su oscilación alrededor de 1
Ejemplo 3.3: El anterior ejemplo de R tiene la columna “Std. Error” al lado de “Estimate”:
la pendiente estimada es 0.5939, y tiene una oscilación de 0.5080. Como sus magnitudes
son parecidas, el cociente t señal/ruido es pequeño, 1.169, indicando que la señal queda
absorbida por su imprecisión.
Recuerde
Variabilidades en juego:
2
(1) (estimada por S2) o varianza de i;
(2) o dispersión de las Z y amplitud de la ventana muestreada; y
19
Regresión Lineal Simple
Ejercicio 3.7
La base de datos births del paquete Epi contiene, entre otras variables, al peso del
recién nacido en gramos (bweight) y a las semanas de gestación (gestwks). Vd.
desea saber si puede ajustar un modelo lineal del peso en función de la duración
del embarazo. A partir de la siguiente salida de R, escriba la recta estimada e
interprete el cociente t de la pendiente.
> install.packages('Epi')
> library(Epi)
> data(births)
> modelo<-lm(bweight~gestwks,data=births)
> summary(modelo)
Call:
lm(formula = bweight ~ gestwks)
Residuals:
Min 1Q Median 3Q Max
-1698.40 -280.14 -3.64 287.61 1382.24
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4489.140 340.899 -13.17 <2e-16 ***
gestwks 196.973 8.788 22.41 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 449.7 on 488 degrees of freedom
(10 observations deleted due to missingness)
Multiple R-squared: 0.5073, Adjusted R-squared: 0.5062
F-statistic: 502.4 on 1 and 488 DF, p-value: < 2.2e-16
20
Bioestadística para no estadísticos
Nota: Puede trabajar de forma similar con el estimador b0 de la constante, menos importante.
Ejercicio 3.8
¿Por qué es mayor la importancia de la pendiente que la de la constante?
Ejercicio 3.9
Si la pendiente estimada vale 0, b 1 = 0, ¿cómo queda la ecuación de la recta?
¿Cuánto vale la constante b0?
b1 = 0.5 puntos/hora
horas²
S² = 2.25 puntos²
Donde tn-2 es el valor de la t-student con n-2 grados de libertad, y SE(b1) es el error estándar
del estimador b1.
V(b1) =
21
Regresión Lineal Simple
SE2(b1) = =
[-0.091 , 1.091]
Ejercicio 3.10
La siguiente salida de R muestra los IC95% para la pendiente ( ) y para la
constante o Intercept ( ). (a) Interprete sus valores; y (b) Explique cómo los
obtendría a partir de los valores de “estimate” y de “Std. Error”. El tamaño de la
muestra es de n=30.
a)
> confint(mod)
2.5 % 97.5 %
(Intercept) -0.2649786 0.8928643
VC 0.7503939 1.0670158
b)
Call:
lm(formula = CVF ~ CV)
Residuals:
Min 1Q Median 3Q Max
-1.38038 -0.15690 0.05361 0.16059 0.81786
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.31394 0.28262 1.111 0.276
CV 0.90870 0.07728 11.758 2.41e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
22
Bioestadística para no estadísticos
Ejemplo 3.5: La salida de R del Ejercicio 3.10 puede ver que el p-valor de CV vale 2.41e-12.
Es decir: P=0.00000000000241, que indicamos por P<0.0001. Como está por debajo de
0.05 rechazamos H0 y deberemos incluir la pendiente en el modelo. En otras palabras, el
cambio en CVF cuando CV aumenta es significativo. Este resultado basado en el valor de P
coincide con el anterior del IC95%, ya que el valor = 0 no pertenece al intervalo entre
0.7503939 y 1.0670158.
Ejemplo 3.6: Se tienen los datos del volumen de reserva inspiratorio (VRI) y el
rendimiento del miembro superior en el índice motor (MS_IM) de 30 pacientes. Queremos
contrastar si VRI puede predecir MS_IM linealmente. Se obtiene el siguiente resultado:
Ejemplo R
Call:
lm(formula = MS_IM ~ VRI, data = base)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.893 19.349 1.752 0.0908 .
VRI 14.065 9.649 1.458 0.1561
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
En este caso, la pendiente no es significativa; esto implica que no hemos logrado demostrar
relación entre ambas. La figura 3.1 muestra que el IC95% de la pendiente incluye el valor 0
en este caso, a diferencia del caso anterior de CV y CVF.
23
Regresión Lineal Simple
Observe la Figura 3.1: el gráfico de la izquierda representa el modelo del ejemplo 3.10, cuya
pendiente es significativa. El gráfico de la derecha representa el modelo actual que, como ya
se ha dicho, no tiene una pendiente significativa ya que las bandas muestran que podría
aplanarse y hasta ser negativa
La Figura 3.1 muestra la significación de la relación lineal entre la capacidad vital (CV) y la
capacidad vital forzada (CVIF); así como la no significación de la relación entre el volumen de
reserva inspiratorio y la puntuación del miembro superior en el índice motor. Observe la buena
precisión del IC95% para el gráfico de la izquierda y la poca precisión del IC 95% del gráfico de la
derecha.
Figura 3.1. IC95% para la predicción del valor esperado (izquierda) y de una observación individual (derecha)
Nota técnica: R devuelve otro p-valor (abajo a la derecha); es el p- valor global del modelo, cuya H es que
la varianza de la variable respuesta explicada por el modelo vale 0. Es decir, si no podemos aceptar H
diremos que el modelo no explica nada de la variable respuesta, como sucede en este caso (p-value: 0.1561),
que además coincide con el p-valor de la pendiente, ya que solo hay una variable explicativa.
Ejercicio 3.11
Interprete la significación del p-valor de la pendiente que se muestra a
continuación donde CI es la capacidad inspiratoria y CVIF es la CI forzada.
Call:
lm(formula = CVIF ~ CI)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
24
Bioestadística para no estadísticos
25
Regresión Lineal Simple
Además, como se vio al estudiar el sesgo por confusión, el gran reto es descartar variables
alternativas relacionadas (colineales) con la causa en estudio.
Dedicaremos capítulos enteros a diferentes técnicas estadísticas para estimar el efecto de una
posible causa intentando anular los posibles efectos de otras.
26
Bioestadística para no estadísticos
Recuerde
Sea prudente antes de interpretar causalmente β1 en estudios observacionales.
5. Predicción
Ahora bien, la estadística quiere cuantificar la calidad de esta predicción: ¿qué incertidumbre
queda?
Para ello, puede recurrir a los IC, pero antes hay que
concretar la ambición de la pregunta: “dado un cierto
valor zh, predecir…”:
Ejemplo 5.1: La
Figura 5.1 muestra: (1) la recta estimada del peso del RN en función de las semanas de gestación
(línea continua roja); (2) el IC95% del objetivo A “contener la recta con los valores predichos”
(líneas verdes); y (3) el IC95% del B “contener los casos” (líneas azules). Así, línea verde vertical
muestra un ejemplo del objetivo A: el peso promedio de todos los RN con 32 semanas tiene un
27
Regresión Lineal Simple
valor esperado de 1.81Kg (IC95% entre 1.69 y 1.94). Y la línea azul vertical, uno del B: el peso
los RN con 34 semanas tiene un valor esperado de 2.21 Kg, pero el 95% de los RN estarán entre
1.32 y 3.10 Kg.
Recuerde:
5.1. Fórmulas *
A. Para estimar la esperanza h de Y para X=xh hay que tener en cuenta las oscilaciones por la
estimación de ambos coeficientes de la recta. Por un detalle técnico (sus errores típicos SE no son
independientes), conviene usar la ecuación de la recta en función de la media en lugar de :
28
Bioestadística para no estadísticos
La oscilación de la pendiente está ‘anclada’ en el valor medio de Z, pero aumenta a medida que
se aleja de ella, formando la parábola de la línea discontinua verde de la
Figura 5.1.
B. En el caso de las predicciones individuales, también hay que tener en cuenta también la
variabilidad de estas observaciones.
Nota:
Ejemplo 5.1 (cont): En births, quiere predecir el peso para un bebé de 40 semanas. La
predicción puntual será:
5.2. Interpretación
Existen 2 fuentes de variabilidad en la predicción de la esperanza (objetivo A) originadas por la
incertidumbre en la estimación de : SE( ) y SE( ). Así pues, se conoce cuánto varía de una
muestra a otra la predicción del valor poblacional h. La interpretación de esta fórmula es sencilla:
las oscilaciones de las predicciones vienen originadas por el ruido del estimador de la media ( ,
que sitúa verticalmente la recta; y por el ruido de la estimación de su inclinación (b 1). Nótese que
esta oscilación en la estimación de la pendiente provoca una mayor varianza en la predicción cuanto
mayor sea la distancia a ; es decir, cuanto más alejada del centro de las Z se encuentre el objetivo
zh de la predicción.
En la predicción de los valores individuales (objetivo B), hay que añadir la variabilidad natural de
las observaciones, representada por la desviación típica de los i: .
29
Regresión Lineal Simple
Ejemplo 5.1 (cont): En births, el peso esperado para un RN de 40 semanas ha sido 3.39 Kg,
con un IC95% desde 2.5 a 4.3: Cabe esperar que el 95% de los RN a las 40 semanas tengan
un peso entre 2.5 y 4.3 Kg.
Nótese el elevado grado de incertidumbre: lo único que se puede decir del peso de un recién nacido
con 40 semanas de gestación es que se trata de algún valor entre 2.5 y 4.3 Kg. Este resultado no
hace nada más que recordar que la dispersión natural de los pesos de los recién nacidos que nacen
con el mismo número de semanas de gestación es de casi medio kilo. De aquí la importancia de
acompañar las estimaciones con intervalos de certidumbre.
Ejemplo 5.1 (cont): Para 40 semanas, los IC95% del peso promedio de todos (objetivo A); y
el de un RN (objetivo B) puede obtenerse con R mediante:
Ejemplo R
> data(births)
> modelo<-lm(bweight~gestwks,data=births)
Para el valor promedio de todos los neonatos hay mayor precisión: se halla entre 3.34 y 3.44
Kg, mientras que para un RN está entre 2.50 y 4.27 Kg. Lo que ilustra una vez más la
paradoja estadística entre la variabilidad del caso y la regularidad del grupo.
30
Bioestadística para no estadísticos
Conviene disponer de una medida que resuma, a nivel global, la capacidad de predicción:
¿Considerar el valor del predictor Z, cuánto reduce la incertidumbre sobre Y?
Recuerde
En un Ensayo, la diferencia de medias valora el efecto de la intervención; en un
estudio pronóstico, la reducción de la varianza valora la capacidad predictiva.
Sin conocer el predictor Z, usará la media de Y para acercarse al posible valor de un caso.
Ejemplo 1.3 (cont): Quiere anticipar el peso de la próxima persona que entrará en clase y la
única información de que dispone es que la distribución del peso entre los estudiantes es
N(70Kg, 11.5Kg). Ahora, predecir 70 Kg tiene 2 ventajas: (1) los errores por encima y por
debajo se compensan; y (2) puede conocer el error promedio de predicción: 11.5Kg.
Ahora bien, si además conoce el valor de la altura y de los coeficientes de la regresión lineal, ¿en
cuánto se reduce este error de predicción?
6.1. Detalles *
La Figura 6.1 muestra la nube que forman los puntos de los pares observados de peso, Y, y altura, Z
y 2 líneas rectas. La roja horizontal indica la predicción de Y sin conocer Z. Es horizontal porque es
la misma para todos los casos —ya que desconoce Z. La línea inclinada azul muestra la recta de
regresión.
Observe el punto azul representado por . Si desconoce la altura, el error de predicción será la
distancia a la línea roja, representada por , es decir: . Observe que si intercala , esta
distancia se descompone en 2 partes:
31
Regresión Lineal Simple
Figura 6.1
Ejemplo 1.3 (cont): El punto azul indica un caso que mide 185cm y pesa 92 Kg. Así,
= 92-70=22 Kg: sin conocer la altura, predice 70 Kg y comete un error de 22.
= 92-85=7 Kg: conocida la altura, el error baja a 7 Kg.
= 85-70=15 Kg: es el descenso en el error de predicción.
Nota: sí, hábil lector, en otros casos la situación puede no ser tan “elegante”: un voluntario de 185cms
que pese 71Kg. Tendría los siguientes valores:
= 71-70 = 1Kg: sin conocer la altura, predice 70 Kg y comete un error de 1.
= 71-85=-14Kg: conocida la altura, el error sube a -14 Kg.
= 85-70=15Kg: es el descenso en el error de predicción.
Por esta razón, hay que considerar todas las situaciones, lo que obligará a sumarlas y elevarlas al
cuadrado para evitar que valores negativos y positivos se compensen.
Cada observación de la muestra aporta estos 3 términos. Si los suma para los n casos después de
elevarlos al Cuadrado (SC), se cumple que:
32
Bioestadística para no estadísticos
6.2. Interpretación
La suma de todos los errores cuadrados de la predicción ignorando Z (SC T) es igual a la de la
información aportada por Z (SCE) más la restante (SCR).
Recuerde
La medida de la capacidad predictiva de un modelo lineal es R2.
Ejemplo 1.3 (cont.): Una correlación de 0.7 entre peso y altura implica un coeficiente de
determinación R2 de 0.49, por lo que la mitad de la variabilidad del peso queda explicada
por la talla. Es decir, si sabe la altura de una persona, reduce a la mitad la incertidumbre
(cuadrada) sobre su peso.
Ejemplo 6.1: Se quiere ajustar un modelo para la ganancia de peso entre el día 70 y 100 de
un bebé (Y), según el peso al nacer (Z). El coeficiente de determinación R2 vale 0.11, lo que
indica que el 11% de la variabilidad de la ganancia de peso viene predicha por la
variabilidad del peso al nacer.
Si hay pocos casos, R2 es algo optimista, por lo que conviene hacer una corrección que tiene en
cuenta el tamaño muestral. El coeficiente resultante recibe el nombre de R 2 ajustado.
33
Regresión Lineal Simple
Ejemplo 5.1 (cont): La predicción del peso del RN según la gestación tiene un R2 = 0.507,
lo que indica que conocer el número de semanas reduce a la mitad la incertidumbre sobre el
peso al nacer.
7. Resumen
34
Bioestadística para no estadísticos
35
Regresión Lineal Simple
Es decir, conocer el valor del predictor no cambia la expectativa sobre la respuesta; Por tanto, en este caso, el
predictor Z no aporta información sobre la respuesta Y. Así, una pendiente igual a 0 se interpreta igual que una
correlación igual a 0. Al menos, en un modelo lineal.
2.4. Por supuesto que no. Por abreviar o quizar para bromear, a veces usamos expresiones literales que no tienen ningún
significado. Vigile. Y si algo le parece absurdo: ¡Grítelo!
2.5. a) El valor 1 de la pendiente indica que un incremento de un año en la edad se asocia con un incremento de 1
mmHg en la PAS. El coeficiente del término independiente indicaría la PAS de un neonato; sin embargo, en el
enunciado se menciona que la ventana de estudio abarca únicamente a mayores de edad y, por tanto, no tendría
sentido dicha interpretación (De hecho, conocemos que esta relación lineal no se cumpliría fuera del rango de
estudio). b) Posiblemente un experto nos diría que la constante debería ser más pequeña, quizás ½, acorde con subir
5mmHg cada 10 años.
2.6. σ=10. Si fuese 2 implicaría conocer el peso a partir de la altura con un margen muy pequeño (equivocarse en más
de 4 kg sería muy extraño), mientras que un valor de 18 significaría no tener prácticamente información del peso
conociendo la altura, ya que equivocarse menos de 36kg, arriba o abajo, entraría dentro de lo más frecuente (el 95%
de las veces).
2.7. El valor que parece más probable es σ = 0.9. σ = 0.2 implicaría poder la CVF a partir de la CV con un margen
mínimo, es decir, en la mayoría de veces no se cometerían errores mayores a 0.4 unidades. En cambio σ = 1.6,
muestra lo complicado que es intentar predecir el valor de la CVF a partir del valor de la CV.
3.1. es el parámetro, valor poblacional desconocido, auténtico objetivo del estudio, pero directamente inaccesible, sin
estudiar toda la población. En cambio, b es el accesible valor muestral que informa sobre .
3.2.
Nótese, que la pendiente es tan poco pronunciada que se deduce que un incremento de la PAD apenas tiene
influencia en la fracción de eyección. Clínicamente no parece relevante. Enseguida estudiaremos si es
estadísticamente significativa.
3.3. No tiene porqué tener los mismos valores porque son otros datos. [Si le parece obvio, no siga leyendo.] Éste es el
reto de la inferencia estadística, ya que diferentes muestras dan diferentes valores. Por eso, debe usar herramientas
de inferencia como, por ejemplo, la estimación por intervalo.
3.4. > Y <- c(46,39,45,43,47,52,56,53,33,33)
> Z <- c(96,73,86,56,89,94,87,88,88,90)
> modelo <- lm(Y~Z)
> summary(modelo)
Call:
lm(formula = Y ~ Z)
Residuals:
Min 1Q Median 3Q Max
-12.3830 -3.1832 0.9392 5.0758 11.0036
36
Bioestadística para no estadísticos
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.7847 19.9504 1.693 0.129
Z 0.1289 0.2335 0.552 0.596
Residual standard error: 8.256 on 8 degrees of freedom
Multiple R-squared: 0.03667, Adjusted R-squared: -0.08374
F-statistic: 0.3046 on 1 and 8 DF, p-value: 0.5961
3.5. a) y b) Si bien, hemos dicho “bajo ciertas condiciones”. Más adelante las estudiamos.
3.6. Todas correctas menos c, que es al revés
3.7. La recta estimada es:
La pendiente indica que el peso del neonato aumenta 197 g por cada semana adicional de gestación. Su error típico
es mucho menor, 8.788, con un cociente señal/ruido de 22.41, indicando que la señal es mucho mayor que la
imprecisión.
3.8. Se considera más importante la pendiente que la constante porque la pendiente indica en cuánto se modificará la
respuesta según se modifique la variable predictora; en cambio la constante, sólo indica el “punto de partida”, pero
no aporta más información.
3.9. La ecuación de la recta quedaría solo con el término constante, es decir . Si se representa gráficamente se
obtiene una línea horizontal a la altura del valor de la constante. La constante b0 toma el valor del punto por donde
cruza la recta en el eje de ordenadas Y.
3.10. a) Con un nivel de confianza del 95% se espera que: para el parámetro Intercept si la variable CV toma valor 0,
el 95% de los casos tengan un valor de respuesta comprendido entre -0.265 y 0.893. Las estimaciones de CV
(b1) indican que en el 95% de los casos la pendiente tomará valores entre 0.75 y 1.067. b) Siguiendo la fórmula de
IC95% se obtiene: = 0.9087 ± 2.045*0.07728 = [ 0.751 , 1.067]
Nota: los resultados son aproximados, la precisión de R es mayor;
3.11. En este caso, la pendiente es significativa, es decir la variable CI es importante para explicar la variable CVIF,
por lo tanto, se espera que por cada unidad que aumente la variable CI la respuesta aumente en 1.0282 unidades.
37
Capítulo 20
Marzo 2015
Regresión Lineal Múltiple
Presentación ...................................................................................................................... 3
2
Bioestadística para no estadísticos
Presentación
Este capítulo modela una variable respuesta Y con cierta combinación de variables predictoras que
podrán ser X (intervenciones) o Z (condiciones). El principal objetivo de este capítulo es interpretar
sus coeficientes según estas predictoras sean numéricas o categóricas. Estudia, además, el caso en el
que el coeficiente de un predictor es el mismo para cada valor de las restantes predictoras (modelo
aditivo) y el caso en el que cambia (modelo con interacción o multiplicativo).
Por ejemplo, la Figura 1 contiene el ajuste de un modelo de regresión múltiple en un ensayo clínico
de artritis. La variable respuesta Y es el ángulo de flexión del codo al final del seguimiento y las 2
variables predictoras son el tratamiento y el ángulo de flexión previo. También aparece un término
de interacción entre estas dos variables que responde a la pregunta de si el efecto del tratamiento es
común (“independiente”) para cualquier flexión previa.
Figura 1: Interpretación de la regresión del nivel de flexión final (faft) según su nivel inicial (fbef), el tratamiento (grp)
y su interacción en el codo derecho (side==”right”).
Este tema aborda la interpretación y significación estadística de los resultados. El siguiente estudia
las premisas y cautelas necesarias para interpretarlos.
Contribuciones: basado en apuntes previos elaborados por PM, JAG, JC y EC; AR, JC y EC lo
actualizaron; JAG lo revisó y NB lo editó.
3
Regresión Lineal Múltiple
1 Modelo general
En Regresión Lineal Simple (RLS) el modelo contiene una variable predictora:
Ejercicio 1.1
¿Cuántas ‘betas’ tiene el modelo lineal con k variables?
Igual que en RLS, su traslado a los valores muestrales origina ‘n’ ecuaciones para los ‘n’ casos,
representados por el subíndice ‘i’:
Ejercicio 1.2
Diga en palabras qué significa cada símbolo:
.
Además, podrán aparecer términos de interacción entre dos predictoras: Por ejemplo, ¿el efecto del
tratamiento X en la respuesta Y depende del género Z? O también, ¿la relación de la presión arterial
inicial Z con la final Y es la misma para todos los estratos de glicemia inicial?
A continuación, veremos la RLM con 2 predictoras según sean numéricas o factores dicotómicos.
Ejercicio 1.3
Busque en ambos documentos de STROBE (la declaración y el largo explicativo)
cuántas veces aparece el término “independent variable”. Repita en el doc E&E
de TRIPOD. ¿Y cuántas aparece ‘predictor’ en la 1ª página de este último?
4
Bioestadística para no estadísticos
Recuerde
Use variable ‘predictora’ en lugar de ‘independiente’.
Historieta: En este capítulo, las predictoras serán “independientes” entre ellas. En el siguiente, lo
generalizamos a variables independientes que no son independientes entre sí.
La variable Z1 representa un factor con dos categorías. Para convertirla en “numérica”, usamos un
indicador (dummy) que valdrá 0 para la categoría de referencia y 1 para la otra.
La altura para una mujer vendrá dada por la substitución z i por el valor 0:
Ejemplo 2.2: El conjunto de datos hips del paquete faraway de R sobre Espondilitis
Anquilosante contiene los grados de flexión de los codos antes y después de cierto
tratamiento en 39 pacientes. La Figura 2.1 muestra la recta que pasa por las medias de la
flexión final derecha en ambos grupos de tratamiento.
5
Regresión Lineal Múltiple
Figura 2.1. Flexión final en brazo derecho según tratamiento. La linea (roja) es la recta de regresión
estimada con sus bandas de confianza (verde).
Ejercicio 2.1
En la regresión del grado de flexión final según el grupo de tratamiento, diga qué
representan los 2 coeficientes del modelo.
>install.packages("faraway")
>library("faraway")
>hips
Call:
lm(formula = faft ~ grp, data = hips)
> lm(faft~grp,data=hips)
Coefficients:
(Intercept) grptreat
113.75 10.23
Recuerde
Si usa el indicador 0, 1, la constante es la media en el grupo de referencia
(codificado 0) y la pendiente, la diferencia entre ambas medias.
Ejemplo 2.1 (cont): Vimos que una mujer tendrá una altura esperada de 165 cm. Sin
embargo, no todas las mujeres miden 165 cm. De aquí, la presencia del término particular
: la señora Abigail Abad (primer caso: i=1) mide 167 cm. Por tanto, e1 vale
6
Bioestadística para no estadísticos
Para los hombres, la altura esperada es 175 cm. Sin embargo, el señor Abraham Abadesa
(caso i=2) mide 174 cm, por lo que su particularidad vale -1:
Nota: Poner a mujeres en 0 es arbitrario. Tan sólo es más cómodo hablar en positivo: “los hombres miden
10 cm más”.
Recuerde
Elija la categoría de referencia (“0”) para facilitar la interpretación.
Ejemplo R
> # Datos (4 hombres y 4 mujeres)
> y <- c(165,171,164,149,169,179,175,184)
> z <- factor(c('M','M','M','M','H','H','H','H'),levels=c('M','H'))
Ejercicio 2.2
Diga, para este ejemplo, qué significan 162.2 y 14.5.
7
Regresión Lineal Múltiple
Nota: Por 2 puntos siempre pasa una recta. No tiene mérito alinear 2 medias en una recta, lo que sí lo
tendría sería alinear 3 o más.
Una dicotomía, como la representada por una variable dummy, puede interpretarse en cualquier
escala de medida, incluso numérica.
Ejemplo 2.3 (cont. Ejemplo 3.2): Podemos mirar al indicador (dummy) de género como
“número de cromosomas Y”: ‘0’ para las mujeres y “1” para los hombres. La diferencia de
medias observada, 14.5 cms, puede interpretarse como el incremento de altura asociado a un
incremento de 1 unidad en el número de cromosomas Y.
Recuerde
Un indicador (dummy) representa en números a una dicotomía.
Ejercicio 2.3
Ejercicio 2.4
Diga cuáles son ciertas y, en caso contrario, exprese correctamente diciendo las
razones.
8
Bioestadística para no estadísticos
d) Como en el modelo RLS, las letras griegas representan a los valores estimados
en las muestras; y las latinas, los parámetros desconocidos de la población.
Ejemplo 2.4: En una variable que representa la edad categorizada con las modalidades
joven (referencia), adulto y anciano, al hacer la regresión se transformará automáticamente
en dos variables dummies representando las categorías adulto y anciano.
Dummy Dummy
Variable original Adulto Anciano
joven 0 0
adulto 1 0
anciano 0 1
9
Regresión Lineal Múltiple
Por tanto, en estos casos, para una variable con k categorías, el modelo ajustará (k-1) pendientes
que se interpretarán cada una de ellos como el “efecto” en la respuesta de esa modalidad concreta
respecto a la de referencia.
La flexión posterior (faft) en el brazo derecho es 14.14 grados superior en aquellos con una flexión
inicial (fbef) moderada (entre 113 y 122) y 22.65 grados superior en aquellos con flexión inicial
elevada (entre 123 y 139) respecto a aquellos con una flexión inicial pobre (entre 88 y 112). El
segundo incremento es un 60% superior al primero.
Ejercicio 2.5
Repita el ejemplo anterior con los datos del brazo derecho, pero para el nivel de
rotación (raft y rbef). Recodifique la variable de rotación inicial rbef en 4
categorías con puntos de corte en los percentiles 25%, 50% y 75%. [Pista: use la
instrucción quantile]. Interprete. Discuta la proporcionalidad de los incrementos.
10
Bioestadística para no estadísticos
Ejemplo R
> # Cargamos la libreria y los datos
> library(faraway)
> data(hips)
Note que con la codificación -1 y 1, el coeficiente del tratamiento (grp) es la mitad del efecto del
tratamiento.
Recuerde
Usar una codificación alternativa para las variables categóricas cambia el valor de
los coeficientes de la recta.
Nota: En este caso, no cambiaría su significación estadística ni su R 2, pero esta propiedad no aplica a los
modelos multivariantes.
Utilice la codificación por defecto e interprete los coeficientes de la manera explicada. Si tiene
dudas utilice la instrucción predict de R para interpretar.
11
Regresión Lineal Múltiple
Ejercicio 3.1
Convierta las 2 variables grp y side en una única Z de 4 valores mediante:
Ejemplo 3.1 (cont. Ejemplo 2.2): La Figura 3.1 contiene las dos rectas de regresión que se
ajustarían para cada brazo del paciente. Si asumimos que la calidad del estudio permite
interpretar causalmente los resultados se puede ver que el efecto del tratamiento es el mismo
en ambos brazos. En ambos brazos el efecto aproximado de cambiar de C a T es de 10
grados (en el brazo izquierdo de 112 a 122 y en el brazo derecho de 110 a 120).
Al añadir variables aumentan las formas de preguntar a los datos. Cada una tendrá sus matices
lógicos. Estimar un efecto propio de cada centro tiene una utilidad limitada. Y se basa en menos
casos. Pero una pregunta más ambiciosa sería estimar un efecto único común para los 2 centros —
siempre que tenga sentido creer que el efecto del tratamiento es el mismo en ambos.
12
Bioestadística para no estadísticos
Ejemplo R
#Lectura de datos con R que estan accesibles via web:
>w<-'http://www-eio.upc.edu/teaching/best/datos-ejemplos/PAD.txt'
> datos<-read.table(url(w),header=TRUE)
Ejercicio 3.2
(1) Recupere y compare los valores del residuo típico S y del coeficiente de
determinación R2 en los 3 modelos G, A, y B anteriores; ¿coinciden sus
cambios?
13
Regresión Lineal Múltiple
Para saber si el Tratamiento T tiene efecto en los centros por separado hay que crear un
primer modelo en el que sólo se seleccionen los datos del Centro A y un segundo modelo en
el que sólo se seleccionen los datos del Centro B
De nuevo, para saber si el tratamiento T tiene efecto en el Centro A hay que mirar la
significación de las variables. La variable TratamientoT es significativa, por lo tanto el
Tratamiento T tiene efecto en el centro A; lo mismo sucede con la significación de la
variable TratamientoT en los datos del Centro B.
14
Bioestadística para no estadísticos
Ejercicio 3.3
(1) Recupere y compare los valores del residuo típico S y del coeficiente de
determinación R2 en los 3 modelos G, A, y B anteriores; ¿coinciden sus
cambios?
Recuerde
Estimar un único coeficiente (“efecto”, si procede) requiere asumir que su valor
es común en todos los casos.
Ejercicio 3.4
Con los datos del Ejemplo 3.2 obtenga el IC95% del efecto, sin considerar el
centro,e interprete.
Pero el centro podría ser también una fuente de variabilidad: podría ser que los aparatos fueran de
distinta marca o no estuvieran igual calibrados; o los pacientes podrían tener distintas condiciones,
quizás de edad o de hábitos saludables. Por si fuera así, podríamos querer descontar del residuo
típico todo aquello que pudiera ser explicado por el centro. En ese caso, pondremos ambas variables
en el mismo modelo.
Ejercicio 3.5
De nuevo, con los datos del Ejemplo 3.2 obtenga el IC95% del efecto ajustando por
centro e interprete.
15
Regresión Lineal Múltiple
Ejemplo 3.3 (cont. Ejemplo 3.2): Los residuos típicos proporcionados por R en los
modelos que incluyen: (A) sólo el tratamiento; y (B) centro y tratamiento; son:
(A)
lm(formula = PAD ~ Tratamiento)
Residual standard error: 7.645 on 38 degrees of freedom
(B)
lm(formula = PAD ~ Tratamiento + Centro)
Residual standard error: 7.068 on 37 degrees of freedom
Aunque las 2 estimaciones son parecidas, el modelo que incluye ambas variables
proporciona un valor menor para las ‘particularidades’: la oscilación alrededor del valor
predicho para ese centro y ese tratamiento es de 7.068. Tiene 37 grados de libertad ya que se
dispone de la información de 40 casos y se han estimado 3 parámetros.
Ejercicio 3.6
Con los datos del Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-
higiénico profundo (T) frente al convencional (C), se han obtenido mediciones en
2 centros de atención primaria (A y B).compare los coeficientes del Centro y del
Tratamiento obtenidos en los modelos que incluyen sólo una predictora y el
modelo que incluye ambas.
Recuerde
Si en el modelo múltiple se añade una variable completamente independiente de
la previa, la estimación puntual no cambia.
16
Bioestadística para no estadísticos
Recuerde
Cuando baja el residuo típico disminuye la oscilación de la estimación.
Ejercicio 3.7
Con los datos del Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-
higiénico profundo (T) frente al convencional (C), se han obtenido mediciones en
2 centros de atención primaria (A y B).compare los errores típicos de los
coeficientes de las variables centro y tratamiento. ¿Qué sucede? ¿Por qué cree que
sucede? [Nota: el error típico de la pendiente coincide, en este caso, con el de la
diferencia de 2 medias (comprobar y poner fórmula), usando como S, el valor del
residuo típico.]
Ejercicio 3.8
Con los datos del Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-
higiénico profundo (T) frente al convencional (C), se han obtenido mediciones en
2 centros de atención primaria (A y B).calcule a mano los valores predichos para
cada tratamiento y centro de acuerdo con el modelo que incluye ambas variables.
Compruebe que las siguientes instrucciones de R le proporcionan el mismo
resultado:
Ejemplo 3.4: Al comparar los valores de los coeficientes de determinación de los modelos
del Ejercicio 3.5 observe como cuando la variabilidad residual disminuye aumenta la
variabilidad explicada (R-squared)
Multiple Adjusted Residual
R-squared R-squared standard error
mod
0.6081 0.5869 7.068
(PAD ~ Tratamiento + Centro)
mod1
0.5292 0.5168 7.645
(PAD ~ Tratamiento)
mod2
0.07888 0.05464 10.69
(PAD ~ Centro)
17
Regresión Lineal Múltiple
En el modelo estudiado, los coeficientes correspondientes a las variables estudiadas se suman: “son
aditivos”. Ello es así porque en este modelo se ha considerado que el efecto de la intervención es el
mismo en ambos centros. El próximo apartado relaja esta premisa.
Ejercicio 3.9
Diga cuáles son ciertas y, en caso contrario, exprese correctamente diciendo las
razones.
18
Bioestadística para no estadísticos
Ejemplo R
> # Lectura de datos
> w <- 'http://www-eio.upc.edu/teaching/best/datos-ejemplos/PAD.txt'
> datos <- read.table(url(w),header=TRUE)
Figura 3.3
Ejercicio 3.10
Interprete los gráficos de interacción anteriores.
En términos poblacionales, las medias de los 4 grupos del Ejemplo 3.2: En un EC sobre el efecto de
un consejo dietético-higiénico profundo (T) frente al convencional (C), se han obtenido mediciones
en 2 centros de atención primaria (A y B).serán:
19
Regresión Lineal Múltiple
T C
Centro A
Centro B
Ejercicio 3.11
Lea con R los datos del último caso anterior (d) que estan accesibles via web,
haga la descriptiva de los 2 grupos de tratamiento; de los 2 centros; de los 4
grupos; rellene la tabla inferior con todas las medias; estime puntualmente el
efecto global y en cada centro con R; y explique a qué diferencia de medias
corresponde en la tabla. Finalmente, discuta si tiene sentido estimar el efecto
global.
> w='http://www-eio.upc.edu/teaching/best/datos-ejemplos/PAD.txt'
> datos<-read.table(url(w),header=TRUE)
> with(datos,mean(PAD4))
> with(datos,by(PAD4,list(Tratamiento),summary))
> with(datos,by(PAD4,list(Centro),summary))
> with(datos,by(PAD4,list(Tratamiento,Centro),summary))
> boxplot(PAD4~Tratamiento+Centro,datos)
C T Todos
A
B
Todos
20
Bioestadística para no estadísticos
El ejercicio anterior muestra que, en presencia de interacción, mirar un efecto global —que
promedia efectos que son diferentes entre sí— tiene una utilidad muy limitada.
Recuerde
En presencia de interacción, un efecto global tiene poco sentido.
Ejercicio 3.12
Obtenga el modelo con interacción para el caso (d), compruebe si tiene el mismo
valor anterior e intente deducir qué estima cada coeficiente en este modelo; es
decir, a qué diferencia entre medias corresponde.
> mod.interaccion <- lm(PAD4 ~ Tratamiento * Centro,data=datos)
> summary(mod.interaccion)
La interacción puede ser definida mediante la diferencia entre los efectos de la intervención en
ambos centros. A partir de:
Recuerde
En caso de interacción, reporte los efectos en cada grupo por separado.
Ejercicio 3.13
Compare los errores típicos de estimación de los efectos de la intervención de los
modelos del ejercicio 3.12. Observe también el error típico del término de
interacción.
La estimación de un efecto global junta los casos de los grupos y tiene un menor error típico de la
estimación. Así, si puede asumir que el efecto es el mismo, la estimación es más precisa. Además,
disponer de una única medida del efecto, sin necesidad de matizar su valor según los grupos en
comparación, hace la vida más fácil.
Recuerde
Un efecto homogéneo en los grupos es más preciso y fácil de comunicar.
21
Regresión Lineal Múltiple
La estimación de la interacción tiene un mayor error típico: dispone de más información para
estimar los efectos de la intervención que para comprobar si son estables a lo largo de los grupos.
Nota: Ello es debido a que el efecto es la diferencia de 2 medias, pero la interacción le da una vuelta más:
es la diferencia de los efectos en los subgrupos; es decir, la diferencia de 2 diferencias. Al comparar 4
estimaciones, cada una con su error muestral tiene mayor imprecisión. Además, cada estimación se basa
en un subgrupo de menor tamaño, con mayor oscilación muestral.
Recuerde
Hay menos precisión para estudiar la interacción que los efectos.
Este mayor error de estimación conduce a mayores IC 95%. Pero, quizás más relevante, dificulta
encontrar diferencias significativas: desciende la potencia del contraste que pone a prueba la
interacción.
Recuerde
La prueba de la interacción tiene menos potencia.
Ejercicio 3.14
Compruebe que se pueden reproducir las medias de cada grupo combinanado los
coeficientes del modelo con interracción. Utilice las siguiente comanda para
obtener la tabla de medias:
> install.packages("MASS")
> library(MASS)
> data(birthwt)
> birthwt
> summary(birthwt)
> tapply(birthwt$bwt, list(birthwt$smoke, birthwt$low), mean)
La interacción puede ser una hipótesis que se desea estudiar y poner a prueba.
O también, casi al revés, la homogeneidad del efecto puede ser una premisa muy conveniente para
estudiar el efecto de una intervención en una población más amplia.
Ejemplo 3.7: Los ensayos clínicos hacen el cálculo del tamaño para estimar un único
efecto. Implícitamente están asumiendo que, dentro de las condiciones del estudio, los
criterios de elegibilidad definen una población en la que el efecto de la intervención es
constante.
22
Bioestadística para no estadísticos
Ejercicio 3.15
Diga cuáles son ciertas y, en caso contrario, exprese correctamente diciendo las
razones.
d) La interacción puede ser vista como una hipótesis a ser contrastada, pero
también como una premisa necesaria para la hipótesis principal.
Así, la predicción para una mujer de 170cms es 65Kg. La representación gráfica es (Figura
4.1):
Figura 4.1
23
Regresión Lineal Múltiple
Recuerde
Al reportar el modelo debe informar sobre la dispersión de i.
Ejemplo 4.1 (cont): sea cual sea el valor de la altura, siempre resta 5Kg a todas las mujeres.
Así, aplicar el coeficiente de una variable arroja siempre el mismo resultado, “independientemente”
del valor de la otra variable.
Ejercicio 4.1
Continuando con los datos hips del paquete faraway, obtenga el summary del
siguiente modelo que compara el efecto del tratamiento (grp) en la respuesta (faft)
teniendo en cuenta el nivel inicial (fbef) y conteste, teniendo en cuenta los IC 95%:
(1) Por cada grado inicial de movilidad, ¿cuánto mayor es la movilidad final? (2)
¿Qué hubiera significado que el coeficiente para fbef hubiera sido 1? (3) ¿cuántos
grados de movilidad aumenta la intervención? (4) Este efecto del tratamiento,
¿varía según la movilidad inicial? (5) ¿Cuál es la capacidad predictiva de este
modelo?
> mod.lm<-lm(faft~grp+fbef,data=subset(hips,side=='right'))
Recuerde
En el modelo aditivo, un coeficiente es “independiente” de las otras variables.
La instrucción lm(...) proporciona el ajuste del modelo (al igual que con la regresión lineal simple).
Ejercicio 4.2
A partir de las instrucciones siguientes, obtenga e interprete el modelo para
predecir el peso en función de altura y género.
24
Bioestadística para no estadísticos
Recuerde
Interprete los coeficientes con sus IC95%.
Ejercicio 4.3
El recuadro muestra la salida de R para la regresión de la Presión Arterial
Sistólica (PAS) en función de la edad y desglosada por género (datos inventados).
Interprete los coeficientes y obtenga su intervalo de confianza del 95%.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.0133 5.7636 17.873 < 2e-16 ***
edad 0.4194 0.1094 3.835 0.000264 ***
generoMujer -8.9092 2.6729 -3.333 0.001351 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Hombres
Mujeres
Figura 4.2
La obtención de este modelo con R puede llevarse a cabo de 2 maneras. La primera trabaja con
todas las variables indicando con un “*” que el término de interacción estará incluido:
25
Regresión Lineal Múltiple
Ejemplo R
Los siguientes datos son un ejemplo imaginario de peso y altura.
# datos
> w<-'http://www-eio.upc.edu/teaching/best/datos-ejemplos/peso2.txt'
> datos<-read.table(url(w),header=TRUE)
> mod.lm2 <- lm(peso~altura*genero,datos)
> summary(mod.lm2)
[…]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -93.3929 45.9291 -2.033 0.0589 .
altura 0.9705 0.2597 3.737 0.0018 **
generoMujer -2.1492 59.4328 -0.036 0.9716
altura:generoMujer -0.0356 0.3427 -0.104 0.9186
[…]
Pesoi = 0+1 · altura + 2 + 12 · altura = ( 0 + 2) + (1 + 12) · altura→0 + 2 = 0M = -60.7
El modelo para los hombres se podría obtener ajustando lm sólo para los hombres
Ejemplo R
> mod.lmH <- lm(pesoH~alturaH)
> summary(mod.lmH)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -116.0495 34.3974 -3.374 0.00499 **
alturaH 1.1071 0.1974 5.609 8.5e-05 ***
> confint(mod.lmH)
2.5 % 97.5 %
26
Bioestadística para no estadísticos
El IC95% para β0H es [-190.4 a -41.7] e incluye el verdadero valor (-130) del modelo.
El IC95% para β1H es [0.68 a 1.53] e incluye la pendiente real (1.2) del modelo.
Ejemplo R
> mod.lmM <- lm(pesoM~alturaM)
> summary(mod.lmM)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -60.6949 26.6159 -2.280 0.040089 *
alturaM 0.7643 0.1639 4.664 0.000443 ***
> confint(mod.lmM)
2.5 % 97.5 %
(Intercept) -118.1950383 -3.194763
alturaM 0.4102724 1.118424
El IC95% para β0M es [-118.2 a -3.2] e incluye el verdadero valor (-100) del modelo.
El IC95% para β1M es [0.41 a 1.11] e incluye la pendiente real (1) del modelo.
Ejercicio 4.4
En el siguiente gráfico (Figura 4.3) se vuelve a representar la PAS en función de
la edad y estratificada por género (datos inventados). En el fichero PAS.txt
encontrará los datos que han generado este gráfico (en el conjunto de datos los
hombres se codifican con un 1 y las mujeres con un 2). Analice con R y responda:
27
Regresión Lineal Múltiple
140
Hombres
Mujeres
PAS(mmHg) 130
120
110
100
30 40 50 60 70
edad(años)
Figura 4.3
En cambio, para el segundo objetivo, el indicador más importante es la pendiente , que permite
especular sobre el futuro efecto en la respuesta Y que se obtendrá cuando se consiga cambiar la
variable predictora Xi en una unidad mientras se dejan fijas todas las restantes.
Recuerde
La regresión múltiple permite cuantificar: (1) o bien la capacidad para anticipar la
respuesta mediante el R2; (2) o bien el hipotético efecto causal en Y de cambiar
X en una unidad.
Las guías TRIPOD y STROBE abordan el modelado aplicado al primer y al segundo objetivo,
respectivamente.
28
Bioestadística para no estadísticos
Ejercicio 5.1
Busque en la red Equator la guía TRIPOD sobre modelos múltiples y diga si
aplica a diagnóstico, a pronóstico, a ambos o a ninguno.
Ejemplo 5.1: La Tabla 5.1 muestra el modelo de regresión lineal múltiple para predecir la
masa del ventrículo izquierdo1.
Tabla 5.1
Para ver qué implica R2 en una situación concreta hay que recordar, 1º, que es una medida sobre
errores cuadrados; y, 2º, que los intervalos tienen mayor amplitud para valores de las predictoras Z
más alejados de sus medias.
Recuerde
Sólo si el modelo es independiente a la muestra, el estudio permite contrastar
dicha hipótesis, confirmando o rechazando su capacidad predictiva.
29
Regresión Lineal Múltiple
Ejercicio 5.2
¿Por qué es necesario el lapso de tiempo para un estudio pronóstico pero no para
uno diagnóstico.
Ejercicio 5.3
Recuerde
Los coeficientes k representan el cambio esperado en la respuesta Y por un
aumento unitario en Xk, mientras permanecen fijas todas las demás variables.
Estos modelos permiten fijar matemáticamente a las terceras variables Z, para así estimar la
relación de la variable X habiendo suprimido las posibles interferencias de las terceras variables Z.
Nótese que este “fijar” es conceptual: intenta emular qué se hubiera observado en un estudio que,
por criterios de selección controlara a esas variables.
Ahora bien, si X está relacionada con Y a nivel fijo de Z, ¿podemos interpretar etiológicamente el
coeficiente βX? ¿Podemos decir que X es una causa de Y? ¿Podemos decir que βX es el ‘efecto’ en
Y cuando cambiamos X en una unidad y dejamos fijas el resto de variables? El próximo capítulo
discute las premisas que hacen razonable esta “emulación”.
30
Bioestadística para no estadísticos
NOTA: Si el objetivo fuera intervenir, para poder establecer la necesaria relación causal, la mejor
respuesta vendría de un diseño experimental en el que se estudiara la edad de cada uno de los padres
dejando equilibrada la del otro. Por ejemplo, se aparearían tanto las madres de 20 como las de 40 años,
por igual, con padres de 20 y de 40 años. Este diseño no sería ético, por supuesto, pero es que además, en
nuestro entorno sociocultural, este estudio no tendría sentido práctico, ya que una madre o un padre no
buscan pareja «independientemente» de su propia edad.
Ejercicio 5.4
Diga si es correcto o corrija en caso contrario.
31
Regresión Lineal Múltiple
1.2. Y: Variable respuesta. Coeficientes de las variables predictoras. Intercept, constante o término independiente.
Pendiente que indica el aumento de Y que acompaña a un aumento de Z1 en una unidad. Primera variable
predictora. Coeficiente de la variable predictora k. Variable predictora k. término aleatorio. Valor de
la variable respuesta para el caso iésimo. Estimación concreta de . Estimación de . Valor de Z del
caso iésimo. Coeficiente estimado de la variable k. Valor de la variable k en el caso iésimo. Término
aleatorio (diferencia entre valor real y predicho) del caso iésimo.
1.3. En la declaración STROBE no aparece. Sí aparece en el ítem 7 de E&E, pero no aconseja utilizarlo, así como
tampoco aconseja utilizar el término “variables explicativas”. En su lugar sugiere exposiciones y confusoras. En
TRIPOD E&E ‘independent variable’ aparece sólo 1 vez, por 5 ‘predictor, sólo en la 1ª página.
2.1. El coeficiente 113.75 representa la media estimada para el grupo de control y el coeficiente 10.23 representa la
diferencia estimada de medias.
2.2. La media estimada de la altura en las mujeres es 162.2cms y los hombres son 14.5 cm más altos, en media.
2.3. >summary(mod.lm1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 113.583 2.591 43.840 < 2e-16 ***
grptreat 10.269 3.114 3.298 0.00216 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.975 on 37 degrees of freedom
Multiple R-squared: 0.2272, Adjusted R-squared: 0.2063
a) La flexión final esperada en los controles es de 114º y se espera un incremento de 10º en los tratados; b) Ambos
coeficientes son significativamente diferentes de 0; c) La capacidad predictiva del modelo es del 20% (conocer el
grupo reduce un 20% la incertidumbre sobre la respuesta) d) use confint(mod.lm1) o, simplemente sume y reste
1.96 veces el error estándar (3.11) para obtener que la pendiente poblacional está entre 3.96 y 16.58 con una
confianza del 95%; e) Ser tratado aumenta el ángulo de flexión posterior en el brazo derecho unos 10º, con una
incertidumbre de este valor que oscila entre 4 y 17º)
2.4. a) Falso, TRIPOD usa predictoras y STROBE exposiciones o confusoras. b) Falso, sí confusoras, pero no
intervenciones. c) Falso, al revés, mayúsculas indica a toda la variable y minúsculas a su valor en un caso concreto.
d) Falso, al revés. e) Falso, al revés, k es para las variables e i para los casos (número de individuo). f) Falso,
representa aquello no modelado y no predecible por el modelo. g) Falso, la constante representa la media estimada
del grupo 0 y la pendiente representa la diferencia de medias. h) Falsa, es la pendiente (que representa la diferencia
de medias) la que resume la relación entre ambas. i) Cierta
> data(hips)
> # Cálculo de cuantiles
> quantile(hips$rbef,c(0,0.25,0.5,0.75,1))
0% 25% 50% 75% 100%
2.00 20.25 25.00 31.50 48.00
> # Categorización
> hips$rbef.cat <- cut(hips$rbef,br=c(2,20.25,25,31.5,48),
include.lowest = TRUE)
> # Modelo
> lm(raft~rbef.cat,subset(hips, side == "right"))
[…]
Coefficients:
32
Bioestadística para no estadísticos
La rotación posterior (raft) en el brazo derecho es 5.2 grados superior en aquellos con una rotación inicial (rbef)
comprendida entre 20 y 25 grados; 9.2 grados superior en aquellos con una rotación basal entre 25 y 31.5; y 14.4
grados mayor para rotaciones previas superiores a 31.5 respecto a los pacientes con una rotación inicial inferior o
igual a 25 grados. Los incrementos para cuartiles sucesivos son 5.2, 4.0 (9.2-5.2) y 5.2 (14.4-9.2), bastante
similares, y es coherente que el incremento entre las clases centrales (4.0) sea menor ya que estas se encuentran
más concentradas.
3.2. (1) En G, S=7.068 , R2=0.6081; en A, S=5.781 , R2=0.658; y en B, S=8.311, R2=0.520. Cuanto mayor es S, menor
es R2. El modelo que deja menos por predecir (S) y predice más (R2) es B.
(2) Son modelos distintos que estiman S diferentes: significarían lo mismo si asumiéramos que en ambos centros
los pacientes tienen la misma variabilidad; y en este caso, la mejor estimación sería la de G, que dispone de más
casos (información) y sería más estable.
(3) Sólo asumiendo que hemos ‘descontado’ todo lo explicable, lo que quede sería propio del caso y no compartido
con otros. Ello requiere que el modelo incluya (y haya descontado) todo lo que sea común; es decir, como veremos
en el próximo capítulo, que el modelo sea completo en el sentido de incluir todas las variables que explican la
variabilidad [Nótese lo exigente de esta premisa.].
3.3. #Ajustamos el modelo solo con la variable Tratamiento, para que R entienda que no se quiere
distinguir por centro.
>mod1<-lm(PAD1 ~ Tratamiento,data=datos)
#Mediante la función confint se obtiene el IC95% para la variable Tratamiento
> confint(mod1)
2.5 % 97.5 %
(Intercept) 84.08954 91.01046
TratamientoT -20.69382 -10.90618
El IC95% para el efecto del tratamiento es [-20.7 -10.9], esto quiere decir que el tratamiento T provoca una
disminución de la PAD media de entre 20.7 y 10.9 mmHg., con una confianza del 95%, si no distinguimos por
centro.
33
Regresión Lineal Múltiple
3.4. En este caso, se realiza el ajuste del modelo con las dos variables (Tratamiento y Centro) y se obtiene el IC 95% del
mismo modo que en el ejercicio anterior:
> mod <- lm(PAD1 ~ Tratamiento + Centro,data=datos)
> confint(mod)
2.5 % 97.5 %
(Intercept) 80.577780 88.42222
TratamientoT -20.328989 -11.27101
CentroB 1.571011 10.62899
El IC95% para el efecto del tratamiento es [-20.33 -11.27], esto quiere decir que en el 95% de los casos el
tratamiento T provoca una disminución de la PAD media de entre 20.33 y 11.27 mmHg, si distinguimos por
centro.
Tenga en cuenta que al incluir una variable que reduce el residuo, baja la oscilación de la estimación; y ello
disminuye el numerador del error típico de la estimación de la pendiente, por eso en este segundo ejercicio, si se
compara con el anterior el IC es más estrecho.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 84.500 1.936 43.652 < 2e-16 ***
TratamientoT -15.800 2.235 -7.069 2.3e-08 ***
CentroB 6.100 2.235 2.729 0.00966 **
--
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.068 on 37 degrees of freedom
Multiple R-squared: 0.6081, Adjusted R-squared: 0.5869
----------------------------------------------------------------
Son idénticos. Esto sucede en este caso porque la RLM garantiza que la estimación puntual de un coeficiente no
cambia al añadir una predictora que sea independiente de la variable en estudio. En este caso, centro y tratamiento
son independientes entre sí, ya que cada combinación tiene 10 casos.
3.6. Son iguales porque el residuo típico es el mismo para ambos coeficientes, así como las ‘n’ de las muestras.
Nota: el error típico de la pendiente coincide, en este caso, con el de la diferencia de 2 medias usando como S, el
34
Bioestadística para no estadísticos
A mano, se pueden hallar, substituyendo las variables por 0’s o 1’s según corresponda:
3.8. a) Cierta. b) Cierta. c) Cierta. d) Cierta Son ciertas a), b) y d)] Escrib bien c.
3.9. En la izquierda puede verse que el efecto (aproximado) de cambiar de C a T es 20 mmHg en ambos centros: en A
baja de 95 a 75 y en B de 90 a 70. En cambio, en la figura de la derecha hay interacción, ya que en el centro A baja
15 mmHg (105 a 90) y en el centro B 35 mmHg (105 a 70).
3.10. #Descriptiva por grupo de tratamiento
> with(datos,mean(PAD4))
[1] 92.65
> with(datos,by(PAD4,list(Tratamiento),summary))
: C
Min. 1st Qu. Median Mean 3rd Qu. Max.
88.0 100.0 104.5 104.6 110.2 115.0
--------------------------------------------------
: T
Min. 1st Qu. Median Mean 3rd Qu. Max.
59.00 72.75 81.50 80.75 90.25 97.00
> with(datos,by(PAD4,list(Centro),summary))
: A
Min. 1st Qu. Median Mean 3rd Qu. Max.
79.00 90.75 96.50 97.60 104.20 115.00
-------------------------------------------------------
----------
: B
Min. 1st Qu. Median Mean 3rd Qu. Max.
59.00 72.75 85.50 87.70 103.80 115.00
#Descriptiva por grupo de tratamiento y centro
> with(datos,by(PAD4,list(Tratamiento,Centro),summary))
: C
: A
Min. 1st Qu. Median Mean 3rd Qu. Max.
96.0 100.2 104.5 104.2 107.5 115.0
--------------------------------------------------
: T
: A
Min. 1st Qu. Median Mean 3rd Qu. Max.
79.00 89.25 90.50 91.00 96.00 97.00
--------------------------------------------------
: C
: B
Min. 1st Qu. Median Mean 3rd Qu. Max.
88.0 100.5 104.5 104.9 111.8 115.0
--------------------------------------------------
: T
: B
Min. 1st Qu. Median Mean 3rd Qu. Max.
59.00 65.50 71.50 70.50 74.75 83.00
C T Todos
35
Regresión Lineal Múltiple
Para estimar el efecto en global y en cada centro seguimos los mismos pasos que en el Ejemplo 3.2: En un EC
sobre el efecto de un consejo dietético-higiénico profundo (T) frente al convencional (C), se han
obtenido mediciones en 2 centros de atención primaria (A y B).:
#Efecto global:
> mod6<-lm(PAD4~Tratamiento+Centro,datos)
> summary(mod6)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 109.500 2.453 44.638 < 2e-16 ***
TratamientoT -23.800 2.833 -8.402 4.21e-10 ***
CentroB -9.900 2.833 -3.495 0.00125 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.957 on 37 degrees of freedom
Multiple R-squared: 0.6912, Adjusted R-squared: 0.6745
--------------------------------------------------
#Efecto Centro A:
> mod4 <- lm(PAD4 ~ Tratamiento ,data=subset(datos,Centro=='A'))
> summary(mod4)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.200 1.828 56.997 < 2e-16 ***
TratamientoT -13.200 2.585 -5.106 7.39e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.781 on 18 degrees of freedom
Multiple R-squared: 0.5915, Adjusted R-squared: 0.5688
--------------------------------------------------
#Efecto Centro B:
> mod5 <- lm(PAD4 ~ Tratamiento ,data=subset(datos,Centro=='B'))
> summary(mod5)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.900 2.628 39.912 < 2e-16 ***
TratamientoT -34.400 3.717 -9.255 2.9e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.311 on 18 degrees of freedom
Multiple R-squared: 0.8263, Adjusted R-squared: 0.8167
Observe en este caso que el efecto global es -23.8=80.8-104.6; el del centro A, -13.2=91.0-104.2; y el del centro B, -
34.4=70.5-104.9.
En este caso, como ya ha podido ver gráficamente, existe interacción. Si existe interacción hablar de efecto global
indicará un efecto intermedio de los dos centros (en este caso), pero no da información útil de ninguno de ellos en
particular.
36
Bioestadística para no estadísticos
En este caso, el Intercept es la PAD esperada para una persona que esté en el centro A y se le aplique el tratamiento
C (categorías ‘0’ de cada dummy); el coeficiente de TratamientoT es el cambio de tratamiento C al T en el centro A
(dummy de centro =0),; el coeficiente de CentroB es el cambio de A a B en los controles (dummy de trat=0); por
último, el efecto de TratamientoT:CentroB es el efecto adicional del trat T enaquellas personas que están en el
centro B: es la diferencia de los efectos, es decir (TB - TA) - (CB - CA)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.200 2.264 46.028 < 2e-16 ***
TratamientoT -13.200 3.202 -4.123 0.00021 ***
CentroB 0.700 3.202 0.219 0.82816
TratamientoT:CentroB -21.200 4.528 -4.682 3.95e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.159 on 36 degrees of freedom
Multiple R-squared: 0.8081, Adjusted R-squared: 0.7921
Los errores típicos del modelo aditivo son más bajos que los del modelo con interacción porque cuando se estima un
efecto global los errores típicos de las estimaciones son menores, ya que se asume que el efecto es el mismo para los
diferentes grupos y la estimación es más precisa. Si observa el error típico de la variable TratamientoT:CentroB
(término de interacción) verá que es mayor que el resto de errores típicos. Esto se debe a que la varianza de esta
diferencia es mayor que la varianza de cada término.
37
Regresión Lineal Múltiple
#Efecto smoke
> 3394.80 - 194.10 ([1,0] en la tabla)
[1] 3200.7
#Efecto interacción low smoke ([1,1] en la tabla)
> 3394.80 -1344.73 - 194.10 + 287.06
[1] 2143.03
3.14. a) Cierto. b) Falso, cuando hay interacción los coeficientes del modelo incluidos en la misma son más
complicados de interpretar y se recomienda no realizar una interpretación del efecto global, si no realizar la
interpretación del efecto por grupos. c) Falso, la potencia de la prueba de hipótesis de la interacción tiene menor
potencia estadística que la del efecto de la intervención. d) Cierta.
4.1. > summary(mod.lm)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.91158 9.97406 4.603 5.02e-05 ***
grptreat 5.90756 2.16784 2.725 0.00986 **
fbef 0.61566 0.08937 6.889 4.60e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> confint(mod.lm)
2.5 % 97.5 %
(Intercept) 25.6832527 66.1399007
grptreat 1.5109824 10.3041452
fbef 0.4344046 0.7969238
(1) Para saber cuánto mayor es la movilidad final según el grado inicial de movilidad hay que mirar el coeficiente de
fbef=0.61566; esto quiere decir que por cada grado inicial de movilidad se espera un aumento de la movilidad final
de 0.61566 grados. El IC95% para esta variable va de [0.43 0.80], por lo tanto en el 95% de los casos se espera que
por cada grado inicial de movilidad que tenga el individuo su movilidad final aumente entre 0.43 y 0.80 grados. (2)
Querría decir que por cada grado de movilidad inicial que el individuo tenga aumenta en un grado la movilidad
final. (3) El hecho de aplicar la intervención (treat) implica un aumento esperado en la movilidad final de 5.9
grados; el IC95% va de 1.511 a 10.304, esto implica que en el 95% de los casos aplicar el tratamiento provocará un
aumento en los grados de movilidad final de entre 1.511 y 10.604 grados. (4) En caso de modelo aditivo no, ya que
el valor de los coeficientes es independiente del resto de variables. (5) La capacidad predictiva del modelo es de un
66.66%.
4.2. Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -89.7815 29.1252 -3.083 0.00675 **
altura 0.9501 0.1645 5.776 2.23e-05 ***
generoMujer -8.3142 3.0175 -2.755 0.01352 *
---
> # IC para los coeficientes
> confint(mod.lm1)
2.5 % 97.5 %
(Intercept) -151.2303425 -28.332661
altura 0.6030784 1.297108
generoMujer -14.6806971 -1.947753
La estimación de la constante es -89.8, con un IC95% = [-151.2 a -28.3], muy amplio. La estimación del coeficiente
de la altura es 0.95, IC95% = [0.6 a 1.3]: el peso aumenta entre 0.6 y 1.3 Kg por cada cm adicional de la altura. Al
no incluir el valor 0 de independencia, peso y altura están relacionadas: la altura contribuye a disminuir la
incertidumbre sobre el peso. Para el género la estimación es -8.3, IC95% = [-14.7 a -1.9], también significativa al
no incluir el 0. Estos intervalos de confianza son amplios por las pocas observaciones de las que se dispone. El
38
Bioestadística para no estadísticos
residuo típico o variabilidad no explicada por el modelo (σε) es 6.02. Representa el 20% de la variabilidad total, ya
que la explicada es el 80% (R2 = 0.80).]
4.3. Por cada año más que el individuo tenga (indiferente si es hombre o mujer) se espera un aumento de la PAS de
0.4194 unidades; si además, es individuo es de sexo femenino se espera que la PAS sea 8.91 unidades más baja que
en los individuos de sexo masculino.
Los IC serían: coeficiente Intercept: IC95%: 103.01 ± 5.76 = [ 97.25 , 108.78 ]; coeficiente edad: IC95%: 0.4194 ±
0.1094 = [ 0.31 , 0.53 ]; coeficiente generoMujer: IC95%: -8.9092 ± 2.67 = [ -11.58 , -6.24 ].
4.4. > mod<-lm(PAS~edad*genero,datos)
> summary(mod)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 100.71935 8.21482 12.261 < 2e-16 ***
edad 0.46547 0.16051 2.900 0.00495 **
generoMujer -4.56463 11.34610 -0.402 0.68865
edad:generoMujer -0.08687 0.22041 -0.394 0.69464
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> confint(mod)
2.5 % 97.5 %
(Intercept) 84.3434084 117.0953004
edad 0.1454887 0.7854463
generoMujer -27.1826610 18.0534073
edad:generoMujer -0.5262433 0.3525024
1) En este caso el IC que interesa es el del Intercept, por lo tanto el IC 95% para el incremento en la PAS por año de
edad en los hombres va de 84.34 a 117.10. 2) El IC95% para las mujeres va de -27.18 a 18.05.
39
Capítulo 21
RLM: Cautelas
Jordi Cortés, José Antonio González y Erik Cobo
Pilar Muñoz, Ángel Ruiz y Nerea Bielsa
Marzo 2015
RLM: premisas y cautelas
Presentación ...................................................................................................................... 4
1. Colinealidad .................................................................................................................. 5
1.1. Definición............................................................................................................... 5
1.5. Medida.................................................................................................................... 9
2
Bioestadística para no estadísticos
3
RLM: premisas y cautelas
Presentación
Este tema trata 3 retos de la Regresión Lineal Múltiple:
colinealidad, selección del modelo y estudio de las
premisas.
Figura 1 Figura 2
Figura 3
4
Bioestadística para no estadísticos
1. Colinealidad
1.1. Definición
En los estudios observacionales algunas variables predictoras suelen estar correlacionadas entre sí.
Definición
Recuerde
En los ensayos clínicos, las variables adicionales a la intervención están balanceadas entre los
grupos: el tratamiento es independiente de terceras variables y, por tanto no debe preocupar la
colinealidad.
Ejemplo 1.1: La primera tabla muestra la media de la PAS en dos grupos de tratamiento
para dos centros (A y B). No existe colinealidad porque la razón tratado/control (1 a 1) es la
misma en ambos centros. El premio es que las estimacies ajustadas dentro de cada centro y
la global, sin ajustar, del efecto del tratamiento coinciden (siempre -10 mmHG a favor de
los tratados en ambos centros y en total).
Sin embargo, los estudios observacionales no están protegidos contra la colinealidad, que
suele ser habitual.
5
RLM: premisas y cautelas
Ejemplo 1.1 (cont): En la siguiente tabla hay colinealidad entre tratamiento y centro (más
tratados en el centro B). En este caso, el efecto ajustado del tratamiento observado en cada
centro (-10) no concuerda con la estimación global (+6).
Ejercicio 1.1
Los datos diet del paquete Epi, ya vistos, contienen los ámbitos dietéticos y la
enfermedad coronaria de 337 pacientes.
Recuerde
6
Bioestadística para no estadísticos
Ejemplo 1.2: En el capítulo anterior vimos el ejemplo de la PAD en función del tratamiento
y el centro, en el que estas 2 variables eran independientes: no había colinealidad porque se
asignó el tratamiento con la misma razón en ambos centros. En el modelo sin la variable
centro el efecto (EE) del tratamiento es -15.8 (2.42); y en el que incluye también a centro, -
15.8 (2.23), misma estimación puntual, pero menor EE, ya que el segundo tiene menor S
(7.068 en lugar de 7.645) y mayor R2 (0.6081 en lugar de 0.5292), al haber descontado la
variabilidad explicada por el centro.
Si hay independencia entre las predictoras, al introducir una nueva variable predictora, si baja la
dispersión residual, mejorará la estimación de los coeficientes ya introducidos en el modelo, lo que
puede verse en el descenso de sus EE. Veamos ahora qué pasa si las variables del modelo están
relacionadas (colinealidad).
Ejercicio 1.2
Sigamos con el conjunto de datos diet del paquete Epi. Cargue estos datos, si no
los tiene ya.
7
RLM: premisas y cautelas
Cuando hay colinealidad entre las predictoras, aumenta la oscilación muestral (error típico o
estándar EE) de las estimaciones de los coeficientes. Sucede porque, al estar relacionadas las 2
variables, al dejar fija a una de ellas, la ventana de información que la otra aporta queda reducida.
Nota técnica: la fórmula del error típico de estimación del coeficiente de un predictor X indica
que es menor cuanto mayor es , es decir su posibilidad de variar a nivel fijo de todas
las otras predictoras Zi:
Recuerde
Recuerde
Nota técnica: Para valores concretos (minúsculas) de z1, z2, y z3, el valor predicho de Y será;
ŷ i = b0 + b1 · z1i + b2 · z2i + b3 · z3i
Si aumentamos z1 en una unidad, pero dejamos igual z2, y z3, el nuevo valor predicho de Y será;
ŷ i ’ = b0 + b1 · (z1i +1) + b2 · z2i + b3 · z3i
8
Bioestadística para no estadísticos
Pero precisamente la existencia de colinealidad cuestiona que sea posible provocar un cambio en
una variable a nivel fijo de las restantes.
Ejemplo 1.3: Suponga que desea conocer el efecto en la PA de bajar el consumo de alcohol
a nivel fijo de consumo de tabaco: ¿disponemos de una intervención de salud que permita
modificar una sin cambiar la otra?
Ejemplo 1.4: Suponga que desea conocer la relación con la probabilidad de malformación
congénita de la edad materna a nivel fijo de la edad paterna. ¿Vivimos en una sociedad en la
que las madres potenciales dejan fija la edad paterna antes de escoger la edad en la que
serán madres?
Ejemplo 1.5: Suponga que desea conocer el efecto en la probabilidad de tener un evento
cardiovascular a los 10 años de la PAS a nivel fijo de la PAD. ¿Disponemos de alguna
intervención de salud que permita modificar una sin cambiar la otra?
Por tanto, en un estudio observacional en el que ajustamos por variables colineales con la
exposición en estudio, una cuestión que permanece es si, en el futuro, podremos modificar la
exposición dejando fijo el valor de las variables por las que hemos ajustado.
Recuerde
1.5. Medida
Para medir la cantidad de “información novedosa” se ajusta un modelo donde la respuesta sea la
que se está evaluando y las predictoras el resto de variables ya introducidas en el modelo. El R2 de
este modelo da una medida de la cantidad de información ya disponible por el resto de variables: un
R2 de 1 (=100%) indicaría que no aporta información nueva, mientras que un valor nulo (=0%) sería
señal que la información aportada no esté recogida en el resto de variables.
Ejemplo 1.6: Con el juego de datos diet del paquete Epi, estime la cantidad de información
novedosa que aporta energy respecto a height, fat y fibre. El modelo correspondiente
dice que un 75% de su información ya está contenida en el resto de variables:
> mod <- lm(energy~height+fat+fibre,diet)
9
RLM: premisas y cautelas
> summary(mod)$r.squared
[1] 0.7515448
Aunque para este análisis se ha prescindido de la respuesta, para incluir una nueva variable en el
modelo, además de que la información sea novedosa, también debe explicar parte de la respuesta.
Ahora, lo que se hará es transformar este R2 en una medida que evalúe el incremento de su varianza
entre un modelo que sólo la contiene a ella y otro que incluya también a las restantes. Esta medida
es el Factor de Incremento de la Varianza o, más conocido por su nombre en inglés, Variance
Inflation Factor (VIF).
Fórmula
El punto de corte dependerá de sus objetivos y del beneficio de una mejor predicción. Algunas
fuentes indican que un valor de VIF > 5 desaconseja incluir esa variable en el modelo.
Ejemplo 1.6 (cont.): Calcule el VIF de energy respecto a las variables height, fat y fibre.
Recuerde
La instrucción vif en R lo calcula para todas las variables de un modelo. Fíjese que requiere ajustar
un modelo con todas las variables (incluida una variable respuesta aunque no se utilice).
10
Bioestadística para no estadísticos
Ejemplo de R
# Cálculo del vif para todas las variables predictoras de un modelo
> mod <- lm(weight~energy+height+fat+fibre,diet)
> vif(mod)
energy height fat fibre
4.024871 1.064486 3.483038 1.442643
# Aconseja cuestionar la inclusión de energy en el modelo.
Ejemplo de R
# Representación gráfica de las parejas de variables (Figura 1)
> pairs(~energy+height+fat+fibre,diet,pch=19,col="blue",cex=0.6)
Figura 1.1
# Parece que la mayor correlación es entre energy y fat.
Ejercicio 1.3
Cargue el juego de datos births del paquete Epi. Calcule el VIF de las variables:
semanas de gestación (gestwks); edad de la madre (matage); y género del bebé
(sex) para predecir el peso del reción nacido (bweight). ¿Cree que hay
colinealidad?
Ejercicio 1.4
11
RLM: premisas y cautelas
Cargue el juego de datos diabetes del paquete faraway. Calcule el VIF de las
variables: stab.glu, hdl, glyhb, location, age, gender, height, weight, frame, bp.1s,
bp.1d, bp.2s, bp.2d, waist, hip, time.ppn para predecir el nivel de colesterol (chol).
¿Qué variables descartaría por elevada colinealidad?
Ejemplo 2.1: Para predecir el riesgo de síndrome de Down, la edad de la madre cumple más
con estas propiedades (fácil, barata, temprana, fiable) que la edad del padre.
Pero también es necesario, para conseguir una buena predicción, evitar la colinealidad. Para ello, se
debe reducir la dimensión del problema, bien eliminando alguna de las variables, bien definiendo
una combinación de las mismas que retenga la información relevante.
Lectura: La escuela francesa ha aportado diversas técnicas estadísticas para proponer estas nuevas
variables mediante combinación de las variables originales.
12
Bioestadística para no estadísticos
Ejercicio 2.1
b) Puede ser interesante estudiar qué variable de presión arterial, PAD o PAS,
permite predecir de manera más precisa el riesgo de accidente vascular.
c) Dado que los tratamientos actuales no permiten disminuir una presión arterial
(PAD o PAS) sin disminuir la otra, introducir ambas tiene una utilidad limitada.
d) Para el desarrollo de futuros fármacos puede tener interés preguntarse por los
efectos independientes de PAS y PAD.
Recuerde
Lectura: STROBE, en su punto 16 dice: “Proporcione estimaciones no ajustadas y, si procede, ajustadas por
factores de confusión, así como su precisión (p. ej., intervalos de confianza del 95%). Especifique los
factores de confusión por los que ajusta y las razones para incluirlos.”
Ejemplo 2.3: Pichini et al: “El hábito tabáquico (…) se asoció (…) de forma negativa con
medidas somatotrópicas del recién nacido (…). Tras ajustar por otras características de las
madres y del recién nacido, esta asociación negativa se confirmó.”
Ejercicio 2.2
13
RLM: premisas y cautelas
Recuerde
Lectura: El punto 12 de análisis estadístico de Strobe aconseja “describir totalmente los procesos
específicos para la selección de las variables, y no sólo presentar los resultados del modelo final.”
Ejemplo de R
# Eliminar datos ausentes
> library(faraway)
> data(diabetes)
> diabetes.complete <- subset(diabetes,complete.cases(diabetes))
# Ajustar el modelo
> mod <- lm(chol~ stab.glu + hdl + glyhb + location +
age + gender + height + weight + frame +
bp.1s + bp.1d + bp.2s + bp.2d + waist +
hip + time.ppn ,diabetes.complete)
14
Bioestadística para no estadísticos
> summary(mod.step)
[…]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 130.3837 15.0170 8.682 1.61e-14 ***
hdl 0.6640 0.2037 3.259 0.00143 **
glyhb 8.9534 1.4576 6.143 9.66e-09 ***
[…]
En este caso, de todas las variables iniciales, la selección automática nos dejado 2: Lipoproteína de
Alta Densidad (hdl) y hemoglobina glicosilada (glyhb).
- scope. Para especificar las variables candidatas a ser incluidas (especialmente útil en el
método step-up) o aquellas que queramos incluir independientemente de su significación
estadística.
- direction. Con tres opciones según el método: both (stepwise, opción por defecto),
backward (va quitando) and forward (va añadiendo)
- trace. Indica si desea ver el proceso de selección. El valor 0 lo oculta y el valor 1 (por
defecto) lo muestra.
Ejercicio 2.3
15
RLM: premisas y cautelas
1. Ajuste todos los modelos univariantes con todas las variables predictoras. Seleccione
aquellas con una significación p<0.25.
2. Ajuste el modelo multivariante aditivo (sin interacciones) con todas las variables no cribadas
en el anterior paso.
3. Elimine las variables una a una empezando por la menos significativa si cumple los
siguientes criterios:
a. No es significativa (p>0.05)
b. El coeficiente de esta variable en el modelo univariante (paso 1) y multivariante es
similar.
c. Los coeficientes del resto de variables del modelo no varían susceptiblemente al
eliminar esta variable, es decir, no es una variable confusora.
4. Una vez haya eliminado todas las variables posibles, vuelva a introducir una a una por
separado para verificar que ninguna recupera la significación.
5. Considere introducir aquellas interacciones que considere clínicamente factibles y evalúe su
significación.
6. Valide el modelo según lo propuesto en el último punto de este tema.
Ejercicio 2.4
Ejemplo 2.4: En un estudio con objetivo no predictivo, para estimar efectos, el ejemplo por
excelencia es el ensayo clínico paralelo que equilibra las variables en ambos brazos:
Primero fija unos criterios de elegibilidad que marcan las condiciones de aplicación de la
16
Bioestadística para no estadísticos
b. Si hay más de una posible intervención de interés, plantee diseños factoriales con
más de un factor para garantizar el equilibrio entre ellos.
Ejemplo 2.5: Una vez más, la posibilidad de asignar a cualquiera de los grupos, comprueba
que el valor de una intervención no predetermina el de la otra.
b. Si existe un par de variables colineales que cree que juntas pueden aportar mayor
información respecto a la respuesta, construya una única variable predictora que sea
combinación de estas dos variables e introdúzcala en el modelo.
Por ejemplo, en vez de incluir en un modelo el peso y el IMC, sería mejor incluir el peso y
la altura que aunque estarán correlacionadas, lo estarán en menor medida, ya que el IMC
incluye peso y altura en su definición.
17
RLM: premisas y cautelas
Por ejemplo, en un estudio ecológico donde los registros son poblaciones (p.ej, provincias
de España), las variables predictoras de la calidad asistencial como el número de camas de
hospital; el número de médicos y enfermeras colegiados; el número de centros hospitalarios
de primer, segundo y tercer nivel, etc… deberán ser consideradas en relación a la población
de la región, es decir, introducir en el modelo las variables número de X por cada 100,000
habitantes.
Ejercicio 2.5
Una revista ha publicado un estudio donde demuestran que el peso de una persona
está inversamente relacionado con la cantidad de colesterol en sangre. Además, lo
certifican con mucha evidencia, mostrando el modelo ajustado donde se ve una
gran significación de la variable peso en el modelo:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.67913 17.64601 1.002 0.31890
peso -0.29577 0.09503 -3.112 0.00244 **
altura 1.31848 0.12427 10.609 < 2e-16 ***
¿Qué pensaría de tal hallazgo al ver el modelo?
El proceso de definición de las variables a ser incluidas merece tanto respeto y maduración como el
de la definición de los criterios de elegibilidad de un EC. O de las variables que definen los bloques
o los criterios de minimización en la aleatorización.
Recuerde
18
Bioestadística para no estadísticos
Para valorar si las premisas asumidas son razonables, veremos cuáles son; cómo estudiar su validez;
y sus implicaciones en caso de no cumplirse.
Ejemplo 3.1: El incremento esperado del peso al aumentar la altura 1cm es siempre 1 Kg,
tanto al pasar de 160 a 161, como al subir de 170 a 171cms.
Nota: Técnicamente, la linealidad implica que todos los tienen un valor esperado nulo ( ), es
decir, el valor medio de las particularidades debe ser 0 para cualquier valor de las predictoras. Si su valor
medio cambiara a lo largo de los valores del predictor Zi, querría decir que los aún contienen información
y que podría ser mejorada para incorporarla.
Ejemplo 3.2: La oscilación del peso alrededor del valor predicho es siempre la misma,
pongamos σ=7kg. Tanto si esperamos un peso de 60 como de 70kg, siempre tenemos la
misma variabilidad de la particularidad y, por tanto, de la incertidumbre de la predicción.
Historieta: Es un modelo democrático, ya que nadie es más importante, todos tenemos la misma magnitud
de idiosincrasia.
Nota: La consecuencia es que todas las observaciones aportan la misma información y tendrá sentido hacer
promedios sin necesidad de ponderar.
3. Normalidad. La singularidad sigue una distribución Normal (3ª premisa) que estará centrada
en 0 (por la 1ª premisa) y con la misma varianza (por la 2ª). En resumen:
19
RLM: premisas y cautelas
Ejemplo 3.3: Diferentes personas tienen diferentes pesos, pero son más frecuentes aquellas
con distancias al valor predicho cercanas a 0, que aquellas que se alejen, por ejemplo, 14Kg
(2σ). Su distribución conjunta tiene la forma de distribución Normal que corresponde a
fenómenos que son el resultado de muchos factores con efectos pequeños e independientes
(muchos genes y mucha influencia de muchos fenómenos del ambiente: alimentación,
ejercicio, etc.).
4. Independencia. Los términos del modelo son independientes entre sí: cada
contribución particular no aporta información sobre las otras.
Ejemplo 3.4: En el ejemplo del peso y la altura, si esta premisa es cierta, la distancia del
peso de un caso concreto al valor promedio de todos los de su misma altura no aporta
información sobre dicha distancia en otro caso. Como contra-ejemplo, si 2 casos
pertenecieran a la misma familia y uno de ellos fuera extremadamente alto, cabría esperar
que el otro también lo fuera. Un modelo mejor tendría en cuenta esta información adicional.
Por tanto, esta cuarta premisa requiere que el modelo haya incluido, de forma correcta, a todas las
variables importantes.
Así, en su conjunto, todas estas premisas implican que el modelo es completo y correcto, es decir,
que incluye a todos los predictores relevantes y que la forma de la relación funcional está bien
especificada.
Recuerde
1. Linealidad. Siempre hay la misma pendiente sea cual sea el valor de Z que
aumenta en 1 unidad.
20
Bioestadística para no estadísticos
3.2. Implicaciones
Destacamos las siguientes implicaciones de los desvíos de las premisas:
1. El modelo podría ser mejorado, incluyendo la información ausente que origina el desvío de las
premisas.
Recuerde
Recuerde
3. Conviene evitar lecturas causales sobre variables Z, si bien puede ser interesante lanzar
prudentes hipótesis causales que deban luego ser confirmadas. Que el modelo no esté completo
es especialmente delicado cara a esta especulativa interpretación causal, ya que se podría
atribuir a una variable incluida los efectos de la omitida —quizás por ser desconocida o no
medible con precisión.
Recuerde
Ahora bien, que el modelo pueda ser mejorado, no implica que sea inútil para realizar una
predicción. Si el coeficiente de determinación es alto y la muestra es suficiente, un modelo simple
puede ser útil.
Recuerde
21
RLM: premisas y cautelas
Ejemplo 3.5: cierto investigador desea saber si un nuevo gen es un buen predictor de la
PAS. No sabe nada sobre su hipótesis, la relación entre ambos. Pero hace muchos años que
sabe que la PAS suele aproximarse muy bien por una distribución Normal. Lo importante no
es ahora contrastar la Normalidad, sino observar si otro método que no descansa en esta
normalidad ofrece resultados similares.
Recuerde que la distribución Normal es un Modelo, no una Ley que deban obedecer los datos. Es
útil porque muchas variables se aproximan bien por la Normal: no hace falta que sean exactamente
normales. Por ello, los gráficos de Normalidad muestran el ajuste (correlación modelo-datos de
Shapiro-Wilks) o el desajuste (distancia modelo-datos de Kolmogorov); y son más útiles que los P
valores.
Nota: Recuerde la incongruencia de los p valores en el estudio de las premisas: (A) si la muestra
es pequeña, grandes desviaciones de las premisas pueden afectar a la inferencia, pero los p
valores difícilmente serán significativos; y (B) si la muestra es grande, pequeñas desviaciones
afectarán poco la inferencia, pero casi siempre serán significativas (p valores bajos).
Recuerde
22
Bioestadística para no estadísticos
Elena que tiene una altura de 170 cm y un peso de 75 kg tiene una particularidad de +5 kg:
R realiza gráficos de residuos que ayudan a evaluar estas premisas y las observaciones influyentes:
Ejemplo de R
# Ajustar un modelo
> mod <- lm(weight~height+fat+fibre,diet)
23
RLM: premisas y cautelas
Figura 3.1
Anscombe, inventó unos datos para ilustrar la importancia de mirar estos gráficos. Consisten en 4
parejas X-Y que dan las mismas rectas de regresión, con idénticos coeficientes; pero que, sin
embargo, el estudio de las premisas muestra ‘patologías’ muy distintas. Veamos estos datos con el
siguiente código.
Ejemplo de R
> # Cargar los datos
> data(anscombe)
> # Descriptiva (misma media y desviación para todas las x’s e y’s)
> apply(anscombe,2,mean)
x1 x2 x3 x4 y1 y2 y3 y4
9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
> apply(anscombe,2,sd)
x1 x2 x3 x4 y1 y2 y3 y4
3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
> # Diagramas bivariantes con rectas de regresión (
24
Bioestadística para no estadísticos
Figura 3.2
> par(mfrow=c(2,2))
> plot(y1~x1,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y1~x1,anscombe),lwd=2,col=2)
> plot(y2~x2,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y2~x2,anscombe),lwd=2,col=2)
> plot(y3~x3,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y3~x3,anscombe),lwd=2,col=2)
> plot(y4~x4,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y4~x4,anscombe),lwd=2,col)
Figura 3.2
25
RLM: premisas y cautelas
Ejercicio 3.1
b) ¿Y la de homoscedasticidad?
El gráfico que resalta los desvíos de la linealidad dibuja, para cada caso:
26
Bioestadística para no estadísticos
Ejemplo de R
> # Cargar datos
> data(anscombe)
Figura 3.3
Ejercicio 3.2
Ajuste el siguiente modelo con los datos diet del paquete Epi
Recuerde
El gráfico de la raíz de los residuos estandarizados en función de los valores predichos resalta la
posible homoscedasticidad.
27
RLM: premisas y cautelas
- En el eje vertical, la raíz cuadrada de los residuos estandarizados (o residuos divididos por
su desviación estándar)
Ejemplo de R
> # Cargar datos
> data(anscombe)
Figura 3.4
Nota técnica: Se usa la raíz del valor absoluto de los residuos estandarizados porque de esta forma resalta
más los desvíos de la homoscedasticidad.
28
Bioestadística para no estadísticos
Ejercicio 3.3
Ajuste el siguiente modelo con los datos diet del paquete Epi
Recuerde
Figura 3.5
29
RLM: premisas y cautelas
Ejemplo de R
> # Cargar datos
> data(anscombe)
> # Gràfico del QQ-Norm de los residuos residuos (2) (Figura 3.5)
> par(mfrow=c(2,2))
> plot(mod1,2) ; plot(mod2,2) ; plot(mod3,2) ; plot(mod4,2)
Ejercicio 3.4
Ajuste el siguiente modelo con los datos diet del paquete Epi
Recuerde
Si los residuos estuvieran aún relacionados entre sí o con alguna variable, tendrían información
relevante que convendría incluir en el modelo. Por ello, conviene estudiar si tienen o no relación
con otras variables predictoras o con la respuesta.
Cuando la recogida de la información sigue un patrón temporal, podría ser que un residuo
‘heredara’ parte del comportamiento del residuo anterior, perdiendo la independencia. Como
siempre, lo más adecuado es diseñar bien el estudio y la recogida de los datos, asegurándonos de
que las diferentes observaciones o casos son independientes los unos de los otros. Para estudiarla
gráficamente, se conectan residuos consecutivos según el orden de recogida de los datos.
30
Bioestadística para no estadísticos
Ejemplo de R
> # Cargar datos
> data(anscombe)
> # Use los modelos del ejemplo anterior
> # Gràfico del residuos contra el orden (2)
> par(mfrow=c(2,2))
> plot(residuals(mod1),type="l");plot(residuals(mod2),type="l")
> plot(residuals(mod3),type="l");plot(residuals(mod4),type="l")
Figura 3.6
Recuerde
31
RLM: premisas y cautelas
3.5.4. Resumen
Recuerde
Recuerde
Potencialmente influyentes
Atípicas u outliers
Observaciones con influencia real
32
Bioestadística para no estadísticos
El leverage (hii) sirve para conocer el grado de palanca que hace. Es bastante complicado y
laborioso calcular el leverage de cada observación a mano, en cambio con R resulta muy sencillo.
Para saber si el punto es potencialmente influyente compararemos su leverage en valor absoluto con
el valor crítico 2· , donde , siendo k el número de parámetros a estimar y N el número de
individuos (observaciones).
Nota: según como de estricto sea el criterio de detección utilizamos el valor crítico , o,
Ejemplo 3.7: Se tienen los datos del número de cigarros consumidos por cápita de 44
estados (variable cig) y las tasas de muerte por 100.000 habitantes por cáncer de vejiga
(variable cvej) .
Ejemplo R
33
RLM: premisas y cautelas
Suponga que utilizamos el valor crítico menos estricto: los valores potencialmente influyentes son
los estados 7, 25 y 38.
El punto marcado en rojo de la figura 2.1, es uno de los puntos que R ha detectado como
potencialmente influyentes (estado 25), vea como a priori puede parecer una observación
influyente, ya que parece un valor extremo, pero a posteriori no lo es, ya que su eliminación no
provoca que la recta varíe sustancialmente.
Figura 3.7: Izquierda: gráfico con la recta de la regresión teniendo en cuenta el estado 25. Derecha: gráfico
con la recta de regresión (color rojo) sin tener en cuenta el estado 25 y con la recta de regresión (color negro)
teniendo en cuenta el estado 25
En cambio, si añadimos un estado nuevo que sea extremo, por ejemplo con valor de cigarros 59 y
valor de cáncer de vejiga 9.9, sucede lo siguiente:
34
Bioestadística para no estadísticos
Figura 3.8: Izquierda: gráfico con la recta de la regresión teniendo en cuenta el estado 45. Derecha: gráfico
con la recta de regresión (color rojo) sin tener en cuenta el estado 45 y con la recta de regresión (color negro)
teniendo en cuenta el estado 45
En este caso, el estado añadido tiene influencia a priori y a posteriori, ya que la recta si que se se
modifica sustancialmente.
Ejemplo R
35
RLM: premisas y cautelas
Decimos que una observación tiene influencia real cuando tiene un mayor efecto en el ajuste que el
resto de observaciones; son aquellas observaciones cuya eliminación provocaría modificaciones
importantes en las estimaciones, errores estándar e intervalos de confianza.
Hay varios métodos de detección; unos de los más sencillos es utilizar la medida DFFITSj, que
indica cuanto cambia el coeficiente estimado bi, tomando como unidad la desviación estándar, si se
elimina a la j-ésima observación.
Mediante R podemos obtener los DFFITS de cada observación y compararlos con el valor crítico,
que es 2 , donde, igual que en el valor crítico de las observaciones potencialmente influyentes, k
Las observaciones cuyos DFFITS superen este valor crítico serán consideradas observaciones con
influencia real.
Nota: Igual que en las observaciones potencialmente influyentes, según lo estricto que se quiera ser a la
hora de detectar las variables con influencia real se puede utilizar el valor crítico 2 o 2 siendo el
Veamos ahora como detectar los puntos con influencia real usando R:
Ejemplo R
Si utiliza el valor crítico más estricto sólo devuelve como puntos con influencia real los estados 7,
26, 41, 43 y 44,;en cambio si utiliza el menos estricto, sólo detecta el estado 44.
36
Bioestadística para no estadísticos
Note que cada observación no tiene porqué ser sólo potencialmente influyente, atípica (o outlier) o
tener influencia real; por ejemplo, el caso del estado 44 es una observación atípica y además tiene
influencia real.
Ejemplo 3.8: el pH es una variable usual con la que Vd. ya trabaja y que incluye una
transformación logarítmica que facilita la valoración de la acidez..
Nota: Por supuesto, este es un tema para “nota”: Sorensen fue extremadamente creativo cuando
propuso el pH.
Log(Income)
37
RLM: premisas y cautelas
Figura 3.10
Figura 3.11
1. Recíproco:
2. Raíz cuadrada:
Tukey y Mosteller, propusieron empezar por transformar las predictoras una a una, ya que hacerlo
con la respuesta Y afectará a su relación con todas las predictivas.
Por supuesto, si transforma una o varias variables del modelo, deberá ser cuidadoso con las
interpretaciones y predicciones.
38
Bioestadística para no estadísticos
Ejemplo 3.10: La relación entre la edad de una persona y su altura no es lineal, pues llega
un momento que por mucho que aumente la primera, no lo hace la segunda: la altura tiene
un máximo, un punto de saturación.
Ejemplo R
>home<-c(1290,1350,1470,1600,1710,1840,1980,2230,2400,2930)
> kw<-c(1182,1172,1264,1493,1571,1711,1804,1840,1956,1954)
#Genere el modelo
> modelo<-lm(kw~home)
> summary(modelo)
Call:
lm(formula = kw ~ home)
Residuals:
Min 1Q Median 3Q Max
-208.02 -105.36 52.89 77.29 155.27
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 578.92775 166.96806 3.467 0.008476 **
home 0.54030 0.08593 6.288 0.000236 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 133.4 on 8 degrees of freedom
Multiple R-squared: 0.8317, Adjusted R-squared: 0.8107
F-statistic: 39.54 on 1 and 8 DF, p-value: 0.0002359
> plot(kw~home)
> abline(modelo,col=2)
39
RLM: premisas y cautelas
Figura 3.12
Figura 3.12).
Como el coeficiente de determinación es más bajo que con el primer modelo, conviene ver qué pasa
si añadimos un término lineal al modelo.
40
Bioestadística para no estadísticos
41
RLM: premisas y cautelas
b)
> mod.b <- lm(weight~fat,diet)
> summary(mod.b)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.3583 3.1339 18.302 < 2e-16 ***
fat 1.1894 0.2414 4.928 1.32e-06 ***
[...]
c)
> mod.c <- lm(weight~fat+energy,diet)
> summary(mod.c)
[...]
(Intercept) 54.6308 3.7101 14.725 <2e-16 ***
fat 0.6940 0.4348 1.596 0.111
energy 0.3194 0.2333 1.369 0.172
[...]
El error estándard es 0.69. El motivo de este cambio es que la cantidades diarias de grasa y energía ingereidas están
muy correlacionadas; concretamente, en este juego de datos, la correlación de Pearson entre ambas variables es de
0.83:
> with(diet,cor(fat,energy))
[1] 0.8319827
c)
> mod.c <- lm(weight~fat+energy,diet)
> summary(mod.c)
[...]
(Intercept) 54.6308 3.7101 14.725 <2e-16 ***
fat 0.6940 0.4348 1.596 0.111
energy 0.3194 0.2333 1.369 0.172
[...]
El error estándard es 0.43. Como ya se ha mencionado, el motivo de este incremento es que la cantidades diarias de
grasa y energía ingereidas están muy correlacionadas (r = 0.83)
42
Bioestadística para no estadísticos
1.3 library(Epi)
> data(births)
> mod <- lm(bweight~gestwks+matage+sex,births)
> vif(mod)
gestwks matage sex
1.000825 1.002048 1.001665
En este caso, no hay colinealidad entre las variables, por tanto, no habría problema en incluirlas todas en un modelo.
1.4 > library(faraway)
> data(diabetes)
> mod <- lm(chol~ stab.glu + hdl + glyhb + location +
age + gender + height + weight + frame +
bp.1s + bp.1d + bp.2s + bp.2d + waist +
hip + time.ppn ,diabetes)
> vif(mod)
stab.glu hdl glyhb locationLouisa
3.382033 1.442216 3.807874 1.226260
age genderfemale height weight
2.007954 2.719588 2.497786 8.815676
framemedium framelarge bp.1s bp.1d
2.200824 2.694424 5.351977 3.459947
bp.2s bp.2d waist hip
5.802834 3.654930 4.699834 8.360927
time.ppn
1.210357
Por tener vif > 5, cConvendría quitar una a una a las variables weight, bp.1s, bp.2s y hip, para ver si, al reducir el
modelo, vif sigue siendo superior a 5 para las restantes variables.
2.1 a) Cierta. b) Cierta. c) Cierta. d) Falsa, no tiene sentido mirar los efectos de forma independiente ya que son
variable correlacionadas.
2.2 a) Cierta. B) Falsa (es al revés). C) Falsa (es R2)
2.3 Para el modelo step-down, se debe ajustar el mismo modelo del ejemplo previo y aplicar la función step con
direction=”backward”.
> mod <- lm(chol~ stab.glu + hdl + glyhb + location + age + gender + height + weight + frame +
bp.1s + bp.1d + bp.2s + bp.2d + waist + hip + time.ppn ,diabetes.complete)
> mod.down <- step(mod,direction="backward",trace=0)
> summary(mod.down)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 130.3837 15.0170 8.682 1.61e-14 ***
hdl 0.6640 0.2037 3.259 0.00143 **
glyhb 8.9534 1.4576 6.143 9.66e-09 ***
[...]
Para el modelo step-up, es ligeramente más complicado porque debe partir del modelo más simple sin ninguna
variable predictora. Al aplicar la función step con direction=”forward”, en scope se debe especificar las variables
candidatas al modelo.
43
RLM: premisas y cautelas
2.4 1) Todas las variables tienen en el modelo univariante tienen una p < 0.25, por lo que seleciona todas.
> summary(lm(weight ~ height,diet))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -59.91601 14.31557 -4.185 3.66e-05 ***
height 0.76421 0.08252 9.261 < 2e-16 ***
3) Elimine variables 1 a 1 empezando por la menos significativa, en este caso, elimine energy
> mod2 <- lm(weight~height+fat+fibre,diet)
> summary(mod2)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -54.87820 13.73716 -3.995 8.02e-05 ***
height 0.65790 0.08057 8.166 7.20e-15 ***
fat 0.51073 0.23140 2.207 0.028003 *
fibre 3.89132 0.99070 3.928 0.000105 ***
Por tanto, el modelo seleccionado incluye las variables predictivas height, fat and fibre. En este caso, el proceso
automático de selección hubiese llevado al mismo modelo final;
> mod1step<-step(mod1,trace=0)
> summary(mod1step)
[…]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -54.87820 13.73716 -3.995 8.02e-05 ***
height 0.65790 0.08057 8.166 7.20e-15 ***
fat 0.51073 0.23140 2.207 0.028003 *
fibre 3.89132 0.99070 3.928 0.000105 ***
---
[…]
44
Bioestadística para no estadísticos
2.5 Las variables altura y peso estarán muy correlacionadas entre sí y la presencia de la altura modifica el coeficiente
del peso por colinealidad. En este caso hipotético, este resultado debería ser interpretado como que, a nivel fijo de
altura, son los que menos pesan los que tienen más colesterol.
3.1 Las parejas que cumplen la premisa de linealidad son la 1 y la 3; la 2 parece que sigue una parábola y la 4 tiene
todos los puntos en un mismo valor de x (exceptuando el punto extremo). b) En este caso también cumplen la
homoscedasticidad las parejas 1 y 3. c) Las parejas 3 y 4 son las que tienen un punto muy alejado del resto de
observaciones que, por sí sólo influye en la recta estimada.
3.2 > data(diet)
> par(mfrow=c(1,1))
> plot(mod,1)
> par(mfrow=c(1,1))
> plot(mod,3)
> par(mfrow=c(1,1))
> plot(mod,2)
45