Вы находитесь на странице: 1из 806

Capítulo 1:

Principios Generales

Erik Cobo, Jordi Cortés y José Antonio González


Rosario Peláez, Marta Vilaró y Nerea Bielsa

Septiembre 2014
Principios generales

Principios generales

Presentación ....................................................................................................................... 3
1. Principios generales............................................................................................. 4
1.1. Conjeturas y refutaciones ....................................................................................... 4
1.2. Guías ...................................................................................................................... 5
1.3. Propiedad intelectual de los datos .......................................................................... 7
1.4. Inducir frente a deducir .......................................................................................... 8
1.5. Explorar frente a confirmar .................................................................................... 8
1.6. Asociación frente a casualidad ............................................................................... 9
1.7. Intervención frente a pronóstico .......................................................................... 10
1.8. Medidas del efecto frente a medidas de reducción de la incertidumbre .............. 11
2. Tipos de estudios ............................................................................................... 12
2.1. Objetivos sanitarios .............................................................................................. 12
2.2. Preguntas de seguimiento frente a preguntas instantáneas .................................. 12
2.3. Variables iniciales frente a finales ....................................................................... 13
2.4. “Hacer” frente a “ver” .......................................................................................... 15
2.5. Preguntas sobre efectos frente a preguntas sobre causas ..................................... 17
2.6. Prospectivo y retrospectivo son ambiguos ........................................................... 17
2.7. Causas frente a condiciones ................................................................................. 19
3. Principios estadísticos ....................................................................................... 20
3.1. Niveles de evidencia ............................................................................................ 20
3.2. Determinismo frente a variabilidad...................................................................... 20
3.3. Objetivos frente a hipótesis .................................................................................. 21
3.4. Hipótesis frente a premisas .................................................................................. 22
3.5. Estimación de parámetros frente a contraste de hipótesis.................................... 23
3.6. Multiplicidad ........................................................................................................ 24
3.7. Enmascarar ........................................................................................................... 24
3.8. Error aleatorio frente a error sistemático ............................................................. 25
3.9. Saber (ciencia) frente a hacer (técnica) ................................................................ 26
Soluciones a los ejercicios.................................................................................................. 29

2
Bioestadística para no estadísticos

Presentación
Este capítulo ofrece claves generales y básicas para interpretar los estudios empíricos. Incluye
principios científicos, metodológicos, clínicos y estadísticos que permitirán al lector situar cada
estudio en su contexto.

Diferentes preguntas médicas requieren distintos y específicos diseños. La ciencia progresa gracias
al contraste entre ideas y datos.

Figura 1.1. Las hipótesis deben ser previas a los resultados del estudio

Contribuciones: (1) versión original de marzo 2013, EC, autor, y JC, editor, con la colaboración de JAG,
MV y R; (2) revisado en julio de 2013 por LR, HR, JC y EC para incorporar mejoras y atender sugerencias
anónimas de los participantes en la primera edición del curso; y (3) revisado en julio de 2104 por NB y EC.

3
Principios generales

1. Principios generales

1.1. Conjeturas y refutaciones


El método científico propone modelos que representan el entorno y los enfrenta con datos recogidos
de forma reproducible.

Recuerde
La ciencia conecta ideas y datos.

Para poder ser considerado científico, un modelo debe poder entrar en conflicto con datos futuros
observables futuros.

Ejemplo 1.1: “los marcianos existen” es una expresión hoy por hoy infalible, en el sentido
de que, como es imposible recorrer todo el universo y mostrar que no existen, no puede
entrar en conflicto con datos concebibles.

Recuerde
La ciencia quiere ser refutable o falsable.

Historieta: La evidencia sustituye a las eminencias.

Este contraste empírico implica que los modelos científicos son constantemente abandonados en
beneficio de otros nuevos que los mejoran o matizan. En consecuencia, no se pretende que sean
definitivamente ciertos, pero sí que sean útiles y ofrezcan claves para interpretar, mejorar y disfrutar
nuestro entorno.

Ejemplo 1.2: Las leyes de Newton son falsas: fueron refutadas por Einstein, que las
modificó para abarcar también largas distancias.

Contra-Ejemplo 1.3: Los modelos de Newton se siguen usando para hacer casas ¡que se
aguantan!

Recuerde
La ciencia no pretende escribir las leyes del universo: tan sólo modelos que lo
reproduzcan.

4
Bioestadística para no estadísticos

Ejercicio 1.1
Ponga algún otro ejemplo (diferente del de Newton) en el que usamos “leyes de..”
pero sería más apropiado “modelo de…”.

Cita: Todos los modelos son erróneos, pero algunos son útiles. (George Box, 1987)

Recuerde
Hable de modelos en lugar de leyes.

Figura 1.2. Ni los cromosomas deben obedecer a Mendel, ni las piedras a Newton.

Ejercicio 1.2
La entrada scientific modelling de Wikipedia además de los matemáticos, incluye
también modelos…

1.2.Guías
El mejor artículo publicado en la mejor revista se diseñó con los mejores métodos, pero se preparó
hace tiempo. Ha sido aceptado porque es el mejor que han recibido, pero no porque tenga el nivel
futuro deseado.

5
Principios generales

Para facilitar su evolución, las mejores revistas biomédicas, reunidas en Vancouver, impulsaron
primero los requisitos de forma y luego los de fondo. Estos últimos están contenidos en las guías de
publicación recopiladas por la red EQUATOR.

Recuerde
Las guías de publicación muestran el modelo de artículo deseado.

Ejercicio 1.3
Entre en el sitio http://www.equator-network.org/ y encuentre qué 2 propiedades
definen la finalidad de Equator.

Ejercicio 1.4
En el mismo sitio, diga qué guías han sido traducidas al castellano y qué tipo de
estudios contemplan cada una.

Ejercicio 1.5
Los 25 puntos de la guía CONSORT requieren combinar habilidades y
conocimientos tanto clínicos como estadísticos. Diga 3 puntos que sean
eminentemente clínicos y 3 estadísticos.

Las guías de Buena Práctica en estudios Clínicos (BPC) contienen los principios y procesos para
garantizar la autenticidad de los datos obtenidos, y la calidad de su análisis y de su comunicación.

Definición
BPC es el conjunto de normas éticas y científicas que deben regir el diseño,
realización, gestión de datos e informe de estudios clínicos.

Además, las autoridades reguladoras de Estados Unidos, Canadá, Unión Europea y Japón
impulsaron en 1989 la Conferencia Internacional de Armonización para el Registro de Productos
Farmacéuticos para Uso Humano, que generó las guías ICH (International Conference on
Harmonization).

Recuerde
Hay guías científicas distintas para publicar y para registrar.

6
Bioestadística para no estadísticos

Evaluados para selección (n = )


Reclutamiento

Excluidos (n = )
• No cumplen los criterios de selección (n = )
• Renuncian a participar (n = )
• Otras razones (n = )

Aleatorizados (n = )
Asignación

Asignados a la intervención (n = ) Asignados a la intervención (n = )


• Recibieron la intervención asignada (n = ) • Recibieron la intervención asignada (n = )
• No recibieron la intervención asignada (dar • No recibieron la intervención asignada (dar
motivos) (n = ) motivos) (n = )
Seguimiento

Pérdidas de seguimento (dar motivos) (n = ) Pérdidas de seguimento (dar motivos) (n = )


Interrumpen la intervención (dar motivos) (n = ) Interrumpen la intervención (dar motivos) (n = )
Análisis

Analizados (n = ) Analizados (n = )
• Excluidos del análisis (dar motivos) (n = ) • Excluidos del análisis (dar motivos) (n = )

Figura 1.3. CONSORT: Diagrama de flujo de pacientes voluntarios en un ensayo clínico

Ejercicio 1.6
Algunas de las “n” que figuran en el diagrama de flujo () de la CONSORT
reflejan pérdidas que podrían comprometer la credibilidad de los resultados. Diga,
para un estudio ideal, ¿cuáles de estas pérdidas le gustaría que fueran cero?

1.3. Propiedad intelectual de los datos


Según la legislación USA, los datos son hechos y, como tales, no son patentables.

Quizás el financiador del estudio pueda desear para él sólo todo el posible beneficio de unos datos
generados gracias a su aportación. Incluso un mal autor podría temer las conclusiones alcanzadas
por otros con sus propios datos. Pero un buen clínico querrá obtener el máximo beneficio para sus
pacientes —¡que aportan los datos! También es nuestro punto de vista: los pacientes, que se
benefician de investigación previa basada en voluntarios como ellos, ofrecen sus propios datos para
el beneficio de futuros pacientes como ellos. De hecho, un comité de ética puede no autorizar un
estudio si no le satisface su política de publicaciones y acceso a los datos.

Para la sociedad, unos datos públicos permitirán más análisis, más credibilidad y más consistencia
de los resultados. Más transparencia, en suma.

7
Principios generales

Para un buen investigador, publicar los datos originales es una oportunidad para aumentar el
impacto y la transportabilidad de sus resultados. Prevemos un futuro en el que la valoración del
impacto de la investigación de un autor incluya el número de estudios con acceso a los datos.
Mientras tanto, revistas como BMJ, The Lancet o Trials invitan al autor a hacer públicos sus datos:
“seguir los consejos del editor siempre aumenta las posibilidades de aceptación”.

Toda publicación de datos debe respetar la confidencialidad del paciente, lo que requiere
anonimizarlos. Es decir, no publicar ninguna variable que permita ella sola una identificación
directa (p,e,, nombre y apellidos o DNI); ni tampoco combinaciones de variables (p,e, iniciales más
fechas de nacimiento más institución sanitaria) que permitan una identificación indirecta.

1.4. Inducir frente a deducir


Tenemos una gran tradición en razonamiento deductivo: partiendo de unos principios que no se
discuten, disciplinas como las matemáticas, el derecho o la teología deducen sus consecuencias.

Pero para aprender y evolucionar, la Ciencia y la Técnica también requieren observar. El método
científico parte del conocimiento disponible para (1), deducir consecuencias contrastables; y luego
(2) observar éstas en unos pocos casos y usar la inferencia estadística para inducir los resultados a
una población más amplia.

1.5. Explorar frente a confirmar


Enfrentar las ideas con sus consecuencias contrastables divide al proceso científico en pasos
sucesivos que podríamos esquematizar según 2 objetivos: exploración y confirmación.

Al inicio del proceso de Investigación y Desarrollo (I+D), el análisis exploratorio propone un


modelo a partir de los datos. Es lícito torturar los datos hasta que canten, pero debe quedar claro:
“nuestros resultados sugieren que…”. Al final del I+D, un análisis confirmatorio pre-especificado
permite decir “ergo hemos demostrado que…”.

Historieta: Un bioestadístico es un profesional que niega que Colon descubriera América porque no
estaba en el protocolo de su viaje. [En realidad, un bioestadístico le pediría a Colon lo mismo que los
Reyes Católicos: “Qué interesante. Ande, vuelva y confírmelo”. El primer viaje fue una atractiva novedad
(“I”), pero se necesitaron más antes de abrir una nueva vía comercial (“D”).]

8
Bioestadística para no estadísticos

Figura 1.4. En un estudio confirmatorio, la hipótesis es independiente de los datos

Historieta: Mire de nuevo la viñeta de las dianas (Fig. 1.1) que abre este capítulo.

Ejemplo 1.4: El mérito de Fleming no radicó en inhibir accidentalmente un cultivo. Su


mérito fue (1) conjeturar acertadamente qué pasó y (2) replicarlo.

Ejercicio 1.7
De los dos puntos previos, cuál constituyó el mérito definitivo de Fleming,
¿interpretar (“entender”) porqué pasó (1) o ser capaz de replicarlo (2)?

Recuerde
Un estudio exploratorio aporta ideas nuevas.
Uno confirmatorio ratifica o descarta ideas previas.

Lectura: Ioannidis modela que estudios confirmatorios con resultados positivos tienen una probabilidad
de ser ciertos del 85%, que baja al 0.1% en los exploratorios. Jager y Leek estiman que son ciertos un
84% de los resultados positivos de 5 revistas médicas punteras que podríamos clasificar como
confirmatorias.

Historieta: “Disfrute de sus inesperados resultados significativos… ¡que no volverá a ver!”

1.6. Asociación frente a casualidad

Asociación y causalidad son conceptos diferentes. La causalidad requiere asociación, pero muchas
relaciones entre variables no son causales.

9
Principios generales

Historieta: En un siniestro, el número de bomberos y el de damnificados están muy relacionados. Pero


los bomberos NO causan damnificados.

Recuerde
Asociación NO es causalidad.

Un Ensayo Clínico bien diseñado, ejecutado y analizado, pretende estimar el efecto causal de una
intervención. Por su parte, un estudio observacional etiológico pretende lanzar hipótesis sobre
posibles causas. Otros estudios, como los diagnósticos o pronósticos, no requieren hablar de causa-
efecto.

Historieta (cont): Como una gran salida de bomberos permite prever un número alto de damnificados, un
servicio de urgencias lo ha incluido como un punto predictivo en su escala sobre el nivel de alerta.

Recuerde
Diferentes objetivos, diferentes diseños.

1.7. Intervención frente a pronóstico


Los modelos se pueden construir con dos objetivos claramente diferenciados:

1) En primer lugar, por su ambición, tenemos los modelos de intervención, que pretenden
cambiar la evolución de los pacientes y requieren una relación de causa-efecto que
permitirá, mediante intervenciones en la variable causa, modificar el valor futuro de la
variable respuesta (outcome, endpoint) o desenlace que sirve para medir el efecto.

2) Por otra parte, tenemos los modelos de relación o predictivos. A diferencia de los anteriores
no precisan una relación de causa-efecto. Son utilizados, por ejemplo, en el diagnóstico y en
el pronóstico médico.

Ejemplo 1.5: Cuando David me lleva a pescar me pide que observe dónde está agitada el
agua en la superficie. Saber que los peces mayores empujan los menores hacia arriba y que
éstos baten la superficie, le permite predecir una mayor probabilidad de pesca allí donde el
agua está agitada. Usa la agitación como un ‘chivato’.

Contra-Ejemplo 1.6: David no sugiere intervenir sobre la agitación del agua para aumentar
la probabilidad de pesca.

Tanto la intervención como el pronóstico hacen predicciones sobre relaciones que luego deben ser
contrastadas.

10
Bioestadística para no estadísticos

Ejemplo 1.7: En la ciudad de Framingham recogieron datos iniciales de una gran cohorte
que siguieron muy fielmente durante décadas para observar eventos cardiovasculares
(ECV). Con la ayuda del modelado estadístico, establecieron grupos con diferente riesgo de
presentar ECV.

Recuerde
Un estudio de cohortes cuantifica la calidad de un pronóstico.

Entre las variables que contribuían al pronóstico estaba la presión arterial (PA). Una
interpretación causal (“los que hoy tienen las arterias a reventar, mañana les revientan; ergo,
si bajo hoy la PA, bajaré mañana los ECV”) abrió la vía a intervenciones para bajar la PA,
cuyos efectos fueron estimados en ensayos clínicos.

Recuerde
Un estudio de cohortes puede lanzar interpretaciones causales.

Lectura: Hernán explica la diferencia entre asociación y causalidad con la ayuda de diagramas causales.

Ejercicio 1.8
“A más horas de ejercicio moderado, menos ECV”. ¿Es una frase de predicción o
de intervención? ¿Afirma relación causal entre ejercicio y ECV?

1.8. Medidas del efecto frente a medidas de reducción de la incertidumbre

Para cuantificar cuánto cambiamos la variable respuesta, recurrimos a medidas de la magnitud del
efecto.

Ejemplo 1.8: “si toma esta pastilla a diario, bajará 5 mm Hg su PAS”.

Ejemplo 1.9: “por cada kilo de peso que pierda, bajará 1 mm Hg su PAS”.

Para cuantificar cuánto anticipamos de otra variable (presente o futura), recurrimos a medidas de
reducción de la incertidumbre.

Ejemplo 1.10: “si desconozco la altura de un hombre mi predicción sobre el peso se centra
en su media, 70Kg, con una desviación típica (o error esperado) de 10Kg, pero si conozco
que mide 150 cm, mi predicción cambia a 50Kg y la desviación típica alrededor de esta
predicción baja a 6Kg.”

11
Principios generales

Ejemplo 1.11: “el peso predice un 15% de la variabilidad de la PAS”.

Ejercicio 1.9
Relacione el tipo de medida (efecto, reducción incertidumbre) con el objetivo del
estudio (predicción, intervención).

2. Tipos de estudios

2.1. Objetivos sanitarios


Los objetivos sanitarios se traducen en diferentes preguntas científicas. La siguiente figura relaciona
las preguntas del paciente con los objetivos médicos y científicos.

Figura 2.1 Preguntas de la paciente, de la médica y de la científica

El diagnóstico pretende una clasificación fina, en la que los casos de un mismo grupo son similares
entre sí pero diferentes de los otros grupos. Los estudios de la precisión diagnóstica de un indicador
lo enfrentan con una variable de referencia (gold estándar). Cuanto mayor es la correspondencia
entre indicador y referencia, mejor capacidad diagnóstica. Lo mismo aplica al pronóstico, cuanto
mayor es la correspondencia entre la escala pronóstica y la referencia futura.

2.2. Preguntas de seguimiento frente a preguntas instantáneas


En un estudio diagnóstico, los datos sobre el indicador y sobre la referencia, o gold standard, se
recogen simultáneamente; pero los estudios de predicción y los de intervención requieren un

12
Bioestadística para no estadísticos

intervalo de tiempo. Cuando las dos variables en estudio se observan en el mismo momento, se
habla de estudios transversales. En cambio, cuando una acontece previamente a la otra, de
longitudinales.

La relación causal también precisa un lapso de tiempo para que se manifieste el efecto.

Ejemplo 2.1: si cierto componente plasmático ha de predecir la enfermedad cardiovascular,


debe ser previo en el tiempo a ésta, ya que si la determinación analítica se realizara
simultáneamente a la aparición de la enfermedad, el valor de anticipación será nulo. Aún
más, si el objetivo fuera especular si hipotéticos cambios en dicho componente modificarían
la enfermedad cardiovascular, se requiere este lapso de tiempo para que se manifiesten
dichos efectos.

Ejercicio 2.1
¿Qué tipo de estudios (diagnóstico, pronóstico, intervención) requieren un lapso
de tiempo (longitudinales)?

Recuerde
Un estudio diagnóstico relaciona variables simultáneas, pero los pronósticos y los
de intervención precisan un lapso de tiempo entre ellas.

Historieta: Los modelos de causa-efecto requieren este orden: primero causa y luego efecto; pero las
creencias podrían estar libres de esta restricción física. BMJ publicó en su número de Navidad un estudio
sobre los efectos retro-activos de la oración: “Remote, retroactive intercessory prayer said for a group is
associated with a shorter stay in hospital (…)”.

Lectura: una evaluación del efecto ‘prospectivo’ de la oración, distinguiendo si el paciente conocía esta
intervención, concluyó “Intercessory prayer itself had no effect on complication-free recovery (…), but
certainty of receiving intercessory prayer was associated with a higher incidence of complications”.

2.3. Variables iniciales frente a finales


En un estudio predictivo, la variable inicial (“input”) será el índice o el indicador pronóstico. En un
estudio de intervención, la variable inicial será la maniobra o el tratamiento que se aplica. En ambos
tipos de estudios, se observará, al final (“output”, “end-point”) del seguimiento, la respuesta
(“outcome”) o desenlace.

En los estudios de cohortes, el criterio para incluir a un paciente se basa en variables iniciales:
criterios de inclusión, de elegibilidad o de selección.

13
Principios generales

NOTA: Una vez iniciado un estudio, se desea conocer la evolución de todos los casos que cumplen los
criterios de selección o de elegibilidad.

Lectura: El NEJM recuerda a sus autores que cualquier exclusión, pérdida o dato ausente aumenta la
incertidumbre y por tanto debería, o ser prevenida, o ser tratada con un buen análisis.

Recuerde
En un ‘estudio de cohortes’ los casos se seleccionan por una variable inicial

Si los casos de una cohorte se asignan al azar a varias opciones terapéuticas en


comparación, se habla de “ensayo clínico”.

Los estudios que validan un índice pronóstico o cuantifican los efectos de una intervención, tienen
una variable final que indica la evolución o resultado. Al ser desconocida al inicio es ‘aleatoria’ en
términos estadísticos.

Ejercicio 2.2
Diga si es cierto o falso:
Los estudios de cohortes y los ensayos clínicos esperan en el tiempo hasta la
aparición de la respuesta.

En algunos estudios etiológicos, que buscan causas, puede ‘invertirse’ el orden de recogida de las
variables. La evolución (variable final o respuesta) determina la inclusión del individuo. Y luego, se
investiga, en el pasado, el valor de las exposiciones previas. Así, al seleccionar los individuos, se
conoce ya la evolución pero las posibles causas son las variables en estudio (‘aleatorias’ en
términos estadísticos). Así, en un estudio de casos y controles, se selecciona a unos casos con la
enfermedad en estudio y a unos controles que no la tienen y se averigua su exposición previa a
posibles causas hipotéticas.

Ejemplo 2.2: Objetivo del estudio: examinar la relación entre el consumo de tabaco y
cáncer de pulmón. Los casos fueron pacientes con diagnóstico nuevo de cáncer de pulmón
(casos incidentes) y los controles procedían de los servicios quirúrgicos. Se incluyeron en el
análisis 197 casos y 196 controles (Gaceta Sanitaria).

Recuerde
En un ‘estudio de casos y controles’ los individuos se seleccionan en función de
una variable final (enfermo/sano).

14
Bioestadística para no estadísticos

Ejercicio 2.3
Diga si es cierto o falso: Los estudios de cohortes y los de casos y controles tienen
en común el tipo de variables inicial (causa) y final (efecto); pero difieren en que
su estrategia de muestreo parte de la inicial (cohortes) o de la final (casos y
controles).

Recuerde
La variable que determina la inclusión del individuo puede ser inicial (cohortes y
ensayos clínicos) o final (casos/controles).

La referencia o control en un ensayo clínico es otra Intervención (variable inicial), pero en un


estudio etiológico de casos y controles es otra evolución (final).

Ejemplo 2.2 (cont.): los controles de este ejemplo no tienen cáncer; pero en un ensayo
clínico, los “controles” no reciben el tratamiento en estudio.

Recuerde
‘Control’ aplica a una variable inicial (tratamiento) en un ensayo clínico; y a una
final (respuesta) en un estudio de casos y controles.

2.4. “Hacer” frente a “ver”


En los estudios experimentales, el investigador asigna el valor de la intervención a los voluntarios;
pero en los estudios observacionales, las unidades se presentan con valor en las variables de estudio.

Ejemplo 2.3, si se quiere estudiar el efecto de la monitorización de los pacientes hipertensos


en el control de su presión, en un estudio experimental, el investigador asigna un número de
visitas a cada voluntario; pero en un estudio observacional, los médicos y los pacientes
decidirán el número y el momento de las visitas.

Recuerde
La asignación permite distinguir entre experimentos y observaciones.

Nota: Por respeto al principio de no maleficencia, sólo las intervenciones que pretendan mejorar el estado
de salud son asignables. Por ejemplo, un adolescente no puede asignarse al grupo «fumador de tabaco
desde los 15 hasta los 50 años». De aquí, la predilección de la epidemiología por la observación. En
cambio, la pregunta habitual de la farmacología (¿mejora este tratamiento la evolución?) permite la

15
Principios generales

asignación del tratamiento y, por tanto, el diseño experimental. Para recurrir a la asignación, la
epidemiología primero debe redefinir la causa en estudio para convertir en positivos los efectos. Por
ejemplo, ¿qué pasará si introduzco esta ayuda para dejar de fumar?

Recuerde
Sólo las causas positivas son asignables.

La asignación permite utilizar las herramientas del diseño de experimentos para minimizar errores.
Pero además, también permite evaluar si, cuando se asigne la causa en estudio, los pacientes
seguirán el consejo.

Ejemplo 2.3 (continuación): En el seguimiento observacional de los pacientes hipertensos,


la primera asunción necesaria para aplicar los resultados a una intervención futura es que los
pacientes se visitarán con la frecuencia sugerida por el médico. En cambio, el estudio
experimental permite observar y cuantificar hasta qué punto los destinatarios de la
intervención han seguido las recomendaciones.

Recuerde
La asignación es crucial para valorar una intervención:
(1) minimiza errores por el diseño de experimentos, y
(2) permite observar si los asignados siguen las recomendaciones.

Pero los estudios experimentales no siempre ofrecen ventajas: para valorar la capacidad predictiva
de un indicador pronóstico, un seguimiento no experimental (“cohortes”) con muestreo aleatorio
representativo es mejor que un ensayo clínico con selectivos criterios de elegibilidad. Para valorar
la capacidad diagnóstica de un indicador, uno transversal es suficiente.

Recuerde
Los mejores diseños para valorar las capacidades diagnóstica y pronóstica son
observacionales, transversales y de seguimiento, respectivamente.

Ejercicio 2.4
¿En qué estudios el investigador “hace” y en qué estudios “ve”: cohortes, casos-
controles, ensayos clínicos, diagnósticos?

16
Bioestadística para no estadísticos

2.5.Preguntas sobre efectos frente a preguntas sobre causas


En el entorno de la relación ‘causa-efecto’, conviene distinguir entre preguntas sobre efectos y
preguntas sobre causas.

Ejercicio 2.5
Las dos siguientes preguntas ¿son sobre efectos o sobre causas?: (1) Si me tomo
una aspirina, ¿se me irá el dolor de cabeza? Y (2) se me ha ido el dolor de cabeza,
¿será porque me tomé una aspirina?

El establecimiento de la relación causal suele comportar dos pasos sucesivos. El primero, dado un
determinado efecto (una enfermedad, por ejemplo), desea explorar sus posibles determinantes, sus
causas. En el segundo paso, identificada una causa asignable, es decir, susceptible de ser
intervenida, desea confirmar y cuantificar el efecto que origina dicha intervención.

Nota: Tras relatar el paciente sus síntomas, la médica pregunta “¿Y Vd. a qué lo achaca?”. Tras proponer
la médica una intervención, el paciente pregunta: “Si sigo su consejo, ¿cómo cambiará mi evolución?”

Ejemplo 2.4: epidemias de asma en la Barcelona preolímpica. La respuesta a la pregunta


retrospectiva «¿cuáles son las causas del asma?» fue “descarga de soja en el puerto con
viento hacia el lugar de presentación de los casos”. El estudio de aquello que era susceptible
de intervención y aquello que, como el viento, no lo era, llevó a la pregunta prospectiva:
«¿conseguiremos reducir los brotes de agudización del asma reparando el silo y protegiendo
la descarga de soja?».

Recuerde
Puede explorar posibles causas o etiologías con estudios de cohortes o de casos y
controles bien diseñados.

2.6. Prospectivo y retrospectivo son ambiguos


Un primer uso de los términos prospectivo (P) y retrospectivo (R) hace referencia a la pregunta en
estudio: sobre efectos (P) o sobre causas (R).

Un segundo uso considera la estrategia de muestreo y recogida de datos, según la variable que
determina la inclusión en el estudio sea inicial (P: cohortes, ensayo clínico) o bien final (R: casos y
controles).

17
Principios generales

La segunda acepción implica una tercera: que los datos sean futuros (P) o pasados (R); lo que
implica recoger cada variable en el momento en el que sucede (P), o bien buscando en el pasado la
variable inicial (R).

Finalmente, un cuarto uso distingue si puede documentarse una hipótesis independiente (o previa)
de los datos (confirmatorios, P) o no (exploratorios, R).

Historieta: Feinstein ya alertó de esta ambigüedad y que especificar el estudio como “prospectivo
retrospectivo prospectivo” no ayuda mucho...

Ejercicio 2.6
Busque los términos ‘…pectivo’ en STROBE.

Ejercicio 2.7
¿Aconseja Strobe titular el estudio como retrospectivo o prospectivo?
1. Sí 2. No

Ejercicio 2.8
En su “BOX 1”, Strobe dice que los tipos de diseños cubiertos son:
1. Longitudinales y transversales
2. Prospectivos y retrospectivos
3. Cohortes, transversales (“cross-sectionals”) y casos-controles
4. Todos ellos

Recuerde
Strobe aconseja usar cohorte, caso-control y transversal.

Así, los términos ‘prospectivo’ y ‘retrospectivo’ tienen varios usos y concepciones, lo que
quebranta un principio fundamental de la ciencia: “un término, un significado”.

Recuerde
Evite, por su ambigüedad, los términos ‘prospectivo y retrospectivo’. En su lugar,
en los estudios observacionales especifique:
(1) la variable o criterio que desencadena la inclusión de un caso, y
(2) el momento de obtención de las demás variables.
Además, aclare:
(1) si había hipótesis previa (confirmatorio o exploratorio), y,
(2) en caso de pregunta causal, si es sobre causas o sobre efectos

18
Bioestadística para no estadísticos

2.7. Causas frente a condiciones


Intervenir implica cambiar algo, lo que requiere un
mínimo de dos valores para la variable causa. Puede
ser sustituir una opción terapéutica A por otra B. O
añadir un nuevo tratamiento C a la guía clínica. O
bien modificar los hábitos higiénico-dietéticos
eliminando (o añadiendo) alguno.

Hay que insistir en el término acción como


intervención. Atributos como la edad o el género son
útiles para hacer un pronóstico o una predicción: por
ejemplo, cabe esperar que una mujer viva alrededor
de 5 años más que un varón. Pero no son
modificables y, por tanto, no tiene sentido “intervenir” sobre ellos.

En consecuencia, desde un punto de vista práctico, de intervención, es irrelevante preguntarse si el


género o la edad tienen un efecto causal en, por ejemplo, la supervivencia. Pero es útil conocer su
capacidad pronóstica para anticipar el futuro.

Contra-Ejemplo 2.5: Para estimar el efecto del género en el salario se pregunta a


empleadores qué sueldo darían a una serie de trabajadores en cuyos currículos se asigna el
género al azar.

Ejercicio 2.9
En un ensayo clínico, la causa es la intervención, pero ¿qué variables son las
condiciones?

Recuerde
Ensayo clínico (Clinical trial): asigna voluntarios al azar a la intervención o a su
control y les sigue en el tiempo para evaluar diferencias en su evolución.

Cohortes (Cohort): en una población, observa la causa (exposición) y al cabo del


tiempo evalúa diferencias en su evolución.

Casos y controles (Case-control): investiga el pasado de participantes con y sin


la variable respuesta (casos y controles, respectivamente) para evaluar diferencias
en sus exposiciones (causas).

19
Principios generales

Transversal (Cross-sectional): las variables en estudio se observan


simultáneamente.

3. Principios estadísticos

3.1. Niveles de evidencia


La calidad de evidencia que un estudio puede aportar sobre una intervención suele graduarse en:
ensayos clínicos > longitudinales > transversales > casos anecdóticos.

Ejercicio 3.1
Argumente razones para esta jerarquía.

Recuerde
Esta gradación de la evidencia aplica sólo a la intervención.

Nota: Agregar una estrategia diagnóstica o pronóstica a una guía clínica es una intervención que debería
evaluarse mediante un ensayo clínico. P.ej., a unos centros se asigna la guía clásica y a otros la guía con
el nuevo indicador; y luego se mide la respuesta en los pacientes.

Meta-análisis es la técnica estadística para agregar información de varios estudios. Una revisión
sistemática, que incluye además una búsqueda formal y reproducible, aporta una visión más global
que la de estudios separados.

Recuerde
Revisión sistemática = búsqueda + meta-análisis (ambos protocolizados)

Nota: Algunos autores no distinguen entre revisión sistemática y meta-análisis.

3.2. Determinismo frente a variabilidad


Ejemplo 3.1: ¿Se hará de día mañana? Para afirmar que SÍ sólo necesitamos asumir cierta
igualdad entre pasado y futuro.

Ejemplo 3.2: ¿Lloverá mañana? Ahora, también hay que asumir igualdad entre pasado y
futuro, pero además necesitamos: (1) modelar de qué depende la lluvia; (2) tratar la
variabilidad; y (3) cuantificar la duda.

20
Bioestadística para no estadísticos

Considerar la variabilidad implícita en un proceso obliga a recurrir a la Estadística.

Recuerde
Si no hay variabilidad, puede olvidar la Estadística.

Si hay variabilidad, la Estadística cuantifica la incertidumbre.

3.3. Objetivos frente a hipótesis


Un objetivo es la motivación o finalidad subjetiva del estudio.

Historieta: los objetivos no son objetivos.

La hipótesis expresa sin ambigüedades y, en general, de forma cuantitativa, el criterio o


consecuencia contrastable en que se basará la conclusión.

Ejemplo 3.3: nuestro objetivo es demostrar el efecto hipotensor del ejercicio suave
sostenido; y la hipótesis, que la intervención conjunta, definida en el protocolo, de
enfermería más entrenamiento deportivo, comparados con el consejo de la guía clínica de
nuestro centro, baja el promedio de la presión sistólica durante el sexto mes en 10 mm Hg.

Ejemplo 3.4: nuestra finalidad es establecer que una pauta de 5 días es equivalente a la
habitual de 7 días. Nuestra hipótesis es que las proporciones de cultivos positivos difieren a
los 10 días, como mucho, en un 5%.

Ejemplo 3.5: nuestro objetivo es demostrar la capacidad diagnóstica del indicador T en


cuanto a la referencia R. Nuestras 2 hipótesis a rechazar son que tanto sensibilidad como
especificidad superan el 50%.

Ejercicio 3.2
¿Cuál de las siguientes NO es buen ejemplo de hipótesis?
1. Estimar el efecto en la PAS a las 2 semanas.
2. La PAS a las 2 semanas es 15 mmHg más baja en tratados que en controles.
3. La diferencia de la PAS a las 2 semanas entre ambos tratamientos activos es
menor de 5 mmHg.

21
Principios generales

3.4. Hipótesis frente a premisas


No todas las conjeturas iniciales tienen la misma importancia. Las premisas o asunciones son las
ideas acompañantes necesarias para contrastar las hipótesis.

Ejemplo 3.6: Para estudiar el efecto de un nuevo tratamiento es usual asumir (1) que el
efecto es el mismo (‘constante’) en todos los pacientes de la población objetivo; y (2) que la
respuesta es independiente de un paciente a otro. La primera premisa podría estar
comprometida en un ensayo clínico con criterios de elegibilidad excesivamente amplios. Y
la segunda, en una intervención grupal, como un consejo profiláctico en una clase de
adolescentes; o en los efectos de una vacuna, donde la probabilidad de contagio depende del
efecto en otros casos.

Así, el objetivo principal de un estudio confirmatorio es contrastar la hipótesis, asumiendo ciertas


premisas. Un objetivo secundario podría ser explorar el grado de verosimilitud de las premisas.

Ejemplo 3.7: La premisa de no interacción del efecto con diferentes condiciones puede ser
analizada mediante el estudio de subgrupos.

Ejemplo 3.8: Si la respuesta es numérica, un efecto homogéneo o constante (en lugar de


variable o aleatorio) en todos los casos se traduce en una igualdad de varianzas entre los
grupos, que puede ser observada.

Ejemplo 3.9: cierto estudio concluye que la dieta baja la proporción de pacientes con PAD
alta –definida según un umbral de 90 mm Hg. Es relevante justificar las razones de este
punto de corte. Pero es más importante comprobar que la elección de otros umbrales hubiera
llevado a la misma conclusión.

Recuerde
Más relevante que saber si las premisas son ciertas, es comprobar si se llega a la
misma conclusión partiendo de otras premisas.

Ejemplo 3.10: asumir normalidad permite recurrir a ciertas pruebas ‘paramétricas’ que
proporcionan medidas del efecto fáciles de interpretar y comunicar. Aquí, la pregunta clave
no es si dicha normalidad es cierta, sino “si se hubiera llegado a la misma conclusión si se
hubiera partido de otra premisa”.

22
Bioestadística para no estadísticos

Recuerde
La pregunta relevante sobre las premisas es si las conclusiones alcanzadas
dependen, “son sensibles”, a las premisas.

Ejercicio 3.3
Ordene de más a menos confirmatorio:
a) “Primero pondremos a prueba la normalidad de la variable según Saphiro
Wilk y según el resultado, haremos un T-test o un test de Wilcoxon Mann
Whitney”.
b) “Como en nuestra experiencia la respuesta sigue una distribución Normal, el
análisis principal es un T-test. Estudiamos la estabilidad de la conclusión con
un test de WMW”.

3.5. Estimación de parámetros frente a contraste de hipótesis


A partir de los datos de una muestra aleatoria, la estadística puede cuantificar la incertidumbre sobre
un parámetro mediante la oscilación esperada de su estimador (error estándar o típico). De forma
más positiva y prudente, propone intervalos de confianza (IC) entre cuyos extremos cabe esperar
que se encuentre dicho parámetro.

Ejemplo 3.11: En una muestra


aleatoria de 2000 afiliados a un
proveedor de servicios sanitarios, se
ha observado una proporción de 20%
de hipertensos (400/2000). Con una
confianza del 95%, la auténtica
proporción poblacional es algún valor
comprendido entre 18.3% y 21.8%.

Basado también en el azar, un ensayo


clínico podría rechazar la hipótesis de no
efecto de un nuevo tratamiento si el valor
de p fuera significativo (usualmente,
menor de 0.05).

23
Principios generales

Ejemplo 3.12: Asignados al azar 400 pacientes o bien a la guía clínica actual más un
simulador del tratamiento, o bien a la misma guía más el nuevo tratamiento en estudio, se
rechaza la hipótesis de no efecto adicional con un valor de p=0.0024.

Ejercicio 3.4
Las guías de publicación (Consort, Prisma, Strobe,…) ¿qué aconsejan: valores de
P o intervalos de confianza? ¿En qué puntos lo hacen?

Recuerde
Anteponga el IC al valor de p.

3.6. Multiplicidad
Para controlar la posibilidad de obtener resultados simplemente por azar, el proceso usual consiste
en definir una sola hipótesis que se contrastará en una variable respuesta con un único método de
análisis.

Nota: Una “expedición de pesca” en busca de hipótesis es muy loable, pero debe quedar clara la finalidad
exploratoria (“podría ser que…”) y evitar sentencias confirmatorias (“hemos rechazado la hipótesis de no
efecto”).

La existencia de un protocolo público, escrito antes de acceder a los resultados, garantiza que se ha
respetado el orden requerido en los estudios confirmatorios: primero la hipótesis y el plan
estadístico, luego los datos y finalmente el análisis.

3.7. Enmascarar
La estadística pretende cerrar cualquier otro camino que pueda explicar la relación entre las
variables de interés. Por eso, el punto 11 de CONSORT pide aclarar a quiénes, de todos los
participantes en el estudio, se les ocultó la intervención durante el estudio mediante alguna máscara
(p.e. un placebo o una simulación de una intervención quirúrgica). También el punto 11 de STARD
pide aclarar si los lectores de ambas pruebas diagnósticas conocían el resultado de la otra prueba.
STROBE no lo pide en ninguno de sus puntos, pero dice en su caja 3 dedicada a sesgos que “a
menudo es valioso enmascarar.”

Recuerde
Enmascarar dará más credibilidad a sus resultados

24
Bioestadística para no estadísticos

3.8. Error aleatorio frente a error sistemático


Las clases de estadística empiezan con la frase: “Sea X una variable aleatoria de la que tenemos una
muestra aleatoria”. A partir de aquí, se derivan métodos para cuantificar la posible influencia del
azar en la incertidumbre o ruido del muestreo. Aplicado a la señal obtenida, se dispone de
estimaciones de los valores poblacionales (vea ejemplo 3.10).

Recuerde
La estadística proporciona instrumentos para cuantificar la incertidumbre
originada por un proceso aleatorio.

Si la muestra no es aleatoria, hay que recordar que existen otras fuentes de error no contempladas
por las herramientas estadísticas.

Ejemplo 3.13: se observa que un 50% (50/100) de casos de Botulismo registrados en cierta
comunidad en cierto periodo fallecieron. Para cuantificar la incertidumbre de esta
estimación es necesario considerar las dos fuentes de incertidumbre, aleatoria y no aleatoria,
en dos pasos sucesivos. Para el primero, se asume que todos los habitantes de esa
comunidad tienen la misma probabilidad de contraer botulismo. Si además se asume que
dichas probabilidades son independientes entre sí, ya se dispone de los mecanismos que
hubieran originado una muestra aleatoria simple y puede cuantificarse el error aleatorio
mediante un intervalo de confianza. Por ejemplo, cierto cálculo adecuado para muestras
pequeñas (basado en la D. Binomial) dice que, si los 100 casos proceden al azar de una
población, observar 50 muertes es compatible con probabilidades de fallecer en la población
comprendidas entre 39.83 y 60.17% —con una confianza del 95%. El segundo paso consiste
en cuestionar si todos los casos de Botulismo fueron detectados. Si, por ejemplo, cabe
esperar que la mitad de las muertes por Botulismo no fueran diagnosticadas como tales,
deberíamos añadir 50 casos al numerador y al denominador, subiendo la mortalidad al 66%
(100/150). En cambio, si lo que cabía esperar es que los casos leves no se diagnosticaran y
su número se estima igual al de los casos diagnosticados, ahora deben añadirse 50 casos,
pero sólo al denominador, resultando en una mortalidad del 33% (50/150).

El ejemplo anterior muestra que la incertidumbre (del 33.33% al 66.67%) debida al error
sistemático por imprecisiones en la recogida de los datos puede ser mayor que el error contemplado
por un proceso aleatorio puro (IC95%: 39.83% al 60.17%).

25
Principios generales

Ejercicio 3.5
Explique porqué es preferible una encuesta electoral basada en 100 personas al
azar de la lista de votantes que en 1000 amigos del autor.

Recuerde
Una muestra aleatoria es representativa.

El error originado por una obtención no


aleatoria de los datos puede ir en cualquier
sentido, por lo que se denomina sesgo
impredecible.

Lectura: Una interesante monografía para la


agencia de tecnología sanitaria inglesa de
Deeks et al muestra que los estudios no
aleatorizados tienen una mayor imprecisión
que no contemplan las medidas estadísticas de
error aleatorio ni corrigen las técnicas de
ajuste.

Recuerde
Los estudios sin proceso aleatorio adolecen de un “sesgo impredecible” que debe
ser resaltado en la discusión.

3.9. Saber (ciencia) frente a hacer (técnica)


Para interpretar correctamente los resultados hay que distinguir entre el objetivo del científico
(adquirir conocimiento) y el del clínico (tomar decisiones).

Aumentar el conocimiento disponible requiere inducción. Aplicarlo, deducción.

La inferencia adquiere conocimiento valorando las pruebas científicas («evidencia») a favor o en


contra de los modelos establecidos. Por otro lado, el acto médico, las medidas de salud pública, la
gestión de recursos o el permiso de comercializar un nuevo fármaco implican un proceso de
decisión con riesgos asociados a dos posibles acciones no deseadas.

26
Bioestadística para no estadísticos

Ejemplo 3.14: Tras el desastre de la Talidomida, la Food and Drug Administration (FDA)
incorporó un mecanismo de decisión para autorizar medicamentos que limita las
probabilidades de dos actos erróneos: (I) poner en el mercado un fármaco no eficaz; y (II)
“devolver a I+D” uno eficaz. Al riesgo de cometer el primer error se conoce como y se
desea que no supere un 2.5% (unilateral); y al riesgo de cometer el segundo, , con un
máximo del 20%.

Nota: Veremos en el módulo 3 cómo limitar los riesgos ( y ) de tomar decisiones erróneas (errores tipo
I y II).

Lectura: El estadístico Edward Deming influyó en los planteamientos de la FDA.

Recuerde
Distinga entre almacenes de conocimiento (revistas, bibliotecas, colaboraciones
Cochrane o Campbell) y órganos de decisión (agencias reguladoras o de salud
pública, departamentos de farmacia).

Lo que hacemos debe basarse en lo que sabemos, pero también en las posibles consecuencias. El
proceso de decisión incluye la inferencia, pero también las opiniones sobre los posibles resultados:
utilidad, coste, preferencias, o cualquier función de pérdida.

Ejemplo 3.15: Antes de usar el paracaídas en un salto desde mil metros de altura, nadie
preguntaría por el ensayo aleatorizado y enmascarado que aporte las pruebas científicas
sobre el efecto beneficioso del paracaídas.

Recuerde
El conocimiento en sí mismo no tiene implicaciones, pero las acciones y las
decisiones que se toman en base al mismo, sí.

Como las consecuencias (utilidades, beneficios, costes, etc.) de las alternativas en consideración y
su valoración por los destinatarios de la misma pueden variar de un entorno a otro, es más fácil
establecer un conocimiento común, que recomendar acciones comunes. La teoría de la decisión
racionaliza el paso desde un artículo científico “universal” a una guía de práctica clínica ‘local’.

Recuerde
El conocimiento aspira a ser universal, las decisiones son locales.

27
Principios generales

Ejercicio 3.6
El ejemplo del paracaídas, ¿a qué tipo de intervenciones sanitarias hace
referencia? ¿Por qué cree que evita hacer analogía con intervenciones
farmacológicas?

Recuerde
Las reglas formales de la Ciencia para adquirir conocimiento (inferencia) son
diferentes de las de la Técnica para adoptar medidas (decisión).

Ejercicio 3.7
La evidencia empírica que se pide a un fármaco nuevo para poder ser aplicado a
todos los pacientes es de mayor calidad que la disponible sobre los efectos
negativos del tabaco. ¿En qué se basa la decisión de poner en las cajetillas “el
tabaco mata”?

La técnica usa los métodos estadísticos para proponer sistemas que mejoren nuestro entorno. La
parte final del I+D de un producto requiere probar empíricamente y documentar a los usuarios sus
propiedades.

Recuerde
La ciencia quiere ser contrastable y la técnica, documentable.

28
Bioestadística para no estadísticos

Soluciones a los ejercicios

1.1. Las leyes de Mendel. La ‘independencia’ en las transmisiones es un modelo al que se ajustan, más o
menos, diferentes genes.

1.2. Abstractos, gráficos y conceptuales.

1.3. Calidad y transparencia: En su cabecera, aclara que su finalidad es “Mejorar la calidad y la transparencia
de la investigación en salud”.

1.4. En la versión en español, en la pestaña ‘biblioteca’ facilita el acceso a Consort (Ensayos clínicos), Strobe
(estudios observacionales), Prisma (revisiones sistemáticas), Squire (mejora de la calidad asistencial) y
Trend (ensayos de intervención no aleatorizados).

1.5. Por ejemplo, las más clínicas son: 2a, 4a, 4b, 5, 14b, 19, 21 y 22. Y las más estadísticas son: 2b, 3a, 3b,
7a, 7b, 8a, 8b, 9, 10, 12a, 12b, 16, 17a y 17b. El resto combinan habilidades de ambas disciplinas.

1.6. Todas son peligrosas. Como se verá más adelante, las pérdidas después de la asignación de la
intervención (excluidos del análisis, pérdidas de seguimiento, o que no recibieron la intervención)
atentan a la comparabilidad de los grupos; mientras que las pérdidas previas (rechazaron participar)
amenazan a la integridad de la población objetivo.

1.7. No, Fleming lanzó una muy interesante hipótesis, que pudo confirmar al replicarlo. Los empiristas
sostenemos que es más importante (1) saber cómo cambiar el futuro sin, quizás, acabar de entender las
razones; qué (2) tener una completa y coherente construcción teórica que no permita cambiar el futuro.
Por supuesto, tener un modelo conceptual que explique las razones es muy útil para proponer
intervenciones nuevas y mejores.

1.8. Por prudencia, no debemos sustituir la coma ‘,’ de la primera frase por un verbo causal: “ejercicio
moderado disminuye ECV”. Como no lo dice explícitamente, más vale interpretar como simple
asociación (“ejercicio y ECV están relacionados / van juntos”) que como relación causal. Por tanto, la
predicción sería correcta, pero no la intervención.

1.9. Medidas del efecto en estudios de intervención. Y medidas de la reducción de la incertidumbre en


estudios pronósticos.

2.1. Los estudios de intervención y los estudios pronósticos.

2.2. Cierto.

2.3. Cierto. Atención a los términos ‘causa’ y ‘efecto’ que deberán ser definidos.

29
Principios generales

2.4. En los estudios de cohortes, casos-controles y diagnósticos el investigador “ve” y en los ensayos clínicos
el investigador “hace”.

2.5. La primera pregunta es sobre los efectos de la “causa” aspirina, en cambio la segunda es sobre las causas
de la desaparición del “efecto” dolor de cabeza.

2.6. Aparecen desaconsejando su uso en las explicaciones del punto 4, pero NO en las recomendaciones
contenidas en los puntos de la guía. Por tanto, no hay que recurrir a estos términos para explicar el
diseño del estudio. [Pero los autores no siguen sus recomendaciones ya que: (1) en el punto 6a escogen
un ejemplo que usa el término ‘retrospectivo’ para aclarar el diseño (¡de un estudio transversal!); y (2)
en el punto 10 de tamaño muestral, al alertar del absurdo de los cálculos de potencia post-estudio, los
llaman ‘retrospectivos’. A su favor, nótese que sus 2 usos no conducen a ninguna ambigüedad.]

2.7. No, Strobe evita estos términos. De hecho, el punto 3 dice: “We recommend that authors refrain from
simply calling a study 'prospective' or 'retrospective' because these terms are ill defined”

2.8. La respuesta correcta es: de cohortes, transversales (“cross-sectionals”) y casos-control.

2.9. Los criterios de selección o elegibilidad del paciente y las variables del entorno y de los investigadores.

3.1. En otros módulos se explica a fondo. Digamos que (4) < (3) porque los casos anecdóticos no permiten un
análisis estadístico que incluya medidas de incertidumbre; que (3)<(2) porque los transversales no
permiten ver el orden natural entre efecto y causa (y por tanto queda la duda de qué variable “tira” de
qué variable); y que (2)<(1) porque los ensayos clínicos, al asignar la intervención, pueden conseguir
grupos comparables; y al asignar de forma aleatoria tienen una base lógica para la inferencia estadística
recuerde el sesgo impredecible: si no hay azar, ¿qué mide el error estándar?

3.2. La respuesta correcta es: “estimar el efecto diferencial en la PAS a las 2 semanas entre tratados y
controles”, ya que no pretende contrastar una hipótesis sino conocer la magnitud de un efecto, quizás
con un IC95% [por supuesto, este IC contestará también a la pregunta de si su diferencia es 0].

3.3. La b), ya que pre-especifica completamente el análisis, mientras que la primera, los resultados guían, de
alguna manera, el análisis. Además, la b) es más ambiciosa, ya que requiere más resultados
convincentes.
Nota técnica: Además la a) carece de fundamento estadístico: la prueba de Shapiro Wilk dará más veces
significativo cuanto mayor sea el tamaño del estudio, que es cuanto menos importante es la premisa de
normalidad para hacer el t-Test.

3.4. Intervalos de confianza. En el primer punto de resultados.

30
Bioestadística para no estadísticos

3.5. En la aleatoria podemos cuantificar la influencia del azar. En la de los amigos, no sabemos cómo
cuantificar sus ‘tendencias’. Una muestra será ‘representativa’ si es al azar [Nada que ver con su
tamaño.]

3.6. Hace referencia a intervenciones preventivas sobre hábitos de vida. Al hacer el balance beneficio/riesgo,
considera que no tiene las mismas consecuencias (riesgos, costes) aconsejar algo “habitual” en cierta
parte de la población (p.e., disponemos de datos de generaciones enteras sobre la seguridad de la dieta
mediterránea), que aconsejar ingerir un nuevo producto —inexistente en el pasado y, por tanto, con
limitada información sobre su seguridad. Sugiere que no necesitamos el mismo nivel de evidencia para
poner en una guía de práctica clínica un fármaco que hábitos saludables bien conocidos.

3.7. En las consecuencias. La decisión sobre el tabaco puede llevar a 2 posibles errores: (1) no tomar medidas
preventivas cuando el tabaco sí que tiene efectos negativos; y (2) tomar dichas medidas cuando en
realidad el efecto está, por ejemplo, en otro producto que va junto al tabaco. Las consecuencias del
primer error se cifran en unas 50.000 muertes anuales sólo en España. Las posibles consecuencias del
segundo no son comparables. La “función de pérdida” lleva a tomar la decisión que evite el primer error.
Por supuesto, el balance entre decisiones colectivas y personales es delicado.

31
Capítulo 2:

Introducción a R:
Primeros pasos

Jordi Cortés, José Antonio González


Erik Cobo, Marta Vilaró, Rosario Peláez y Nerea Bielsa

Septiembre 2014
Principios generales

Introducción a R

Presentación.................................................................................................................................... 3
1. Visión general ......................................................................................................................... 4
1.1. Instalación ............................................................................................................................ 5
1.1.1. Instalación de R...................................................................................................................... 5
1.1.2. Instalación de RStudio ........................................................................................................... 5
1.2. Interfaz de RStudio .............................................................................................................. 6
1.3. Primeros pasos ..................................................................................................................... 8
1.3.1. Instrucciones .......................................................................................................................... 8
1.3.2. Objetos ................................................................................................................................... 9
1.3.3. Funciones ............................................................................................................................. 10
1.3.4. Instalar paquetes ................................................................................................................... 11
1.3.5. Ayuda ................................................................................................................................... 12
1.3.6. Cierre de la sesión. ............................................................................................................... 13
2. Organizarla información ..................................................................................................... 14
3. Acceder y modificar datos ................................................................................................... 16
4. Importar datos ...................................................................................................................... 18
4.1. Lectura ............................................................................................................................... 19
4.2. Vista ................................................................................................................................... 20
4.3. Descriptiva global y tipos de variables .............................................................................. 20
4.4. Datos ausentes: “missings” ................................................................................................ 22
4.5. Validación .......................................................................................................................... 23
5. R-Comander ......................................................................................................................... 24
6. Referencias ............................................................................................................................ 24
Soluciones a los ejercicios ............................................................................................................ 25

2
Bioestadística para no estadísticos

Presentación
Este capítulo le ayudará en sus primeros pasos con el nuevo líder de los paquetes estadísticos. El
código de R es público: todo el mundo puede usarlo, revisarlo, criticarlo y mejorarlo. Así, con R,
los resultados de su investigación son más transparentes. Nuestra Universidad apuesta, tan fuerte
como puede, por programas libres.

Por supuesto, habituarse a un nuevo programa requiere paciencia. No se desespere, piense que
profundizará en R a lo largo del curso.

Algunos consejos son: (1) siga las instrucciones, instale los programas y haga los ejercicios; (2)
revise los vídeos “iniciáticos” de la página web del curso; (3) consulte a su tutor o cuelgue sus
dudas en la web; (4) como con otros programas, intercambie experiencias con sus colegas; y (5)
vaya aplicando las intrucciones a sus propios datos.

Nosotros podemos ayudarle a “entender”. Ayúdese Vd. a “retener”.

Contribuciones: (1) versión original de marzo 2013, JC, autor, y JAG, editor, con la colaboración de MV y
RP; y (2) revisado en agosto de 2014 por NB y EC.

3
1. Visión general

R es un software libre para el análisis estadístico de datos.

Lecturas: Dicen Rius y Gonzalez en Medicina Clínica: “Que el software sea libre o privativo es una
cuestión legal. Decimos que un determinado programa es libre si quien lo usa ostenta 4 derechos
específicos sobre éste. A saber, el derecho a usar el programa con cualquier finalidad, el derecho a
estudiar el programa, el derecho a compartir el programa y, finalmente, el derecho a mejorar el programa
y distribuir la nueva versión.. Un software sobre el cual los usuarios no ostentan alguno de los derechos
anteriores es un software privativo”.

Nota: Se basó en el programa comercial S+.

Nace en la segunda mitad de los años noventa y ha ganado popularidad ya que: 1) su adquisición es
gratuita; 2) se pueden llevar a cabo los mismos análisis estadísticos que con S+; 3) estadísticos de
todo el mundo contribuyen con paquetes que permiten realizar análisis cada vez más específicos y
sofisticados; y 4) posee una versatilidad gráfica única destacando su variedad y facilidad de
adaptación.

Funciona por comandos, lo que requiere introducir instrucciones que Vd. debe conocer
previamente. Ello garantiza que cada uno hace lo que sabe y sabe lo que hace. Así, al inicio es algo
farragoso, pero a larga garantiza mayor fiabilidad de los resultados.

La ayuda de R, con un “?” interrogante, explica detalladamente cada instrucción.

Existen interfaces que facilitan trabajar con R: RStudio abre y edita más códigos y más opciones
que el R convencional. Por ejemplo, permite comprobar rápidamente si existe algún paréntesis sin
cerrar; o ver el contenido de unos datos con un solo clic de ratón.
Bioestadística para no estadísticos

1.1. Instalación

1.1.1. Instalación de R
Ejecute ahora los siguientes pasos para instalar R.

Instalación de R

1. Abra la página web de R: http://www.r-project.org/.


2. Haga clic en ‘CRAN’ y, a continuación escoja uno de los servidores (mirrors) de CRAN
(Comprehensive R Archive Network).
3. Según el sistema operativo, haga clic en Linux, MacOS X o Windows y siga las instrucciones
correspondientes.
4. Si usa Windows, haga clic en ‘base’ y a continuación en ‘Download R 3.x.y for Windows’, en
donde x e y indican la versión actual de R.
5. Guarde el fichero.
6. Ejecute el fichero desde la carpeta en la cual fue guardado y siga las instrucciones de
instalación.

NOTA: De esta manera instala la versión básica de R con los paquetes básicos. Cuando sea preciso,
explicaremos cómo instalar algún otro de los más de mil paquetes contribuidos.

1.1.2. Instalación de RStudio


Ejecute ahora los siguientes pasos para instalar RStudio.

Instalación de RStudio

1. Abra la página web de RStudio: http://www.rstudio.com/


2. Clique en ‘Download now’  ‘Download RStudio Desktop’
3. Clique en la versión recomendada: ‘RecommendedForYourSystem’
4. Guarde el fichero
5. Ejecute el fichero desde la carpeta en la cual fue guardado y siga las instrucciones de instalación

5
Introducción a R

1.2. Interfaz de RStudio


La Figura 1.1 muestra la estructura básica, por defecto, de RStudio

A C

B D

Figura 1.1. Interfaz por defecto del editor RStudio.

La interfaz consta de las siguientes 4 ventanas:


A) Script. Para escribir el código de análisis. No está presente la primera vez: cree uno nuevo con
File → New → R Script.
B) Consola. Donde se envían las instrucciones del script para ser ejecutadas y donde aparecen los
resultados.
C) Se subdivide en 2 subventanas:
a. Workspace (Área de trabajo). Lista de todos los objetos (variables, datos, funciones…)
de la sesión actual.
b. History (Historia). Lista de todas las instrucciones ejecutadas desde el inicio de la
sesión.
D) Se subdivide en 4 subventanas:
a. Files (Archivos). Lista de los ficheros en el directorio de trabajo (similar al explorador
de windows).

6
Bioestadística para no estadísticos

b. Plots (Gráficos). Contiene todos los gráficos realizados durante la sesión. Con las
flechas puede ir adelante y atrás en la búsqueda de gráficos.
c. Packages (Paquetes). Ventana destinada a la instalación de paquetes.
d. Help (Ayuda). Ventana donde aparece la ayuda de R cuando se solicita.

NOTA: Esta interfaz puede modificarse de forma sencilla a través de Tools → Options → PaneLayout.
Permite redistribuir o eliminar las ventanas según sus preferencias.

Al ver esta interficie diferente de la de otros paquetes estadísticos pueden surgir algunas dudas:

¿Porqué conviene utilizar un script?

Si trabaja por menús, los análisis realizados no siempre se almacenan. Al guardar todo el proceso de
análisis en un fichero de texto con extensión .R podrá reproducir y documentar en todo momento el
análisis realizado.

Más importante es conseguir una investigación transparente y reproducible: programarlo con


antelación y documentarlo en un Plan de Análisis Estadístico garantiza que los resultados no guian
el análisis.

¿Qué aporta el workspace (área de trabajo)?

En ocasiones, conviene disponer de variables o funciones creadas por uno mismo; o de de datos
complementarios. En el workspace aparecen enumerados todos estos ítems y se puede acceder a su
contenido clicando sobre ellos.

¿Qué aporta el history (historial)?

En la subventana de historial se guardan todos los comandos ejecutados en la sesión. Es útil para
ver cómo se ha llegado hasta cierto punto. En la consola también se dispone del historial de
instrucciones, pero mezclado con los resultados obtenidos.

¿Es la ventana gráfica pequeña?

Si se requiere ver el gráfico en un tamaño mayor del que ofrece la subventana de gráficos, la opción
windows ( ) permite abrir una nueva ventana del tamaño deseado.

7
Introducción a R

1.3. Primeros pasos

1.3.1. Instrucciones
Puede ejecutar las instrucciones directamente de la consola o a través de un script o programa.

Consola. El indicador o prompt del sistema es el signo >. A continuación del mismo, se escriben
las instrucciones seguidas de un Enter. En ese momento, el programa examinará la sentencia y: (1)
si es correcta, la ejecutará; (2) si no lo es, mostrará un mensaje de error; y (3) si es incompleta,
mostrará el signo +, indicando que espera que complete la orden en la línea siguiente.

Ejercicio 1.1
Ejecute los siguientes comandos en la consola y describa que ocurre:
> 2+3
> 2 + "a"
> 2 +

NOTA: Es posible navegar entre los comandos ejecutados previamente mediante las teclas ↑ y ↓. La tecla
Esc permite reiniciar la actual línea en edición y la combinación 'Ctrl+C' interrumpe la edición o
ejecución en curso.

Script. Es más práctico y eficiente crear un código que contenga las instrucciones. Se abre un script
nuevo desde la barra de herramientas mediante: File → New → R script. Diferentes comandos irán
en distintas líneas o bien separados por ";". Para ejecutarlos, se tienen que seleccionar y clicar en el
botón (o bien con la combinación de teclas 'Ctrl+R' o 'Ctrl+Enter'). Los resultados
aparecerán en la consola.

Ejercicio 1.2
Cree el siguiente script y ejecute línea por línea con 'Ctrl+Enter'

pi
5*3 ; 6/2
3 + 4 # debería dar 7

NOTA: El signo # indica la introducción de un comentario que puede ser útil para clarificar algún
comando.

8
Bioestadística para no estadísticos

1.3.2. Objetos
¿Qué son? En R, todo es un objeto: un conjunto de datos, una variable, un valor, una función.
Sobre estos objetos se aplican operaciones.
NOTA: La “programación orientada a objetos” tiene muchas ventajas, por ejemplo, que se pueden
‘heredar’ operaciones entre diferentes objetos. Vea esta entrada en Wikipedia.
Nombre. El nombre de un objeto de R puede ser cualquier cadena alfanumérica formada por letras
(R distingue entre mayúsculas y minúsculas), dígitos del 0 al 9 (nunca en primera posición del
nombre) y los signos "." y "_" (punto y guion bajo). Por ejemplo, Exp1289 o muestra.ini son
nombres válidos.
NOTA: mejor no usar ciertas palabras que R se reserva, como los nombres de las instrucciones de su
lenguaje de programación (break, for, function, if, in, next, repeat, return, while) o los de las funciones
incorporadas.

Asignaciones. Puede dar valor a un objeto con los signos "=", "<-", y"->".

Ejercicio 1.3
Realice las siguientes asignaciones:

> n <- 5*2 + sqrt(144)


> m = 4^0.5
> n + m -> p

Escriba el nombre de un objeto para ver el contenido.

Ejemplo R

# Ejemplo para ver distintos objetos

> n
[1] 22
> m ; p
[1] 2
[1] 24
> log
function (x, base = exp(1)) .Primitive("log")

Observe que si el objeto es una función (‘log’), R muestra lo que ejecuta.

NOTA: para algunos objetos, también puede clicar sobre su nombre en la ventana Workspace

9
Introducción a R

Lista de objetos. El comando ls proporciona el listado de objetos presentes en la sesión de trabajo


actual.

Ejemplo R

# Lista los objetos en memoria

> ls()
[1] "n" "m" "p"

1.3.3. Funciones
Las funciones son instrucciones que realizan operaciones sobre objetos.

Ejemplo R

# logaritmo natural de n=22; log(22)=3.091

> log(n)
[1] 3.091042

NOTA: ‘log’ se refiere al logaritmo natural, con base e=2.71, no al decimal, con base 10.

Nota técnica: los objetos que necesita una función para ejecutarse se denominan parámetros o
argumentos de entrada. En el caso de la función log tiene un parámetro obligatorio (el número del cual se
desea calcular el logaritmo) y uno opcional (la base en la que se calcula, que si no se especifica, se
sobrentiende que es el logaritmo natural de base e)

Sintaxis. Se escribe el nombre de la función seguida de un paréntesis que contiene los parámetros
(separados por comas) con la información necesaria para que se ejecute.

Ejemplo R

# Cálculo del valor máximo de n y p


> max(n,p)
[1] 24

Creación. Puede crear funciones propias con la instrucción function: introduzca entre paréntesis los
parámetros de entrada (objetos necesarios para que se ejecute) y a continuación, entre llaves, los
comandos a realizar.

10
Bioestadística para no estadísticos

Ejemplo R

# Cálculo del máximo y el mínimo de una variable

max.min <- function(x) {


print(max(x))
print(min(x))
}
edad <- c(20,21,20,22,23,20,25,26,20,21)
max.min(x=edad)

NOTA: Si desea que proporcione (“retorne”) un resultado, finalice con la instrucción return( ) y el
resultado entre paréntesis.

Ejercicio 1.4
Construya una función llamada IMC que calcule el 'Indice de Masa Corporal a
partir del peso (en Kg) y la altura (en m).

La función debe tener dos parámetros de entrada.

1.3.4. Instalar paquetes


Un paquete es un conjunto de funciones sobre un tema concreto. Para análisis específicos o
sofisticados, se deben instalar paquetes adicionales.

Para usar un paquete se hacen 2 pasos: 1) Instalarlo (desde CRAN) y 2) Cargarlo (ponerlo) en
memoria. La pestaña Packages (Paquetes) de la ventana D contiene la lista y una breve descripción
de todos los paquetes instalados. El símbolo  indica que, además, está cargado. Si desea cargar un
paquete ya instalado, marque con un  el paquete en cuestión. Clicando en el icono ,
se instalan otros paquetes especificando el nombre del mismo. Por ejemplo, el paquete survival
contiene funciones para el análisis de supervivencia.

NOTA: En el menú Packages de la página http://cran.r-project.org/ están todos los paquetes disponibles.

NOTA: La primera vez que instale un paquete, R le preguntará el país desde dónde desea descargarlo
(aunque el tiempo de descarga no difiere en exceso). Una vez instalado un paquete en un ordenador, no se
necesitará instalarlo más, pero sí que se deberá cargar clicando  en el paquete. Una alternativa para
instalar y cargar los paquetes por comandos es con las instrucciones install.packages y library.

11
Introducción a R

Ejemplo R

# Instalación de un paquete

> install.packages ('sudoku') # instalar paquete


> library (sudoku) # cargar paquete
> windows ( ) # ventana del tablero
> playSudoku ( ) # ya se puede jugar!

1.3.5. Ayuda
Vídeos. Encontrará muchos en la red. Los de nuestra página están pensados para Vd.

Manuales. R dispone de manuales a los cuales se accede vía la barra de herramientas: Help → R
Help. En la subventana de ayuda aparecerá, entre otras cosas, una lista de manuales.

Instrucciones. El comando help y '?' dan información específica sobre funciones

Ejemplo R

> help(log)
> ?ls

Paquetes. El comando library( )abre una ventana con información sobre los paquetes instalados en
R. Para obtener más información sobre estos paquetes, use las funciones library y help
conjuntamente.

Ejemplo R

> library(help="foreign")

NOTA: Otra posibilidad para obtener esta información es accediendo a ella desde la barra de
herramientas Help → R Help y después, en la página que se abre, hacer clic en 'Packages' y en el paquete
correspondiente.

Temas. La función help.search busca ayuda sobre un tema concreto entre todos los paquetes
instalados.

Ejemplo R

> help.search("logistic regression")


> help.search("R help")

12
Bioestadística para no estadísticos

Foros. La función RSiteSearch busca las palabras de interés entre todos los mensajes enviados a las
listas de ayuda de correo electrónico de R; por ejemplo, para hallar información sobre la prueba de
Hosmer Lemeshow.

Ejemplo R

> RSiteSearch("Hosmer Lemeshow test")

Ejercicio 1.5
(1) Instale el paquete survival, (2) busque la ayuda sobre la instrucción plot.survfit
y (3) ejecute las instrucciones que aparecen en el ejemplo (al final de la ayuda)

1.3.6. Cierre de la sesión.


Guardar/Cargar histórico. Puede guardar los comandos ejecutados hasta el momento clicando en
el icono de disco ( ) en la pestaña History de la ventana C. Es posible cargar el histórico de otra
sesión mediante el icono de carpeta ( ) en la misma pestaña. De esta manera pasará los comandos
de la sesión anterior a un script ( ) o a la consola directamente ( ).

NOTA: Otra posibilidad es guardar y cargar el historial con las instrucciones savehistory y loadhistory,
respectivamente.

Guardar/Cargar área de trabajo. Si quiere volver a utilizar los objetos de R en uso, guarde el
contenido de la sesión clicando en el icono del disco ( ) en la pestaña Workspace de la ventana
C.Y cárguelos con el icono de la carpeta ( ).

NOTA: Otra posibilidad es guardar y cargar el área de trabajo con las instrucciones save.image y
load.image, respectivamente.

NOTA: Durante una sesión se pueden cargar diferentes áreas de trabajo.

NOTA: Si desea guardar solamente algunos de los elementos, por ejemplo los objetos x e y, tiene 2
opciones: o eliminar primero los demás objetos con la función rm() y después usar la función
save.image(); o usar la función save:

> save(x,y,file="nombredearchivo.RData")

Salir del programa. Con la orden q( ) abandona R. Antes de cerrarse, R pregunta al usuario si
quiere guardar el actual espacio de trabajo en el fichero .RData en la carpeta de trabajo actual –
conjuntamente con el histórico de la sesión.

13
Introducción a R

Indicar el directorio. Para hacer referencia a algún fichero de disco debe utilizar la dirección entre
comillas con la barra / o las barras \\ entre subcarpetas.

Ejemplo R

> save.image
("C:/Archivos de programa/R/nombre.RData")

2. Organizarla información

Los datos son la materia prima de la Estadística. Este punto muestra estructuras para almacenar
datos, vectores y data.frames en R.

Vectores. Se usan para almacenar el contenido de una variable. Es un conjunto de elementos del
mismo tipo (numérico o carácter). Se crean con la instrucción c ( ) poniendo en el interior del
paréntesis todos sus elementos separados por comas.

Ejemplo R

# Creación de la variable edad de 8 individuos

> edad <- c(20,21,20,22,23,20,25,26)


> edad
[1] 20 21 20 22 23 20 25 26

# Creación de la variable genero de 8 individuos

> genero <- c("h","h","h","h","h","m","m","m")


> genero
[1] "h" "h" "h" "h" "h" "m" "m" "m"

NOTA: El [1] que aparece al principio de la salida indica la posición (orden) que ocupa el primer
elemento de la fila. Es útil cuando la variable es muy larga. Para crear variables de caracteres, se deben
poner los valores entre comillas simples (') o dobles (").

Data.frames. Son los conjuntos de datos habituales que constan de varias variables, sean numéricas
o categóricas. Normalmente, las filas representan los individuos y las columnas, las variables. Es el
tipo por defecto cuando se lee un fichero de datos. También es posible crearlo con la instrucción
data.frame.

14
Bioestadística para no estadísticos

Ejemplo R

# Creación y vista de un data.frame

> Edad <- c(64,52,61,73)


> Genero <- c('H','M','M','H')
> df <- data.frame(Edad,Genero)
> df
Edad Genero
1 64 H
2 52 M
3 61 M
4 73 H

La instrucción edit permite introducir directamente los datos en las celdas de un data.frame. Puede
asignar el resultado al mismo objeto o a uno nuevo.

Ejemplo R

# Editar los datos

> df <- edit(df)

NOTA: Existen otras formas de almacenar los datos:(1) Matrices (matrix), similares al data.frame, pero
sólo con variables numéricas; (2) Arrays (array), útiles para datos con más de dos dimensiones (por
ejemplo, repeticiones de variables); y (3) Listas (list), que contienen una combinación de cualquiera de las
anteriores y otras no mencionadas.

Ejercicio 2.1
Cree un data.frame (con valores inventados) de 4 individuos con las variables:
nombre, peso, altura y IMC.

15
Introducción a R

3. Acceder y modificar datos

Acceda a una observación concreta de un vector (variable) poniendo la posición entre corchetes, y
modifíquela asignando un valor a la posición.

Ejemplo R

# Consultas
> Edad
[1] 64 52 61 150
> Edad[3]
[1] 61
# Modificación
> Edad[4] <- 50
> Edad
[1] 64 52 61 50

Para ver un data.frame completo, existen varias alternativas:


1. Clicar en el nombre del data.frame en la pestaña del workspace de la ventana C.
2. Con la instrucción edit, poner entre parentésis el nombre del data.frame: edit(df)
3. Escribir el nombre del data.frame en la consola: df

Para acceder a una observación concreta del data.frame:


1. Por la posición: [número de fila, número de columna]
2. Por los nombres: ["nombre de fila" , "nombre de columna"] (por defecto, los nombres de las
filas son su número de orden y los de las columnas los nombres de las variables iniciales. Se
modifican con los comandos rownames y colnames)

Ejemplo R
# Valor concreto por la posición
> df[4,1]
[1] 73
# Valor concreto por los nombres
> df["4","Edad"]
[1] 73

Para ver únicamente una variable del data.frame:


1. Por la posición: [ , número de columna]
2. Por el nombre: [ , "nombre de columna"]
3. Por el nombre separadado por un $.

16
Bioestadística para no estadísticos

Ejemplo R

# Variable por la posición


> df[,2]
[1] H M M H
Levels: H M
# Variable por el nombre de la columna
> df [,"Genero"]
[1] H M M H
Levels: H M
> df$Genero
[1] H M M H
Levels: H M

Los niveles (Levels) que apararecen al final de la salida en una variable alfanumérica hacen
referencia a los diferentes niveles (categorias) de la variable.

Para ver únicamente un individuo del data.frame:


1. Por la posición: [número de fila, ]
2. Por el nombre: ["nombre de fila" , ]

Ejemplo R

# Individuo por la posición


> df[2,]
Edad Genero
2 52 M
# Individuo por el nombre de la fila
> df["2",]
Edad Genero
2 52 M

La instrucción head permite ver únicamente un número determinado de observaciones, útil en


data.frames extensos.

Ejemplo R

# Ver los tres primeros individuos


> head(df,3)
Edad Genero
1 64 H
2 52 M
3 61 M

Para modificar un data.frame, al igual que pasaba con los vectores, asigne un valor o varios a la
posición o posiciones que quiera modificar. Tenga en cuenta que las variables categóricas

17
Introducción a R

(factores), sólo permiten valores ya existentes. Si se desea modificar todos los valores de una
variable completa, use la instrucción levels.

Ejemplo R

# Cambiar los niveles de una categórica


> levels(df$Genero)
[1] "H" "M"
> levels(df$Genero)[1] <- "Hombre"
> levels(df$Genero)[2] <- "Mujer"
> df
Edad Genero
1 64 Hombre
2 52 Mujer
3 61 Mujer
4 73 Hombre

Ejercicio 3.1
En el data.frame del Ejercicio 2.1, cambie el nombre del tercer individuo y
elimine las cifras decimales del IMC con la función round

4. Importar datos

R permite importar datos desde casi cualquier formato. La siguiente tabla enumera las
instrucciones para los formatos más habituales.

Tipo de fichero Extensión Instrucción en R Paquete

Texto .txt o .dat read.table utils


Texto read.csv
.csv utils
separado por comas read.csv2
read.spss foreign
SPSS .sav
spss.get Hmisc
read.sas7bdat sas7bda
SAS .sas7bdat
sas.get Hmisc
STATA .dta stata.get Hmisc
MINITAB .mtp read.mtp foreign

18
Bioestadística para no estadísticos

Nota: Las instrucciones read.table, read.csv y read.csv2 vienen con el paquete utils, ya instalado por
defecto. Con read.table o read.delim puede “pegar” desde el portapapeles después de hacer un “copiar”
en un conjunto de datos.

Nota: Las instrucciones read.csv y read.csv2 se utilizan en ficheros de texto, según las columnas estén
separadas por ‘,’ (comas) y ‘;’ (puntos y comas) —respectivamente.

Nota: En general, la lectura de un fichero Excel es posible pero complicada y el mismo R la desaconseja.
En este caso, es mejor guardar la hoja de cálculo con un formato csv: Archivo → Guardar como → csv. Y
leerlo en R con read.csv2.

A continuación verá un posible proceso de lectura y validación de un mismo conjunto de datos con
tres formatos distintos.

4.1. Lectura
El primer parámetro es el nombre del fichero a importar. Su directorio (carpeta) se especifica junto
al nombre, o se fija con la instrucción setwd.

Para poder ver el ejemplo, descargue primero los datos GPT de la página web del curso
(http://bioestadistica.upc.edu/node/30). Guarde los tres ficheros (txt, csv y sav) en la carpeta
'C:/Documents'.

Ejemplo R

# Instalar y cargar el paquete foreign para leer datos SPSS

> install.packages('foreign')
> library(foreign)
# Fijar el directorio donde estan los ficheros
> setwd('C:/Documents') # Debe cambiarse!
# Lectura en las tres extensiones
> datos1 <- read.table('GPT.txt',header=TRUE)
> datos2 <- read.csv2('GPT.csv',header=TRUE)
> datos3 <- read.spss('GPT.sav',to.data.frame = TRUE)

NOTA: El header=TRUE indica que la 1ª fila del archivo de origen contiene los nombres de las
variables. El to.data.frame=TRUE indica que lo importe como data.frame (ya que, por defecto, lo
importa como lista).

Para leer los ficheros de texto (no otros formatos) directamente desde una página web, únicamente
se debe especificar la dirección dentro de la función url.

19
Introducción a R

Ejemplo R

# Lectura de los ficheros de texto desde una url

> datos1 <- read.table(url('http://www-


eio.upc.es/teaching/best/GPT.txt'),header=TRUE)
> datos2 <- read.csv2(url('http://www-
eio.upc.es/teaching/best/GPT.csv'),header=TRUE)

4.2. Vista
Una vez obtenidos los datos, se debe verificar que se han leído correctamente. Si el data.frame es
largo, la instrucción head enseña únicamente las primeras filas (6, por defecto).

Ejemplo R

# Vista de los datos anteriores (debe ser idéntica)

> head(datos1)
> head(datos2)
> head(datos3)
id sex age gpt hiv colester
1 58 Male 36 High HIV+ 170
2 172 Male 33 High HIV- 116
3 190 Male 30 High HIV+ 139
4 239 Male 33 Normal HIV+ 166
5 312 Male 40 High HIV- 155
6 313 Male 32 High HIV- 221

4.3. Descriptiva global y tipos de variables


El capítulo 3 estudia la descriptiva numérica y gráfica. Avancemos ahora unas sentencias de R. La
explicación de qué significan esos resultados se verá en el próximo capítulo.

Nota: Una vez comprobado que los 3 conjuntos de datos están correctamente leídos y son idénticos,
trabajará únicamente con uno de ellos.

La instrucción summary aplicada a un data.frame proporciona una descriptiva global.

Ejemplo R

# Descriptiva global del conjunto de datos

> summary(datos1)
id sex age

20
Bioestadística para no estadísticos

Min. : 58 Female: 73 Min. :19.00


1st Qu.:1644 Male :325 1st Qu.:27.00
Median :1826 Median :30.00
Mean :1793 Mean :30.83
3rd Qu.:1975 3rd Qu.:34.00
Max. :2218 Max. :67.00
gpt hiv colester
High :204 HIV-:175 Min. : 0.0
Normal:184 HIV+:223 1st Qu.:132.0
NA's : 10 Median :151.0
Mean :151.3
3rd Qu.:170.0
Max. :283.0

Nótese que la descriptiva es distinta para las variables numéricas (sean enteras o contínuas) que
para las categóricas. Para las primeras (id, age y colester), proporciona mínimo, máximo, media y
cuartiles; y para las segundas (sex, gpt y hiv), las frecuencias de cada categoría.

Nota: R interpreta que una variable con caracteres alfanuméricos es categórica, como debe ser. Pero las que
contienen sólo números pueden ser también categóricas. Por ejemplo, R interpreta que la variable id
(identificador del paciente) es numérica, por lo que calcula la media, lo que no tiene sentido. Ver las
frecuencias permite comprobar que no existan dos casos con el mismo identificador, pero no sirve para nada
más. El parámetro colClasses en la instrucción read.table comunica a R el tipo de variable: “numeric”
(contínuas), “integer” (enteras), “factor” (categóricas), “character” (cadena de caracteres), “boolean”
(lógica)… Definirlo correctamente permite a R calcular las funciones aplicables a ese tipo de variables.

La instrucción sapply, sobre cierto data.frame, y con la función class, informa sobre el tipo de la
variable.

Ejemplo R

# Tipo de cada variable

> sapply(datos1,class)
id sex age
"integer" "factor" "integer"
gpt hiv colester
"factor" "factor" "integer"

La instrucción hist.data.frame ( ) del paquete Hmisc realiza el histograma para variables numéricas
e indica las frecuencias de las categóricas.

21
Introducción a R

Ejemplo R

# Histograma de numéricas y frecuencias de factores

> install.packages("Hmisc")
> library (Hmisc)
> hist.data.frame(datos1)

20 40 60

60
Frequency
Frequency

Male

30
Female

0
100 200 300
20 40 60
0

Frequencies for sex


0 1000 2000 age
n:398 m:0
id
n:398 m:0

Frequency
High HIV+

60
Normal HIV-

0
185 195 180 200 220
Frequencies for gpt Frequencies for hiv 0 100 250
colester
n:398 m:0

El siguiente capítulo profundiza en la estadística descriptiva.

4.4. Datos ausentes: “missings”


R codifica los valores ausentes con NA (Not Available). Obsérvese que antes ha indicado 10 NA’s
(missings) en la variable gpt. Puede gravar los datos ausentes ya como NA’s; o especifique en el
read.table dentro del parámetro na.strings, el código usado. Por ejemplo, read.table (fichero.txt,
na.strings=”9999”).

Nota: Los espacios en blanco también son interpretados como datos ausentes dentro de variables
numéricas. En las variables categóricas se consideran como una categoría más.

La instrucción is.na( ) retorna TRUE o FALSE dependiendo de si ese valor de la variable tiene un
missing. La instrucción which( ) identifica cuál es la posición en el vector de los casos que cumplen
una condición lógica —como ser faltante.

Ejemplo R

# Datos ausentes en gpt

> is.na(datos1$gpt)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[8] FALSE FALSE FALSE FALSE FALSE TRUE FALSE

22
Bioestadística para no estadísticos

[15] FALSE FALSE FALSE FALSE FALSE FALSE FALSE …


> which(is.na(datos1$gpt))
[1] 13 71 76 104 144 231 295 300 332 360

También puede ver los datos en otras variables de los individuos con datos ausentes en una
concreta.

Ejemplo R
# Guarda en gpt.na los individuos con missings

> gpt.na <- which(is.na(datos1$gpt))

# Imprime los datos de aquellos casos con missing en gpt

> datos1[gpt.na,]
id sex age gpt hiv colester
13 1458 Male 29 <NA> HIV+ 0
71 1580 Male 31 <NA> HIV+ 0
76 1587 Male 29 <NA> HIV+ 0
104 1650 Male 38 <NA> HIV+ 0
144 1730 Male 30 <NA> HIV+ 0
231 1876 Male 29 <NA> HIV- 205
295 1969 Male 37 <NA> HIV+ 0
300 1976 Male 35 <NA> HIV+ 0
332 2040 Female 37 <NA> HIV+ 116
360 2101 Male 32 <NA> HIV+ 159

4.5. Validación
La instrucción which( ) permite detectar datos incongruentes. Suponga que uno de los criterios de
selección fuese tener una edad comprendida entre 18 y 65 años.

Ejemplo R

# Guarda en age.val los casos con edades


fuera de rango

# El simbolo “|” indica ó

> age.val <- which(datos1$age<18 | datos1$age>65)


# Imprime los datos de los casos con edades fuera del rango

> datos1[age.val,]
id sex age gpt hiv colester
281 1950 Male 67 High HIV- 128

23
Introducción a R

5. R-Comander

El paquete Rcmdr o R Commander ofrece un sistema de ventanas y menús que hace R más
amigable. No obstante, es menos flexible, ya que limita el uso de opciones de muchas funciones.

Para activar R Commander, instale el paquete Rcmdr con install.packages ('Rcmdr') y después
cárguelo mediante library (Rcmdr).

Haga clic en las ventanas que no sabe qué es lo que hacen para aprender, no para analizar los datos.

LECTURA: el libro de Arriaza y Fernández de la Universidad de Cádiz:


http://knuth.uca.es/repos/ebrcmdr/pdf/actual/ebrcmdr.pdf es una buena referencia para aprender a usar R
Commander

6. Referencias

Existen múltiples guías para el uso de R. Aquí enumeramos algunas de las más útiles:

Paradis, Emmanuel. R para principiantes. Disponible en http://cran.r-


project.org/doc/contrib/rdebuts_es.pdf

Díaz-Uriarte, Ramón. Introducción al uso y programación del sistema estadístico R Disponible


en http://cran.r-project.org/doc/contrib/curso-R.Diaz-Uriarte.pdf

Venables and Smith. An Introduction to R. Disponible en http://cran.r-


project.org/doc/manuals/R-intro.pdf

Correa y González. Gráficos Estadísticos con R. Disponible en http://cran.r-project.org/doc/


contrib/grafi3.pdf

24
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1 > 2 + 3  R devuelve el resultado de la suma. Es una instrucción correcta y completa.
> 2 + "a"  R proporciona un mensaje de error al ser incapaz de realizar la suma de un número y un
carácter. Es una instrucción incorrecta.

> 2 +  R queda a la espera de que se finalice la instrucción. Se puede escribir un 3 y, a continuación


Enter para acabar la sentencia o bien apretar Esc para reiniciar la instrucción. Es una instrucción incompleta.

1.2 El resultado de la ejecución es el siguiente:

> pi

[1] 3.141593

El valor de la constante π, R lo tiene guardado en memoria dentro del objeto pi.

> 5*3;6/2

[1] 15

[1] 3

Se ejecutan las dos operaciones separadas por el ';'

> 3 + 4 # debería dar 7

[1] 7

Se realiza la suma de 3 + 4 y se ignora el comentario posterior.

1.3 El resultado de las operaciones es el siguiente:

> n <- 5*2 + sqrt(144)

> n

[1] 22

n es 5x2 más la raíz (sqrt) de 144

> m = 4^0.5

> m

[1] 2

m es 4 elevado a 0.5 (equivalente a hacer la raiz cuadrada de 4)

> n + m -> p

> p

[1] 24

p es la suma de n y m

1.4 Una posible función sería:

25
Introducción a R

IMC <- function(peso,altura){

imc <- peso/altura^2

return(imc)

Se realiza una prueba:

> IMC(peso=75,altura=1.75)

[1] 24.4898

O también, como R introduce en orden los valores:

> IMC(75,1.75)

[1] 24.4898

1.5 La instalación por menús se puede realizar con los siguientes pasos:

Instalación por menús

A continuación se muestra la instalación por comandos y el resto del ejercicio

> # Instalación del paquete


> install.packages ('survival')
> library (survival)

> # Pedir ayuda

> ?plot.survfit

> # Ejecutar instrucciones del ejemplo

> leukemia.surv <- survfit(Surv(time, status) ~ x, aml)

> plot(leukemia.surv, lty = 2:3)

> legend(100, .9, c("Maintenance", "No Maintenance"),lty = 2:3)

> title("Kaplan-Meier Curves\nfor AML Maintenance Study")

26
Bioestadística para no estadísticos

> lsurv2 <- survfit(Surv(time, status) ~ x, aml, type='fleming')

> plot(lsurv2, lty=2:3, fun="cumhaz", xlab="Months", ylab="Cumulative


Hazard")

Obsérve que obtiene 2 gráficos. Uno para las curvas de supervivencia y otro para las curvas de riesgo de unos
datos almacenados en la memoria de R.

2.1 Primero cree las variables y luego únalas con la instrucción data.frame. Use la función creada en el Ejercicio
1.4.

> Nombre <- c("Juan","Pedro","María","Luisa")

> Peso <- c(75,85,69,56)

> Altura <- c(1.75,1.76,1.64,1.61)

> Imc <- IMC(peso=Peso,altura=Altura)

> datos <- data.frame(Nombre,Peso,Altura,Imc)

> datos

Nombre Peso Altura Imc

1 Juan 75 1.75 24.48980

2 Pedro 85 1.76 27.44060

3 María 69 1.64 25.65437

4 Luisa 56 1.61 21.60410

3.1 Por ejemplo, con el código:


>levels(datos$Nombre)

[1] "Juan" "Luisa" "María" "Pedro"

>levels(datos$Nombre)[3] <- "Marta"

>datos$Imc <- round(datos$Imc)

>datos

Nombre Peso Altura Imc

1 Juan 75 1.75 24

2 Pedro 85 1.76 27

3 Marta 69 1.64 26

4 Luisa 56 1.61 22

Note que para modificar el nombre de María se ha tenido que cambiar el tercer nivel de la variable Nombre. No
se hubiese podido modificar directamente esta observación.

27
Capítulo 3:

Variabilidad:
El proceso de cuantificar la
observación

Erik Cobo, José Antonio González y Pilar Muñoz


Jordi Cortés, Rosario Peláez , Marta Vilaró y Nerea Bielsa

Septiembre 2014
Variabilidad

Presentación ....................................................................................................................... 2
1. Medida .................................................................................................................. 3
1.1. Escala nominal ....................................................................................................... 3

1.2. Escala ordinal ......................................................................................................... 4

1.3. Escala de intervalo ................................................................................................. 4

1.4. Escala de razón....................................................................................................... 5

1.5. Escalas de medida y tipos de variables .................................................................. 6

1.6. Teoría representativa de la medida ........................................................................ 7


2. Descriptiva ................................................................................................................... 9
2.1. Gráficos: sectores, barras y diagramas de mosaico.............................................. 10

2.2. Medidas de tendencia central: moda .................................................................... 15

2.3. Medidas basadas en el orden: cuantiles ............................................................... 17

2.4. Gráficos: box-plot, histograma y otros ................................................................ 20

2.5. Gráficos para 2 variables numéricas .................................................................... 23

2.6. Medidas de tendencia central: media ................................................................... 24

2.7. Medidas de dispersión .......................................................................................... 24

2.8. Medidas de posición relativa................................................................................ 30

2.9. Descripción de los participantes .......................................................................... 32


Soluciones a los ejercicios.................................................................................................. 35
Principios generales

Presentación
Sin variabilidad no hay vida. Y como “visto un caso, vistos todos”, tampoco información. Dicho en
positivo: sabemos distinguirnos porque sabemos procesar la variabilidad.

La Estadística aborda cómo recoger la información (“proceso de medida”) y cómo representarla con
gráficos y con números.

La primera parte de este tema razona


sobre el significado de un valor
observado; por ejemplo, ¿qué
información aporta la etiqueta
‘enfermo’? O, si vemos que alguien
mide 178 cm: ¿es alto? ¿Es bajo?
¿Comparado con qué?

La segunda parte introduce los


gráficos y los estadísticos más
adecuados para cada tipo de variable,
así como las medidas de posición
relativa de las unidades. Todo ello se
aplica a la descripción de los
participantes en un estudio.

Contribuciones: (1) la versión original de marzo 2013 descansa en el libro de Bioestadística para No
estadísticos de Elsevier de EC, JAG y PM, editada por JC y revisada por MV y R; (2) la de julio de 2013 fue
revisada por MV, JC y EC para incorporar mejoras y sugerencias anónimas; y (3) la de septiembre de 2104
por NB y EC.

2
Bioestadística para no estadísticos

1. Medida

Una primera definición puede ser “medir es asignar números a objetos siguiendo reglas”.

Ejemplo 1.1: Asignación de 180 centímetros a Erik Cobo.

También podríamos asignar etiquetas —sin significado de número.

Ejemplo 1.2: Asignación de masculino a Erik Cobo.

Historieta: Malditas etiquetas que nos encasillan. Dice el Dr. Vives que él no es médico, que él es un
corredor de fondo que trabaja como médico. Y yo digo que él es un gran médico.

Quedémonos con la idea de que esta asignación necesita reglas que la hagan reproducible. El
proceso científico requiere establecer un lenguaje común, con idéntico significado para cualquier
observador.

Historieta: En el lenguaje popular una misma frase puede tener diferentes perspectivas, matices o
significados. Un popular “doble sentido” es saludar al amigo preocupado por su imaginaria calvicie con
un: “¡Cuánto tiempo sin verte el pelo!”

Lecturas: El inicio de este tema sigue la línea de Stevens. Para una definición más formal, consulte la
versión inglesa de Wikipedia.

1.1. Escala nominal


Clasificar consiste en agrupar los objetos estudiados: aquellos de la misma categoría deben ser
equivalentes entre sí y diferentes de los de otra categoría.

Ejemplo 1.3: Una burda y primera clasificación de las personas las dividiría en enfermos y
sanos. Dos enfermos compartirán ciertas características comunes que los hacen diferentes de
los sanos.

Definición
La escala nominal clasifica a las unidades en grupos o categorías.

Nota: si todas las unidades fueran iguales, entonces todas pertenecerían a la misma categoría y no tendría
sentido ni clasificarlas, ni medirlas.

Historieta: Un buen profesor consigue que todos sus estudiantes sean excelentes. Un mal evaluador pone
a todos los estudiantes la misma nota.

3
Principios generales

Ejemplo 1.4: Los códigos de identificación personal pertenecen a la escala nominal. Incluso
los formados por cifras, porque no tienen significado de número, ya que un valor ‘mayor’ no
implica nada. El DNI solo “clasifica” y por tanto está en escala nominal –aunque especial:
cada categoría sólo tiene 1 caso.

Ejercicio 1.1
Proponga ejemplos de otras clasificaciones posibles.

1.2. Escala ordinal


En el ejemplo anterior de enfermo y sano, la inmediata ambición del clínico y del científico es
matizar más y, por ejemplo, establecer grados de intensidad: sano, leve, moderado y grave. Igual
que antes, dos unidades de la misma categoría serán iguales entre sí y diferentes de las restantes
categorías. Pero ahora, además, puede establecer una relación de orden y decir que grave es más
que moderado; y como moderado es más que leve; entonces grave también es más que leve.

Definición
La escala ordinal cumple las propiedades de la escala nominal y, además,
permite ordenar las categorías.

Ejemplo 1.5: El indicador BK de la tuberculosis puede valorarse en una escala ordinal que
va desde 0 a 3 cruces (0 / + / ++ / +++).

Ejercicio 1.2
Proponga algún otro ejemplo de variable en escala ordinal.

1.3. Escala de intervalo


Una vez establecido un orden, la siguiente ambición del científico es comparar las diferencias entre
categorías sucesivas. En el ejemplo de la tuberculina, ¿existe el mismo ‘salto’ de + a ++, que de ++
a +++? Si todos los ‘saltos’ tuvieran el mismo significado, se podría hablar de una misma unidad
de medida, lo que permitiría comparar diferentes intervalos y decir, por ejemplo, que la diferencia
entre + y +++ es mayor (el doble, como veremos) que la diferencia entre 0 y +. Si no hay unidad de
medida, los ‘saltos’ tendrán diferente significado: no será lo mismo, por ejemplo, pasar de + a ++,
que de ++ a +++.

4
Bioestadística para no estadísticos

Definición
La escala de intervalo cumple las propiedades de la escala ordinal y, además,
dispone de unidad de medida.

En la escala de intervalo, las categorías se han convertido en cifras que disfrutan de una unidad que
aplica por igual a todos ellos: ya tienen significado de número. Como todos ‘contienen’ las mismas
unidades, se pueden restar entre ellos, lo que permite, por ejemplo, comparar la amplitud de varios
intervalos, dando nombre a la escala.

Ejemplo 1.6: Se puede decir que entre dos cuerpos, uno a 19ºC y otro a 20ºC, hay la misma
diferencia que entre uno a 29ºC y otro a 30ºC. O incluso, que el intervalo entre 10ºC y 20ºC
es 5 veces mayor que entre 30ºC y 32ºC.

Ejercicio 1.3
Proponga algún otro ejemplo de variable en escala de intervalo.

1.4. Escala de razón

Historieta: Dice “¿qué tiempo hace?” y contesta: “Ni frío, ni calor: 0º C”.

Cuando hay unidad de medida conviene preguntar si el cero es absoluto. Es decir, si el valor 0 de la
escala tiene significado de “ausencia total (absoluta) de …”. En la temperatura en grados
centígrados, ¿significa 0º C ausencia de temperatura?

Si hay cero absoluto, entonces se está en escala de razón o de proporción.

Lectura: Kelvin relacionó la temperatura con cierta cantidad de movimiento de las partículas y encontró
que éste cesaba a -273ºC, proponiendo este valor como 0 absoluto para una nueva escala de temperatura.

Ejemplo 1.7: Se puede decir que un cuerpo que está a 400º Kelvin tiene el doble de
temperatura (cantidad de movimiento) que un cuerpo a 200ºK.

Ejercicio 1.4
La variable “¿tiene cefalea?” admite las categorías “nunca”, “a veces” “muchas
veces” y “siempre”. ¿En qué escala de medida se encuentra?

5
Principios generales

Ejercicio 1.5
La variable “fracción de eyección cardíaca”, ¿en qué escala está?

Nota: La escala de razón permite hacer divisiones (razones, cocientes o proporciones) entre los valores, la
de intervalo también permitía divisiones pero entre las diferencias de valores, los intervalos.

En general, suele ser irrelevante distinguir entre escala de intervalo y de razón.

1.5. Escalas de medida y tipos de variables


La Tabla 1.1 resume las propiedades de las escalas de medida. Son acumulativas, ya que tener una
propiedad superior requiere cumplir las anteriores. Así, una variable en escala de intervalo, además
de unidad constante, tiene ordenados sus valores.

Escala Propiedades

Nominal Equivalencia
Ordinal Orden
Intervalo Unidad
Razón Cero absoluto
Tabla 1.1 Tipos de escala y propiedades acumulativas

En el momento de escoger un tipo de análisis, se puede renunciar a propiedades superiores y utilizar


uno que corresponda a las inferiores. Por ejemplo, la edad tiene unidad de medida y permite
calcular la media, pero también se pueden hacer categorías (joven, adulto,…) y calcular frecuencias.

Lectura: Las escalas de medida no se deben interpretar como un proceso automático para decidir el
análisis estadístico.

Otra clasificación divide a las variables en cualitativas y cuantitativas -con unidad de medida. La
escala ordinal puede corresponder a ambas, ya que las propiedades de orden podrían aplicarse a
categorías (como la clase social) o a expresiones numéricas (como los puntos obtenidos en una
escala o ‘score’ como el índice de Apgar).

Otra división es en discretas o continuas. Un recuento (el número de hermanos, por ejemplo) es una
variable discreta ya que sólo puede tomar un número limitado de valores. La escala nominal debe
ser discreta, pero las otras escalas pueden ser tanto discretas como continuas.

Nota: No se debe confundir la naturaleza de una variable con su nivel de redondeo. Por ejemplo, aunque
podemos dar la altura de forma discreta en cm, en esencia es continua.

6
Bioestadística para no estadísticos

1.6. Teoría representativa de la medida

Lectura: En este punto seguimos a Bollen. Guardia introduce el tema en la Sociedad Catalana de
Estadística.

Ejemplo 1.8: ¿Podemos utilizar la edad cómo aproximación al grado de maduración?


Estudiemos en qué escala de medida se encuentra. La edad que figura en el DNI estará en
escala de intervalo; pero la edad como “aproximación” al grado de maduración es muy
discutible: ¿representa el mismo incremento de maduración pasar de 2 a 3 años que de 42 a
43? Si la respuesta es no, al no haber unidad de medida, tampoco habrá escala de intervalo.
Pero además, se podrían encontrar ejemplos de personas con menos años pero más maduras,
con lo que se pondría en entredicho también la propiedad de orden. Finalmente, incluso se
podría argumentar que no tienen la misma maduración dos individuos de la misma edad,
con lo que ni siquiera se tendría la propiedad de equivalencia y no se podría considerar que
la edad es una medida de la maduración. Pero, por otro lado, puede ser útil observar la edad
de una persona para considerar qué comportamiento podemos esperar de ella. Así pues, si
no se quieren perder estas posibilidades que ofrece la edad, conviene redefinir el proceso de
medida.

Las escalas nominal, ordinal y de intervalo corresponden a una visión ‘operativa’ de la medida: se
define una variable por la forma de medirla. Esta visión permitiría definir ‘el cociente de
inteligencia (CI)’, como la variable con la que se cuantifica la inteligencia. Pero nunca permitiría
definir el concepto de inteligencia —intangible en sí mismo.

Definición
Medida es el proceso que conecta un concepto con una variable latente y ésta,
con variables observables.

Es decir, existe por un lado un atributo latente que no es directamente observable (por ejemplo, la
inteligencia) y por otro lado, una o varias variables que pretenden cuantificar dicho atributo (por
ejemplo, el CI). El CI será tanto mejor medida de la inteligencia cuanto más intensa sea su relación
con la misma y menor dependencia tenga de otros factores.

La teoría representativa de la medida es estadística en el sentido de que acepta variabilidad en los


resultados. Dos individuos que obtengan exactamente la misma puntuación en una prueba de

7
Principios generales

inteligencia no han de tener idéntica inteligencia, pero cabe esperar que sea más similar que la de
dos casos con valores alejados.

Hay 2 propiedades que hacen a la variable observable (el CI en el ejemplo) una buena medida de la
latente (la inteligencia en sí misma): son la validez y la fiabilidad. Si un proceso de medida es
válida y fiable, la variabilidad de la variable observada depende exclusivamente de la variabilidad
de la variable latente (el objeto de medida o el concepto latente). Al no depender de otras variables,
no tendrá error sistemático y se dirá que es válida; y al no tener error aleatorio de medida, se dirá
que es muy fiable o repetible.

Definición
Se dice que una variable mide de manera válida un concepto representado por
una variable latente si está relacionada con esta variable latente y sólo con ella.

Definición
Se dice que una variable mide de manera fiable si sus variaciones están muy
relacionadas con variaciones en el concepto —y, por tanto, dependen poco del
proceso de medida.

Validez requiere ausencia de error sistemático; y fiabilidad, error aleatorio pequeño. Así, validez
implica que se esté valorando el concepto y nada más: que variaciones en el concepto comporten
variaciones en la medida. Por su parte, fiabilidad requiere obtener valores próximos en medidas
repetidas en el mismo individuo en las mismas condiciones.

Ejemplo 1.9: Los logros sanitarios en la cantidad de vida han desplazado el objetivo hacia
la calidad de vida. Para muchos pacientes, es un objetivo pertinente y relevante, es decir:
válido. Pero para un clínico es incómoda, ya que cambios en un mismo paciente no son
explicables por variaciones en sus parámetros clínicos. Dicho de otra manera, no es fiable
porque determinaciones repetidas en un paciente estable no dan la misma puntuación.

Lectura: Para saber algo más, consulte Wikipedia y las revisiones formales de Hand. En 1996 y 2002.
2002, 165: 233-261).

8
Bioestadística para no estadísticos

Ejercicio 1.6
La variable “recuento de limfocitos CD4” suele emplearse en el seguimiento del
SIDA ¿En qué escala de medida se encuentra? ¿Cree que encaja en una sola
escala?

Como indicador de la evolución, ¿qué opina de su validez y de su fiabilidad?

Ejercicio 1.7
El proceso de aprendizaje universitario, como unos estudios de Medicina,
pretende que aquellos que lo finalicen sean capaces de ejercer como
profesionales. ¿En relación a la validez y fiabilidad, qué le parece el examen MIR
comparado con, por ejemplo, la observación de su trabajo delante de un paciente
real?

2. Descriptiva

La escala de medida ayuda a escoger el estadístico y el gráfico para resumir los datos.

En este punto se introducirán los comandos de R que permitirán realizar un análisis descriptivo,
Para ello, se empleará el conjunto de datos 'births' del paquete 'Epi', que contiene los pesos de 500
recién nacidos en un hospital de Londres.

Ejemplo R

# Instalar y cargar Epi y cargar datos births


> install.packages('Epi')
> library(Epi)
> data(births)

# Nombres de las variables

> names(births)
[1] "id" "bweight" "lowbw" "gestwks"
[5] "preterm" "matage" "hyp" "sex"

9
Principios generales

La instrucción names aplicada a nuestro conjunto de datos, permite ver los nombres de las variables.
La explicación de cada una de las variables está en la ayuda: ?births.

2.1. Gráficos: sectores, barras y diagramas de mosaico

Lectura: José Antonio González y Lluís Jover: Cuando las relaciones entre variables son complejas o el
componente aleatorio enmascara los procesos en estudio, la representación gráfica deviene una
herramienta imprescindible. (…) Los gráficos, bien utilizados, permiten una aproximación nueva y
enriquecedora a la información disponible.

El gráfico de sectores consiste en un círculo segmentado en sectores de tamaño proporcional a la


frecuencia de cada uno de los valores de la variable. Este gráfico es apropiado cuando la variable
toma pocos valores.

Ejemplo 2. 1: Tiempo de evolución del trastorno según grupo de pacientes:

Figura 2.1 Tiempo de evolución de pacientes, estables e inestables

Historieta: Éste sí que es un buen pastel.

En R, con la instrucción pie puede realizar un diagrama de pastel habiendo realizado previamente la
tabla de frecuencias con el comando table. Con los parámetros labels y col puede especificar las
etiquetas y los colores del gráfico.

Nota: Recuerde que puede acceder a una variable de un data.frame por su nombre separado por el
símbolo $; o bien accediendo a la posición que ocupa la columna.

Si carga los datos en memoria con la instrucción attach, podrá prescindir del nombre del conjunto
de datos y bastará con escribir el nombre de la variable.

10
Bioestadística para no estadísticos

Nota: Al utilizar el attach, todas las variables pasan a ser objetos en memoria —lo que podría provocar
ambigüedades con algún objeto con el mismo nombre. La instrucción detach elimina los datos de la
memoria.

Ejemplo R

# Diagrama de sectores para la variable género


> attach (births)
> t_sex <- table(sex)
> pie(t_sex,labels=c('H','M'),col=c("blue","pink"))

Nota: Escribiendo colors ( ) en la consola se listan todos los colores disponibles en R.


De cada 12 varones, 1 no distingue el rojo del verde. Si desea aceder a la máxima población, no
combine rojo y verde; mejor rojo y azul, por ejemplo.

Lectura: La ayuda de la instrucción pie desaconseja este tipo de gráfico: “Pie charts are a very bad way
of displaying information. The eye is good at judging linear measures and bad at judging relative areas. A
bar chart or dot chart is a preferable way of displaying this type of data”

Emplee el diagrama de barras para variables discretas –nominales y ordinales. Los distintos
valores se representan en el eje horizontal (abscisas) y con rectángulos de altura proporcional a la
frecuencia del valor. Para que el gráfico proporcione una correcta impresión visual la escala del eje
vertical (ordenadas) va desde 0 hasta, como mínimo, la frecuencia del valor modal. De no ser así,
debe alertarse al lector.

Ejercicio 2.1
Rafael Ramos: “La Figura 2.2 muestra la proporción de tratados según las
distintas recomendaciones para la hipercolesterolemia.” ¿Es un diagrama de
barras?

11
Principios generales

Figura 2.2 Tratamiento de la hipercolesterolemia

Una forma habitual de transmitir información errónea consiste en cambiar la escala de algún eje sin
avisar al lector.

Ejemplo 2. 2: La sensación de ventaja en audiencia es diferente en los gráficos siguientes.


El izquierdo no avisa del cambio de escala y engaña al lector.

Figura 2.3 Diferente sensación por diferente escalado

Recuerde
Antes de mirar el contenido de un gráfico, lea detalladamente el pie de figura y las
unidades de los ejes, observando si empiezan en 0.

12
Bioestadística para no estadísticos

Ejercicio 2.2
¿Qué opina del siguiente gráfico?

Lectura: Disfrute (en catalán) de la presentación de Pere Grima y Lluís Marco.

En capítulos sucesivos, con la ayuda de R, veremos gráficos más sofisticados.

Lectura: Vea la mortalidad de la campaña de Napoleón en Rusia.

En R, el comando barplot realiza un diagrama de barras, siendo una tabla su primer parámetro. El
argumento legend=TRUE añade una leyenda al gráfico. Con una tabla con 2 variables se obtiene,
por defecto un gráfico de barras apiladas, pudiendose adosar las barras asignando TRUE al
parámetro beside.

Ejemplo R

# Diagrama de barras estratificado

> T1 <- table(sex,hyp)


>colnames(T1)=c("Hombres", "Mujeres")
>rownames(T1)=c("No", "Sí")
> barplot(T1,legend=TRUE)
250

1
0
200
150
100
50
0

1 2

13
Principios generales

# Diagrama de barras estratificado mejorado

> par(las=1)
> barplot(T1,main="Proporción de hipertensos según sexo",
col=c("darkblue","lightblue"),space=.5,
xlab="Sexo")
#Leyenda central
>legend('top',c('No','Si'),fill=c("darkblue","lightblue"))

Proporción de hipertensos según sexo


250

No

200
150
100
50
0

Hombres Mujeres

Sexo

El diagrama de mosaico (mosaicplot) es parecido al diagrama de barras. La frecuencia de la


primera variable (en el ejemplo, hipertensión) define la anchura de las columnas; y la de la segunda
variable (género), dentro de cada categoría de la primera, define su altura. De esta forma, permite
comparar las proporciones de la segunda dentro de cada categoría de la primera.

Ejemplo R

# Diagrama de mosaico

>rownames(T1)=c("Hombres", "Mujeres")
>colnames(T1)=c("No", "Sí")
>mosaicplot(T1,xlab="Hipertensión",ylab="Género",
col=c("darkblue","lightblue"),main="Diagrama
mosaico", cex.axis=1.2)

14
Bioestadística para no estadísticos

Diagrama mosaico

Hombres Mujeres

No
Género


Hipertensión

Nota: el carácter ~ empleado para separar las dos variables que intervienen en el mosaicplot se obtiene
pulsando a la vez la tecla “Alt Gr” (a la derecha de 'espacio') y la tecla “4”.

Ejercicio 2.3
A) Realice un mosaicplot de las variables peso mayor/menor de 2500 g (lowbw) y
periodo de gestación mayor/menor a 37 semanas (preterm).

B) Hágalo 2 veces, intercambiando el papel de cada variable Y discuta cuál de


los 2 le parece más interpretrable.

2.2. Medidas de tendencia central: moda


Las medidas de tendencia central informan dónde se sitúan las observaciones ‘prototípicas’. Si las
variables están en escala nominal, el parámetro más relevante para caracterizar su distribución es la
frecuencia de las categorías más repetidas. En algunas ocasiones, para resumir estas variables, se las
representa por su categoría más frecuente, estadístico conocido por moda.

Recuerde
La moda es la categoría más repetida.

Ejemplo 2.3: Miguel Martín et al para describir a los pacientes de su estudio dicen: “Los
tumores de estadio II fueron los más frecuentes (55.5%)”. Nótese que dan la moda pero que,
además, concretan a cuántos casos representa.

En estadística, la manera de resumir toda la información contenida en una variable categórica es a


través de las tablas. En R, La instrucción table proporciona la frecuencia de cada categoría de una
variable.

15
Principios generales

Ejemplo R

# Frecuencia de hombres (1) y mujeres (2) en births

> table(sex)
sex
1 2
264 236

Es posible hacer tablas de dos dimensiones incluyendo las dos variables categóricas separadas por
una coma dentro de la instrucción table.

Ejemplo R

# Tabla de frecuencias conjuntas de Género e hipertensión

> table(sex,hyp)
hyp
sex 0 1
1 221 43
2 207 29

Esta tabla 2x2 contiene las frecuencias según el género del bebé (filas) y si la madre es hipertensa
(0: No ; 1: Sí). La instrucción addmargins añade los marginales de la tabla. Primero se debe crear
un objeto que contenga la tabla.

Ejemplo R

# Género según hipertensión materna con marginales

> T1 <- table(sex,hyp)


> addmargins(T1)
hyp
sex 0 1 Sum
1 221 43 264
2 207 29 236
Sum 428 72 500

La instrucción prop.table devuelve las proporciones de una tabla. Por defecto las calcula sobre el
total; si añade un 1, sobre la fila; y si añade un 2, sobre la columna.

16
Bioestadística para no estadísticos

Ejemplo R

# las proporciones sobre el total deben sumar 1 todas juntas.


> prop.table(T1) # Proporciones sobre el total
hyp
sex 0 1
1 0.442 0.086
2 0.414 0.058
> prop.table(T1,1) # Por fila: Cada fila suma 1.
hyp
sex 0 1
1 0.8371212 0.1628788
2 0.8771186 0.1228814
> prop.table(T1,2) # Por columna: Cada columna suma 1
hyp
sex 0 1
1 0.5163551 0.5972222
2 0.4836449 0.4027778

2.3. Medidas basadas en el orden: cuantiles


Si las variables están en escala ordinal, es posible usar, por ejemplo, la mediana o valor del
individuo debajo del cual se encuentra el 50% de las unidades.

Recuerde
La mediana es aquél valor que divide en dos grupos con igual frecuencia.

R cálcula la mediana con el comando median.

Ejemplo R

# Mediana del peso de los recién nacidos

> median(bweight)
[1] 3188.5

Las instrucciones tapply y by permiten calcular un estadístico estratificado por una variable
categórica. La sintaxis es: tapply (var. numérica, var. categórica, función).

17
Principios generales

Ejemplo R

# Peso mediano de los bebés según su género

> tapply(bweight,sex,median) # 1:hombres; 2:mujeres


1 2
3296 3107

Nota: Los bebés niño tienen una mediana de peso casi 200 gramos superior a los bebés niña.

Ejercicio 2.4
Obtenga la mediana de peso de los niños según si el período de gestación fue
inferior o superior a 37 semanas.

Existen más medidas basadas en el orden de las observaciones. Los cuantiles (con ‘n’) son valores
que dividen la población en cierto número k de grupos. El ejemplo de cuantiles más popular son los
percentiles, que dividen la muestra en 100 partes. Los deciles lo hacen en 10; los quintiles en 5; y
los cuartiles (con ‘r’) en 4.

Nótese que los cuantiles son los límites que dividen los grupos, no los grupos resultantes. Así, para
dividir la muestra en cuatro partes con la misma frecuencia, bastan tres cuartiles, el 1, el 2 y el 3.

Recuerde
Hay 99 percentiles, 9 deciles, 4 quintiles y 3 cuartiles.

Ejemplo 2.4: La edad de los pacientes incluidos en un estudio tiene la distribución que
muestra la figura 2.4. Por debajo de 43 años hay un 20% de las observaciones. Por tanto, el
percentil 20, el 2º decil y el 1r quintil son todos ellos el mismo valor: 43 años.

Figura 2.4. El percentil 20, el decil 2, y el quintil 1 son todos ellos 43 años

18
Bioestadística para no estadísticos

Ejercicio 2.5
La mediana, ¿a qué percentil corresponde? ¿Y a que cuartil?

Ejercicio 2.6
¿Qué percentil es el cuartil 1? ¿Y el cuartil 2? ¿Y el cuartil 3?

Los cuantiles se calculan con: quantile ('nombre de la variable', cuantil)

Ejemplo R

# Primer y tercer cuartil de los pesos

> quantile(bweight,0.25) # 1r cuartil


25%
2862
> quantile(bweight,0.75) # 3r cuartil
75%
3551.25

La instrucción summary proporciona un resumen de los estadísticos usuales.

Ejemplo R

# Descriptiva de los pesos

> summary(bweight)
Min. 1st Qu. Median Mean 3rd Qu. Max.
628 2862 3188 3137 3551 4553

Nota: Las variables gestwks (semanas de gestación) y preterm (periodo de gestación inferior a 37
semanas) tienen 10 valores ausentes. Este summary no informa sobre el dato más importante: el número
de casos resumido. Recuerde que R codifica los datos ausentes (missings) con NA (Notavailable).

Ejercicio 2.7
Obtenga la media, la mediana, el primer y tercer cuartil, el IQR y la desviación
típica de los de los datos: 115, 117, 124, 135 y 142.

19
Principios generales

2.4. Gráficos: box-plot, histograma y otros


El Box-plot o diagrama de caja representa los cuartiles de variables numéricas. Los límites
inferior y superior de la caja son los cuartiles 1 (percentil 25) y 3 (percentil 75). La recta interior es
la mediana (cuartil 2, percentil 50). Por tanto, la caja muestra el 50% de las observaciones centrales,
que podríamos considerar más “típicas”. La longitud de la caja es el rango intercuartil o distancia
del cuartil 1 al 3, que informa sobre el grado de dispersión. Fuera de la caja, una recta por cada lado
sigue a los casos hasta llegar a la última observación, siempre que ésta tenga una distancia menor a
una vez y media el rango intercuartil.

Figura 2.5. Ejemplo de box-plot y de histograma (distribución de TPMT)

Las observaciones más extremas se marcan (p.e. “*”) pero no se conectan. Este gráfico es muy útil,
entre otros aspectos, para valorar la simetría y detectar valores atípicos (“outliers”).

Un histograma (Fig. 2.4 (der)) es un gráfico de variable continua dividida en intervalos de los que
se eleva un rectángulo con área proporcional a su frecuencia –lo que permite intervalos de diferente
amplitud.

Nota: Si la variable es discreta puede convenir marcarlo con rectángulos separados. Especialmente si la
variable tiene muy pocos valores (p.e., número de asignaturas suspendidas”).
A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de
línea consisten en unir con rectas los puntos medios de los intervalos contiguos, construyendo así
un polígono de frecuencias.

Las instrucciones para realizar histogramas y diagramas de cajas son hist y boxplot, respectivamente.

20
Bioestadística para no estadísticos

Ejemplo R

# Gráficos de la variable peso del bebé

> hist(bweight)
> boxplot(bweight)

Histogram of bweight

4000
150
Frequency

3000
100
50

2000
0

1000
1000 2000 3000 4000 5000

bweight

A cada uno se le pueden añadir parámetros para adaptarlos. La instrucción par permite fijar
características a todos los gráficos.

Ejemplo R

# Gráficos mejorados de la variable peso del bebé

> windows(20,10)
> par (mfrow=c(1,2),las=1)
> hist(bweight,col="blue",
main="Peso de los bebés",xlab="gramos")
> boxplot(bweight,col="lightblue",
main="Peso de los bebés", xlab="gramos",
horizontal=TRUE)
Peso de los bebés Peso de los bebés

150
Frequency

100

50

1000 2000 3000 4000 5000 1000 2000 3000 4000

gramos gramos

21
Principios generales

Nota: La instrucción windows (20,10) abre una ventana de tamaño 20x10 píxeles. El parámetro mfrow
define la posición de los gráficos en la ventana (en este caso, con 1 fila y 2 columnas); las indica la
orientación de los números de los ejes (las=1 los escribe siempre horizontales). Para más detalles, véase
la ayuda: ?par.
Nota: En el histograma y el boxplot, el parámetro col especifica el color; main, el título; xlab, la etiqueta
del eje "x"; y horizontal dibujará el boxplot horizontal si es igual aTRUE. Vea más opciones con la ayuda
?hist o ?boxplot.
Nota: En el caso de boxplot, puede estratificar por una variable categórica añadiendo su nombre
precedido de '~'.
Nota: Dispone de otros boxplots más sofisticados en otros paquetes.

Ejemplo R

# Peso de los bebés estratificado por el género

>install.packages('vioplot')
>library(vioplot)
>windows(20,10)
> par (mfrow=c(1,2),las=1)
> boxplot(bweight~sex,col=2,names=c("H","M"))
> vioplot(bweight[sex==1],bweight[sex==2],col=2,
names=c("H","M"))
> title("Peso de los bebés según género",
outer=TRUE,line=-2)

Peso de los bebés según género

4000 4000

3000 3000

2000 2000

1000 1000

H M H M

Nota: Para estratificar, la sintaxis del vioplot es diferente, porque requiere nombres de variables
diferentes para cada estrato (primero el nombre de la variable con los pesos de los bebés y luego la de las
bebés). La instrucción title crea un título común si outer=TRUE. El line = -2 coloca el título dos líneas
por debajo del margen superior.

22
Bioestadística para no estadísticos

Ejercicio 2.8
Obtenga un boxplot de las edades de las madres

2.5. Gráficos para 2 variables numéricas


El gráfico de dispersión (plot) representa la relación entre dos variables numéricas.

Ejemplo R

# Peso del bebé según semanas de gestación

> plot(bweight~gestwks)
4000
3000
bweight

2000
1000

25 30 35 40

gestwks

# Gráfico anterior (un poco más sofisticado)

> plot(bweight~gestwks,

main="Peso del bebé en función de la gestación",


xlab="Semanas de gestación",
ylab="Peso del bebé(g)",
pch=15,las=1,cex=0.6,col="sienna")

Peso del bebé en función de la gestación

4000
Peso del bebé (g)

3000

2000

1000

25 30 35 40

Semanas de gestación

23
Principios generales

Con el argumento pch se indica el tipo de punto (el código 15 es un cuadrado sólido) y con el
parámetro cex se indica su tamaño (por defecto, vale 1).

2.6. Medidas de tendencia central: media


Si las variables están en escala de intervalo comparten una misma unidad de medida, lo que permite
sumar sus valores: es lo mismo 1 cm aportado por un individuo de 180 cm que 1cm de un señor de
150 cm. Así, para conocer el centro de la distribución puede recurrirse al promedio o media: se
suman los valores obtenidos en todas las observaciones y se reparten entre el número total de casos.

Ejemplo 2.5: El grupo “Asistencia Médica Integrada Continua de Cádiz” dice: “la media de
pruebas por paciente es [...] menor [...] que en el grupo control”.

Estudiemos la media con la ayuda de un ejemplo. Se ha preguntado a los 5 últimos pacientes que
han entrado en la consulta por el número de parejas que han tenido en los últimos 48 meses y han
contestado que 1, 3, 4, 5 y 7 parejas respectivamente.

La suma total de parejas es 20:


1
+3
+4
+5
+7
suma = i=1,5 Xi = 20
De donde el promedio o media es de 4 parejas: i=1,5 Xi /n = 20/5 = 4

Nota: i=1,5 Xi representa la suma de los valores de la variable X en los individuos 1 a 5: es el “sumatorio
desde i=1 hasta i=5 de X sub i”.
En R, la media se calcula con la instrucción mean.

Ejemplos R

# Media del peso de los recién nacidos

> mean(bweight)
[1] 3136.884

2.7. Medidas de dispersión


Con un promedio de 4 parejas por paciente, un investigador descuidado, que se olvidara de la
variabilidad, podría decir que cada uno de estos 5 pacientes ha tenido 4 parejas en los últimos 48

24
Bioestadística para no estadísticos

meses. ¡Qué sorpresa para el de 1 pareja! Y qué forma de decir mentiras. Veamos cuánto valen
estas mentiras.
Dicen ellos Se les asigna Mentira resultante
1 4 +3
3 4 +1
4 4 0
5 4 -1
7 4 -3
Suma 20 0
Tabla 1.2 Mentira resultante si se mal-interpreta que cada paciente tiene exactamente el valor de la media
La media representa al centro de la distribución, pero ¿hasta qué punto representa a cada individuo?
No todas las observaciones se sitúan en la media. Además, la diversidad puede ser riqueza. Por ello,
la siguiente medida de interés estudia cuál es la distancia de las observaciones respecto la media.

Definición
La desviación típica o desviación estándar (DE) representa el alejamiento
prototípico con el centro.

Hemos visto que, si se les dice que cada uno ha tenido 4 parejas, las mentiras respectivas son +3,
+1, 0, -1 y -3. Ahora bien, como suman 0, el investigador descuidado podría insistir en que su
cálculo es acertado, porque el promedio de sus mentiras es 0. La media, como centro de gravedad,
tiene esta propiedad: se compensan los desvíos positivos con los negativos. Para evitar este efecto
no deseado y poder valorar la dispersión, elevamos estas distancias al cuadrado antes de sumarlas:

Dicen ellos Se les asigna Mentira resultante Mentira²


1 4 +3 9
3 4 +1 1
4 4 0 0
5 4 -1 1
7 4 -3 9
Suma 20 0 20
Tabla 1.3 Cuadrado de la mentira si se interpreta que cada paciente tiene el valor medio

Ahora, la suma de las mentiras cuadradas es 20 parejas². Si las mentiras² que han tenido entre todos
se reparten “equitativamente” en los 5 casos, se observa una “mentira² promedio” de 4 parejas²,
cálculo conocido por el nombre de varianza. Para evitar hablar de ‘mentiras cuadradas’ y ‘parejas
cuadradas’ se elimina ese engorroso “cuadrado” con una raíz cuadrada, y se obtiene que la mentira

25
Principios generales

prototípica es de 2 parejas. Este valor, 2 parejas, representa la distancia o desvío (con la media)
típico de todas las observaciones. Por esta razón recibe el nombre de desviación típica.

Ejemplo 2.6: Uso de la media y de la desviación típica. Cien niños tratados han tenido
fiebre durante una media de 3 días. La desviación típica (o estándar) ha sido de 1 día. Se
están describiendo los resultados obtenidos en la muestra: el centro se ha situado en 3 días y
los niños se alejaban de este centro, en promedio, 1 día (se entiende que se alejaban por
arriba y por abajo).

Para interpretar si la desviación típica es grande o pequeña es útil el siguiente truco. Al ser
promedio de distancias (cuadradas), habrá distancias mayores y menores, que se equilibrarán
mutuamente. Así, para “compensar” a un valor que coincida exactamente con la media, es decir,
que tenga un desvío igual a 0, se necesita otro valor que tenga un desvío de 2: así, grosso modo, los
casos estarán a una distancia de 2 desviaciones típicas, tanto por encima como por debajo de la
media.

Ejemplo 2.7: Si la media de la fiebre era de 3 días y la desviación típica de 1 día, puede
aproximarse que los niños han tenido fiebre entre 1 y 5 días.

Nota: Afinaremos este cálculo considerando la forma de la distribución.

Ejemplo 2.8: Soriano et al (Med Clín 2003;121:81-5, datos redondeados): “la edad media
(desviación típica) de los 11 pacientes con infección de PTC era de 70 (10) años”. El centro
de la distribución está en 70 años, pero no significa que todos los pacientes tengan 70 años,
sino que están a su alrededor. La distancia o desviación típica que mantienen con el centro
vale 10. Esta cifra representa el alejamiento “típico”. En una primera aproximación, cabe
imaginar que estos pacientes tienen edades comprendidas entre 50 y 90 años.

Nota: Esta aproximación puede hacerse al revés: un primer cálculo de la desviación típica en una variable
simétrica, divide por 4 la distancia entre el valor más alto y el más bajo.

Recuerde
La varianza es el promedio de las distancias con la media elevadas al cuadrado.
La desviación típica es su raíz cuadrada y valora el promedio de las distancias con
la media: representa la distancia típica o esperada de una observación con la
media.

26
Bioestadística para no estadísticos

La desviación típica muestral se representa por S. En Medicina Clínica se


representa por DE (desviación estándar) y en las revistas inglesas por SD
(standard deviation).

Ejercicio 2.9
El personal de cierto hospital camina a una velocidad media de 3km/h, siendo los
extremos de velocidad 2km/h y 4km/h aproximadamente ¿Qué valor aproximado
cree que puede tener la desviación típica?

Ejercicio 2.10
Los 21 pacientes con infección de la HAC tenían una edad media (DE) de 82 (8)
años. Interprete la media y la desviación típica. ¿Entre qué márgenes aproximados
cabe esperar que fluctúe la edad de estos pacientes?

En R, la desviación típica se obtiene con sd y la varianza con var.

Ejemplo R

# Medidas de dispersión de la variable bweigths

> sd(bweight) # desviación típica (en gramos)


[1] 637.4515
> var(bweight) # variancia (en gramos cuadrados)
[1] 406344.4

Nota: Note que la varianza es el cuadrado de la desviación típica.

La desviación típica es el estadístico por excelencia para valorar las dispersiones, pero requiere que
exista escala de intervalo.

Nota: se ha visto que existe escala de intervalo cuando hay unidad de medida. Es decir, cuando siempre
significa lo mismo un aumento de una unidad. Esta situación es verosímil cuando la variable es simétrica.
Un ejemplo de asimétrica es el salario: no significa lo mismo un aumento mensual de 100€ para quien
gana 500€ que para quien gana 5000€. Tampoco significa lo mismo aumentar las GOT de 10 a 40 que de
310 a 340. Las variables salario y GOT tienen una marcada asimetría, con una cola muy larga en el
extremo superior (Figura 2.6). En esta situación, la desviación típica pierde sentido, ya que no puede
interpretarse de la misma forma en ambas colas de la distribución.

27
Principios generales

Figura 2.6. Si la distribución es asimétrica, la desviación típica no puede representar simultáneamente las
distancias superiores e inferiores a la media

Recuerde
Una distribución simétrica facilita interpretar el valor de la desviación típica.

Si las variables son muy asimétricas puede renunciarse a la unidad de medida. Para valorar la
dispersión en la escala ordinal hemos visto la distancia intercuartil.

En R, la instrucción para el cálculo de la distancia intercuartil es IQR.

Ejemplo R

# Rango intercuartílico como medida de dispersión de bweigths

> IQR(bweight) # rango intercuartílico


[1] 689.25

Escala Propiedades Tendencia central Dispersión

Nominal Equivalencia Moda

Ordinal Orden Mediana Distancia intercuartil

Intervalo Unidad Media Desv. Típica = Varianza

Tabla 1.4. Estadísticos apropiados según la escala de medida

La Tabla 1.4 muestra las propiedades mínimas que requiere cada estadístico. Así, por ejemplo, la
media requiere escala de intervalo, pero la moda puede ser empleada en cualquier escala.

Ejercicio 2.11
Suponga que ha medido la presión arterial sistólica a 5 pacientes, 115, 117, 124,
135 y 142 mmHg.
a) Sin hacer el cálculo, diga qué valor aproximado le parece correcto para la
media:

115 mmHg 125 mmHg 135 mmHg

28
Bioestadística para no estadísticos

b) Suponga ahora que el resultado observado en los 5 pacientes ha sido 100, 125,
130, 135 y 160 mmHg, con una media de 130 mmHg. Sin hacer el cálculo, diga
qué valor aproximado le parece correcto para la desviación típica:
15 mmHg 20 mmHg 25 mmHg

El cálculo de la varianza presentado ha dividido por n, el número de observaciones. Pero estimar la


media y la desviación típica en la misma muestra implica gastar una pieza de información, “perder
un grado de libertad”. El cálculo habitual de la varianza divide por “n-1” (número de casos menos
uno) en lugar de por “n”.

Recuerde

Divida por “n-1” al calcular la varianza.

Definición
Si xi es el valor de la observación i-ésima y , la media muestral.

Varianza muestral

Desviación típica muestral

Fórmulas abreviadas

Ejercicio 2.12 [CONSEJO: hágalo con una hoja de cálculo]


a) Suponga ahora que el resultado observado en los 5 pacientes ha sido 100, 110,
120, 130 y 140 mmHg. Calcule la media, la varianza y la desviación típica.
b) Suponga que se ha medido la presión arterial sistólica al mismo paciente 5
veces en la última visita, habiendo observado 125, 128, 130, 132 y 135
mmHg. Calcule la media, la varianza y la desviación típica.
c) ¿Cómo interpreta la diferencia de las dos S anteriores?

Digamos, para terminar, que la variabilidad no tiene porqué ser molesta. Al contrario, puede ser
fuente de información o de mejora.

29
Principios generales

Ejemplo 2.9: los “errores” en la duplicación del DNA introducen ciertas variaciones que se
traducen en individuos de diferentes características. La evolución de las especies se produce
porque el entorno selecciona a las unidades mejor adaptadas. La selección natural precisa,
por tanto, de la existencia de variabilidad.

Ejemplo 2.10: ciertas rutinas de programación generan, al azar, muchas posibles soluciones
de un problema. Luego se seleccionan las mejores y se vuelve a añadir ruido para reiniciar
este pequeño ciclo.

Historieta: en el paradigma de la uniformidad, las diferencias con el patrón se llaman desvíos, pero en la
sociedad de la información se abre paso el paradigma biológico de la diversidad y las diferencias
empiezan a ser un valor positivo. Demos pues la bienvenida a la diversidad y olvidemos las
connotaciones negativas del término ‘desviación’. Un término más positivo, especialmente en el ejemplo
de las parejas, podría ser “diversión típica”. Seguiremos buscando…

Lectura: diferente no es desviado.

2.8. Medidas de posición relativa


La existencia de diferencias representa información. El hecho de que seamos diferentes nos permite
distinguirnos. Para ello, puede resultar muy útil conocer cuál es la posición de una unidad respecto a
otras unidades de su entorno.

Ejemplo 2.11: Vamos a visitar a un amigo conocido en un “chat” de internet. Él vive en un


poblado de África y, para identificarlo, nos ha dicho que mide 170 cm. A medida que nos
acercamos a su poblado dudamos si podremos identificarlo. ¿Cuál debe ser la altura típica
de su poblado? Podría ser que fueran muy altos. O todo lo contrario. Saber la media de la
altura puede ser una gran ayuda. Pongamos que en su poblado dicha media sea de 150 cm.
Podemos considerar “altos” a todos los que midan más de 150 y “bajos” a los que midan
menos. Ahora ya sabemos que tenemos que mirar hacia los altos, pues nuestro conocido
tiene una distancia positiva de 20 cm con la media del poblado.

Ahora bien, podría ser que en dicho poblado existiera una gran dispersión y nuestro
conocido pasara desapercibido dentro de los altos. O podría ser que todos los habitantes
estuvieran muy cerca de la media y nuestro conocido enseguida resaltara. Ahora queremos
saber cuánto vale la desviación típica. Si fuera de 20 cm, nuestro conocido sería alto, pero
sin destacar entre los altos: sería un “alto típico”. En cambio, si la desviación típica fuera de
2 cm, sabemos que la altura de nuestro conocido resaltará mucho entre las de sus vecinos.

30
Bioestadística para no estadísticos

Definición
El procedimiento estadístico de tipificar o estandarizar el valor de una variable
consiste en restarle la media y dividirlo por la desviación típica.
valor observado - media
z = desvío tipificado = -----------------------------------
desviación típica
Valores de z alrededor de 1 ó –1 representan distancias típicas al valor central. Valores cercanos a 0
representan valores muy próximos al centro de la distribución. Y valores de z mayores que 2 (o
menores que –2) representan individuos que se están alejando más del doble de lo que se aleja el
individuo típico.

Ejemplo 2. 11 (cont): Si la desviación típica del poblado de nuestro amigo africano es de 20


cm, el desvío tipificado de nuestro amigo vale 1:

En cambio, si la desviación típica del poblado fuera 2 cm, el desvío tipificado de nuestro
amigo sería 10:

Ejercicio 2.13
En cierta población, el colesterol HDL tiene una media de 45 mg/dl y una
desviación típica de 10 mg/dl. Un paciente con colesterol de 70, ¿qué desvío
tipificado tiene? ¿Cómo interpreta este valor? ¿Y para un paciente con 35 mg/dl?

Ejemplo 2.11 (cont): El hipotético desvío tipificado de nuestro amigo de 1 indica que
nuestro amigo es un alto típico. En cambio, el desvío de 10 indica que nuestro amigo tiene
una altura atípica. Desde un punto de vista estadístico, se trata de un caso “raro”, extremo.

Recuerde
Un caso que se aleje más de 2 DT está fuera de la banda (“outlier”).

Ejemplo 2.12: Un outlier sería un señor que mida más de 210 cm (criterio univariante) o un
señor de 180 cm que pese 55 Kg (criterio bivariante).

Nota: dónde ponemos la banda o límite es arbitrario. Evite sacar conclusiones precipitadas.

31
Principios generales

Historieta: Un caso fuera de límites (outlier) puede ser un elemento extra-ordinario que sí pertenece
a esa población (Figura 2.7 (izquierda)); pero también puede ser una contaminación en la muestra
(Figura 2.8 (derecha)).

Figura 2.7 Figura 2.8

Figuras 2.7 y 2.8: Dos tipos diferentes de outlier: el de la izquierda pertenece a la población, el de la derecha, no.

Conviene distinguir entre situaciones imposibles (p. ej., 300 cm) o situaciones raras pero posibles
(p. ej., 227 cm). Un outlier alerta sobre posibles errores de trascripción, o posibles contaminaciones
de la muestra, pero no es ninguna prueba definitiva de dato erróneo, por lo que se deben consultar y
revisar estas anomalías. No se aconseja eliminar un caso por criterios de “rareza” estadística.

Ejercicio 2.14
La variable RFS tiene una media de 400 y una desviación típica de 150. Defina
criterios para detectar datos “sospechosos” en las semanas 0, 6, 12 y 24 del
estudio. ¿Qué hará con estos casos?.

Ejercicio 2.15
Si consulta al investigador que generó los datos, ¿cuándo le parece más oportuno?

2.9. Descripción de los participantes


El primer criterio para valorar si unos resultados aplican a nuestro entorno es mirar los criterios de
elegibilidad. Pero los pacientes finalmente reclutados pueden haberse desplazado dentro de esos

32
Bioestadística para no estadísticos

criterios de selección. Por ello, hay que mirar la descripción de los pacientes incluidos, usualmente
en las tablas o en el texto.

Ejemplo 2.13: Bobes: “Los 168 sujetos incluidos en el estudio (52 pacientes estables, 116
inestables) … fueron en su mayoría mujeres (85 y 82%, respectivamente), con una media
(DE) de edad de 47 (12) y 45 (13) años, respectivamente, y nivel de estudios primario. En
ambos grupos, la mayoría de pacientes estaba en situación laboral activa (el 35 y el 47%), si
bien también fue importante el porcentaje de amas de casa incluidas (el 29 y el 35%).”

Características Grupo vitaminas Grupo placebo


(n = 110) (n=115)
Edad media ± SD, y 65.3 ± 5.1 63.6 ± 4.3
Fumadores, n (%) 65 (59.1) 40 (34.8)
IMC media ± SD, kg/m2 27.2 ± 3.7 25.4 ± 7.1
Tensión arterial media ± SD, mmHg
Sistólica 110 ± 10 111 ± 9
Diastólica 65 ± 7 67 ± 8
Enfermedad concomitante, n (%)
Hipertensión idiopática 20 (18.2) 16 (13.9)
Diabetes 13 (11.8) 7 (6.1)
Tabla 1.5 Ejemplo ficticio de tabla con características iniciales, clínicas y demográficas.

Las guías de publicación (p.e. CONSORT punto 15) explican con detalle cómo se han de presentar
los datos tanto de las variables continuas como de las variables discretas.

Nota técnica: Observe que esta directriz dice que el error estándar y los intervalos de confianza (todavía
no estudiados) no sirven para describir las condiciones iniciales de los casos.

Ejercicio 2.16
¿Cómo representaría los resultados de las siguientes variables?
a) Glicemia en ayuno en personas sanas
b) Transaminasas en enfermos
c) Grado de cardiopatía (nivel I a IV) según NYA
d) Presión arterial sistólica

En general, por eficiencia, las revistas sugieren dar la descriptiva detallada en tablas. Aunque
permiten resaltar algo en el texto, no les gustan las repeticiones.

33
Principios generales

Tabla 1.6 Características sociodemográficas y clínicas de los pacientes en estudio

34
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1 La clasificación más habitual de los seres humanos es en masculino o femenino.

1.2 La clase social, en alta, media y baja es otro ejemplo de escala ordinal. Un “score”, tipo test de Apgar, entre 0
y 10, cumple las propiedades de orden: un recién nacido con valor de 10 está mejor que otro con 9 y así
sucesivamente.

1.3 El peso de un paciente está en escala de intervalo: la diferencia entre un sujeto con 65 y otro con 70 Kg. es la
misma que la que existe entre otros dos de 85 y 90 Kg.

1.4 “¿Tiene cefalea?” está claramente en escala ordinal.

1.5 Físicamente, la fracción de eyección tiene unidad de medida y cero absoluto; pero en su interpretación clínica,
como nivel de rendimiento cardíaco, no somos nosotros los que debemos decidir si significa lo mismo subir de
28 a 32%, que de 52 a 54%: un clínico debe valorar si estos cambios se interpretan de la misma forma para
decidir la escala y la mejor forma de resumirla (media y SD si acepta unidad de medida, mediana y rango
intercuartil, en caso contrario).

1.6 Desde el punto de vista de escala de medida, el recuento de CD4 posiblemente estaría en una escala
cuantitativa de intervalo, con un mismo significado del incremento al pasar de 150 a 200 que de 550 a 600.
Una primera dificultad aparece si el aparato de medida precisa un valor mínimo, pongamos 20, para poder
detectar los linfocitos. Si fuera así, tendríamos que se trataría de una variable “censurada”, en la que todos los
valores inferiores a 20 han sido reconvertidos en un único valor “no detectado”. De esta forma, se dispondría
de una variable parcialmente de intervalo y parcialmente nominal u ordinal. Otra dificultad es si esta variable
se pretende utilizar como indicadora de una variable subyacente, no directamente observable, como podría ser
la evolución de ese paciente ante su enfermedad. ¿Aún significa lo mismo un incremento de 150 a 200 que de
550 a 600? ¿O de 375 a 425? Posiblemente no. Todo apunta a que debamos ‘movernos’ desde la visión
operativa de la medida hacia la visión representativa y preguntarnos, no por la escala, sino por la validez y la
fiabilidad. Esta última será posiblemente alta en el sentido de que, repetida la determinación de CD4 se
obtienen valores similares. Pero esta fiabilidad será no tan alta si lo que se pretende que sea similar es la
evolución, por lo que deberá matizarse también cómo se define la fiabilidad. En cuanto a la validez, se trata de
estudiar cómo ayudan los valores de CD4 a predecir esta evolución, lo que puede estudiarse, por ejemplo, con
la ayuda de términos como sensibilidad y especificidad estudiados más adelante.

1.7 El examen MIR es menos válido, ya que mide la capacidad de contestar unas preguntas, no la de actuar
profesionalmente. En cambio, es mucho más fiable, en el sentido de que si se repite la evaluación de un mismo
individuo (con otras preguntas) se obtendrán puntuaciones mucho más similares (sea quien sea el evaluador)
que si se cambia el paciente-caso o el examinador. [Y no olvidemos que el evaluador puede estar sometido a
muchos sesgos, pero eso es quizás otra discusión.]

2.1. No. No suma el 100%. Es decir, no es el gráfico de una sola variable sino de varias: está poniendo en la misma
figura el porcentaje de pacientes que cumplen cada uno de esos criterios. Como cada paciente puede tener más
de uno, están recogidos en variables diferentes. En resumen, no es un histograma ni un diagrama de barras ya
que éstos representan una sola variable.

35
Principios generales

2.2. Que engaña: la impresión visual del tamaño viene por el área, no por la altura. Pero en este gráfico la
proporcionalidad parece ser con la altura no con el área.

2.3. A) El código para obtener el mosaicplot es


>par(mfrow=c(1,1),las=1, cex.lab=1.1)
>mosaicplot(preterm~lowbw, col=c("blue","green"),
xlab="Periodo de gestación < 37 semanas (0-No;1-Sí)",
ylab="Peso del bebé < 2500 g. (0-No;1-Sí)",
main="",cex.axis=1.1)

B) Esta segunda pregunta es muy difícil. El capítulo 4 aborda a fondo está cuestión. Digamos, por ahora, que el
porcentaje de bajo peso (variable posterior) según nivel de periodo (variable inicial) es más interpretable.

2.4. Se obtiene que la mediana de los bebés prematuros es más de 800 g. inferior.
>tapply(bweight,preterm,median)
0 1
3282 2404

2.5. La mediana es el percentil 50 y el cuartil 2.

2.6. El cuartil 1 equivale al percentil 25; el cuartil 2, al percentil 50 y el cuartil 3, al percentil 75.

2.7. Todos los estadísticos se toman de la función summary a excepción de la desviación típica.
>valores<- c(115, 117, 124, 135, 142)
>summary(valores)
Min. 1st Qu. Median Mean 3rd Qu. Max.
115.0 117.0 124.0 126.6 135.0 142.0
>sd(valores)
[1] 11.63185
La media es 126.6; la mediana, 124; el primer y tercer cuartil son 117 y 135 respectivamente; el IQR vale 18
(135 – 117); y la desviación típica es 11.6.

2.8. Antes de realizar el diagrama de caja, se fijan algunos parámetros gráficos.


>par(mfrow=c(1,1),las=1)
>boxplot(matage, col="orange", horizontal = TRUE,
xlab="Edad de la madre")

36
Bioestadística para no estadísticos

25 30 35 40
Edad de la madre

2.9. Si podemos aceptar que alguien que camina muy despacio va a 2 Km/h y alguien muy rápido a 4 Km/h, cabe
esperar una desviación típica próxima al valor 0.5 Km/h, dado que (4-2)/4 es 0’5.

2.10. El doble de la desviación típica es 16, que restado y sumado de 82, da 66 y 98. Se trata de una población
anciana (82 años) pero que cubre un amplio margen, ya que posiblemente fluctúa entre 66 y 98.

2.11. a) 125 (de hecho el valor exacto es 126.6 mmHg.)

b) 15 (en este caso, dados los pocos datos, la aproximación de dividir el rango entre 4 no es tan buena. El valor
real es 21.5 mmHg.)

2
2.12. a) Media x = 120 mmHg; variancia S 1000 / 4 = 250 mmHg, y desviación típica S =

16 mmHg.

b) Media x = 130 mmHg; variancia S2 = 58 / 4 14.5 mmHg, y S = 3.81 mmHg.

c) La desviación típica del segundo enunciado es muy inferior, ya que sólo incluye las oscilaciones debidas a
las fluctuaciones intra-caso, que pueden ser debidas a cambios en el individuo pero también a errores en el
procedimiento de medida. En el primer caso, además de estas oscilaciones, también aparecen las debidas .a las
diferencias entre individuos.

2.13. Al paciente con un valor de 70 mg/dl le corresponde un desvío típico de +2.5, lo que indica que está por
encima y de forma marcada, ya que tiene 2.5 veces la distancia habitual de los valores con la media. El
paciente con un valor de 35mg/dl tiene un desvío típico de -1, lo que indica que está por debajo, pero ahora de
forma típica. Estadísticamente, el primer caso podría ser considerado como un caso extremo. Ello requiere
ahora una discusión clínica.

2.14. Con esta media y desviación típica, los casos deberían estar comprendidos entre:

Valores = media 2 desviación típica = 400 2·150 400 300 = [100, 700]

Así, los valores que fueran inferiores a 100 o superiores a 700 serían ‘sospechosos’ de acuerdo con este criterio
univariante. [De forma simple, un criterio bivariante podría establecer como sospechoso a un paciente que
sufriera variaciones de su CD4 superiores al 50%.]

37
Principios generales

Estos casos deberían ser contrastados con mucho cuidado, de acuerdo con su historia clínica, a la búsqueda de
posibles errores de trascripción. Si no se encuentran errores, el valor debe darse por bueno.

Al estudiar la distribución Normal veremos que este intervalo (cambiando 2 por 1.96) contiene el 95% de las
observaciones si la distribución tiene forma de campana.

2.15. Por supuesto, lo más próximo al momento en el que se generó el dato. De lo contrario, puede llegar a ser
imposible verificarlo.

2.16. a) Media y desviación típica, ya que por experiencia previa cabe esperar una distribución simétrica.

b) Mediana y cuartiles 1 y 3 (o percentiles 25 y 75, que son lo mismo), ya que no parece simétrica.

c) Frecuencias y porcentajes de cada nivel I-IV.

d) Media y desviación típica, ya que parece simétrica.

Y recuerde informar siempre del número n total de casos.

38
Capítulo 4:

Probabilidad,
riesgo, odds y tasa

Erik Cobo, José A. González y Pilar Muñoz


Jordi Cortés, Rosario Peláez, Marta Vilaró, Hector Rufino y Nerea
Bielsa

Septiembre 2014

1
Bioestadística para no estadísticos

Probabilidad, riesgo, odds y tasa

Presentación ......................................................................................................................................... 2
1. Probabilidad ........................................................................................................................... 3
1.1. Introducción a la probabilidad .................................................................................................. 3

1.2. Probabilidad condicionada ........................................................................................................ 4

1.3. Independencia ........................................................................................................................... 5

1.4. Aplicación de la probabilidad al diagnóstico ............................................................................ 6

1.5. Teorema de Bayes * ................................................................................................................ 10


2. Riesgos y tasas....................................................................................................................... 12
2.1. Riesgo...................................................................................................................................... 12

2.2. Odds o momio ......................................................................................................................... 13

2.3. Odds y Bayes .......................................................................................................................... 16

2.4. Tasa ......................................................................................................................................... 17

2.5. Incidencia y prevalencia.......................................................................................................... 19


3. Asociación ............................................................................................................................. 20
3.1. Diferencia de riesgos ............................................................................................................... 20

3.2. Número necesario de casos tratados ....................................................................................... 21

3.3 Riesgo relativo ........................................................................................................................ 22

3.4 Odds ratio o razón de momios ................................................................................................ 23

3.5 Razón de tasas (Hazard ratio o HR) ....................................................................................... 24

3.6 Relación entre los 3 cocientes de riesgos: RR, HR y OR * .................................................... 25

3.7 Relación entre HR y las medianas de los tiempos hasta el evento. ........................................ 26
Soluciones a los ejercios 27

* Indica tema más avanzado que conviene mirar pero no es crucial para los ejercicios.

1
Presentación

No es ningún secreto que muchos fenómenos son inciertos. A las mentes más deterministas les
gusta pensar que esta incertidumbre es el resultado de la falta de conocimiento: si se supieran cuáles
son todas las fuerzas que actúan en un momento dado y cómo lo hacen, se podría predecir
exactamente el resultado.

El modelo estadístico divide a estas causas en dos grandes grupos: el primero lo forman un número
limitado con suficiente entidad para que su efecto pueda ser estimado y modelado de forma clásica.
En cambio, el segundo grupo es ilimitado y con influencia reducida: son tantas, y con efectos tan
pequeños, que la única manera de modelar el resultado de su influencia es mediante las teorías de
combinatoria y de probabilidad.

En este capítulo se introducen, con la ayuda de ejemplos, conceptos necesarios para interpretar los
resultados de una prueba diagnóstica, la capacidad predictiva de un indicador, el concepto de riesgo
o las medidas de comparación de riesgos. Para aquellas situaciones en las que varía el tiempo de
seguimiento, se introducen las tasas.

Contribuciones: La versión original de marzo 2013 descansa en el libro de Bioestadística para No


estadísticos de Elsevier de EC, JAG y PM, editada por JC y revisada por MV y RP y HR; y la de septiembre
de 2104 por NB y EC.

2
1. Probabilidad

1.1. Introducción a la probabilidad

Definición
La probabilidad, desde el punto de vista subjetivo es la expectativa de que ocurra
un suceso.

Lectura: Varias definiciones de probabilidad han sido propuestas. La primera definía la probabilidad
como el “cociente entre casos favorables y casos posibles”. Dada su circularidad, (exige
equiprobabilidad) enseguida se propuso sustituirla por “la frecuencia de aparición de un suceso”. En el
fondo, ambas definiciones son métodos para asignar valores a la probabilidad, es decir para conocer sus
valores, pero no definiciones formales de lo que es en sí misma la probabilidad. En el siglo pasado se
propusieron, casi al mismo tiempo, dos definiciones muy interesantes. Una de ellas, abstracta y
axiomática, permitió un desarrollo formidable de toda la teoría de probabilidad. La otra, subjetiva,
expresa en términos de probabilidad el grado de creencia en una afirmación científica, y también la
expectativa de (la ocurrencia de) un suceso. Su influencia en los conceptos de ciencia y de conocimiento
está por desarrollarse plenamente.
La Figura 1.1 representa la probabilidad del suceso A, P(A), dónde su valor concreto es
directamente el cociente entre el área sombreada (A) y el área total ( .

Figura 1.1 Probabilidad del suceso A


Ejemplo 1.1: en 1978 se registraron 66 muertes por leucemia en una población de 890575
individuos. Si se estima la probabilidad de morir por leucemia mediante la proporción
(estimador de la probabilidad), se obtiene un riesgo de 74 muertes por millón de habitantes.
P = muertes por leucemia / población total = 66 / 890575 = 0.0000741

Definición
La probabilidad de un evento es el número de casos favorables dividido por el
número de casos posibles.

Como que las unidades del numerador son las mismas que las del denominador, éstas se cancelan y
la probabilidad no tiene unidades de medida.

Recuerde
Si el denominador de la medida de frecuencia es el número total, hablamos de
probabilidad.

3
Si representamos por “no A” al complementario de A: P(no A) = 1 – P(A).

1.2. Probabilidad condicionada

Una gran cantidad de factores pueden modificar esta probabilidad. Para considerarlas es preciso
realizar la siguiente definición.

Definición
Probabilidad del suceso A condicionado al suceso B es la probabilidad de
aparición del suceso A sabiendo que B es cierto.
Se representa por P(A|B).

Ejemplo 1.2: La probabilidad de nacer con los ojos azules en España (suceso A) es de
aproximadamente 1/6, pero si se conoce que ambos progenitores tienen los ojos azules (suceso
B), está probabilidad condicionada se incrementa hasta 0.99 (99%).

La probabilidad condicionada se obtiene a partir del cociente entre la probabilidad de observar a la


vez ambos sucesos (A ∩ B) y la del suceso B.

Definición
P (A | B) = =

La probabilidad de A condicionada a B, P(A|B), estudia sólo los casos que cumplen la característica
B.

A A˄ B B

Figura 1.2 Probabilidad del suceso A condicionado al suceso B

Recuerde
P(A|B) representa la probabilidad del suceso A ‘dentro’ del total de casos que
cumplen B.

P(A ∩ B) representa la probabilidad de que ocurran simultáneamente los sucesos


A y B.

4
Ejercicio 1.1
¿Qué sería en el gráfico P(B|A)? ¿Cuál sería su definición?

La probabilidad condicional no posee la propiedad conmutativa, es decir, no se cumple que


P(A|B) = P(B|A).

Ejemplo 1.3: Stephen Senn recuerda la probabilidad de que un católico sea Papa es muy
baja, pero la de que el Papa sea católico es muy alta.

Ejemplo 1.4: la probabilidad de que alguien que ha parido sea mujer es altísima, quizás 1,
pero la probabilidad de que una mujer haya parido no es tan alta.

Ejemplo 1.5: Podemos interpretar que la probabilidad de contraer cáncer (C) de pulmón si
se es fumador (F) es elevada P(C|F); pero la probabilidad de haber sido fumador si se tiene
cáncer P(F|C) es mayor.

Nota técnica: como hay más gente que fuma que con cáncer, P(F)>P(C), y como ambos
tienen el mismo numerador, P(F∩C), P(F|C)> P(C|F).

Ejercicio 1.2
Sea C tener cáncer de Mama y M ser mujer. ¿Qué es mayor, P(M|C) o P(C|M)?

1.3. Independencia
La idea de eventos independientes está ligada a la de la información que uno aporta sobre el otro: A
y B son independientes cuando la probabilidad de A es la misma indiferentemente de lo que pase
con B (B no informa sobre la probabilidad de A).

Si A y B son independientes, entonces

Y viceversa, que pase A no cambia la expectativa de B:

Si A y B son independientes, entonces

En resumen independencia aplicado a dos eventos tiene doble implicación:

- si , entonces A y B son independientes


- si A y B son independientes, entonces

5
Ejemplo 1.6: Miopía (Sí/No) y Género (Masculino/Femenino) son independientes:

Ejercicio 1.3
Explique porqué son independientes: ¿qué números compara para decirlo?

1.4. Aplicación de la probabilidad al diagnóstico

Por simplicidad, supónga que debe diagnosticar una sola enfermedad con dos únicos posibles
estados, enfermo (E) y sano (S); y que se dispone de un único indicador con dos posibles valores,
positivo (+) y negativo (-).

Lectura: Bossuyt, Reitsma, Bruns ponen como ejemplo de una buena definición de objetivos en el
resumen de un original: “Purpose: To determine the sensitivity and specificity of computed tomographic
colonography for colorectal polyp and cancer detection by using colonoscopy as the reference standard.”

Recuerde
La primera dificultad es definir las variables: (1) la referencia o gold standard
mide “perfectamente y sin error”, enfermo/sano; y (2) el resultado del test,
indicador o prueba que se desea estudiar.

Definición
Sensibilidad (Sens): tendencia o propensión de los enfermos a dar positivo (en
esta prueba).

Especificidad (Esp): tendencia o propensión de los sanos a dar negativo.

Valor predictivo positivo (VP+): confianza o credibilidad de un resultado


positivo (de esta prueba).

6
Valor predictivo negativo (VP-): confianza o credibilidad de un resultado
negativo.

Ejemplo 1.7: Una prueba sería muy-muy sensible si, aplicada a un conjunto de enfermos,
casi el 100% dan positivo. Y tendrá un elevado valor predictivo positivo si casi el 100% de
los que dan positivo están realmente enfermos. ¡Parecen lo mismo, pero no lo son!

La probabilidad condicionada permite definir estos conceptos formalmente, aclarando diferencias y


similitudes. De hecho, aparecen cuatro probabilidades condicionadas: P(E|+), P(+|E), P(-|S) y P(S|-).

Ejercicio 1.4
Relaciones estas 4 probabilidades condicionadas con los 4 conceptos anteriores de
sensibilidad, especificidad y valores predictivos positivo y negativo.

En la sensibilidad y en la especificidad, el condicionante, o punto de salida, es la realidad (enfermo


o sano); mientras que el condicionado, o punto de llegada, es el indicador (positivo o negativo). Así,
ambas van de la realidad al resultado: siguen el planteamiento racionalista de ir de la causa a la
consecuencia. Los valores predictivos, en cambio, van al revés: condicionan o parten del indicador
y se preguntan por el estado real del paciente. Por ello contestan la pregunta empirista del
diagnóstico: dado que este paciente ha presentado estos síntomas, signos e indicadores, ¿está
enfermo? O mejor: ¿qué probabilidades tiene de estar realmente enfermo sabiendo que ha dado
positivo, P(E|+)? ¿O de estar sano si ha dado negativo, P(S|-)?

Ejemplo 1.8: la sensibilidad, la especificidad y los valores predictivos de la prueba


diagnóstica cuyos resultados resume la Tabla 1.1, son:

+ - Total Sens = P(+|E) = 94/132 0.712 =71.2%

Enfermo 94 38 132 Esp = P(-|S) = 653/868 0.752 =75.2%

Sano 215 653 868 VP+ = P(E|+) = 94/309 0.304 =30.4%

Total 309 691 1000 VP- = P(S|-) = 653/691 0.945 =94.5%

Tabla 1.1. Probabilidades diagnósticas en una muestra con un 13.2% de enfermos. Sensibilidad y Especificidad
son los porcentajes de fila, pero los VP son los porcentajes de columna.

A pesar de que los valores de sensibilidad y especificidad son muy similares, los valores
predictivos se alejan considerablemente entre sí: la probabilidad de que un paciente que dé
negativo esté sano (VP-) es alta, pero la probabilidad de que un paciente que dé positivo esté

7
enfermo (VP+) es baja. La razón es muy simple: hay más sanos (86.8%) que enfermos
(13.2%) y al calcular los VP, que son proporciones sobre el total de la columna, la segunda
fila ‘pesa’ más que la primera.

Ejercicio 1.5
Reconstruya la siguiente tabla si sensibilidad = especificidad = 100%. ¿Se cumple
que ambos valores predictivos son del 100%?

Recuerde
Si la sensibilidad y la especificidad son ambas del 100%, no hay duda: un caso
positivo está enfermo y un negativo está sano.

Ejercicio 1.6
Mirando a la tabla construida en el ejercicio anterior, para que el valor predictivo
positivo sea perfecto (VP+ = 100%), ¿qué necesita que sea del 100%, la
sensibilidad o la especificidad?

Recuerde
Sensibilidad perfecta implica VP- perfecto (100%).
Especificidad perfecta implica VP+ perfecto (100%).

Ejercicio 1.7
Intente explicar con sus propias palabras lo que miden la sensibilidad, la
especificidad y ambos valores predictivos.

Ejercicio 1.8
Un signo es patognomónico si su presencia asegura definitivamente la
enfermedad: ¿alguna de las probabilidades diagnósticas es del 100%?

8
Ejemplo 1.9: Tal y como puede observarse en la Tabla 1.2, si cambiamos P(E) de 0.132 a
0.75, aunque mantengamos la sensibilidad y la especificidad iguales a las anteriores, los
valores predictivos cambian.

+ - Total Sens = P(+|E) = 534/750 0.712 =71.2%

Enfermo 534 216 750 Esp = P(-|S) = 188/250 0.752 =75.2%

Sano 62 188 250 VP+ = P(E|+) = 534/596 0.896 =89.6%


Total 596 404 1000 VP- = P(S|-) = 188/404 0.465 =46.5%

Tabla 1.2 Probabilidades diagnósticas en un entorno muy especial, con un 75% de enfermos

No olvide cuál es la proporción de enfermos en la población origen de los datos. Si es muy


baja, la proporción de enfermos seguirá siendo baja después del resultado de la prueba, lo
que llevará a un valor predictivo positivo (proporción de enfermos en los positivos) bajo y a
un valor predictivo negativo (proporción de sanos en los negativos) alto.

Un observador poco atento podría olvidar las condiciones del entorno y esperar que, si un 70% de
los enfermos dan positivo, aproximadamente un 70% de los positivos estarían enfermos.

Ejercicio 1.9
Repita los cálculos, suponiendo que dispone de 2 muestras de 1000 casos, una par
a enfermos y otra para sanos. (Tabla 1.3)

+ - Total
Enfermo 712 288 1000
Sano 248 752 1000
Total 960 1040

Tabla 1.3 Probabilidades diagnósticas en dos muestras de 1000 casos

En el ejercicio anterior ambas filas pesan lo mismo ya que ambas filas se han fijado
‘artificialmente’, por lo que estos valores predictivos sólo aplicarían a la irreal situación en la que
ambas filas fueran igual de frecuentes.

Recuerde
Muchos diseños se basan en 2 muestras (enfermos y sanos) obtenidas por
separado. Como sus números de casos los decide el investigador, no permiten
calcular directamente los valores predictivos.

9
Cuando el número de enfermos y de sanos está fijado por muestreo, el cálculo de los VP debe usar
el método explicado en el siguiente apartado.

1.5. Teorema de Bayes *


La sensibilidad y la especificidad son el resultado de un mecanismo fisiológico o patológico y, por
tanto, suelen ser extrapolables de una población de pacientes a otra. En cambio, los valores
predictivos dependen de la frecuencia de la enfermedad en la población, que puede variar mucho de
un entorno a otro.

Recuerde
La sensibilidad y la especificidad quizás puedan ser transportables de una
población a otra, pero los valores predictivos seguro que no, ya que dependen de
la frecuencia de la enfermedad en cada población.

Ejemplo 1.10: suponga dos poblaciones diferentes: (1) prisioneros con hábitos de riesgo y
(2) profesionales sanitarios. Asumamos que, en la primera población, la frecuencia de SIDA
es mucho mayor. Y supongamos que 2 casos, uno de cada entorno han dado positivo.
¿Tienen la misma probabilidad de tener el SIDA?

Figura 1.3 Esquema del Teorema de Bayes

El teorema de Bayes permite resolver este problema, ya que combina ambas piezas de información
(la proporción de enfermos de la población con el rendimiento del indicador, resumido en sus
valores de sensibilidad y especificidad) para obtener los valores predictivos.

Definición.

El teorema de Bayes permite invertir condicionante y condicionado: a partir de P(A|B) se obtiene


P(B|A) y por tanto, a partir de P(+|E) se llega a P(E|+).

10
El teorema de Bayes permite invertir condicionante y condicionado: a partir de P(A|B) se obtiene
P(B|A) y por tanto, a partir de P(+|E) se llega a P(E|+).

Ejemplo 1.11: Sea A = “Estar infectado por el virus de la Gripe A” y B = “Tener fiebre
superior a 38ºC”, entonces dicha fórmula permite conocer la proporción de Gripe A entre
los que tienen fiebre, o P(A|B), a partir de la proporción de fiebre entre los de Gripe A, o
P(B|A); y la prevalencia, o P(A).

Nota técnica: demostración a partir de la definición de probabilidad condicionada

P( A B)
P( A B) P( A B) P( A B)· P( B)
P( B)

Y entonces P( A B) P( A B)·P( B)
P( B A)
P( A) P( A)

Nota: la fórmula de Bayes se puede expresar también mediante la descomposición del denominador A en
los dos sucesos A˄ B y A˄ (no B) que lo componen .

P ( A B )·P ( B ) P ( A B )·P ( B ) P ( A B )·P ( B )


P ( B A)
P ( A) P( A B) P( A noB ) P ( A B )·P ( B ) P ( A noB )·P (noB )

Recuerde

Una expresión alternativa dela fórmula de Bayes es:

Ejemplo 1.12: al aplicar las sensibilidades y especificidades obtenidas en el Ejemplo 1.9 a


un entorno con P(E) = 0.132, el valor predictivo positivo será:

P( E )·P( E ) 0.712·0.132
P( E ) 0.304
P( E )·P( E ) P( S )·P( S ) 0.712·0'132 0.248·0.868

Ejercicio 1.10
Compruebe que sabe calcular el valor predictivo negativo.

Recuerde
El teorema de Bayes, a partir de la proporción de enfermos, la sensibilidad y la
especificidad proporciona los valores predictivos.

11
El teorema de Bayes permite ir actualizando la información: su fórmula “mezcla” la información
previa, disponible “a priori” P(E), con los nuevos resultados (+ ó -).

Ejercicio 1.11
Volvamos al ejemplo del resultado positivo del SIDA en un recluso con hábitos
de riesgo y en un colega. Suponga que en el primer colectivo, la proporción de
SIDA es un 80% y en el segundo un 1%. Además, tanto sensibilidad como
especificidad valen 0.95. Calcule VP+ en ambos casos.

Recuerde
Información a priori + nueva información = Información a posteriori.

2. Riesgos y tasas

2.1. Riesgo

Definición
En sentido amplio, riesgo es la probabilidad de que algo desfavorable (un evento
negativo) ocurra.

En investigación clínica, indica la probabilidad de que aparezca un fenómeno adverso concreto,


quizás tras una actividad, intervención o exposición..

Ejemplo 2.1: según Baños et al (3), la Food and Drug Administration (FDA) considera
lícito someter a los voluntarios de estudios sin beneficio terapéutico, a un riesgo “mínimo o
insignificante”, que define como una probabilidad de entre 1 y 100 por mil de sufrir una
complicación menor; o de entre 10 y 1000 por millón de sufrir una grave.

Nota: En Medicina, riesgo y probabilidad suelen ser sinónimos. Pero la definición de función de riesgo
en teoría de la decisión incluye también las consecuencias (“pérdidas”). Así, aunque (supongamos) las
probabilidades de padecer en cierto tiempo gripe y cáncer sean iguales, para matemáticos, estadísticos y
economistas el “riesgo” de la segunda es mayor. En esta línea, la definición anterior de “mínimo o
insignificante” por la FDA, baja la frecuencia cuando sube la gravedad. Sin embargo en lo que queda de
capítulo, usaremos el término riesgo por su acepción usual en Medicina y Epidemiología, es decir, como
sinónimo de frecuencia, sin considerar las consecuencias.

Veamos su cálculo en unos datos sencillos.

12
Ejemplo 2.2: Suponga que una enfermedad (Y) y su Factor de Riesgo (X) sólo pueden
tomar dos valores: presente (+) y ausente (-). Así, Y+ representará tener la enfermedad; y
X-, que no está expuesto al factor de riesgo.
En la tabla 2.1 puede leerse que de 1000 casos, 15 presentaban la enfermedad, de los que 7
estaban expuestos y 8 no.

Y+ Y- Total
X+ 7 125 132
X- 8 860 868
Total 15 985 1000
Tabla 2.1 Presencia de la enfermedad (Y) ydel factor de riesgo (X) en 1000 casos

Riesgo: P(Y+) = 15 / 1000 = 0.015


Riesgo en los Expuestos: P(Y+|X+) = 7 / 132 0.053
Riesgo en los No-Expuestos: P(Y+|X-) = 8 / 868 0.009

Ejercicio 2.1
Carmina R. Fumaz compara 2 grupos de pacientes tratados, uno con Efavirenz
(EFV, n=51) y otro con Inhibidores de la Proteasa (PI, n=49), habiendo observado
respectivamente, 36 y 9 acontecimientos adversos relacionados con el sistema
nervioso central. Construya la tabla 2x2 y calcule los riesgos respectivos.

2.2. Odds o momio


Los países de tradición anglosajona usan una forma alternativa para expresar resultados inciertos. Si
la probabilidad expresa “casos a favor divididos por todos los casos posibles”, la odds habla de
“casos a favor divididos por casos en contra”.

Ejemplo 2.3: así, mientras nosotros diríamos que cierto caballo tiene 7 números sobre (un
total de) 8 de ganar una carrera, los anglosajones suelen decir que los números de este
caballo están 7 a favor frente a 1 en contra.

Recuerde
Si el denominador de la medida de frecuencia es el número de “casos en contra”,
hablamos de odds.

Ejemplo 2.4: en los ambientes de apuestas (pelota vasca, carreras de galgos,…) se dice, por
ejemplo, que las apuestas por el pelotari A están 7 momios a 1. Su gran ventaja es que

13
facilita el cálculo del premio: además de recuperar su inversión, los que apuestan por A
obtendrían 7, pero los que lo hagan por B, 1/7 (además de recuperar su inversión).

Recuerde
Usar odds permite calcular rápidamente el momio o beneficio potencial de una
apuesta.

Lectura: Wikipedia en “razón de momios” explica otros intentos de traducir odds.

Definición
La odds de A es la probabilidad de que se presente el suceso A dividida por la
probabilidad de que no se presente A.

Ejercicio 2.2
¿Cuánto valen la probabilidad y la odds de sacar un “3” en el lanzamiento de un
dado? En un juego de apuestas “justo” ¿Cuánto debería pagarse si saliera un 3?
(¿A cuánto estará el momio?)

Ejemplo 2.5: Veamos un ejemplo de cálculo sencillo.

Odds en los Expuestos: O(Y+ | X+) = 7 / 125 1 / 18 0.056


Odds en los No-Expuestos: O(Y+| X-) = 8 / 860 1 / 107 0.0093
En los expuestos, la enfermedad aparece en 1 caso por cada 18 que no aparece. En cambio,
en los no-expuestos, la enfermedad aparece en 1 caso por cada 107 en los que no.

Nota: si la probabilidad de enfermedad es muy pequeña, la probabilidad de sano será muy próxima a 1,
por lo que la odds tendrá un valor muy similar a la probabilidad:

P (enfermo) P (enfermo)
Odds (enfermo) P (enfermo)
P ( sano ) 1

Recuerde
En el caso de enfermedades “raras”, riesgo y odds dan resultados similares.

Ejemplo 2.5 (continuación): La odds en los expuestos vale 0.056 [O(Y+|X+) = 7/125
0.056], muy similar al 0.053 anterior del riesgo en los expuestos.

14
En los no expuestos la similitud es aún mayor: la odds vale 0.0093 y el riesgo 0.0092.

Ejercicio 2.3
El dolor lumbar o la gripe son enfermedades comunes en el sentido de que a lo
largo de la vida es fácil padecerlas al menos en una ocasión. Pongamos que sus
probabilidades respectivas son 0.5 y 0.8. Calcule sus odds. La esclerosis Múltiple,
en cambio, es muy poco frecuente. Pongamos que la probabilidad de padecerla a
lo largo de la vida vale 0.001 (uno por mil). Calcule la odds. Interprete.

De la misma forma que los valores predictivos no podían calcularse si el diseño implicaba dos
muestras, una de enfermos y una de sanos, el siguiente ejercicio muestra que según el diseño del
muestreo tampoco pueden calcularse los riesgos.

Ejercicio 2.4

Se ha recogido en 1000 casos la exposición al tabaco (fumador: X+ y no fumador:


X-) y su evolución posterior (bronquitis: Y+ y no bronquitis: Y-). Calcule riesgos
y odds de la tabla 1.

Repita los cálculos en con la tabla 2, con los datos de dos muestras de 1000 casos,
una de fumadores y otra de no fumadores.

Repita una vez más, suponiendo ahora que las dos muestras de 1000 casos
corresponden, una a bronquíticos y otra a no bronquíticos (Tabla 3).

Tabla 1 Y+ Y- Total Tabla 2 Y+ Y- Total Tabla 3 Y+ Y- Total


X+ 94 38 132 X+ 712 288 1000 X+ 304 55 359
X- 215 653 868 X- 248 752 1000 X- 696 945 1641
Total 309 691 1000 Total 960 1040 2000 Total 1000 1000 2000

Recuerde
Si se fija por diseño el número total de casos con la enfermedad y el número de
casos sin la enfermedad, ya no puede calcular ni los riesgos ni las odds de
desarrollar la enfermedad (ni en los expuestos, ni en los no expuestos).

15
2.3. Odds y Bayes
Trabajar con odds en lugar de con probabilidades simplifica Bayes: la odds a posteriori de enfermo
a sano es la odds a priori por la razón de verosimilitud (likelihood ratio).

La razón de verosimilitud de un resultado positivo (RV+) es el cociente de las 2 probabilidades de


positivo condicionadas (por enfermo y por sano).

Recuerde
Odds a posteriori = Odds a priori * razón de verosimilitud

RV+ = P(+|E) /P(+|S)

Nota técnica: utilizando probabilidades condicionadas se obtuvo que:

P( E | ) P( | E ) P( E ) / P( ) y P( S | ) P( | S ) P( S ) / P( )
Recordando la definición de la odds, Odds(E) = P(E) / P(S) y aplicándola a las probabilidades
condicionadas anteriores, se pueden obtener las odds “a posteriori” entre enfermo (E) y sano (S), una vez
conocido el resultado positivo de la prueba:

P( E | ) P( | E ) P( E ) / P( ) P( | E ) P ( E )
= = ·
P( S | ) P( | S ) P( S ) / P( ) P( | S ) P ( S )

Odds a posteriori Razón Odds a priori


verosimilitud (RV)

Ejemplo 2.6: A partir de los datos del Ejemplo 1.8, RV+ (razón de verosimilitud) vale

Así, deberá multiplicar las odds a priori por 2.87 (aproximadamente 3) para obtener las odds
a posteriori. Si en cierta consulta privada hay 1 enfermo por cada 3 sanos (odds a priori);
una vez haya dado positivo el indicador diagnóstico, habrá 1 enfermo por cada 1 sano:

odds a posteriori = RV x Odds a priori = 2.87 x 1/3 = 0.96 ≈ 1

En cambio, si en urgencias hay 7 enfermos por cada sano (odds a priori = 7), entre los que
den positivo, habrá 20 enfermos por cada sano:

odds a posteriori = RV x Odds a priori = 2.87 x 7 = 20.09≈ 20

16
Recuerde
Odds a priori: razón enfermo/sano propia de un entorno
Odds a posteriori: razón enfermo/sano en un entorno tras un resultado positivo
Razón de verosimilitud: razón de las probabilidades de positivo entre enfermos y
sanos

Ejercicio 2.5
Suponga que el resultado de la prueba en el ejemplo anterior ha sido negativo,
¿Cuánto vale la RV de un resultado negativo? ¿Cuánto vale la odds a posteriori de
un resultado negativo?

En resumen, la odds conduce a cálculos más simples y directos. Ésta representa su principal ventaja y el
motivo de su aplicación en la práctica clínica: En el libro de Guyat et al. puede ver numerosas
aplicaciones clínicas.

Nota MUY técnica: Tomando logaritmos, transformamos el producto en una suma:

log( Odds posteriori) log( LR * Odds priori) log( LR ) log( Odds priori)

Información función Información


a posteriori SOPORTE a priori

Es decir, los logodds a priori más la información aportada por el resultado empírico (“función soporte”),
proporcionan los logodds a posteriori.

2.4. Tasa
En muchas ocasiones, los casos se observan durante un tiempo variable que conviene tener en
cuenta. La tasa incluye en el denominador este tiempo de seguimiento. El riesgo así calculado es el
cociente entre un número de eventos y una suma de tiempos de seguimiento, por lo que ya no se
trata de una probabilidad (casos posibles entre casos totales).

Definición
Tasa es una relación entre 2 magnitudes. En nuestro caso, la frecuencia de un
evento relativa, en general, al tiempo.

Ejemplo 2.7: Regidor E et al. En 1998 se produjeron en España 360511 defunciones, lo que
supone una tasa de mortalidad de 915.7 por 100000 habitantes en un año de seguimiento —

17
o, como generalmente se interpreta, por 100000 habitantes seguidos durante 1 año. En la
Tabla 2.2 aparecen ordenadas jerárquicamente, en virtud del número de fallecimientos, las
12 causas de muerte estudiadas.

Defun- Mortalidad Porcentaje de cambio


Causas de muerte (CIEB.*revisión) Tasa
ciones (%) 1995-98 1980-98
Todas las causas 360511 915.7 100 -3.2 -20.2
Cáncer (140-208) 89665 227.7 24.9 -2.4 7.7
Enfermedades del corazón (390-398. 410-429) 81768 207.7 22.7 -1.8 -26.4
Enfermedad cerebrovascular (430-438) 38121 96.8 10.6 -12.0 -52.8
Enfermedad pulmonar obstructiva crónica (490-496) 17768 45.1 4.9 1.1 30.8
Accidentes no intencionales (E800-E949) 13122 33.3 3.6 0.1 -21.6
Diabetes mellitus (250) 9533 24.2 2.6 -3.4 -15.1
Neumonía e influenza (480-487) 8491 21.6 2.4 3.9 -52.6
Cirrosis y otras enfermedades crónicas del hígado (571) 6246 15.9 1.7 -14.3 -45.3
Nefritis, síndrome nefrótico y nefrosis (580-589) 5566 14.1 1.5 -1.6 -16.1
Aterosclerosis (440) 4717 12.0 1.3 -26.5 -81.2
Enfermedad de Alzheimer (331.0) 3551 9.0 1.0 42.9 2111.6
Suicidio (E950-E959) 3261 8.3 0.9 0.1 53.8

Tabla 2.2 Principales causas de muerte en España en 1998. Número de defunciones, tasas anuales de mortalidad,
mortalidad proporcional y porcentajes de cambio de 1995 a 1998 y de 1980 a 1998. (Modificada)

Recuerde
El término “por” en la expresión “tantos casos por tantos años de seguimiento”
significa “dividido por”, no “multiplicado por”.

Si el riesgo es constante a lo largo del seguimiento, basta con un único valor para representarlo: la
tasa de riesgo anterior. Pero si va cambiando a lo largo del seguimiento, necesitamos especificar
cuánto vale este riesgo en cada momento del tiempo, lo que llamamos “riesgo en función del
tiempo” o, más brevemente, función de riesgo. Como analogía, podemos decir que la tasa
representa cierta velocidad promedio de aparición de eventos: igual que en un viaje, esta velocidad
puede ser más o menos variable. Cuanto menos varíe (“más constante”), más útil será una tasa
global; pero cuanto más varíe, más información aporta conocer su valor exacto en cada momento
mediante la función de riesgo. En “supervivencia” volveremos a verlos.

Recuerde
Si el denominador de la medida de frecuencia incluye el tiempo de seguimiento,
hablamos de tasa.

18
2.5. Incidencia y prevalencia

Definición
La incidencia estudia el número de casos nuevos durante un período de tiempo.

Ejemplo 2.8: Cohn et al. Sostienen que la incidencia de la combinación de eventos que
definían la respuesta de interés fue un 13.2% menor con Valsartán que con placebo.

Definición
La prevalencia estudia el número de casos en un momento de tiempo.

Ejemplo 2.9: Martín et al. La prevalencia de asma varía entre países de Europa, con cifras
que oscilan entre un 8% en el Reino Unido y un 2% en Grecia. También existen amplias
diferencias entre zonas de un mismo país, encontrándose en España cifras entre el 5 y el 1%.

Ejemplo 2.10:Ricart et al. “El objetivo de este trabajo es determinar la prevalencia de


diabetes mellitus gestacional en una población española [...]. Resultados: la prevalencia de
DMG fue del 15%”.

Recuerde
Incidencia valora casos nuevos y prevalencia, los existentes.

La prevalencia depende de la incidencia, claro, pero también depende de la duración de la


enfermedad. Así, aunque la incidencia sea alta, como en la gripe, como la tasa de curación también
lo es, la prevalencia será baja. Además de por curación, la duración de la enfermedad puede ser
corta por el motivo contrario, la muerte. La tasa de pacientes con la enfermedad que fallece recibe
el nombre de letalidad: así, si cierta enfermedad tiene alta letalidad, la prevalencia será baja. Por
ello, la incidencia es más informativa en procesos agudos y la prevalencia, en crónicos. Nótese
también que la incidencia informa sobre los recursos sanitarios necesarios para afrontar nuevos
casos (p.e., quizás urgencias); mientras que la prevalencia, de aquellos necesarios para seguir a los
pacientes durante su proceso (p.e., quizás atención primaria). Por otro lado, si se buscan los
determinantes de aparición de la enfermedad, la medida de interés es la incidencia.

Una analogía habitual para explicar estos flujos es la fuente de la figura 2.1.

19
Figura 2.1: El flujo que llega a la fuente es la incidencia de nuevos casos, mientras que lo acumulado en el depósito es
la prevalencia, que disminuye por las tasas de curación y de letalidad.

3. Asociación
Conviene estudiar qué características previas son independientes de la evolución y cuáles están
asociadas y pueden, por tanto, ayudar a predecirla.

Ejemplo 3.1. Veamos un ejemplo sencillo: el riesgo o probabilidad en los expuestos era de
un 5.3% [P(Y+|X+) = 7 / 132 0.053], mientras que en los no expuestos era del 0.9%
[P(Y+|X-) = 8 / 868 0.009]: ¿Cuán distintos son 5.3 y 0.9%?

Nota: dos números se comparan o mediante su resta o mediante su división.

3.1. Diferencia de riesgos

Nota: tradicionalmente se usaba el nombre riesgo atribuible, pero da a entender que este incremento del
riesgo viene originado, causalmente, por la exposición al factor; por lo tanto mejor evitarlo para impedir
que se interprete que la relación es de causa-efecto.

Definición
La diferencia de riesgos (RA) es la diferencia entre las proporciones de casos en
expuestos y en no expuestos

20
Recuerde
La diferencia de riesgos debe valorarse únicamente a nivel predictivo: los
expuestos tienen ese mayor riesgo que los no expuestos.

Historieta: el riesgo de accidente es mayor en los coches rojos. Y aceptamos que los coches rojos paguen
un seguro más caro. Pero, para bajar los accidentes, no prohibimos los coches rojos.

Ejemplo 3.1(continuación): En el ejemplo anterior, la diferencia entre 0.053 y 0.009 es


0.044; es decir, expresado en porcentajes, un 4.4%.

La diferencia de riesgos puede tomar el valor máximo de 1 (ó 100%) si todos los expuestos
desarrollaran la enfermedad y, a la vez, ninguno de los no expuestos.

El valor 0 representa que el riesgo es el mismo en ambos grupos.

NOTA: Si la presencia del factor tuviera menos riesgo de enfermedad, se observarían valores negativos
(hasta –1 o –100%).Para facilitar la interpretación y expresar los resultados en positivo, basta con
intercambiar las definiciones de expuesto y no expuesto.

3.2. Número necesario de casos tratados


El objetivo más noble de la Medicina es cambiar el futuro de los pacientes, para lo que recurre a
intervenciones clínicas, médicas (como tratamientos farmacológicos, quirúrgicos, fisioterápicos,
etc.) o de salud pública, preventivas (como disminuir la exposición a un agente nocivo). Como
hemos dicho, estas intervenciones tendrán efecto, si (1) la relación es causal; y (2) tenemos
capacidad de asignación —cambiar una acción por otra, poder decidir.

Ejemplo 3.1(continuación): si asignamos 1000 casos a X+ y la relación es causal, cabe


esperar que 53 casos desarrollen Y+. Si, en cambio, asignamos estos mismos 1000 casos a
X-, cabe esperar sólo 9, con un “ahorro” de 44 casos por mil “re-asignados”. Una simple
“regla de 3” muestra que si se necesita reasignar 1000 casos para bajar 44 eventos, el
Número Necesario de casos a ser Tratados para evitar un evento (NNT o Number needed to
be treated) sería 1000/44= 22.7, es decir, unos 23 casos. Recordemos que esta
“reasignación” puede referir a un cambio en la exposición (epidemiología); o a un cambio
en el tratamiento (clínica).

Definición:
El número necesario de pacientes a tratar para evitar un evento (NNT) es el
inverso del diferencia de riesgos: NNT=1/RA.

21
Nota: NNT es muy interpretable, pero que no es tan sencillo si el seguimiento es variable o si cada
paciente puede presentar más de 1 evento. Tampoco es cómodo el intervalo de incertidumbre si el de la la
diferencia de riesgos pasa por 0.

Recuerde
NNT expresa el esfuerzo para evitar 1 evento.

3.3 Riesgo relativo

Definición
El riesgo en los expuestos relativo a los no expuestos es el cociente entre “riesgo
en expuestos” y “riesgo en no expuestos”.

Ejemplo 3.1(continuación): la razón entre 0.053 y 0.009 es 6, lo que indica que los
expuestos tienen un riesgo 6 veces superior (a los no expuestos).

El riesgo relativo (RR) pretende evaluar cuánto se multiplica la probabilidad de desarrollar la


enfermedad. El valor 1 representa que el riesgo es el mismo en ambos grupos. Valores inferiores a 1
indicarían un factor con menor riesgo; y valores superiores a 1, con mayor riesgo.

NOTA: Los límites superior e inferior son infinito ( ) y cero (0), para las 2 situaciones extremas en las
que no hubiera ningún evento o en los no expuestos, o en los expuestos, respectivamente.

Recuerde
El RR valora la razón de riesgos.

Ejemplo 3.2: La tabla Tabla 3.1 de Banegas et al. muestra cómo aumentan los RR de
muerte cardiovascular en los pacientes con mayores presiones arteriales respecto al grupo de
referencia formado por los individuos con menores valores, “<120/80” —al que, por
definición, le corresponde un RR = 1. La interpretación del grupo con mayores presiones es:
un 3.3% de hombres tuvo cifras >180/100 y presentaron el evento con una frecuencia 3.4
veces superior que el grupo de referencia (tuvieron un 340% de eventos más que el grupo de
menor presión, <120/80). Es decir, el grupo de presión más alta tiene una probabilidad más
de 3 veces mayor de presentar un evento que el grupo de menor presión.

22
Hombres
Presión arterial (mmHg) Todas las
% causas (RR)
<120/80 20.1 1
120-129/80-84 18.1 1.2
130-139/85-89 17.2 1.3
140-155/90-99 29.1 1.6
160-169/100-109 17.2 2.2
>180/110 3.3 3.4
TOTAL 100

Tabla 3.1 Prevalencias de presión arterial en España y RR de muerte cardiovascular.

3.4 Odds ratio o razón de momios

Definición
El odds ratio es el cociente entre la odds en los expuestos y la misma odds en los
no expuestos.

Ejemplo 3.1(continuación): la razón entre 0.056 y 0.009 es 6.2, indicando que la odds en
los expuestos es 6.2 veces superior a la odds en los no expuestos.

Como hemos dicho, si la enfermedad es poco frecuente, odds y probabilidad son similares y por
tanto también odds ratio y riesgo relativo, en este ejemplo 6.2 y 6. Ambas medidas se interpretan de
forma similar.

Ejercicio 3.1
Calcule RR, RA y OR en las tablas del Ejercicio 2.4. A pesar de que se ha dicho
que no tenía sentido calcular los riesgos ni las odds en la tercera tabla, haga
también en ella todos estos cálculos y observe qué sucede con el valor del odds
ratio.

Una gran ventaja del odds ratio sobre las medidas basadas en riesgos es que puede ser calculado en
cualquier tabla 2x2, independientemente del plan de muestreo.

Nota técnica: ello es así porque, de la misma forma que se definió el OR como el cociente entre
expuestos y no expuestos de las odds enfermo / sano [(a/b)/(c/d)] también podría haberse definido como
el cociente entre enfermos y sanos de las odds expuesto / no expuesto [(a/c)/(b/d)]. Dado que ambas
definiciones son equivalentes, el odds ratio se puede utilizar en cualquier tabla de dos filas y dos
columnas, independientemente del plan de muestreo: (a/b)/(c/d) = (a/c)/(b/d) = ad/bc [a, b, c y d
representan los cuatro valores de una tabla 2x2 – con exposición en filas y enfermedad en las columnas
— de arriba abajo y de izquierda a derecha] .

23
Recuerde:

El odds ratio tiene la gran ventaja de que se puede utilizar en cualquier estudio,
independientemente del plan de muestreo.

Ejercicio 3.2
Imagine un diseño casos-controles, en los que se escoge una muestra de enfermos
(casos) y una muestra de sanos (controles), por lo que se deja fija la variable
enfermo / sano. ¿Cuáles de las medidas anteriores (RR, RA o OR) pueden
aplicarse?

Ejercicio 3.3
¿Qué relación existe entre el riesgo relativo y el odds ratio?

Recuerde:
No puede calcular riesgos, ni su diferencia, ni su cociente en estudios casos-
control.

3.5 Razón de tasas (Hazard ratio o HR)


Para comparar las tasas de eventos, recurrimos a su cociente, al que llamamos razón de tasas o
hazard ratio (HR). Por ejemplo, HR=0.8 significa que la probabilidad instantánea de morir en el
grupo tratado equivale al 80% de dicha probabilidad en el control: asignar al tratamiento evita un
20% de muertes en cada instante.

Nótese que la muerte no se puede evitar, tan sólo atrasar, lo que hace muy delicada la interpretación
del HR. En los puntos siguientes daremos 2 pistas para su interpretación, primero comentado que
los valores del HR ocupan un lugar intermedio entre los de OR y RR; y segundo, facilitando su
relación con el incremento de vida.

Antes, recopilemos las medidas de riesgos. La Tabla 3.2 resume las medidas más usuales,
distinguiendo por columnas entre las que se emplean para describir 1 grupo y las que se usan para
comparar 2 grupos. Por filas, distingue entre estudios transversales y longitudinales; y estos
últimos, según si el tiempo de seguimiento es fijo o variable.

24
Descripción 1 grupo Comparación 2 grupos
Prevalencia Puntual
(casos existentes) (un instante) Riesgo relativo (RR) Odds
Riesgos Odds Diferencia de riesgos (RA) ratio
Seguimiento
Número necesario (NNT) (OR)
idéntico

Incidencia o Tasa de riesgo o


mortalidad (nuevos Hazard Rate
casos) Seguimiento (constante) Razón de riesgos
variable Función de riesgo o o Hazard Ratio (HR)
Hazard Function
(variable)

Tabla 3.2. Medidas epidemiológicas más relevantes.

Ejercicio 3.4
Al decidir usar una tasa en lugar de un riesgo o una odd, la clave es…

Si el riesgo es constante a lo largo del seguimiento, basta con un único valor para representarlo: es
la tasa de riesgo que ya hemos visto antes. En cambio, si va cambiando a lo largo del seguimiento,
necesitamos especificar cuánto vale este riesgo para los diferentes momentos del tiempo: lo
llamamos función de riesgo.

Analogía: La tasa representa la velocidad de aparición de eventos: igual que un viaje, esta velocidad
puede ser variable o constante. Una tasa global puede ser útil, pero si la tasa instantánea varía, conocerla
aporta más información.

Ejercicio 3.5
La clave para usar una tasa o una función de riesgo es …

Nota: El punto de supervivencia (3) del capítulo 11 estudia más a fondo el HR.

Desgraciadamente, los artículos suelen ser creativos en el término empleado para referirse a estas 3
medidas. Si el estudio que Vd. desea interpretar usa un término parecido pero diferente, recurra al
artículo de Lisa Schwartz para ver su equivalencia con las medidas comentadas.

3.6 Relación entre los 3 cocientes de riesgos: RR, HR y OR *

NOTA: Algunos autores emplean el término riesgo relativo para estas 3 medidas: RR, HR y OR.

Existe una gradación entre sus valores: OR muestra siempre mayores valores de relación que HR; y
éste mayores que RR.

25
Nota técnica: Symons MJ et al. Como valores ‘mayores’ debe interpretarse como más alejados de 1, sea
por encima o sea por debajo, la expresión formal de esta desigualdad es:
OR ≤ HRR ≤ RR ≤ 1 para factores con menor riesgo (p.e., intervenciones)
1≤ RR ≤ HRR ≤ OR para factores con mayor riesgo (p.e., exposiciones)

Ejercicio 3.6
¿Qué medida ‘realza’ el efecto de una intervención?

Los tres proporcionan valores más similares cuanto más pequeños son (1) el riesgo considerado, (2)
el efecto diferencial y (3) el periodo de seguimiento.

Dada esta similitud, algunos autores emplean de forma amplia los términos riesgo relativo y risk
ratio para referirse tanto al RR, como al OR o el HR.

Recuerde:
El cociente de riesgos más realza la relación es OR y la que menos, RR, quedando
HR entre ellas.

3.7 Relación entre HR y las medianas de los tiempos hasta el evento.


El HR, en ciertas condiciones teóricas especiales, se corresponde con el cociente de las medianas de
los tiempos de vida. Así, tomando la mediana como un estimador de la esperanza de vida, en el
ejemplo anterior de HR=0.8, diríamos que la esperanza de vida en los pacientes del grupo control es
un 80% de la de los tratados, es decir, un 20% inferior. Desgraciadamente, esta interpretación no
puede aplicarse siempre, aunque puede ser una primera aproximación para valorar el posible
beneficio de una intervención.

Recuerde:

En ciertas ocasiones HR equivale a cocientes de esperanzas de vida

26
Soluciones a los ejercicios

1.1 Dado que P(B|A) debe representar la probabilidad del suceso B ‘dentro’ del total de casos que cumplen A, se trata
de dividir la probabilidad de ser a la vez A y B, es decir P(A B), por la probabilidad de ser A, es decir P(A). En
P( A B)
resumen, tiene el mismo numerador que P(A|B), pero cambia el denominador. P( B | A)
P( A)
Gráficamente sería el cociente entre la zona A∩B y la zona A.

1.2 Es más grande P(M|C), dado que P(M|C) representar la probabilidad de ser Mujer del total de casos que tienen
cáncer de Mama.

1.3 0.25=P(Sí|M)=P(Sí|H)

1.4 Sens = P(+|E) Proporción de positivos en el conjunto de enfermos.

Esp = P(-|S) Proporción de negativos en el conjunto de sanos.

VP+ = P(E|+) Proporción de enfermos en el conjunto de positivos.

VP- = P(S|-) Proporción de sanos en el conjunto de negativos.


1.5 La tabla correspondiente es:

+ - Total

Enfermo 132 132

Sano 868 868

Total 132 868 1000

VP+ = P(E|+) = 132 / 132 = 1.00 =100%

VP- = P(S|-) = 868 / 868 = 1.00 =100%

1.6 Para que VP+ = 100% se requiere que los casos positivos provengan todos de los enfermos, es decir: que ningún
sano dé positivo. Por tanto, se requiere que la especificidad sea del 100% para tener un VP+ del 100%.
[Similarmente, para que el VP- sea del 100% se requiere que la sensibilidad sea del 100%.]

1.7 Una prueba sería muy-muy específica si, aplicada a un conjunto de sanos, casi el 100% dan negativo y muy-muy
sensible si, aplicada a un conjunto de enfermos, casi en su totalidad dan positivo. Un resultado tendrá un elevado
valor predictivo negativo si casi el 100% de los que dan negativo están realmente sanos y un valor predictivo de
casi el 100% si de los que dan positivo, casi todos están enfermos.

1.8 La especificidad y el valor predictivo positivo (VP+)

1.9 Sens = P(+|E) = 712/1000 = 0.712 =71.2%

Esp = P(-|S) = 752/1000 = 0.752 =75.2%

VP+ = P(E|+) = 712/960 = 0.741 =74.1%

VP- = P(S|-) = 752/1040 = 0.723 =72.3%

27
1.10

1.11

Población 1

Población 2

2.1 La tabla correspondiente es:

AA: Y+ No AA: Y- Total

EFV: 36 15 51

PI: 9 40 49

Total 45 55 100

Riesgo: P(Y+) = 45/100 = 0.45 = 45%

Riesgo en los Expuestos a EFV: P(Y+|EFV) = 36 / 51 0.71 =71%

Riesgo en los Expuestos a PI: P(Y+|PI) = 9 / 49 0.18 =18%


2.2 La probabilidad de sacar un “3” vale 1/6=0.167=16.7%. La odds respectiva es 1/5=0.2=20%. En una casa de
apuestas se pagaría 5 euros por euro apostado.

2.3 Odds (dolor lumbar) = P(dolor lumbar) / P(no dolor lumbar) = 0.5 / 0.5 = 1 (la odds de padecer dolor lumbar a lo
largo de la vida están “1 a 1”).

Odds (gripe) = 0.8 / 0.2 = 4 (la odds de gripe están 4 a 1: por cada persona que no padecerá gripe, hay 4 que si la
tendrán).

Odds (esclerosis múltiple) = 0.001 / 0.999 = 0.001001001 ≈ 0.001 (la odds de esclerosis múltiple está 1 a 1000).

2.4 Los resultados que figuran a continuación muestran que los riesgos y las odds de la última tabla no coinciden con
los anteriores. ¿Qué ha pasado? Nótese que la variable respuesta (bronquitis) de la tercera tabla ya no depende de
las observaciones, pues, por diseño, se ha dejado fija: se ha construido una tabla que tiene, porque así lo hemos
querido, la mitad de bronquíticos y la mitad de no bronquíticos. Estos datos, obtenidos de dos muestras de la
variable respuesta ya no sirven para calcular ni los riesgos ni las odds de desarrollar una bronquitis. Nótese que en
la segunda tabla, en la que había una muestra de fumadores y una de no fumadores sí que podían calcularse los
riesgos y las odds condicionados a fumador o a no fumador.

Riesgos Odds
Tabla 1 Tabla 2 Tabla 3 Tabla 1 Tabla 2 Tabla 3
En los expuestos: X+ 0.71 0.71 0.85 2.47 2.47 5.53
En los no expuestos: X- 0.25 0.25 0.42 0.33 0.33 0.74

28
2.5 Para calcular el RV de un resultado negativo procederemos:

P( | E ) 1 0'712
RV 0'38
P( | S ) 0'752

Con la misma proporción de enfermos tenemos que:

Odds a posteriori = RV · Odds a priori → Odds a posteriori = 0.38 · 1/3 = 0.13

3.1 Como cabía esperar, la tercera tabla, en la que se había dejado fijo el número de casos con y sin la enfermedad, no
permite calcular ni el riesgo relativo (2.87 2.00) ni la diferencia de riesgos (0.46 0.42). Pero sí que permite
calcular el odds ratio: se obtienen los mismos valores (7.51) ya que el odd ratio puede obtenerse con cualquier
diseño, independientemente de las restricciones impuestas en el diseño.

Riesgos Odds
Tabla 1 Tabla 2 Tabla 3 Tabla 1 Tabla 2 Tabla 3
En los expuestos: X+ 0.71 0.71 0.85 2.47 2.47 5.53
En los no expuestos: X- 0.25 0.25 0.42 0.33 0.33 0.74
Diferencia de riesgos 0.46 0.46 0.42
Riesgo relativo 2.87 2.87 2.00
Odds ratio 7.51 7.51 7.51

3.2 Por lo dicho anteriormente, sólo el odds ratio (OR). El riesgo relativo y el diferencia de riesgos no tienen valor en
este tipo de diseños ya que sus valores dependerán del número de controles que se haya decidido seleccionar para
cada caso.

3.3 Son estimadores de la relación entre dos variables dicotómicas, una supuesta respuesta y una supuesta causa.
Cuando la proporción de la respuesta es muy pequeña, dan valores muy parecidos. Se interpretan igual.

3.4 Que el seguimiento de los pacientes sea variable.

3.5 Una única tasa global sólo escogerá toda la información cuando el riesgo instantáneo se mantenga constante
durante el periodo considerado.

3.6 El Odds ratio proporciona valores mayores, por lo que deberá estar atento: no es que hayan trampa ni sesgo, pero
es una medida diferente que proporciona valores más extremos. Y este efecto es más exagerado cuanto mayor sea
la frecuencia del evento considerado.

29
Capítulo 5:

Modelos para variables


discretas
Belchin Kostov, Erik Cobo y José A. González
Jordi Cortés, Rosario Peláez, Marta Vilaró, Laura Riba y Nerea Bielsa

Septiembre 2014

1
Modelos para variable discretas

Modelos para variables discretas


Presentación ..................................................................................................................... . 3
1. Variable aleatoria. Funciones de probabilidad. ..................................................... 4
1.1. Variable aleatoria ................................................................................................... 4

1.2. Variables discretas frente a continuas .................................................................... 4

1.3. Probabilidades en variables discretas ..................................................................... 5


2. Esperanza y varianza. Aplicaciones .................................................................. 8
2.1. Esperanza de una variable, E(X), μ ........................................................................ 8

2.2. Varianza de una variable, V(X), ² ...................................................................... 10

2.3. Aplicaciones. Decisión *...................................................................................... 13


3. Modelos de probabilidad discretos .................................................................. 14
3.1. Indicador o bernouilli ........................................................................................... 14

3.2. Binomial ............................................................................................................... 15


3.2.1. Función de Probabilidad fX y función de Distribución FX .................................... 15
3.2.2. Esperanza y varianza ............................................................................................. 18
3.2.3. Cuantiles................................................................................................................ 19
3.3. Poisson ................................................................................................................. 21
3.3.1. Funciones de Probabilidad, fX, y de Distribución, FX ........................................... 22
3.3.2. Esperanza y varianza ............................................................................................. 23
3.3.3. Cuantiles................................................................................................................ 23
3.3.4. Premisas * ............................................................................................................. 24
3.3.5. Similitud entre Binomial y Poisson * ................................................................... 25
3.4. Otros modelos * ................................................................................................... 26

3.5. Verosimilitud * .................................................................................................... 29


Soluciones a los ejercicios ............................................................................................. 31

* Indica tema más avanzado que conviene mirar pero no es crucial para los ejercicios.

2
Bioestadística para no estadísticos

Presentación

Ante un caso raro, un clínico veterano, o uno joven que sepa probabilidad condicionada, dirá: “es
más probable que sea una presentación curiosa de una patología frecuente, que la típica de una
rara”. Además, conscientes de la gran variabilidad de los resultados, interpretarán correctamente la
broma de que “sano es un paciente no suficientemente visitado”. También los buenos gestores de
los almacenes de repuestos y de farmacia sabrán que: “si controlas bien el 20% más frecuente de
piezas, satisfarán el 80% de clientes”. Estas afirmaciones muestran dominio de la probabilidad y de
la variabilidad.

En el capítulo anterior aplicamos la probabilidad a eventos, a variables categóricas. Ahora lo


haremos a números, a variables de tipo recuento, como el número de crisis previas, en este capítulo;
y a variables continuas, como el colesterol o el peso, en el siguiente, Hoy en día, la simulación y la
informática permiten estudiar, casi sin restricciones, cualquier situación. Pero conocer unos
modelos básicos de probabilidad le ayudará a prever con agilidad muchas situaciones.

La clasificación en variables discretas y continuas será crucial para estudiar su probabilidad. En las
primeras, tiene sentido preguntar por probabilidades tanto concretas como acumuladas. Por
ejemplo: ¿cuál es la probabilidad de tener 2 hijos? ¿Y la de tener 2 o menos hijos? Pero las
variables continuas pueden tomar cualquier valor y la probabilidad de uno concreto se hace
insignificante e irrelevante, diremos que 0. No tiene sentido preguntarse por la probabilidad de que
alguien pese exactamente 70 Kg., pero sí, por ejemplo, que pese entre 69 y 70. O menos de 70.

Pero no se asuste, no deberá aplicar fórmulas ni aprender a usar tablas. R acude en su ayuda y podrá
centrarse en su objetivo: aplicar correctamente los resultados y saber cuándo utilizarlos.

Céntrese especialmente en aquellas definiciones que vayan acompañadas de ejercicios. Compruebe


que entiende los conceptos de esperanza y varianza. Y que distingue entre valores poblacionales y
muestrales.

Contribuciones: BK escribió la versión de septiembre de 2013 a partir de los apuntes de EC y JAG


de la asignatura de Probabilidad y Estadística de la Facultad de Informática de la UPC, que fue
revisada por JC y RP. MV y LR revisaron la versión de enero de 2104 y NB y EC la de septiembre
de 2014.

3
Modelos para variable discretas

1. Variable aleatoria. Funciones de probabilidad.


1.1. Variable aleatoria
Una variable aleatoria informa sobre la expectativa de los valores numéricos de un fenómeno
incierto. Al ser incierto: (1) debe tener dispersión, es decir, ser variable; y (2) la probabilidad
permite expresar la información disponible sobre sus posibles valores.

Nota: Es un razonamiento deductivo, “antes de observar“: no hay muestra. Razonamos como si


conociéramos TODA la verdad, como si supiéramos qué pasa en la población.

Recuerde
En este tema estudiamos cómo representar poblaciones.

Lectura: Una variable aleatoria se define como el proceso de convertir un individuo o un objeto en un
número.

Recuerde
Una variable aleatoria es numérica, puede tomar más de un valor y lleva
probabilidades asociadas.

Ejemplo 1.1: La duración de una intervención quirúrgica es un proceso incierto, pero no


todos los posibles valores de tiempo son igualmente esperables. Conviene disponer de un
método para transmitir cuáles son más esperables.

Lectura: La definición de variable se puede generalizar a vectores de números, variables categóricas o


los llamados procesos estocásticos o aleatorios.

1.2. Variables discretas frente a continuas

Una variable discreta puede tomar sólo determinados valores; pero una continua, entre dos posibles
valores, puede tomar cualquier otro entre ellos.

Nota: En la era digital, el final del proceso de medida siempre es discontinuo: la balanza del cuarto de
baño ha pasado de analógica, donde cualquier valor dentro del rango era posible, a digital, con cierto
redondeo. Pero la definición de continua hace referencia al concepto, no al resultado de medida. Así, la
supervivencia es continua y la trataremos como tal —aunque su valor final se redondee, quizás a meses o
días.

4
Bioestadística para no estadísticos

En las variables continuas no tiene sentido preguntarse por la probabilidad de un valor exacto, ya
que es tan pequeña que es irrelevante. Formalmente sería siempre cero, por lo que requiere un
tratamiento matemático especial. Empezaremos por estudiar las discretas.

1.3. Probabilidades en variables discretas


En este caso tiene sentido preguntarse por la probabilidad concreta de un valor y también por su
probabilidad acumulada. Ambas se especifican, para todos los valores de la variable, con la ayuda
de las llamadas “Función de Probabilidad” y “Función de Distribución”.

Definición
La Función de probabilidad fX de una variable discreta X proporciona la
probabilidad de cada valor.

Ejemplo 1.2: Cierto equipo, para conseguir la recanalización de un vaso, emplea 1


dispositivo en el 72% de los casos; 2 en un 26%; y 3 en el 2% restante. De forma más
abreviada, la Función de probabilidad fX de la variable número de dispositivos necesarios
vale:
fX(1) = P(X=1) = 0.72
fX(2) = P(X=2) = 0.26
fX(3) = P(X=3) = 0.02

Nota muy técnica: Puede ‘cerrarse’ esta especificación aclarando que los restantes valores tienen
probabilidad 0: “Cualquier x diferente de 1, 2 o 3, tiene Función de probabilidad nula”, que
simbólicamente sería: x ≠ 1, 2, 3; fX(x) = 0.

La Figura 1.1 muestra la forma de esta Función de probabilidad y que sólo los valores 1, 2 y 3 son
posibles en este ejemplo.

Figura 1.1. Ejemplo de Función de probabilidad

5
Modelos para variable discretas

Ejemplo de R
# Gráfico de la Figura 1.1
>x <- 1:3
>fx <- c(0.72,0.26,0.02)
>par(las=1)
>plot(x, fx, type = "h", col = 2, lwd = 2,xaxp = c(1,3,2))

Ejercicio 1.1
Supongamos que emplear un número bajo de dispositivos sea un objetivo
sanitario deseable y se desea definir un indicador que permita al paciente valorar
la seguridad que le ofrece una institución. ¿Qué seguridad o confianza tiene el
paciente de que el servicio del ejemplo anterior empleará, como mucho 2
dispositivos?

Definición
Llamamos probabilidad acumulada de un valor xi de una variable discreta a la
suma de su probabilidad con la de todos los valores inferiores y lo representamos
por P(X xi).

Definición
La Función de Distribución FX de una variable discreta proporciona la
probabilidad acumulada para cada valor.

Ejemplo 1.2 (cont.): La Función de Distribución FX del número X de dispositivos sería:


FX(1) = P(X 1) = 0.72
FX(2) = P(X 2) = 0.98
FX(3) = P(X 3) = 1
Nótese, p.e., que P(X ≤ 1) = P(X ≤ 1.5).

Nota: También puede ‘cerrarse’ aclarando los restantes valores: “para x menores de 1, FX(x)=0”; “para x
mayores de 3, FX(x)=1”; “si 1 x<2, FX(x)=0.72; si 2 x<3, FX(x)=0.98”.

La Figura 1.2 muestra la forma de su Función de Distribución.

6
Bioestadística para no estadísticos

Figura 1.2. Ejemplo de Función de Distribución

Ejemplo de R
# Gráfico de la Figura 1.2
> x <- 0:3
> Fx <- c(0,0.72,0.98,1)
> par(las=1)
> plot(x,Fx,type="s",col=2,lwd=2,xaxp=c(0,3,3))

Recuerde
La Función de Probabilidad aplica a un valor concreto: fX(2) = P(X=2)
La Función de Distribución acumula probabilidades: FX(2) = P(X 2)

Ejercicio 1.2
Supongamos la variable X número de hijos puede tomar los valores 0, 1, 2, 3, …
k. ¿Cuál de las siguientes, a o b, es cierta en cada caso?
1.- a) P(X=3) = fX(3) b) P(X=3) = fX(2)
2.- a) P(X=3) = FX(4) – FX(3) b) P(X=3) = FX(3) – FX(2)
3.- a) P(X>3) = 1 – FX(2) b) P(X>3) = 1 – FX(3)
4.- a) P(X 3) = 1 – FX(2) b) P(X 3) = 1 – FX(3)
Y de forma simbólica, más difícil, pero con la pista de las anteriores:
5.- a) P(X=k) = fX(k) b) P(X=k) = fk-1
6.- a) P(X=k) = FX(k+1) – FX(k) b) P(X=k) = FX(k)– FX(k–1)
7.- a) P(X>k) = 1 – FX(k–1) b) P(X>k) = 1 – FX(k)
8.- a) P(X k) = 1 – FX(k–1) b) P(X k) = 1 – FX(k)

7
Modelos para variable discretas

2. Esperanza y varianza. Aplicaciones


2.1. Esperanza de una variable, E(X), μ

Calculamos el centro poblacional igual que el muestral, promediando entre todos los valores.

Recuerde
La esperanza E(X)=μ es un parámetro poblacional; el promedio x , un resultado
muestral.

Nota: El promedio se realiza mediante la suma de cada valor ponderado por su probabilidad: μ=E(X)=
ixiP(X=xi).

Definición
Llamamos esperanza de una variable X a su centro poblacional y lo
representamos por E(X) o por μ.

Nota: La fórmula cambia para discretas y continuas, pero en ambos casos pondera por probabilidad.

Interpretamos μ=E(X) como el valor central en el sentido de “centro de gravedad”: punto que
mantiene “en equilibrio” la distribución de probabilidad.

Ejemplo 1.2 (cont.): La Figura 2.1 vuelve a mostrar la distribución del número X de
dispositivos y marca su esperanza: μ=E(X) = 1.3. Puede imaginar que el punto 1.3 coincide
con el fiel de una balanza que aguantara, en equilibrio, ambos brazos.

Figura 2.1. Representación del valor esperado, E(X) dentro de fx

Nota: Aunque no lo parezca, la posición de equilibrio de un cuerpo no deja la misma masa a cada lado:
depende de cómo se distribuye esa masa (“ley de la palanca”). Tampoco la esperanza divide la
distribución en 50% y 50% (ese punto es la “mediana”).

8
Bioestadística para no estadísticos

Ejemplo de R
# Gráfico de la Figura 2.1. Se añade a la Figura 1.1
> abline(v=1.3,col=4,lwd=2)
> mtext("E(X)",1,at=1.3)

Nota: Observe cierto abuso del lenguaje al decir que μ=E(X) es el valor esperado de X, ya que no
esperamos observar un uso de 1.3 dispositivos en la próxima intervención: veremos 1 o 2 o 3, pero no 1.3.

Recuerde
En una discreta, la esperanza podría NO ser uno de los valores posibles.

E(X)=μ tiene 2 propiedades muy importantes, según la apliquemos a la población o a las unidades.

1) E(X)=μ caracteriza a la población y la diferencia del resto de poblaciones.

Ejemplo 1.2 (cont.): μ = 1.3 es propia de ese entorno: podríamos negar que 1.3 represente a
un paciente de esa población. Pero SÍ que representa a esa población: si desde un punto de
vista clínico y asistencial es relevante, μ = 1.3 podría ser una medida del rendimiento de esa
población.

Recuerde
E(X)=μ es un indicador de la situación de la población.

2) Aplicada a las unidades, E(X)=μ minimiza el error: si “esperamos” E(X)=μ, cometemos cierto
error; pero, a lo largo de todos los valores posibles y teniendo en cuenta su frecuencia, será el menor
error posible –tal como veremos en predicción en el curso de observacionales.

Ejemplo 1.2 (cont.): Si afirmamos que la intervención futura precisará exactamente 1.3
dispositivos, seguro que NO acertamos; en cambio, hacemos mínimo el error de predicción:
la suma de todos los posibles errores es mínima en el sentido de que predecir cualquier otro
valor conduce a una suma mayor de errores.

Recuerde
“Esperar” ver E(X)=μ en la próxima observación minimiza el error posible.

Nota técnica: La definición concreta de este error de predicción será ‘cuadrática’.

9
Modelos para variable discretas

Ejercicio 2.1
Diga para cada una si es cierta. Si fuera falsa, escríbala bien:
a. Tanto la esperanza [E(X) = μ] como el promedio [= media = x ] visto en
descriptiva indican cierto centro.
b. La esperanza, E(X) o μ, aplica a los resultados de una muestra; pero el
promedio, media o x , a la distribución poblacional.

2.2. Varianza de una variable, V(X), ²

También calcularemos la dispersión poblacional como la muestral, promediando las distancias al


cuadrado de cada valor con su esperanza.

Recuerde
La varianza V(X)= ² es un parámetro poblacional; la varianza S², un resultado
muestral.

Nota: La fórmula también pondera por la probabilidad de cada valor.

Es interesante expresar la varianza en términos de esperanza:

Definición
2
Llamamos varianza al valor esperado de la distancia cuadrada con la media: =
V(X) = E (X-μ) 2.

2
Como “(X-μ)” es la distancia entre la variable X y su centro, =V(X) es precisamente el valor
esperado del error al cuadrado que cometemos al esperar μ cuando observamos X.

Nota: μ era el centro de gravedad de X. Por tanto, si no se elevara al cuadrado, los errores positivos y
negativos se compensarían y su suma daría 0.

La varianza está expresada en unidades de X, pero elevadas al cuadrado. Por ello, como en
descriptiva, definimos la desviación típica como su raíz cuadrada.

Definición
La raíz cuadrada de la varianza se denomina desviación típica o estándar y se
representa por = √V(X).

10
Bioestadística para no estadísticos

Interpretamos la desviación típica como la distancia “esperada” entre las observaciones y su


media μ.

Ejercicio 2.2
Behar, Grima y Marco proponen un partido de basket entre marcianos y terrícolas.
Suponiendo que sus alturas tengan la misma μ, pero la de los marcianos mayor ,
¿quién espera que gane si ambos seleccionan a sus jugadores más altos?

Ejemplo 1.2 (cont.): La Figura 2.2 vuelve a mostrar la distribución del número X de
dispositivos. Ahora, además de indicar su esperanza: E(X) = 1.3, también marca su
desviación típica =0.5. Puede imaginar que la distancia promedio de todos los valores de X
2
al punto 1.3 vale 0,5. Su varianza es =0.25.

Figura 2.2. Representación gráfica de la desviación típica


Nota: Observe que esta situación es asimétrica y, a la derecha de μ, parece quedarse corta, pero a
su izquierda, pasarse de largo.

Ejemplo de R
# Gráfico de la Figura 2.2
> par(las=1)
> plot(x,fx,type="h",col=2,lwd=2,xaxp=c(1,3,2),
xlim=c(0.5,3.5))
> abline(v=1.3,col=4,lwd=2)
> mtext("E(X)",1,at=1.3)
> arrows(1.3-0.5, 0.6, 1.3+0.5, 0.6, col=4, lwd=2, code=3)
> text(c(1.1,1.5),0.62,expression(sigma))

Sólo en distribuciones simétricas podemos aplicar la desviación típica a ambos lados.

11
Modelos para variable discretas

Nota: Observe que NO podríamos representar la varianza en ese gráfico, ya que tiene unidades diferentes
(son ‘cuadradas’).

Igual que E(X), V(X) o bien su raíz también resumen el comportamiento de una población.

Ejemplo 1.2 (cont.): La Figura 2.3 muestra la distribución del número X’ de dispositivos en
otra población: ahora han aumentado tanto los aciertos a la primera (fX’(1)=0.84) como la
necesidad de recurrir a una tercera (fX’(3)=0.14). Como resultado, su esperanza, μ=1.3, sigue
igual, pero ahora su desviación típica es mayor, =0.7. Aunque su rendimiento promedio es
el mismo, en global es menos similar: quizás podríamos decir menos igualitaria.

Figura 2.3. Representación gráfica de la desviación típica

Recuerde
V(X) y indican la dispersión de la población.

Aplicada a las unidades, complementa a μ. E(X)=μ indica el valor central, esperado. Y , la


distancia esperada a μ.

Ejemplo 1.2 (cont.): X y X’ tienen la misma esperanza, en ambos caos tienen el mismo
centro, 1.3 dispositivos. Pero como X’ tiene dispersión mayor, debemos prepararnos para
ella.

Ejercicio 2.3
2
Compare la varianza (V(X) = ) de este tema con la vista en descriptiva (S2) y
explique sus similutudes y diferencias.

12
Bioestadística para no estadísticos

2.3. Aplicaciones. Decisión *


Esperanza y varianza resumen el comportamiento de una población y, por tanto, podemos usarlas
para comparar poblaciones. Y para escoger entre ellas. Si cambiamos una intervención A por un B
en una población, tendremos 2 posibles poblaciones: aquella que observaríamos cuando aplicamos
A y la que observamos al aplicar B.

Ejemplo 2.1: pongamos que una compresión benigna de próstata pueda ser tratada médica
(M) o quirúrgicamente (Q). Y que ambas tienen un éxito del 100%, pero difieren en su
seguridad: M tiene un 20% de eventos adversos (EA), por un 10% de Q. Sin más
información, preferiremos Q. Pero quizás necesitemos profundizar más: ¿Qué pasa en
ambos casos si se presenta el EA? Supongamos que la variable de interés es la cantidad de
vida en años.

El árbol presenta primero un nudo con 2 opciones


o ramas entre las que elegir: el círculo superior
representa la población si optamos por M: la
variable tiempo de vida toma el valor 9.5 años en
el 80% de las observaciones y 8 años en el 20%
restante. Si optamos por Q, habrá otra población en
la que el valor 10 años tendrá probabilidad 0.9 y el
valor 0 años, 0.1.

Recuerde
Un árbol de decisión contiene nudos para escoger entre opciones alternativas y
luego variables con sus probabilidades para cada valor.

Nota: Este simplista ejemplo anula la variabilidad dentro de cada resultado (p.e.: todos los Q sin
complicaciones viven 10 años), pero la discusión sería muy parecida si fuera más realista.

Ejemplo 2.1 (cont.): En la población Q, E(X) = 10*0.9+0*0.1 = 9 años. Y en M, E(X)= 9.2.


Así, por cada caso en la población, optar por M implica, 0.2 años más de vida por habitante.
Globalmente, el conjunto de los 100 habitantes de una pequeña población dispondría de 20
años adicionales.

13
Modelos para variable discretas

Recuerde
E(X) valora, como criterio de decisión, el beneficio poblacioal.

Nota: La incertidumbre en Q es mayor que en M. De hecho, sus varianzas son 9 y 0.36 ( = 3 y 0.6). Así,
si quisiéramos disminuir al máximo el grado de “sorpresa” global, escogeríamos el valor mínimo de
V(X), que también conduce a M

Nota: ¿Y a nivel individual? Alguien podría decir que quiere evitar, como sea, la peor opción posible. O,
según sea su grado de aversión o amor al riesgo, todo lo contrario.

Ejemplo 2.1 (cont.): Cierto paciente recibirá el premio Nobel en unos meses. Sabe que
tiene que solucionar el tema o no aguantará toda la ceremonia. Sin duda, querrá evitar Q y la
probabilidad de quedarse sin recibir el premio.

Nota: ¿Y la calidad de vida? Por supuesto, elegir otro objetivo requiere recoger otra información, lo que
podría llevar a otra decisión. Por eso, lo más importante es “saber qué es lo que uno quiere”. Pero marcar
cuál es el propio objetivo, conocerse a uno mismo, es quizás lo más difícil de todo. Vea en Wikipedia la
pirámide de Maslow.

3. Modelos de probabilidad discretos


Los modelos de probabilidad son situaciones simplificadas que pueden ser útiles.

3.1. Indicador o bernouilli


El más sencillo de todos es el de Bernouilli (B1) que hace referencia a 1 observación de la variable
binaria “indicador”, que puede tomar los valores ‘1’, pongamos éxito; y ‘0’, fracaso.

Ejemplo 3.1: Si definimos ‘éxito’ al evento “eliminar el trombo con el uso de un solo
dispositivo”, disponemos de una variable B1 que puede tomar el valor 1 con probabilidad:
P(X=1) = 0.72 =
y el valor 0, con probabilidad
P(X=0) = 0.28 = 1-

Su esperanza es igual a la probabilidad de éxito: E(B1) = . Y su varianza es igual al producto de


dicha probabilidad por su complementario: V(B1) = ·(1- ).

14
Bioestadística para no estadísticos

Ejercicio 3.1
Según la variabilidad de la Bernouilli, ¿qué es más incierto, un indicador con
=0.5 o con =0.1? ¿Cuadra este resultado teórico con su intuición previa de
incierto para valores de =0.5 o de =0.1? ¿Se atreve a decir qué valor de va
acompañado de mayor incertidumbre?

3.2. Binomial
Si repetimos ‘n’ veces el indicador de Bernouilli anterior y contamos el número de éxitos, aparece
el modelo Binomial (Bn) siempre que se cumplan las 2 condiciones siguientes: (1) las ‘n’
repeticiones tienen todas la misma probabilidad de éxito; y (2) todas ellas son mutuamente
independientes.

Definición
Representamos por B(n, ) a la variable discreta recuento de éxitos tras ‘n’
repeticiones independientes de indicadores B1 con probabilidad de éxito .

Ejemplo 3.2: Siguiendo con el ejemplo anterior, si un servicio hace 10 intervenciones a la


semana (n=10), el número de éxitos se modela con una distribución B(10, 0.72).

3.2.1. Función de Probabilidad fX y función de Distribución FX


Recordemos que hay que distinguir entre la Función de Probabilidad, fX, que corresponde a un valor
exacto, y la Función de Distribución, FX, que acumula la probabilidad de los valores previos. La
siguiente figura muestra las funciones de probabilidad fX y de distribución FX del ejemplo 3.2.
Veamos cómo obtenerlas con R.

Instrucciones en R para fx y Fx

# fx: Probabilidad de obtener un 2 en una B(n=6,Pi=2/3)


> dbinom(2, 6, 2/3)
[1] 0.08230453
# Fx: Probabilidad de obtener un 2 o menos en una B(n=6,Pi=2/3)
> pbinom(2, 6, 2/3)
[1] 0.1001372
# 1-Fx: Probabilidad de obtener un 3 o más en una B(n=6,Pi=2/3)
> 1-pbinom(2, 6, 2/3)
[1] 0.8998628

15
Modelos para variable discretas

1.0
0.25

0.8
0.20

0.6
0.15

F
f

0.10 0.4

0.05 0.2

0.00 0.0

0 2 4 6 8 10 0 2 4 6 8 10

x x

Figura 3.1. Funciones de probabilidad fX y de distribución FX de una B(10, 0.72)

#Instrucciones de la Figura
par(mfrow=c(1,2), las=1)
x=0:10
f = dbinom(x, 10, 0.72)
F = pbinom(x, 10, 0.72)
plot(x, f, t='h', lwd=2, col='red')
plot(x, F, t='s', lwd=2)

Ejercicio 3.2
a) ¿Bajo qué premisas serían ciertos los cálculos anteriores?
b) ¿Le parecen razonables?

Notación:
Se indica que X se modela con una B(n, ) mediante: X~B(n, )

Ejemplo de R

# Cálculo de fx: P(X=7) si X~B(10,0.72)

>dbinom(7,10,0.72)
[1] 0.2642304

16
Bioestadística para no estadísticos

Ejercicio 3.3
Interprete el resultado anterior: ¿le parece bajo o alto que en 10 observaciones, la
probabilidad de observar 7 éxitos sea aproximadamente de ¼, siendo =0.7?

Ejercicio 3.4
Calcule con R la probabilidad de observar 8 y de observar 6. ¿Son mayores o
menores que las de 7? Interprete.

Ejemplo de R

# Cálculo de Fx: P(X 7) si X~B(10,0.72)


> pbinom(7,10,0.72)
[1] 0.562171

Ejercicio 3.5
Calcule con R la probabilidad de observar 8 o menos. Y la de observar 5 o menos.
Deduzca la probabilidad de observar 6, 7 u 8: P(6 X 8). Interprete.

Ejercicio 3.6 *
Imagine ahora que los resultados se presentan por trimestres, donde se realizan
100 en lugar de 10 intervenciones, con la misma probabilidad =0.72. Calcule
con R P(X=70), P(X 70) y P(60 X 80). Compare con los resultados anteriores
teniendo en cuenta que la proporción observada es la misma en 7 de 10 y en 70 de
100. Interprete.

Recuerde
El modelo Binomial estudia la probabilidad de observar X eventos en n
repeticiones de un indicador con probabilidad π.

17
Modelos para variable discretas

3.2.2. Esperanza y varianza


Las expresiones de la esperanza y la varianza de una variable Binomial (Bn) son:

Fórmulas
Si X~B(n, ), E(X) =n· y V(X) =n· ·(1- )

Ejercicio 3.7
Calcule E(X) y V(X) para X10 ~ B(10,0.72) y para X100 ~ B(100,0.72). Interprete
ambas. [Si hizo el ejercicio reto anterior, compare resultados].

En una Binomial, la definición de éxito y fracaso es pura convención. Imaginemos que lo que
preocupa es justamente lo contrario: que no se consiga la revascularización con el primer
dispositivo y queremos contar el número de veces que no se consigue.

Ejercicio 3.8
Especifique la distribución de la variable Y10: número de fracasos semanales (10
intervenciones). Ídem para Y100 (trimestrales). Calcule P(Y10 1) y la de
P(Y100 10).

Ejemplo 3.3: Suponga que una cierta analítica consta de 20 pruebas, cada una de ellas con
una especificidad del 95%, es decir, el 95% de los sanos da negativo en cada una de las
pruebas. Suponga también que son independientes entre sí, es decir que valoran entidades
diferentes y que el hecho de dar positivo una de ellas no aumenta la probabilidad de que otra
sea positiva. Es decir, que podemos modelar el número de resultados positivos (X) por una
B(n=20,π=0.05). El número de resultados que cabe resultar que sean positivos es algo
preocupante: E(X)=n·π=20·0.05=1. Pero mucho más preocupante es la probabilidad de que
un sano dé negativo en todos ellos: P(X=0)= dnorm(0,20,0.05)= 0.3584859. Es decir, sólo
un 36% de los sanos darán negativo en todas las pruebas. O peor aún ¡es más probable que
un sano tenga algún resultado positivo que todos negativos.

Historieta: ”Sano es alguien no suficientemente visitado por un médico”.

Historieta: ”Tanto va el cántaro a la fuente que al final se rompe”.

18
Bioestadística para no estadísticos

Recuerde
Valore con prudencia los resultados positivos inesperados tras la repetición de
pruebas con especificidad por debajo del 100%.

3.2.3. Cuantiles
Hasta ahora hemos aprendido a calcular probabilidades acumuladas a partir de los valores de X.
Pero podríamos tener justo el interés contrario: dada una probabilidad acumulada deseada, conocer
cuál es el valor que la proporciona.

Recuerde
Hay 2 tipos de problemas: saber el valor de X y buscar cierta probabilidad; o
conocer la probabilidad y buscar el valor de X.

Ejemplo 3.4: ¿Cuántos caben, sin doblar las piernas, en camas de 1.80 metros? Si queremos
que quepan un 99%, ¿qué longitud debe tener la cama?

Recuerde
En el tema 2 de descriptiva, al hablar de la mediana y los percentiles, definimos
los cuantiles como las proporciones muestrales acumuladas. También usaremos
cuantil, a nivel poblacional, para las probabilidades acumuladas.

Recuerde
Los cuantiles de uso más frecuente son los percentiles, los cuartiles y los
quintiles.

Ejemplo 3.5: Siguiendo con el ejemplo de los dispositivos y los resultados semanales con
10 intervenciones, interesa calcular el número máximo de fracasos que podemos garantizar
en el 90% de las semanas. Sabiendo que P(Y10≤4) = 0.882 [pbinom(4,10,0.28)] y que
P(Y10≤5) = 0.966 [pbinom(5,10,0.28)], el valor que garantiza una confianza del 90% es 5.
Se trata pues del percentil 0.90. En resumen, podemos garantizar que en el 90% de las
semanas como mucho 5 pacientes precisarán más de una intervención. Al ser discretas,
“salta” de 0.882 a 0.966, por lo que el percentil 90 coincide, p.e., con el percentil 95.

19
Modelos para variable discretas

Recuerde
En las discretas, los cuantiles también dan saltos. Para garantizar una cierta
probabilidad se toma el valor superior de la variable.

Ejercicio 3.9
Pasemos a los resultados trimestrales con 100 pacientes. Sabiendo que
P(Y100 33)=0.888 y P(Y100 34)=0.924. Calcule el percentil 90. Interprete.
Ofrezca una garantía del 90% sobre el rendimiento del servicio.

Ejemplo de R

# Cuantil para Y~B(100,0.72)


# Valor k que cumple 0.9 = Fk = P(Y k)

> qbinom(0.90,100,0.72)
[1] 34

Ejercicio 3.10

Obtenga los percentiles 0.95 de Y10 ~ B(10,0.28) y Y100 ~ B(100,0.28). Interprete.

Ejercicio 3.11

Suponga que está investigando una nueva intervención. Vd. recuerda los casos de
la talidomida y del TGN1412, dos productos de nueva creación, uno químico y
otro biológico, que tuvieron eventos adversos (EA) muy graves. Vd. está contento
porque no ha observado ningún EA grave en 10 pacientes. Y Vd. considera que,
dados sus grandes efectos positivos, el producto aún será útil incluso si la
probabilidad de un EA grave alcanza el 10% ( =0.1). Su recogida de información
le permite descontar la posibilidad de contagios y puede asumir la independencia
que requiere la Binomial. Bajo este modelo, si el producto tuviera una =0.1
común para todos los pacientes, ¿cuál sería la probabilidad de obtener 0 de 10
casos con un EA grave? Interprete. Repita para un resultado hipotético de 0 sobre
100. Interprete.

20
Bioestadística para no estadísticos

3.3. Poisson
El modelo de Poisson es un caso particular del Binomial especialmente útil cuando es más factible
obtener el valor del producto ·n que los valores exactos de y de n.

Ejemplo 3.6: El recuento del número diario de accidentados con lesiones craneoencefálicas
que requieren un neurocirujano de urgencias es una variable que puede aproximarse por una
Binomial. En cierta población es factible conocer la esperanza de esta variable, pero ‘n’ es
tan grande y (afortunadamente) es tan baja, que resulta complicado obtener n y con
precisión. En cambio, podemos conocer cuál es el promedio en el pasado de este número.

Ejercicio 3.12
Vamos a jugar un poco. Vamos a ver qué pasa con la probabilidad de observar 0
casos si cambiamos y n de forma que mantengamos constante su producto ·n.
Recupere del ejemplo anterior P(X=0) para B10 (10, 0.1) y obténga también
P(X=0) para B100(100, 0.01), B1000(1000, 0.001) y B1000000 (1000000, 0.000001).
Interprete. Calcule la esperanza de estas 4 variables. Interprete.

Notación
El producto ·n se llama tasa y se representa con la letra λ.
Expresamos el modelo de Poisson de tasa (o parámetro) λ mediante P(λ).

Ejemplo 3.7: En Barcelona quizás podríamos tener una esperanza de 1 caso diario. Es decir,
de 1 caso por día, donde este ‘por’ indica división: ‘/’.

Nota: Hemos dicho ‘diario’: hay que expresar el periodo.

Notación
La tasa λ suele indicar casos/tiempo (vea el tema 4).

Debe, por tanto, especificar el periodo de observación o seguimiento.

Nota: λ es un número (real) positivo que representa la tasa media de casos por lapso de seguimiento
considerado. En general, se mide en tiempo (10 casos/semana, por ejemplo).
Ejemplo 3.8: Barcelona tiene en promedio 1 traumatismo craneoencefálico diario (o por
día, o “1 evento/día”).

Nota: Otros indicadores del denominador o nivel de exposición pueden ser el número de tomas (en el
caso del riesgo de un fármaco); o el número de pernoctaciones en un centro sanitario (en el caso de un

21
Modelos para variable discretas

riesgo de infección). [Si permite un ejemplo cotidiano en el límite de lo correcto, ciertos pseudo-hoteles,
podrían tener un promedio de pernoctaciones (o alquileres por día) de λ=5.3]

Ejemplo 3.9: El fármaco tal tiene 1 evento adverso grave cada 1000 tomas.
Ejemplo 3.10: El centro tal tiene 1 infección nosocomial por 1000 estancias.

3.3.1. Funciones de Probabilidad, fX, y de Distribución, FX

Ejemplo de R
# Cálculo de fx: P(X=0) si X~P(1)
> dpois(0,1)
[1] 0.3678794

Ejercicio 3.13
¿Se parece este resultado a los del ejercicio anterior? ¿A cuáles se parece más?

Ejercicio 3.14
Si la tasa diaria de traumatismos craneoencefálicos vale 1, ¿ qué
probabilidadtienen 0, 1, 2, 3 y 4 traumatismos? ¿En qué proporción de días se
observarán 0, 1, 2, 3 y 4 traumatismos?

Ejemplo de R
# Cálculo de Fx: P(X 2) si X~P(1)
> ppois(2,1)
[1] 0.9196986

Ejercicio 3.15
Calcule con R las probabilidades de observar 3 o menos traumatismos. Si Vd.
dimensiona sus servicios para atender hasta 4, ¿qué garantías tiene de que un día
concreto cubra todas las necesidades?

Recuerde
El modelo de Poisson estudia la probabilidad de observar X eventos por unidad de
tiempo cuando su frecuencia de aparición es λ.

22
Bioestadística para no estadísticos

3.3.2. Esperanza y varianza


Las expresiones de la esperanza y la varianza de una variable Poisson (Pλ) son:

Fórmulas
Si X~P(λ), E(X) =λ y V(X) =λ

Ejercicio 3.16
En el modelo de Poisson, E(X) = V(X) = λ. ¿Cuánto vale V(X) en el caso de los
traumatistos? ¿Y ? Repita para λ=4. ¿Tiene sentido que la dispersión sea mayor
cuanto mayor sea el centro?

Recuerde
En Poisson, parámetro tasa λ, esperanza E(X)=μ y varianza V(X)= ² son iguales.

3.3.3. Cuantiles
Como en la Binomial, también podemos calcular los cuantiles para responder la pregunta inversa.

Ejemplo 3.11: En Barcelona hay un promedio de 4 ictus semanales susceptibles de ser


tratados con endoscopia vascular y consumimos 1 dispositivo por paciente. Si deseamos
disponer en el almacén con dispositivos suficientes para cubrir el 99.9% de las semanas,
¿cuántos dispositivos necesitamos?

Ejemplo de R

> qpois (0.999, 4)


[1] 11

# Es decir, el 99.9% de las semanas hay como mucho 11 casos de este


tipo. O también: la probabilidad de que en 1 semana concreta tengamos
11 eventos o menos es 0.999. Con 11 dispositivos cubriremos el 99.9% de
las semanas.

23
Modelos para variable discretas

Ejercicio 3.17
Siguiendo con el caso de los traumatismos craneoencefálicos, si Vd. desea que sus
servicios estén preparados para atender todas las urgencias el 99% de los días,
¿para cuántos casos han de estar preparados?

Nota: El modelo Poisson es más exacto si n crece, pero n permanece fijo. De acuerdo con dos reglas de
oro, esta aproximación es buena si n ≥20 y ≤0.05, o si n ≥100 y n· ≤10.

3.3.4. Premisas *
La premisa más importante del modelo de Poisson consiste en asumir que λ es constante para las
unidades consideradas y que los eventos son independientes entre sí: que observar 1 caso no altera
las probabilidades de observar otro. Se dice que el proceso en estudio no tiene memoria.

Ejemplo 3.12: Todos los días tienen la misma frecuencia de traumatismos


craneoencefálicos. Una vez observado un caso, no aumenta ni disminuye la probabilidad de
observar otro.

Ejemplo 3.13: No haber tenido ningún evento adverso grave hasta la fecha no cambia su
expectativa futura.

Ejemplo 3.14: Haber observado 1 infección nosocomial en una estancia no cambia la


probabilidad de observarla en otras estancias.

Ejercicio 3.18

A) ¿Le parecen razonables las premisas de la Poisson en estos 3 ejemplos?

B) Si no lo fueran, ¿qué sería incorrecto, el valor observado de la tasa λ o los


cálculos que obtendríamos con el modelo de Poisson?

C) ¿Cómo cree que podría comprobarlo?

Es posible comparar las frecuencias predichas por el modelo de Poisson con los resultados
observados empíricamente. Cuánto más se parezcan, más creíbles serán las premisas en las que se
basa dicho modelo.

24
Bioestadística para no estadísticos

Ejemplo 3.15 Aberdein y Spiegelhalter observaron una media de 0.6 ciclistas muertos en
Londres cada 2 semanas. Como disponían de datos desde 2005 hasta 2012, pudieron contar
cuantos periodos de 2 semanas tuvieron 0 eventos, cuántos 1, etc. Las figuras 3.2 y 3.3 muestran
muy buen ajuste entre las probabilidades predichas por el modelo y las observadas.
120

120
100

100
Número de pares de semanas

Número de pares de semanas


80

80
60

60
40

40
20

20
0

0 1 2 3 o más 0 1 2 3 o más

Figura 3.2: muertes esperadas Figura 3.3: muertes reales

En ocasiones, el ajuste entre las predicciones realizadas por el modelo teórico (quizás simple) y los
datos observados es muy bueno.

Recuerde
Sea prudente y hable de modelos en lugar de leyes.

3.3.5. Similitud entre Binomial y Poisson *


Dijimos que el modelo de Poisson es un caso particular del Binomial cuando n crece y decrece,
ambos indefinidamente, pero su producto λ permanece constante.

Nota: La ‘n’ de Poisson era el número de soldados del ejército de Napoleón y, cómo el matemático
Poisson no disponía de R, propuso su modelo para ahorrar tiempo de cálculo.
Los dos siguientes ejemplos muestran que la similitud entre Poisson y Binomial es mayor cuanto
mayor es n.

Ejemplo 3.16: La Figura 3.4a muestra la Función de Distribución de dos variables con la
misma esperanza: una B(20, 0.5) y una P(10). Puede verse que al inicio crece más rápido P,
pero luego B. La discrepancia máxima se observa para x=7, ya que la probabilidad
acumulada para P es casi un 9% mayor que para B. En el primer caso, P[X 7|X~P(10)] =

25
Modelos para variable discretas

0.220 y en el segundo, (P[X 7|X~B(20, 0.5)] = 0.132. La siguiente mayor discrepancia es


para X=13, casi un 8% mayor para B.

1.0
B(20, 0.5)
P(10)

0.8
0.6
0.4
0.2
0.0

0 5 10 15 20

Figura 3.4a. Discrepancia entre Poisson y Binomial de misma esperanza para n pequeña
1.0

B(100, 0.1)
1.0

P(10)
B(20, 0.5)
Ejemplo 3.17: Ahora repetimos el estudio de similitud para la misma P(10), pero con una
0.8

P(10)
0.8

B(100, 0.1). Se aprecia que el parecido es mucho mejor. Otra vez crece más primero P y
0.6
0.6

luego B. También ahora, el desajuste máximo es para X=7, pero ahora vale 0.014, un 1.4%
0.4
0.4
0.2

ya que, para la Binomial (P[X 7|X~B(100, 0.1)] = 0.206, mucho más cerca de la Poisson
0.2
0.0

(que es la misma). Para X=13, la diferencia es 1.2%. Así, el ajuste es mucho mejor, ya que
0.0

0 5 10 15 20
la mayor discrepancia ha 0bajado de5 8.9 a 1.4.10 15 20
1.0

B(100, 0.1)
P(10)
0.8
0.6
0.4
0.2
0.0

0 5 10 15 20

Figura 3.4b. Parecido entre Binomial y Poisson de misma esperanza para n grande.

3.4. Otros modelos *


El modelo de Pascal o Geométrico también es como el binomial, pero en lugar de sumar el número
de éxitos, cuenta el número de fallos previos al primer éxito.

Nota: Como la Binomial y la Poisson, la geométrica también asume que la probabilidad es siempre la
misma e independiente de los resultados previos.

Notación
G(π) representa la variable discreta número de fallos antes del primer éxito.

26
Bioestadística para no estadísticos

Ejemplo de R

# Recuerde que ??geom le lleva a las instrucciones


# Cálculo de fx: P(X=2) si X~G(0.8)
> dgeom (2,0.8)
[1] 0.032
# Cálculo de Fx: P(X 7) si X~G(0.2)
> pgeom(7,0.2)
[1] 0.8322278
# Cuantil: k que cumple 0.9 = P(Y k) si Y~G(0.3)
> qgeom(0.90,0.3)
[1] 6

Ejercicio 3.19
Vamos lanzando una moneda hasta observar una cara. ¿Cuál es la probabilidad de
que el número de cruces previas sea 0? ¿Y de que sea 1? ¿Cuál es la probabilidad
de observar una cara, como muy tarde, en 5 intentos? [Pista: eso implica 4 fallos
previos.]

Ejercicio 3.20 Para obtener cierta acreditación necesitamos 1 artículo en una


revista buena (definida como primer cuartil según el factor de impacto). Si un
profesional al que le aceptan (de forma independiente) un 15% de artículos, va
enviando articulos, ¿qué probabilidad tiene de conseguir la acreditación cuando
llegue al décimo (ni antes ni después)? ¿qué probabilidad tiene de conseguir la
acreditación al décimo o antes? Interprete. [Pista: si lo debe conseguir al intento
número 10, necesita 9 fallos previos.]

Ejercicio 3.21

Suponga que la probabilidad de adquirir una infección nosocomial es la misma en


el primer día de estancia que en cualquier día siguiente y que vale un 5%. ¿Cuál
es la probabilidad de que un paciente permanenezca ingresado 10 días sin
adquirirla? ¿Y uno ingresado 20 días? Suponga ahora que en un paciente más
grave esta probabilidad vale un 20%, y repita los cálculos para 10 y 20 días.
Interprete: ¿es el coste la única razón para abreviar la estancia hospitalaria?

Nota: Algunos textos definen la geométrica incluyendo también el éxito final.

27
Modelos para variable discretas

La Binomial Negativa generaliza la Geométrica al número de fallos antes de alcanzar un número


concreto de r éxitos –en lugar de hasta el primer éxito, hasta el r-ésimo éxito.

Ejemplo 3.18: Suponga que al profesional anterior le piden 5 artículos en el primer cuartil
en lugar de 1.

Nota: La Poisson tiene la restricción de que la varianza es igual a la esperanza [V(X) = E(X)]. Para liberar
esta condición se puede substituir la Poisson por una binomial negativa (BN). La figura 3.5 muestra 3 BN
con la misma esperanza que la Poisson pero con una dispersión mayor.
1.0

Poisson (8)
BN (0.2, 2)
BN (0.5, 8)
0.8

BN (0.8, 32)
0.6
Fx

0.4
0.2
0.0

0 5 10 15 20

Figura 3.5. 3 BN y 1 Poisson de misma esperanza y distinta varianza

En una población con dos tipos de individuos A y B, la Hipergeométrica cuenta el número de


individuos de uno de los tipos al escoger al azar una cantidad determinada de individuos de la
población original.

Ejemplo 3.19:Los participantes de cierto estudio clínico son 35 de raza caucásica y 15 de


otras razas. Para realizar cierta comprobación se escogen al azar a 10 participantes. ¿Cuál es
la probabilidad de que en este pequeño grupo haya como máximo una persona de raza no
caucásica? La variable X que cuenta el número de personas no caucásicas escogidas sigue
una distribución HGeo(m, n, k) donde m=15, n=35 y k=10, y queremos FX(1):
phyper(1,15,35,10) = 0.1209752. La probabilidad de que en este grupo haya como máximo
una persona de raza no caucásica es del 12.1%.

Si Vd. dispone de una ‘n’ muy grande y de las frecuencias observadas para todos los recuentos,
puede ahorrarse imponer un modelo de probabilidad y trabajar con los resultados observados.

28
Bioestadística para no estadísticos

Ejemplo 3.20: En los 47 años que llevamos recogiendo datos, el 45% de los días ha habido
0 intervenciones por traumatismos craneoencefálicos; el 30%, 1; el 16%, 2; el 2%, 3; el 3%,
4 y el 4%, 5.

3.5. Verosimilitud *
Hasta ahora hemos usado estos modelos para, dado un valor del parámetro, calcular las
probabilidades de observar ciertos resultados. Pero estos modelos pueden usarse al revés: habiendo
observado un cierto resultado, ¿qué valores del parámetro son razonables?

Ejemplo 3.21: Vd. ha observado 6 caras tras lanzar 10 veces la moneda. Si acepta el
modelo Binomial, puede calcular la probabilidad de observar esta muestra bajo diferentes
valores del parámetro.

Ejercicio 3.22
En el modelo Binomial, ¿cuál es la probabilidad de observar 6 caras de 10
lanzamiento si π=0.6? ¿Y si vale 0.5?

Ejemplo 3.21 (cont.): La Figura 3.6 representa las probabilidades de observar 6 caras de 10
lanzamientos para los valores del parámetro de la Binomial comprendidos entre 0<π<1.
Observe que el valor del parámetro para el que la verosimilitud de la muestra es mayor es,
precisamente, 0.6. Note también que la probabilidad de esta muestra no es muy grande
(0.25), ni cambia demasiado para otros valores muy próximos a 0.6, pero sí al alejarse.

Figura 3.6. Binomial de parámetro 0<π<1 .

29
Modelos para variable discretas

Nota: Si π fuera 1, sólo se podría observar 10 caras en 10 lanzamientos. Si se observan 6 caras de 10, se
pueden ya descartar valores de π igual a 0 o 1.
Tiene sentido estimar el parámetro con aquel valor más verosímil.

Recuerde

La verosimilitud se usa para estimar parámetros.

Probabilidad aplica a muestras; verosimilitud, a parámetros.

Ejemplo de R

# Función de verosimilitud de π en una binomial si # se observan 60


éxitos en 100 intentos
> x = seq(0,1,len=100)
> curve(dbinom(60,100,x))
# Función de verosimilitud de π en una geométrica # si se observan 2
fallos antes del primer éxito
> curve(dgeom(2,x))
# Función de verosimilitud de π en una BN si se # observan 4 fallos
antes del tercer éxito
> curve(dnbinom(4,3,x))

30
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1 Dado que X es una variable discreta positiva y teniendo en cuenta que la Función de Distribución sólo está definida
para los valores X={1,2,3} y que por lo tanto en el resto la probabilidad es 0:

P(X≤2) = P(X=1) + P(X=2) = 0.72 + 0.26 = 0.98

O bien: P(X≤2) = 1 - P(X>2) = 1 - P(X=3) = 1 - 0.02 = 0.98

Es decir, el 98% de los casos se atenderán con, como mucho, 2 dispositivos.

1.2 1. a); 2. b); 3. b); 4. a); 5. a); 6. b); 7. b); 8. a)

2.1. a) Cierto.

b) Falso. El promedio, media o x , aplica a los resultados de una muestra; la esperanza, E(X) o μ, a la distribución
poblacional.
2.2. En los marcianos hay más diferencias entre sus alturas al tener una mayor σ, por lo que habrá marcianos con
alturas más extremas, tanto más altos como más bajos. Si ambos equipos seleccionan a lo más altos, el equipo de
marcianos tendrá jugadores más altos que en el equipo terrícola. Así que el equipo de los marcianos es el favorito
—asumiendo igualdad en el resto de factores. [Note que si los jugadores se hubieran seleccionado al azar, esto no
pasaría. Eliminar el azar en un proceso de selección suele llevar sorpresas. Veremos más ejemplos de sesgo de
selección en el curso de observacionales.]
2
2.3. La variancia poblacional y la muestral S2 se basan en el mismo principio: medir un promedio
de las distancias al cuadrado de los valores al respectivo centro y, por tanto,
disponer de un indicador para cuantificar la dispersión de los valores. La diferencia fundamental
está en que V(X) lo hace para todos los valores (que potencialmente podrían observarse o no) en base a
unas probabilidades conocidas; mientras que S2 se basa en los valores que se han observado.

3.1. Cuanto mayor es la varianza más incierto es el indicador.

V(π=0.5) = 0.5(1-0.5) = 0.25

V(π=0.1) = 0.1(1-0.1) = 0.09

Por lo tanto hay más incertidumbre con π=0.5.

3.2. a) Las premisas que deberían cumplirse son que las 10 intervenciones tienen la misma probabilidad de éxito (72%),
es decir, todos los pacientes provienen de una misma población con los mismos factores de riesgo. Y que las
intervenciones son independientes entre sí, es decir que el fracaso o éxito de una no condiciona la siguiente.

b) Parece razonable pensar que, si todos los pacientes vienen de la misma población, en cada intervención tenemos
la misma probabilidad de éxito. Para poder suponer que el resultado de una intervención no influya en una
intervención futura, quizá sea necesario que el equipo vaya cambiando o que sean inmunes al desaliento.

3.3. Como la probabilidad de la binomial es 0.72, que la probabilidad de observar 7 de 10 sea “solo” 0.264 parece un
número bajo. Aunque 7 es el valor más probable de observar, observar cualquier otros es más probable que
observar un 7: la suma de las probabilidades de obtener un número diferente de 7, 0.736, es mucho mayor.

31
Modelos para variable discretas

3.4. Los resultados de R son:

>dbinom(8,10,0.72)

[1] 0.2547936

>dbinom(6,10,0.72)

[1] 0.1798235

Parece que la probabilidad de obtener un número de éxitos determinado disminuye a medida que este número se
aleja del valor esperado (E=n·π=7.2).

3.5. La probabilidad de observar 8 o menos P(X≤8) es:

>pbinom(8,10,0.72)

[1] 0.8169646

La probabilidad de observar 5 o menos P(X≤5)es:

>pbinom(5,10,0.72)

[1] 0.1181171

A partir de las dos probabilidades anteriores podemos calcular la probabilidad de observar 6, 7 u 8:

P(6≤X≤8) = P(X≤8) – P(X≤5) = 0.698847

En 10 intentos con una probabilidad de éxito de 0.72, 7 de cada 10 veces obtendremos un número de éxitos
comprendido entre 6 y 8. Tenemos cierta confianza (prob=0.699) de que, al obtener 10 observaciones de una
binomial con pi=0.72, el resultado estará cerca de su esperanza, entre 6 y 8).

3.6. En este caso, la n se ha multiplicado por 10, y también los valores de los que queremos hallar las probabilidades
(60, 70 y 80, en vez de 6, 7 y 8): aparentemente, las cosas no deberían ser muy distintas. Sin embargo:

>dbinom(70,100,0.72)

[1] 0.07869629

La probabilidad de observar 70 de 100 (7.9%) es muy inferior a la de observar 7 de 10 (26.4%).

>pbinom(70,100,0.72)

[1] 0.3637841

La probabilidad de observar menos de 70 sobre 100 también ha bajado: 36% en vez de 56%.

>pbinom(80,100,0.72)-pbinom(59,100,0.72)

[1] 0.9706188

97% en vez de 70%. Es decir, la probabilidad de valores extremos, más de 80 sobre 100, es del 3%, en lugar del
30% para más de 8 sobre 10. Al aumentar la información, el número de casos disponible, bajan las probabilidades
de resultados extremos.

32
Bioestadística para no estadísticos

3.7. E(X10) = n p = 10 0.72 = 7.2


V(X10) = n p (1-p) = 10 0.72 0.28 = 2.016
E(X100) = n p = 100 0.72 = 72
V(X100) = n p (1-p) = 100 0.72 0.28 = 20.16
Tanto esperanza como variancia se han multiplicado por 10, pero recordemos que el indicador que nos mide la
dispersión en unas unidades comparables es la desviación típica, así que mientras el centro se multiplica por 10, la
dispersión solo ha aumentado unas 3 veces (3.1623=√10).

3.8. Y10 ~ B(10,0.28)

Y100 ~ B(100,0.28)

P(Y10≤1) = 0.183 pbinom(1, 10, 0.28)

P(Y100≤10) = 1.017339e-05, o 0.00001 pbinom(10, 100, 0.28)

Recuerde que la notación científica centra la atención en las cifras significativas (en este caso, 1.017339) y luego
informa del cuantos ceros tendrá la división (en este caso, 5). Es decir, 1.017339 eventos cada 105 casos = cada
100000 = cada cien mil. 1.017339e-05 ≈ 0.00001 = 1 cada cien mil. De forma breve, este 5 marca cuantas
posiciones debe moverse el símbolo decimal.

3.9. El percentil 90 será 34. Como en el 92.4% de los trimestres, el número de fracasos será como mucho de 34,
podemos garantizar con una confianza del 90% (de hecho, algo superior) que el número de fracaso será 34 o
menos.

3.10. Percentil 0.95 de Y10 ~ B(10,0.28):

> qbinom(0.95,10,0.28)

[1] 5

En el 95% de las semanas, el número de fracasos será 5 como mucho.

Cuantil 0.95 de Y100 ~ B(100,0.28):

> qbinom(0.95,100,0.28)

[1] 35

En el 95% de los trimestres, el número de fracasos será 35 como mucho.

3.11. La probabilidad de EA grave, es =0.1 y la muestra de n=10 casos. Por lo tanto la variable X ~ B(10,0.1). R
calcula la probabilidad de 0 eventos en un total de 10 casos:

> dbinom(0,10,0.1)

[1] 0.3486784

La probabilidad de no obtener ningún evento de 10 posibles con una probabilidad del 10% es del 35%.

Con la n=100, X ~ B(100,0.1), haciendo los cálculos con R obtenemos:

33
Modelos para variable discretas

> dbinom(0,100,0.1)

[1] 2.65614e-05

La probabilidad de no obtener ningún caso de 100 posibles con una probabilidad de “éxito” del 10% es
prácticamente 0: 0.0000265614.

Asumiendo que la probabilidad de evento sea del 10%, observar 0 eventos en 10 casos es bastante probable (35%),
pero observar 0 de 100 es casi imposible (aproximadamente 3 por 100000).

3.12. Recordemos que P(X=0) con X ~ B(10,0.1):

> dbinom(0,10,0.1)
[1] 0.3486784

P(X=0) con X ~ B(100,0.01):

> dbinom(0,100,0.01)
[1] 0.3660323

P(X=0) con X ~ B(1000,0.001):

> dbinom(0,1000,0.001)

[1] 0.3676954

P(X=0) con X ~ B(1000000,0.000001):

> dbinom(0,1000000,0.000001)

[1] 0.3678793

La probabilidad de observar 0 eventos es muy parecida. De hecho, a medida que aumenta n y disminuye , las
diferencias tienden a hacerse más pequeñas y las probabilidades sucesivas más similares.

π·n = E(X10) = E(X100) = E(X1000) = E(X1000000) = 1

En todos los casos en que el producto π·n es el mismo, siendo π pequeña y n grande, la esperanza es el mismo
valor. Y antes vimos que la probabilidad de observar 0 eventos es muy parecida.

3.13. Se parecen mucho.

De hecho, para un mismo valor del producto π·n = E(X), se parece más cuanto más pequeña es π y mayor es n.

3.14. X ~ P(λ=1). Utilizando R obtenemos l P(X=0), P(X=1), P(X=2), P(X=3) y P(X=4). Estas probabilidades las
podemos interpretar también como la frecuencia (“teórica, que cabe esperar”) de días en los que se observarán ese
número de eventos. Luego la buena o la mala suerte hará que oscilen alrededor de ese valor esperado. [Nota: esa
suerte, esa influencia del azar, se puede cuantificar. Por ejemplo, mediante una simulación informática; o modelando, por
ejemplo, la probabilidad de un valor concreto (sea 2) frente al resto (diferente de 2) como una nueva binomial.]

> dpois(0,1)

[1] 0.3678794

34
Bioestadística para no estadísticos

La probabilidad de que en un día no haya ningún caso es de 36.8%: cabe esperar que aproximadamente 1 de cada 3 días
no haya trabajo.
> dpois(1,1)

[1] 0.3678794

También cabe esperar que aproximadamente 1 de cada 3 días haya 1 caso de esta urgencia.
> dpois(2,1)

[1] 0.1839397

En cambio, cabe esperar que aproximadamente 1 de cada 6 días haya 2 casos.


> dpois(3,1)

[1] 0.06131324

> dpois(4,1)

[1] 0.01532831

3.15. Como en el ejercicio anterior, X ~ P(λ=1).

P(X ≤ 3):

> ppois(3,1)

[1] 0.9810118

P(X ≤ 4):

> ppois(4,1)

[1] 0.9963402

Las garantías de cubrir necesidades un día concreto con las dimensiones del servicio serán del 99.6%.

3.16. Para X ~ P(λ=1), V(X) = λ = 1 = σ2. Entonces σ = 1.

Para X ~ P(λ=4), V(X) = λ = 4 = σ2. Entonces σ = 2.

Tiene sentido ya que a mayor número de casos por unidad de tiempo, mayor rango de valores puede tomar la
variable y por lo tanto hay más dispersión. Por otro lado, note que de forma relativa, la dispersión es menor: una
σ = 1 para una μ=1 es ‘relativamente’ mayor que una σ = 2 para una μ=4; y ésta mayor que una σ = 3 para una μ=9.

3.17. > qpois(0.99,1)

[1] 4

Se tiene que estar preparado para recibir hasta 4 casos.

3.18. A) Bueno, la crítica más importante en los 3 ejemplos es la independencia. Si alguien ha tenido un accidente o
una infección, quizás aumente la probabilidad de que otros también la tengan.

B) Si la tasa la hemos estimado por un buen proceso, sería correcta, lo que no sería correcto serían los valores
observados.

35
Modelos para variable discretas

C) Convendría comprobar empíricamente si aumenta o no aumenta. Una posibilidad sería comparar las frecuencias
observadas, empíricas, a lo largo de cierto periodo de tiempo con las predichas por el modelo de Poisson.

3.19. Si se trata de una moneda no trucada la probabilidad de éxito, definido como obtener cara, es de 0,5. Por lo tanto
la variable X ~ G(0.5).

P (X=0):

> dgeom(0,0.5)

[1] 0.5

P(X=1):

> dgeom(1,0.5)

[1] 0.25

La probabilidad de que salga cara a la primera es del 50%, mientras que la de tener que realizar justo dos
lanzamientos hasta que salga cara es del 25%.

> pgeom (4,0.5)

[1] 0.96875

La probabilidad de obtener una cara al quinto lanzamiento o antes es muy alta, casi del 97%.

3.20. De los 10 artículos enviados, 9 previos deben ser rechazados y el décimo aceptado; como la probabilidad de
aceptar un artículo es de 0.15, por tanto X ~ G(0.15); y la P(X=9)=> dgeom(9,0.15)= 0.03474254.

Si queremos que sea aceptado en el décimo o antes, el número de fracasos ha de ser 9 o menos:
pgeom(9,0.15)= 0.8031256

3.21. En el primer caso, número de días que resiste sin infectarse, X 1 ~ G(0.05), y las probabilidades pedidas son

P(X1≥ 10) = 1-pgeom (9,0.05) = 0.5987369 y

P(X1≥ 20) = 1-pgeom (19,0.05) = 0.3584859

Si la probabilidad de infección sube hasta el 20%, los respectivos resultados serían

P(X1≥ 10) = 1-pgeom (9,0.2) = 0.1073742 y

P(X1≥ 10) = 1-pgeom (19,0.2) = 0.01152922.

Estos resultados son coherentes con la intuición: a más días que pasan, más aumenta la probabilidad de que un paciente
adquiera una infección nosocomial. Esta es una razón importante para no alargar la estancia más de lo necesario.

3.22. La probabilidad de observar 6 caras de 10 lanzamientos si π=0.6 es

> dbinom(6,10,0.6)

[1] 0.2508227

36
Bioestadística para no estadísticos

Y la probabilidad de observar 6 caras de 10 lanzamientos si π=0.5 es

> dbinom(6,10,0.5)

[1] 0.2050781

Así, la verosimilitud de observar 6 caras en 10 lanzamientos es mayor para un valor del parámetro π=0.6 que π=0.5.
Así, π=0.6 es más verosímil que π=0.5.

37
Capítulo 6:

Modelos para variables


continuas
Erik Cobo, Jordi Cortés y Roser Rius
Jose Antonio González, Rosario Peláez, Marta Vilaró y Nerea Bielsa

Septiembre 2014
Bioestadística para no estadísticos

Modelos para variable continuas

Presentación ....................................................................................................................... 2

1. Distribuciones continuas............................................................................................. 3

1.1. Probabilidades en variables continuas ................................................................... 3

1.2. Distribución uniforme ............................................................................................ 4

1.3. Distribución normal ............................................................................................... 5

1.3.1. Función de distribución FX ..................................................................................... 6

1.3.2. Distribución normal tipificada .............................................................................. 10

1.4. Exponencial .......................................................................................................... 11

1.5. Ajuste ................................................................................................................... 13

2. Curva ROC ................................................................................................................ 17

Soluciones a los ejercicios............................................................................................... 23

1
Modelos para variable continuas

Presentación
Si la variable es continua, la probabilidad de un valor concreto no tiene interés, pero sí las
probabilidades acumuladas o las de un intervalo.

La distribución del Gauss-Laplace, llamada en campana o “Normal” es muy útil para representar
una gran cantidad de variables. Menos frecuentes, pero más simples, son la uniforme y la
exponencial. En este capítulo, mediante ejercicios de dificultad progresiva, el lector se habituará al
uso de la distribución Normal.

En Ciencias de la Vida, la variabilidad es la norma, y ciertas diferencias con el valor central son,
por definición, “normales”, en el sentido de no-patológicas. Por tanto, hay que aprender a valorar
qué distancias, por su magnitud, pueden ser sospechosas de patológicas.

Contribuciones: EC y JC escribieron la versión de septiembre de 2013 a partir de los apuntes de


EC, RR y JAG de la asignatura de Probabilidad y Estadística de la Facultad de Informática de la
UPC, que fue editada por RR. MV, RP y JAG revisaron la versión de enero de 2104 y NB y EC la
de septiembre de 2014.

2
Bioestadística para no estadísticos

1. Distribuciones continuas

1.1. Probabilidades en variables continuas


Si la variable es continua, la probabilidad de observar un valor concreto es insignificante.

Ejemplo 1.1: La altura es continua. Por tanto, entre 2 señores, uno de 180 y otro de 181 cm
siempre podremos encontrar otro. Cada vez intervalos más pequeños. Y así
indefinidamente. Por ello, la probabilidad de observar un valor concreto es “infinitamente
pequeña”.

La probabilidad de un valor concreto es 0, nula. En cambio, la “Función de Distribución” sigue


siendo útil.

Definición
La función de distribución FX de una variable continua para un cierto valor x
proporciona la probabilidad acumulada hasta ese valor x

Ejemplo 1.1 (cont.): Algún valor de la función de distribución FX de la altura podría ser:
FX(180) = P(X 180) = 0.82
FX(190) = P(X 190) = 0.96
Ahora, bien, como la probabilidad de un valor concreto es cero:
FX(190) = P(X 190) = 0.96 = P(X<190)
Es decir, no distinguimos entre “ ” y ”<”.

Recuerde
En las continuas, Función de distribución FX = P(X x) = P(X< x)

Nota: Esta función de distribución como acumulación de probabilidad que es, no puede disminuir, no
puede ser menor para valores mayores de X. Quizás no crezca, pero no puede disminuir. Crecerá más en
aquellas zonas o intervalos con mayor probabilidad. La derivada o primitiva de una función valora este
incremento en un punto concreto. La operación contraria a derivar es integrar. Y una integral es como una
suma pero aplicada a funciones continuas.

Tranquilo, no debe recordar los detalles técnicos. Sólo que la derivada de FX es la función de
densidad fX y valora cuánto crece la probabilidad acumulada FX.

3
Modelos para variable continuas

Definición
La función de densidad fX de una variable continua informa de la intensidad del
crecimiento de FX en un punto concreto de X.

1.2. Distribución uniforme

Ejemplo 1.2: Un paciente ingresado sabe que su médico pasa visita entre las 8 y las 9 am y
que decide el orden al azar por dónde empezar, de forma que se espera la misma
probabilidad para cada momento del tiempo entre las 8 y las 9 am. La persona acompañante
del paciente debe irse a trabajar a las 8h40’: ¿Cuál es la probabilidad de que el médico haya
pasado antes? Como dispone de 40’ sobre un total de 60’, P(X<8h40’)= 2/3.

Definición
En una variable con distribución uniforme entre dos puntos a y b:

Ejemplo 1.2 (cont.): La Figura 1.1 muestra las formas de sus funciones de distribución y de
densidad.

Fx de una U[8,9] fx de una U[8,9]

1.0 1.0

0.8 0.8

0.6 0.6
Fx

Fx

0.4 0.4

0.2 0.2

0.0 0.0

6 7 8 9 10 11 12 6 7 8 9 10 11 12

X X

Figura 1.1 Representación de FX y fX de la uniforme con a=8 y b=9

4
Bioestadística para no estadísticos

Ejercicio 1.1
La llegada de pacientes con la enfermedad E sigue una distribución Uniforme a lo
largo del día, entre las 0 y las 24h. Calcule la proporción de pacientes que serán
visitados antes de las 8 am y durante el turno de mañana (8 a 15h).

Ejemplo de R

# Cálculo de Fx: P(X<7) si X~U(5,10)

> punif(7,5,10)
[1] 0.4

1.3. Distribución normal


La distribución Normal tiene la conocida forma de campana o montaña, simétrica alrededor de la media
(μ) y con la desviación típica (σ) marcando la distancia entre la media y el punto de máxima pendiente —
que marca la inflexión o cambio de giro de la curva.

Figura 1.2 Representación de la distribución Normal con esperanza y desviación estándar

Recuerde
En la Normal, esperanza y desviación típica tienen interpretación visual: es el
centro; y su distancia al punto de máxima pendiente.

Este modelo matemático reproduce la distribución real de un buen número de variables.

Nota: Recuerde que decir “una variable biológica sigue la distribución Normal” o “la variable es Normal”
implican un abuso de lenguaje. Lo correcto sería decir “el modelo Normal reproduce el comportamiento
de dicha variable”. Disculpen si, por brevedad, usamos expresiones como “variable Normal”.

La distribución Normal aparece cuando la variable en estudio es el resultado de la actuación de


muchos fenómenos independientes y con igual influencia.

5
Modelos para variable continuas

Ejemplo 1.3: La distribución Normal, en sus inicios, fue utilizada para representar la
distribución de los errores de medida. Pero no los errores groseros, pocos y evidentes; sino
los muchos, pequeños e inapreciables que acompañan ciertos procesos de medida, como la
balanza de fiel.

Nota: Las leyes de la combinatoria muestran que la probabilidad de que todos estos pequeños fenómenos
actúen en el mismo sentido, generando valores extremos, es muy pequeña. En general, estos efectos se
compensan unos con otros y los valores se acercan a una cierta media.

La máquina de Galton muestra físicamente la aparición de la distribución Normal cuando


confluyen muchos factores aleatorios. Puede ver varios vídeos en la red.

Ejemplo 1.4: la altura de los varones adultos y sanos de una determinada población puede
aproximarse, razonablemente bien, por la distribución Normal. Para decir que es Normal, ha
sido preciso especificar primero la edad, el género y la población, ya que éstas
características podrían originar diferencias notables, remarcables. Si, por ejemplo, se
mezclan ambos géneros, la distribución resultante tendría dos montañitas o jorobas que
marcarían los intervalos modales de hombres y mujeres.

Nota: La dispersión de los valores de la distribución Normal es, por tanto, el resultado de establecer un
modelo sobre el elevado número de fenómenos con muy pequeña influencia. Éstos son tantos y tan
pequeños que no aportan información y representan el “ruido”.

Recuerde
La media de la Distribución Normal representa la señal “relevante”; y la
desviación típica, las oscilaciones “irreproducibles”.
Notación
Representamos el modelo Normal de parámetros y σ por N( , σ)

Ejemplo 1.5: La altura de los varones adultos sanos es N(170 cm, 8 cm)

1.3.1. Función de distribución FX

Historieta: Hubo épocas en las que aquí se explicaban tablas como éstas. Ahora, gracias a R, Vd. se las
ahorra.

α 0’001 0’01 0’05 0’10 0’20 0’32


α/2 0’0005 0’005 0’025 0’05 0’10 0’16
Z 3’29 2’58 1’96 1’64 1’28 1

6
Bioestadística para no estadísticos

Ejemplo de R

# Cálculo de Fx: P(X 180) si X ~ N(170 cm, 8 cm)


> pnorm(180,170,8)
[1] 0.8943502
# Casi un 90% miden menos de 180 en una población ~ N(170 cm, 8 cm)

Ejercicio 1.2
a) Calcule con R las probabilidades de encontrar alguien que mida menos de
170; menos de 162, y menos de 154 cms.

b) Haga un dibujo y represente las probabilidades anteriores. Sin necesidad de


acudir a R, deduzca las probabilidades de medir más de 170, más de 178 y
más de 186 cm.

c) Sin necesidad de recurrir a R, calcule las probabilidades de medir entre 162 y


178. Y entre 154 y 186 cms.

Ejemplo de R

# Cuantil: k tal que 0.9 = P(Y k) si ~N(170cm, 8cm)


> qnorm(0.90, 170, 8)
[1] 180.2524 cms
# 180.25 es aquél valor que deja debajo el 90% de los casos

7
Modelos para variable continuas

Ejercicio 1.3
a) Suponga que N(170,8) es la distribución de la altura de las pacientes. Si quiere
garantizar que el 99% cabrán sin tener que doblar las piernas, las camas deben
medir…

b) Suponga ahora que en ciertas condiciones hormonales, la altura se hace


mayor. Si quiere establecer un umbral (cut-point) que tenga una especificidad
(% de sanos que dan negativo) del 95%, ¿cuál sería este valor?

c) Suponga también que otras condiciones hormonales provocan valores bajos y


debe establecer 2 límites “de normalidad” con la misma especificidad. ¿Qué
valores serían?

Los ejemplos y ejercicios anteriores muestran que, si se toma una vez hacia arriba y una vez hacia
abajo el valor de la desviación típica (±1 ), se engloba el 68% de las observaciones. Y si en lugar
de hacer una vez el valor de la desviación típica, se toma dos veces dicho valor (±2 ), se incluye al
95% de las observaciones.

68%

95%

Figura 1.3 Representación de las regiones que contienen el 68% y el 95% de las observaciones en una distribución
Normal con media y desviación estándar .

Recuerde
Más y menos 2 veces alrededor de μ contiene el 95% de los casos.

8
Bioestadística para no estadísticos

Hay pues 2 aplicaciones complementarias de las funciones de distribución: (1) encontrar la


probabilidad acumulada hasta un cierto valor; y (2) encontrar el valor al que corresponde una
probabilidad acumulada.

Recuerde
Hay 2 usos recíprocos: (1) dado el valor X, calcular las probabilidades que
delimita; y (2) dadas ciertas probabilidades, calcular el valor X que las limita.

En la Normal, el 1º se obtiene con pnorm, y el 2º con qnorm.

Ejemplo 1.6: ¿Cuál es el límite de la glicemia que deja por encima el 5% de los sanos?

5%

?
Figura 1.4 ¿Qué valor deja por encima el 5% de la distribución?

Ejemplo 1.7: Un paciente tiene, en cierta prueba, índice o escala (por ejemplo, de
inteligencia) una puntuación de 112 unidades. Este valor no aporta nada a un inexperto en
dicha prueba, pero sí que lo haría decirle que ocupa el percentil 70, es decir, que un 70% de
las unidades de su población tiene puntuaciones inferiores.

Ejercicio 1.4
Un estimulador tiene un umbral con cierta variabilidad: unos voluntarios
responden ante un estímulo de unos voltios; y otros, de tantos voltios. . La
distribución del umbral en los sanos es aproximadamente normal con una media
de 5 voltios y una desviación típica de 0.5.
Rellene los siguientes espacios en blanco:
a) El 95% de los voluntarios tienen un umbral que se sitúa entre __y__ voltios.
b) En el 95% de los voluntarios, el umbral se sitúa por encima de ___ voltios.
c) En el 95% de los voluntarios, el umbral se sitúa por debajo de ___ voltios.
d) El 90% de los voluntarios tienen un umbral que se sitúa entre _ y _ voltios.

9
Modelos para variable continuas

e) En el 84% de los voluntarios, el umbral se sitúa por encima de ____voltios.


f) En el 84% de los voluntarios, el umbral se sitúa por debajo de ____voltios.
g) ¿Cuál es la probabilidad de que el umbral supere 6.3 voltios?
h) ¿Cuál es la probabilidad de que un voluntario tenga un umbral entre 4.5 y 5.5?

Ejercicio 1.5
En unidades del Sistema Internacional, el cloruro plasmático tiene unos límites de
“normalidad” de 95 y 105 mmol/l.
a) ¿Es posible que una persona sana supere estos límites?
b) ¿Cuál cree Vd. que es el valor de la media y de la desviación típica de esta variable
en los “normales”?
c) ¿Existe alguna condición (premisa) para este cálculo?
d) Para la Ferritina, estos límites son 15-200 g/l ¿Cómo se imagina su distribución?

Ejercicio 1.6
Busque variables relacionadas con su trabajo que presumiblemente sigan una
distribución normal.

Ejercicio 1.7
Invente aplicaciones “útiles” para las variables del punto anterior. Invente
condiciones o situaciones en las que sea razonable que las variables del ejercicio
anterior dejen de seguir una distribución normal.

1.3.2. Distribución normal tipificada


Como hemos visto, las probabilidades de la distribución Normal dependen de su media y desviación
típica. Para comparar diferentes variables, es interesante disponer de un resultado “estandarizado” o
tipificado.

Definición
El desvío tipificado Z se obtiene:

Z tiene media 0 y desviación típica 1: está “reducida”.

10
Bioestadística para no estadísticos

Historieta: Un marciano al que ha conocido por internet le cita en la plaza de su ciudad y le dice: “ya me
verás, mido 160 cms”. Primero Vd. piensa “será un marciano bajo”, pero luego cae en cuenta de que no
conoce la media de sus alturas. Se la pregunta y le dice que es 150 cms. “Vale, es un marciano alto”,
razona. Pero “¿sobresale o es un alto típico?”. Y ahora le pregunta , que resulta ser 2 cms. Y Vd.
interpreta: “destaca”. Así es: su mayor altura es 5 veces la distancia típica. Vamos, que si fuera terrícola,
donde =8, ¡se distanciaría 40 cms de la media!

Ejercicio 1.8
En la distribución Normal tipificada, Z~ N(0, 1) , ¿qué proporción de casos
quedan por encima de -1.96 y por debajo de +1.96?

Recuerde
En la Normal tipificada, Z, “±1.96” (o redondeado: “±2”) son los límites que
contienen el 95% de las observaciones.

Como Z tiene media 0, valores negativos representarán observaciones por debajo de la media; y
como su desviación típica es 1, una observación prototípica se aleja de la media, por arriba o por
debajo, en 1 unidad.

Ejercicio 1.9
¿Qué proporción de casos están por encima de z = 1.66? Es decir, ¿cuál es la
probabilidad de que Z > 1.66?

Ejercicio 1.10
Un gabinete psicológico valora los resultados de la inteligencia abstracta A según
una escala N(100, 15) y la emocional E según una escala N(1000, 10). Un
paciente tiene A=120 y B=1020. Vd. observa que ambas inteligencias están por
encima de la media. Pero relativo a sus conciudadanos, ¿destaca más en A o en E?

1.4. Exponencial
El modelo de Poisson permite, a partir de una tasa de eventos por unidad de tiempo, modelar la
probabilidad de observar x casos en esa unidad de tiempo: P(X=x). El modelo exponencial, a partir
de la misma tasa de eventos por unidad de tiempo, modela la probabilidad de que el tiempo T
hasta el próximo evento sea menor que un cierto valor t: P(T<t).

11
Modelos para variable continuas

Ejemplo 1.8: En Barcelona, el número diario de accidentados con lesiones


craneoencefálicas vale =1 casos/día. La exponencial permite calcular que el tiempo hasta
el siguiente evento será inferior a 1 día en un 63.21% [P(T<1)=0.6321206] y a 2 días en un
86.5% [P(T<2)= 0.8646647].

Notación
Representamos el modelo Exponencial por E(λ)

Recuerde
Como en la Poisson, en el Exponencial la tasa λ indica casos/tiempo.

Ejemplo de R

# Cálculo de FX(2): P(T<2) si X~E(1)


> pexp (2,1)
[1] 0.8646647

Ejercicio 1.11
Si la tasa diaria de traumatismos craneoencefálicos vale 1, ¿qué proporción de
veces estaremos 3 o más días sin observar ninguno?

Ejemplo de R

# Cuantil: k que cumple 0.95=P(T k) si X~E(1)


> qexp(0.92,1)
[1] 2.995732
# Note la concordancia con el resultado del ejercicio anterior

Ejercicio 1.12
Cierto equipo anota 50 canastas por hora de juego. Si Vd. desea garantizar con
una seguridad del 95% que antes de un tiempo t ya habrán anotado 1 canasta,
¿cuánto vale este tiempo t?

Las expresiones de la esperanza y la varianza de una variable Exponencial son sencillas:

12
Bioestadística para no estadísticos

Fórmulas
Si T~E(λ), E(T) = 1/λ y V(T) = 1/λ2

Ejercicio 1.13
En unidades por semana, la tasa del número de traumatismos craneoencefálicos es
7 casos/sem. ¿Cuál es el valor esperado del tiempo hasta el próximo?

Como en el modelo de Poisson, la premisa más importante del modelo Exponencial es que λ es
constante: el proceso no tiene memoria.

Ejemplo 1.9: El hecho de que llevemos tanto tiempo sin que nos toque la lotería no
aumenta ni disminuye la probabilidad de que nos toque en el siguiente sorteo.

Recuerde
El azar no tiene memoria.

1.5. Ajuste

Cita
Todos los modelos son falsos, pero algunos son útiles (George Box).

Historieta: La Ciencia ha abandonado la


soberbia de emular al Hacedor y escribir las
leyes del Universo. Su objetivo, sólo
ligeramente más modesto, es proponer
modelos que permitan reproducirlo y, el de la
técnica, mejorar las condiciones en que lo
disfrutamos.

La pregunta de interés es: “si actúo como si el


modelo fuera correcto, ¿cuál es la magnitud de
mis errores?”

Figura 1.5 Viñeta representativa de la cita de


George Box

13
Modelos para variable continuas

Definición
La bondad del ajuste describe la similitud entre un modelo estadístico y unos
datos.

La Figura 1. superpone las funciones de densidad observadas (sombreado fuerte) con las teóricas
(sombreado claro) de una Normal con media y varianza igual a las observadas. En el primer caso
los datos provienen realmente de una Normal, pero en el segundo, de una variable muy asimétrica;
y en el tercero, de una uniforme.

Figura 1.6Funciones de densidad observadas y teóricas

Nota: Este gráfico es muy visual, pero poco estable y difícil de valorar.

También interesa disponer de medidas que permitan valorar la calidad del ajuste a nivel global, es
decir, a lo largo de toda la distribución. Disponemos de 2 medidas populares.

Definición
La distancia de Kolmogoroff es el valor máximo de la diferencia, para todos los
puntos de la variable, entre la Función de Distribución teórica y la probabilidad
acumulada observada.
El estadístico Shapiro-Wilks es la correlación entre el cuantil teórico y el
observado.

Ambos toman valores entre 0 y 1, pero el primero es una medida del desajuste, con mayores valores
cuanto menor es el ajuste.

Nota: Más adelante consideraremos su fluctuación en las muestras. Por ahora, veremos el significado de
estas medidas.

Un análisis gráfico más fino consiste en superponer las funciones de distribución, como hicimos
entre Binomial y Poisson. Ahora en lugar de 2 modelos teóricos, enfrentaremos modelo con datos.

14
Bioestadística para no estadísticos

Ejemplo 1.10: La Figura 1. muestra las


probabilidades acumuladas de una N(1,1) y las
proporciones acumuladas de una muestra, grande,
de n=965 observaciones aleatorias extraídas de este
modelo. Como el modelo es correcto, el desajuste,
que puede ser explicado por el azar, es pequeño: el
estadístico D de Kolmogoroff vale 0.053, indicando
que la probabilidad acumulada observada difiere
5.3% de la teórica en el punto de mayor desajuste.

Figura 1.7 La diferencia máxima entre probabilidades acumuladas


teóricas y las proporciones acumuladas observadas es 0.053.

Recuerde:
La diferencia máxima entre las probabilidades teóricas y las proporciones
observadas (ambas acumuladas) es la D de Kolmogoroff.

Un tercer gráfico, menos intuitivo pero más visual,


enfrenta cuantiles de la variable tipificada en lugar
de probabilidades acumuladas (Figura 1.). Un eje
muestra el cuantil observado; y otro, el teórico. Por
ejemplo, un punto concreto enfrenta el valor
observado del caso que deja un 50% de las
observaciones por debajo (la mediana) con el valor
que tendría, en una N(0,1), el caso con FX=0.5 (el
“0”). Es más fácil de interpretar porque, si el ajuste
es bueno, observaremos una línea recta.
Figura 1.8 El estadístico de Shapiro-Wilks valora la
correlación entre los cuantiles teóricos y los observados.

Definición
El gráfico QQ o QQ-plot enfrenta los cuantiles observados con los teóricos.

15
Modelos para variable continuas

Nota: Conocido originalmente por recta de Henry, cuando estudia el ajuste a la Normal, recibe también
los nombres de ‘gráfico de probabilidad normal’ y QQ-norm, como en la figura anterior.

Ejemplo 1.11: La Figura 1. muestra que el QQ-norm en este ejemplo ajusta muy bien a una
línea recta. Nótese la menor estabilidad en los extremos. La medida de Shapiro-Wilk
cuantifica esta correlación entre cuantiles observados y teóricos en W=0.996l, muy cerca de
1, su valor máximo.

Recuerde
Si el ajuste es bueno, el QQ-norm mostrará una recta, D será próximo a 0 y W a
1.

Ejercicio 1.14
Las 6 figuras muestran, para 2 tamaños muestrales, n=100 en la primera fila y
n=1000 en la segunda, los QQ-norm de diferentes variables y las medidas de
Kolmogoroff y Shapiro Wilks. Diga cuál es el peor ajuste en cada fila según el
gráfico y los valores de las medidas D y W.

16
Bioestadística para no estadísticos

Ejemplo de R
# ks.test y shapiro.test proporcionan también
p valores. Vd debe interpretar sólo D y W.
# Obtención de QQ-norm, D y W
> x <- rnorm(100)
> qqnorm(x)
> qqline(x)

> ks.test(x,pnorm)
One-sample Kolmogorov-Smirnov test
data: x
D = 0.0856, p-value = 0.456
alternative hypothesis: two-sided

> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9868, p-value = 0.4256
# La instrucción rnorm(100) proporciona 100 números aleatorios con
distribución Normal estándar.

2. Curva ROC
Muchos indicadores pueden tomar más de 2 valores. Sean ordinales o numéricos, la definición de
sensibilidad y especificidad requiere establecer un límite o umbral (‘cut-point’) que separe el
conjunto de resultados en dos grupos, positivo y negativo.

Ejemplo 2.1: Un posible ejemplo es el resultado de una prueba que mide la concentración
de glucosa en plasma, en condiciones basales. Dicho resultado, expresado en mg/dl, puede
ser muy variado: 50, 75, 110, 128, 165, 192, etc. Ninguna cifra de éstas es, por sí misma, ni
positiva ni negativa.

Sin embargo puede ser útil considerar que cifras de 100 o superiores definen un resultado positivo;
y las inferiores, negativo.

17
Modelos para variable continuas

Recuerde
En los indicadores numéricos, es común establecer un umbral.

Ejemplo 2.2: el Ejercicio 1.4 dice que el límite de estimulación de los voluntarios sanos
sigue una N(5, 0.5). Supongamos, además, que en cierto tipo de enfermos sigue una N(6,
0.5). Figura 2.1

5 6

Figura 2.1 Distribución del umbral de estimulación en sanos y enfermos

Si el criterio diagnóstico se establece en 5.5, los valores de sensibilidad y especificidad


serán:

Sens = P(+|E) = P(Y > 5.5 | Enfermo) = P(z > (5.5-6)/0.5) = P(z > -1) ≈ 84.13%

Esp = P(-|S) = P(Y < 5.5 | Sano) = P(z < (5.5-5)/0.5) = P(z < 1) ≈ 84.13%

sanos enfermos

especificidad sensibilidad

Figura 2.2 Sensibilidad es la proporción de la curva de enfermos que queda por encima del criterio diagnóstico y
especificidad la de sanos que queda por debajo

En cambio, si el criterio se hubiera establecido en 5.2, serían:

Sens = P(+|E) = P(Y > 5.2 | Enfermo) = = P(z > -1.6) ≈ 94.52%

Esp = P(-|S) = P(Y < 5.2 | Sano) = = P(z < 0.4) ≈ 65.54%

18
Bioestadística para no estadísticos

sanos enfermos

especificidad sensibilidad

Figura 2.3 Al desplazar el umbral hacia la izquierda aumenta la sensibilidad y disminuye la especificidad

Moviendo el punto de corte se cambian los valores de especificidad y sensibilidad. Si se desea


aumentar la sensibilidad, la especificidad disminuye. Y viceversa. Nótese que habrá tantos “pares”
de valores de sensibilidad y especificidad como posibles puntos de corte. Cada indicador
diagnóstico tiene unos pares de valores de sensibilidad y especificidad que le “caracterizan”.

Lectura: Receiver Operating Characteristic (ROC) curves: a plot of the sensitivity of a diagnostic test
against one minus its specificity as the cut-off criterion for indicating that a positive test is varied. Often
used in choosing between competing tests, although the procedure takes no account of the prevalence the
disease being tested for.

Nota: Vea este video. Mejor ahora, son sólo unos minutos.

Ejercicio 2.1 (extraído de Radiology 1982; 143: 29-36)


Se desea estudiar la calidad diagnóstica que ofrece la evaluación por radiólogos
de una tomografía computarizada. Se dispone de la prueba de referencia y de 109
pacientes. La tabla de frecuencias es:

Prueba de referencia

Sano=58 Enfermo=51
Clasificación 1 Seguramente normal 33 3
de la tomografía
2 Probablemente normal 6 2
computarizada
3 Dudosa 6 2
(prueba índice)
4 Probablemente anormal 11 11
5 Seguramente anormal 2 33

19
Modelos para variable continuas

Calcule las proporciones de casos positivos en los enfermos y en los sanos si sitúa
el umbral en el máximo (declarar positivo sólo si resultado = 5). Ídem si fuera al
revés (negativo sólo si es 1).

Recuerde
Al bajar el umbral aumentan los positivos. Tanto en enfermos como en sanos.

Una vez más, bajar el umbral, implica aumentar la sensibilidad. Pero también, bajar la
especificidad.

Definición
La curva característica (ROC: Receiver Operating Characteristic) dibuja los pares
de las proporciones de positivos en las 2 muestras. Cada umbral marca un par.

Ejercicio 2.2
Defina la curva ROC en términos de sensibilidad y especificidad.

Ejercicio 2.3 (Cont. Ejercicio 2.1)


¿Qué umbral proporcionaría una sensibilidad del 100%? ¿Y una especificidad del
100%?

Convierta la tabla de frecuencias dada en una nueva que contenga el número de


casos bien y mal clasificados para cada punto de corte en cada muestra.

Calcule la proporción de positivos para cada posible punto de corte en las 2


muestras, sanos y enfermos.

Calcule sensibilidad y especificidad para cada punto de corte.

Nota: Más adelante veremos cómo elegir el ‘mejor’ umbral. Ahora los estudiamos todos.

La curva ROC pone la proporción de positivos en los enfermos (sensibilidad) en el eje vertical de
ordenadas y la de positivos en los sanos (1 – especificidad) en el horizontal de las abscisas.

20
Bioestadística para no estadísticos

Ejemplo de R

1.0
# Instale en R el paquete pROC

0.8
Sensitivity
0.4 0.6
# y genere 2 vectores con la con-
# dición y el resultado del test

0.2
> install.packages('pROC')

0.0
> library(pROC)
1.0 0.8 0.6 0.4 0.2 0.0

> respuesta <- c(0,0,1,0,1,0,0,1,1,1) # 0=S, 1=E Specificity

> test <- 1:10 # Valores de 1 a 10


> roc(respuesta,test,plot=TRUE)

Ejercicio 2.4 (cont Ejercicio 2.1)


Dibuje, a ojo, la curva ROC.

Recuerde
La curva ROC informa sobre el rendimiento:
1) de cada punto de corte de una prueba determinada.
2) global de cada prueba dentro de un conjunto de pruebas.

La mayor exactitud diagnóstica de una prueba se traduce en un desplazamiento hacia la esquina


superior izquierda de la curva ROC: el Área Bajo la Curva ROC (ABC) indica la exactitud global
de la prueba, con máximo en 1 y mínimo en 0.5.

Nota: Un valor menor de 0.5 indica clasificación cruzada (los sanos tienen más tendencia al positivo que
los enfermos), por lo que debería invertirse el criterio de positividad de la prueba.

Recuerde
El ABC de ROC se interpreta como la proporción de parejas sano-enfermo en las
que el enfermo tiene un valor más alto que el sano.

En términos probabilísticos, si XE y XS son los valores del indicador en los enfermos y los sanos,
ABC = P(XE > XS).

Nota: ABC coincide con el valor del estadístico del promedio de la suma de rangos de Wilcoxon, W, que
permite contrastar la hipótesis P(XE > XS) = ½.

21
Modelos para variable continuas

Recuerde
ABC es la probabilidad de que un enfermo tenga mayor valor que un sano.

Agradecimiento: La Figura 1. es de Enrique Ventura y ha sido publicada en Casino G, coord.


Bioestadística para periodistas y comunicadores. Cuadernos de la Fundación Dr. Antonio Esteve,
Nº 26. Barcelona: Fundación Dr. Antonio Esteve; 2013.

22
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1. X~U(0,24);

P(X≤15) = (15-0)/(24-0) = 15/24:

P(X≤8) = (8-0)/(24-0) = 8/24;


P(8≤X≤15) = P(X≤15)–P(X≤8) = 15/24 –8/24 = 7/24

1.2. a)> pnorm (162, 170,8) [1] 0.1586553 P(X<162) = P(X≤162) ≈ 15.86%
> pnorm (154, 170,8) [1] 0.02275013 P(X<154) = P(X≤154) ≈ 2.28%
P(X<170) = P(X≤170) = 50% (No necesitamos R)
b) Por simetría: P(X>170) = P(X<170) =50%;
P(X>178) = P(X<162) ≈ 15.86%
P(X>186) = P(X<154) ≈ 2.28%
c) P(162 ≤ X ≤ 178) = P(X<178) – P(X<162) = [1-P(X>178)] – P(X<162) ≈
≈ [1-0.1586] – 0.1586 = 0.6828 ≈ 68.28%

P(154 ≤ X ≤ 186) = P(X<186) – P(X<154) = [1-P(X>186)] – P(X<154) ≈


≈ [1-0.0228] – 0.0228 = 0.9544 ≈ 95.44%
1.3. a) Para acotar el 99% de las observaciones, se debe calcular el cuantil 0.99 de la distribución Normal, con
parámetros µ=170 y σ=8.
> qnorm(0.99,170,8) [1] 188.6108
Por lo tanto, para garantizar que el 99% de los pacientes cabrán, las camas deben medir por lo menos 188.61 cm.

b) Se tiene que calcular a tal que P(X ≤ a) = 95%, siendo X~N(170,8).


> qnorm(0.95,170,8) [1] 183.1588
El valor del umbral seria de 183.16 cm: el 95% de los sanos daría negativo (especificidad).

c) Al poder tener tanto valores altos como bajos se debe repartir la α del 5% entre las dos colas. Es decir que
tenemos que encontrar a1 y a2 tal que P(X ≤ a1) = 2.5% y P(X ≤ a2) = 97.5%.
> qnorm(0.025,170,8) [1] 154.3203
> qnorm(0.975,170,8) [1] 185.6797
Por lo tanto los límites de “normalidad” estarían entre 154.32 y 185.68 cm.

Nota: Dejar 2.5% a cada lado es la más bonita de las posibles soluciones, pero también cumpliría con una
especificidad del 95% dejar, por ejemplo, un 4% abajo y un 1% arriba.

1.4. Partiendo de que X~N(5,0.5) obtenemos:


a) > qnorm(0.025,5,0.5) [1] 4.020018
> qnorm(0.975,5,0.5) [1] 5.979982
El umbral está entre 4.02 y 5.98 Voltios en el 95% de los casos.

b) Debemos encontrar a tal que P(X>a) = 0.95, que por simetría de la distribución es lo mismo que encontrar a que
cumpla P(X ≤ a) = 0.05.

23
Modelos para variable continuas

> qnorm(0.05,5,0.5) [1] 4.177573


En el 95% de los voluntarios, el umbral se sitúa por encima de 4.18 Voltios.

c) Debemos encontrar a tal que P(X ≤ a) = 0.95.


> qnorm(0.95,5,0.5) [1] 5.822427
En el 95% de los voluntarios, el umbral se sitúa por debajo de 5.82 Voltios.

d) Se trata de encontrar los cuantiles de α/2=0.05 para la variable X. Teniendo en cuenta los resultados de los
apartados anteriores el 90% de los voluntarios tienen un umbral entre 4.18 y 5.82.

e) Utilizando el mismo razonamiento que en el apartado b) obtenemos:


> qnorm(1-0.84,5,0.5) [1] 4.502771
En el 84% de los voluntarios, el umbral se sitúa por encima de 4.50 Voltios.

f) Utilizando el mismo razonamiento que en el apartado c) obtenemos:


> qnorm(0.84,5,0.5) [1] 5.497229
En el 84% de los voluntarios, el umbral se sitúa por debajo de 5.50 Voltios.

g) > 1-pnorm(6.3,5,0.5) [1] 0.004661188 P(X>6.3) = 1-P(X≤6.3)

h) P(4.5 ≤ X ≤ 5.5) = P(X≤5.5) – P(X≤4.5)


> pnorm(5.5,5,0.5) - pnorm(4.5,5,0.5) [1] 0.6826895
La probabilidad de que un voluntario tenga un umbral entre 4.5 y 5.5 es de aproximadamente 68%.

1.5. a) Convendría estudiar cómo se han definido estos límites. Dado que (con pequeña probabilidad) puede haber
personas sanas que tengan valores muy alejados, suelen definirse estos límites de forma que incluyan el 95% de los
sanos. Por tanto, en principio es posible que una persona sana supere estos límites, si bien con una probabilidad
pequeña, conocida y decidida previamente.

b) A partir de estas cifras, si se asume la forma de montañita simétrica de la normal, la media sería el punto central,
100, y la desviación típica, la mitad de la distancia de los extremos, 2.5.

c) Que la variable siga la distribución normal.

d) Parece difícil imaginar una distribución simétrica para la Ferritina. El cálculo anterior no sería correcto. A veces,
trasformar logarítmicamente estas variables positivas permite descubrir detrás una forma de ¡montañita
simétrica!

1.6. Por la experiencia previa, parece que las cifras de colesterol son relativamente simétricas, con más casos por el
centro.
1.7. Por favor, consulte sus propuestas o en el foro o con su tutor o con los directores del curso.
1.8. Dada la simetría de la distribución Normal, la proporción de casos por encima de -1.96 y la proporción de casos por
debajo de 1.96 es la misma. Como el valor 1.96 deja por encima el 2.5% de los casos, por debajo de 1.96 se
encuentran el 97.5% de los casos —así como por encima de -1.96.
1.9. > 1-pnorm(1.66,0,1) [1] 0.04845723 P(Z>1.66) = 1- P(Z≤1.66)
1.10. En E porqué se aleja 2σ, mientras que en A solo se aleja 1.75σ.
1.11. > 1-pexp(3,1) [1] 0.04978707 P(T≥3) = 1-P(T<3), con T~E(1)

24
Bioestadística para no estadísticos

1.12. Debemos encontrar a tal que P(T≤a) = 0.95.


> qexp(0.95,50) [1] 0.05991465
Aproximadamente 0.06h es decir en el minuto 3.6 de partido.
1.13. 1/7 de semana, es decir 1 día.
1.14. En la primera fila, de 100 casos, los órdenes serían: visualmente quizás b > a > c ; con D, a > b > c; y con W, b > a
> c. Luego el peor ajuste es c. En realidad, la muestra c ha sido obtenida de una lognormal, muy asimétrica, b de
una normal y a de una uniforme. En la segunda fila, de 1000 casos, coinciden los 3 criterios: e (normal) > f
(uniforme) > d (lognormal).
2.1. Declarando positivo solo si el resultado es igual a 5:
P(+|E)=33/51=0.65 P(+|S)=2/58=0.03
Declarando positivo solo si el resultado es igual a 1:
P(+|E)=48/51=0.94 P(+|S)=25/58=0.43
2.2. Ahora, en lugar de decir “La curva ROC dibuja los pares de las proporciones de positivos en las 2 muestras para
cada umbral”, diremos “La curva ROC representa los pares de sensibilidad y el complementario de la especificidad
para cada punto de corte”.
2.3. Hay que fijarse que para cinco categorías de resultados en la prueba índice tendremos cuatro puntos de corte
posibles. Vamos ahora a interpretar esta tabla.

n=58 n=51
Clasificación Sanos Clasificación Enfermos
Correcta Incorrecta Correcta Incorrecta
Probablemente normal 33 25 48 3
Dudosa 39 19 46 5
Punto de corte
Probablemente anormal 45 13 44 7
Seguramente anormal 56 2 33 18

 A modo de ejemplo de interpretación, cogemos los pacientes clasificados como sanos en la primera fila: en este
caso un resultado negativo de la prueba equivaldría únicamente a estar clasificado en el grupo “Seguramente
normal”), así tendríamos 33 pacientes bien clasificados (dan negativo) y 25 (6+6+11+2) mal clasificados (dan
positivo).

 También a modo de ejemplo de lectura de la tabla anterior observemos la segunda fila, entre los pacientes
enfermos: eligiendo el punto de corte “Dudosa”, tendríamos 46 (33+11+2) individuos bien clasificados (es decir
que dan positivo en la prueba índice, ya que están clasificados en una de las categorías “Normales”) y 5 individuos
(3+2) mal clasificados (que dan negativo).

 El siguiente paso es construir una tabla con las proporciones de positivos, es decir, los valores de sensibilidad y (1-
especificidad) para los distintos puntos de corte. Hay dos puntos de corte, al principio y al final que corresponden a
las situaciones extremas en que todos los pacientes son o bien clasificados como positivos o, todo lo contrario,
como sanos. La tabla completa que obtendríamos añadiendo también la columna de especificidad sería:

25
Modelos para variable continuas

Especificidad 1-Especificidad Sensibilidad


- 0.00 1.00 1.00
Probablemente normal 33/58 = 0.57 0.43 48/51 = 0.94

Punto de Dudosa 39/58 = 0.67 0.33 46/51 = 0.90


corte Probablemente anormal 45/58 = 0.94 0.22 44/51 = 0.86
Seguramente anormal 56/58 = 0.97 0.03 33/51 = 0.65
- 1.00 0.00 0.00
La primera y la última fila corresponden a los valores extremos comentados.

2.4. Su dibujo debería parecerse a la Figura 2.4 que proporciona R con la ayuda de 2 paquetes adicionales: epitools
(para pasar de la tabla a un data.frame) y pROC (para dibujar la curva)

> install.packages('epitools')
> library(epitools)
> install.packages('pROC')
> library(pROC)
> a <- matrix(c(33,6,6,11,2,
3,2,2,11,33),nrow=2,byrow=TRUE,
dimnames=list(c("Sano","Enfermo"),1:5))
> b <- expand.table(a)
> response <- b[,1]
> test <- as.numeric(b[,2])
> r <- roc(response,test,plot=TRUE)
1.0
0.8
Sensitivity
0.4 0.6
0.2
0.0

1.0 0.8 0.6 0.4 0.2 0.0


Specificity

Figura 2.4 Curva ROC

26
Bioestadística para no estadísticos

Se pueden consultar las sensibilidades y las especifidades correspondientes a los puntos de la curva con
r$sensitivities y r$specificities, respectivamente. El área bajo la curva ABC se obtiene con
r$auc (Area Under the Curve). Para ver todo lo que puede obtener, haga names(r)

27
Capítulo 7

Inferencia y decisión

Erik Cobo, Jordi Cortés, José Antonio González y


Pilar Muñoz
Rosario Peláez, Marta Vilaró y Nerea Bielsa

Febrero 2015
Inferencia y decisión

Inferencia y decisión

Presentación ......................................................................................................................... 3
1. Introducción a la inferencia estadística .................................................................... 4
1.1. ¿Qué es la inferencia estadística?........................................................................... 4
1.2. Respuestas que ofrece la inferencia estadística...................................................... 4
1.3. Población, muestra e individuo .............................................................................. 5
1.4. Estadístico, estimador y parámetro ........................................................................ 8
1.5. Muestra aleatoria simple ...................................................................................... 10
1.6. Inferencia estadística y proceso científico ........................................................... 12
1.7. Posibles errores en la inferencia estadística ......................................................... 12
1.8. Poblaciones implicadas en la inferencia estadística ............................................. 14
2. Estadístico media muestral ...................................................................................... 17
̅ ..................................................... 17
2.1. Distribución del estadístico media muestral X
̅ ........................................................... 19
2.2. Centro de la distribución del estadístico X
̅ es un estimador insesgado de μ=E(X) .............................................................. 19
2.3. X
̅ .................................................... 21
2.4. Dispersión de la distribución del estadístico X
2.5. Error típico ........................................................................................................... 22
2.6. ¿Desviación típica o error típico? ........................................................................ 25
2.7. Estabilidad del conjunto ....................................................................................... 26
2.8. Más propiedades de los estimadores * ................................................................. 26
2.9. Estimación puntual ............................................................................................... 28
̅ ........................................................ 28
2.10. Forma de la distribución del estadístico X
̅ .......................................................... 30
2.11. Intervalo 1- de las medias muestrales X
Soluciones a los ejercicios ....................................................................................................33

2
Bioestadística para no estadísticos

Presentación
¿Qué información proporciona, a un clínico de Barcelona, los resultados obtenidos en un estudio
previo realizado en Boston? La evolución de estos casos de Boston se puede conocer perfectamente,
sin error. Pero esos casos ya han “evolucionado”, no tiene interés predecir una evolución que ya ha
sucedido. En cambio, sería muy interesante poder aplicar esos resultados pasados a unos nuevos
casos. ¿Cómo hacerlo?

La inferencia estadística, para incorporar la información empírica, define los conceptos de muestra
y población. Los valores obtenidos en una de las muchas posibles muestras permitirán estimar, con
un cierto error cuantificable, el parámetro que caracteriza al conjunto de la población. La estadística
pretende cuantificar, la información (“señal”), y el error (“ruido”) que implica el proceso de
generalización.

Este tema expone los conceptos


fundamentales de inferencia estadística.
Introduce la oscilación de los valores
obtenidos en muestras aleatorias y cómo
cuantificarla. Para ello, usando como ejemplo
al estadístico más usual (la media muestral),
estudia alrededor de qué valor oscila (su
centro), cuánto varía (su dispersión) y qué
forma adopta esta oscilación (su distribución).

El azar es clave, ya que permite estimadores


sin sesgo y, quizás más importante,
cuantificar la oscilación entre muestras.

Contribuciones: (1) la versión original de 2013 descansa en el libro de Bioestadística para No estadísticos
de Elsevier de EC, JAG y PM, editada por JC y EC y revisada por RP; (2) la de enero de 2014 fue revisada
por MV, JC y EC para incorporar mejoras y sugerencias anónimas; (3) la de septiembre de 2014 por NB y
EC; y (4) la de febrero de 2015 por JC para incorporar mejoras de formato.

3
Inferencia y decisión

1. Introducción a la inferencia estadística

1.1. ¿Qué es la inferencia estadística?


Si, por ejemplo, se desea estimar el tiempo de crecimiento de un cierto tejido, se pueden utilizar dos
procedimientos. El primero, teórico, consiste en deducir este tiempo a partir de los tiempos de
división de sus células. El segundo procedimiento, empírico, consiste en inducirlo a partir de un
número limitado de casos. Ahora bien, ¿hasta qué punto unas pocas pruebas permiten establecer
modelos generales sobre el crecimiento de estos tejidos? O mejor, ¿cuánta información aportan? La
inferencia estadística formaliza este proceso—que requiere: (1) definir, (2) cuantificar y (3) acotar
sus riesgos.

Definición
La inferencia generaliza la información de una muestra a una población.

Historieta: Dos amigos caminan por el Pirineo y, al ver un caballo, uno de ellos comenta: “no sabía que
los caballos de la Cerdaña fueran marrones y con las patas anchas”. Su amigo, que es lógico, le responde:
“perdona, lo que no sabías es que en la Cerdaña hay, por lo menos, un caballo marrón de patas anchas”.

Lectura: Hasta hace relativamente poco, los filósofos lamentaban la falta de técnicas para saltar de las
partes al todo. Para Hume, la inferencia era imposible; y para Russell, la inducción seguía siendo un
problema de lógica no resuelto. A mediados del siglo pasado, Popper aportó un punto de vista algo más
optimista: “sólo la refutación de una teoría puede ser inferida de datos empíricos y esta inferencia es
puramente deductiva”. Hoy en día, en estudios bien diseñados, y ejecutados, la metodología estadística
hace posible la inferencia.

1.2. Respuestas que ofrece la inferencia estadística


Veamos algunas preguntas que pueden ser contestadas con la ayuda de la metodología estadística.
El ejemplo más sencillo estudiaría la distribución de una sola variable: ¿cuál es el valor de
monóxido de carbono en el aire espirado por fumadores jóvenes? O bien, ¿cuál es la distribución de
los valores de homocisteína plasmática en pacientes con lupus eritematoso?

Nota: si no existiera variabilidad, si la cantidad de monóxido de carbono espirado siempre fuera la


misma, la inferencia sería inmediata: una observación bastaría para conocer el comportamiento de todas
—aceptando la asunción de invarianza. La metodología estadística permite la diversidad, pero debe
recurrir a otras premisas.

Ejemplo 1.1: No es necesario hacer un estudio estadístico para conocer la distribución de la


variable “número de cerebros” que tiene cada uno de los habitantes de una ciudad.
Cada ciudadano tiene un cerebro y sólo uno. Así de fácil.

4
Bioestadística para no estadísticos

En cambio, sería terriblemente aburrido “decir toda la verdad” sobre la altura de una
muestra de 23 pacientes: el primer caso mide 164 cm, el segundo, 173 cm; el tercero 168; ...
y el vigésimo tercero, 192.

Ejercicio 1.1
Suponga que, en el Ejemplo 1.1, por no aburrir, decide hacer un resumen de los
datos, ¿qué información le gustaría que este resumen le proporcionara: sobre el
centro o sobre la dispersión?

Ejercicio 1.2
Proponga otro ejemplo en el que también sea conveniente hacer un resumen
estadístico de los datos.

Conocer la distribución de una variable permitirá al clínico realizar de forma científica, por
ejemplo, el diagnóstico, el tratamiento o el pronóstico.

Ejemplo 1.2: Si se conoce cuál es la distribución del tiempo de convalecencia tras cierta
enfermedad, puede “adelantar” al paciente cuántos días tendrá sus facultades mermadas.
Con la media, dirá al paciente cuál es su valor esperado. Y con la desviación típica, cuál es
el error esperado: cuánto cabe esperar que un paciente típico se aleje de esa media.

1.3. Población, muestra e individuo


Las primeras definiciones son las de población, muestra y unidad.

Definiciones
Población: conjunto de todos los elementos, que cumplen ciertas propiedades
comunes, entre los que se desea estudiar un determinado fenómeno.

Muestra: subconjunto de la población que es estudiado y a partir del cual se


sacan conclusiones sobre las características de la población.

Unidad (individuo o caso): es cada uno de los elementos que componen la


muestra y la población.

5
Inferencia y decisión

Población, muestra y unidad se contienen progresivamente, a la manera de las muñecas rusas. La


población contiene la muestra y la muestra, las unidades. La diferencia es que, conceptualmente,
hay un número ilimitado de muestras y de individuos. La población, sin embargo, es única y
representa al conjunto que deseamos conocer.

Ejemplo 1.3: Costa et al. invitaron a participar en el estudio, de manera consecutiva, a todas
las personas que acudieron al Centro de Extracciones del Hospital Clínic i Universitari de
Barcelona, desde diferentes servicios, para la realización de una prueba de tolerancia oral a
la glucosa (PTOG).
Cilla G et al.: “el estudio incluyó a mujeres que tuvieron un primer parto después de
septiembre de 1989 y un segundo parto entre 2 y 8 años después en la Maternidad del
Hospital Nuestra Señora de Aránzazu de San Sebastián (Guipúzcoa)”.

Por su parte, las unidades no tienen por qué ser “individuos”. Pueden ser hospitales, comarcas o
visitas clínicas. Es muy importante definir con sumo cuidado estas unidades, ya que se podría llegar
a conclusiones diferentes.

Ejemplo 1.4: Cierto facultativo presume de tener un razonable promedio de 7 pacientes por
hora. Pero la asociación de usuarios ha preguntado a todos sus pacientes y ha obtenido un
promedio de 9. ¡Y pudiera ser que todos digan la verdad, sin trampa!

Pongamos que este profesional tiene 3 horas de visita. En una de ellas ve a las primeras
visitas, a razón de 3 por hora. En otra, recibe a las segundas visitas, 6 por hora. Y en la
restante hora recibe las demás visitas, 12 por hora. Este facultativo ha definido como unidad
del estudio la “hora de visita”: el promedio de 3, 6 y 12 es, efectivamente, 7 pacientes por
hora.
3 3
𝑋𝑖 3 + 6 + 12
∑ = = 7 𝑑𝑜𝑛𝑑𝑒 ∑ 𝑖𝑛𝑑𝑖𝑐𝑎 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑎𝑠𝑜𝑠 1 𝑎 3
𝑛 3
𝑖=1 𝑖=1

Los usuarios en cambio, han definido como unidad a cada uno de ellos, de forma que, en
lugar de estudiar las 3 horas (unidades para el médico), estudian los 21 pacientes visitados
por el médico. En sus 21 respuestas obtienen “3” en 3 pacientes; “6”, en 6; y “12”, en 12. Y
el promedio es, efectivamente, 9 pacientes:

21
𝑋𝑖 3 + 3 + 3 + 6 + 6 + 6 + 6 + 6 + 6 + 12 + ⋯ + 12
∑ = =9
𝑛 3
𝑖=1

6
Bioestadística para no estadísticos

Posiblemente la primera definición represente mejor la pregunta del clínico (¿qué promedio
de pacientes visito yo por hora?); y la segunda, la del usuario (¿cuánto suele durar mi
visita?). Ambas definiciones son correctas y válidas. Pero no son intercambiables y en cada
estudio debe estar muy clara cuál es la unidad. Así, diferentes objetivos requieren diferentes
cálculos, todos ellos lícitos y correctos, pero que no deben confundirse: siempre debe quedar
bien clara la unidad del estudio.

Ejercicio 1.3
El colegio de odontólogos ha realizado un estudio aleatorio entre los pacientes de
sus consultas en la semana anterior. De 1000 fichas analizadas, 500 habían tenido
una visita el año anterior, por lo que concluyen que un 50% de la población acude
al dentista cada año. ¿Qué opina? ¿Se puede conocer la frecuencia de visitas al
odontólogo en la población general a partir de una muestra obtenida en las
consultas?

Ejercicio 1.4
Los centros sanitarios de la Seguridad Social suelen realizar una encuesta de
satisfacción a sus usuarios, cuyos resultados suelen ser altamente positivos. ¿Qué
llevó al defensor del pueblo a realizar una encuesta en la población general?
(Pista: defina la unidad de ambos estudios y medite sus diferencias).

Ejercicio 1.5
Para estimar la infección nosocomial, puede hacerse un estudio seleccionando
algunos de los pacientes que ingresan o bien seleccionando algunas de las camas
ocupadas en el hospital. ¿Cuáles son las unidades de ambos tipos de estudios?
Asumiendo que los pacientes que están ingresados más tiempo tienen mayor tasa
diaria de desarrollar la infección, ¿cuál de los dos estudios dará cifras más altas?

Recuerde
Dos estudios, para ser comparables, requieren la misma unidad.

7
Inferencia y decisión

1.4. Estadístico, estimador y parámetro


En el estudio de la información disponible, la inferencia estadística afronta el reto de abarcar un
“universo” más amplio que los pocos casos de que dispone.

Definición
El indicador que se obtendría de cada posible muestra, se llama estadístico.
El indicador de la población que se desea conocer, se llama parámetro.

Recuerde
Parámetro refiere a la población; estadístico, a la muestra.

Por ejemplo, el término esperanza representa el “parámetro” que indica el centro de gravedad de
una distribución poblacional;, pero el “estadístico” media refiere al promedio calculado en una
muestra.

Nota: En ocasiones, la esperanza también recibe el nombre de media poblacional.

Ejemplo 1.4 (continuación): Supóngase que la probabilidad () de que un paciente con
anticuerpos del SIDA tarde, en ciertas condiciones, más de 2 años en desarrollar los
primeros síntomas es 0.50. Es decir, expresado en porcentajes, del 50%. Esta probabilidad
es un parámetro que resume las expectativas del paciente y que representa una
característica intrínseca de la enfermedad. Por otro lado, en una muestra de 25 pacientes de
esa población, 15 han superado los 2 años. Este resultado de 15/25 = 0.60 (60%) representa
la proporción, que es el estadístico o valor observado en la muestra.

Ejercicio 1.6
Proponer un ejemplo similar con media y esperanza.

El reto de la inferencia estadística es conocer el parámetro, que caracteriza al total de la población, a


partir de estadísticos obtenidos en una muestra.

Nota: Si Vd. dispone de los datos de toda la población, es decir, si las conclusiones de su estudio aplican
únicamente a estos casos y no desea aplicarlas a otros diferentes, Vd. no necesita saber lo que es la
inferencia estadística. Pero vigile al hablar: no podrá establecer ninguna ley ‘universal’ que vaya más allá
de sus propios datos.

8
Bioestadística para no estadísticos

Definición
Cuando un estadístico de una muestra se usa para conocer el valor de un
parámetro de la población, recibe el nombre de estimador.

Nota: Cada muestra es fugaz, en el sentido de ser irrepetible y, en el fondo, irrelevante en sí misma. Una
vez terminado el seguimiento de los pacientes de la muestra y cumplidas las responsabilidades sanitarias
con ellos, el interés científico se centrará en conocer qué dicen estos casos sobre los pacientes futuros.

Ejemplo 1.5: Las encuestas electorales, a partir de unos pocos miles de entrevistados
intentan conocer la tendencia de unos cuantos millones: el auténtico interés está en lo que
votará toda la población. La importancia que tienen los pocos entrevistados es su capacidad
para informar sobre la distribución poblacional de esta variable.

Recuerde
Se puede acceder al estadístico observado en la muestra; pero el auténtico
objetivo, el parámetro de la población, no suele ser accesible.

Definición
La inferencia estadística cuantifica la información empírica (evidencia, o
pruebas) que el estimador proporciona del parámetro.

Es tan importante distinguir si se trata de valores muestrales o poblacionales que se les dará
diferente símbolo en un caso o en otro. (Tabla 1.1).

Parámetro () Estadístico (𝜃̂)


(Población) (Muestra)

Media =E(X) esperanza 𝑋̅ media o promedio


Desviación típica  S
Probabilidad  probabilidad P proporción
Tabla 1.1 Notación utilizada para distinguir parámetro y estadístico

Así, una proporción observada en una muestra informa sobre la probabilidad de la población. Pero,
¿cuánta información aporta? ¿El valor poblacional se acerca mucho o poco al valor del estadístico
observado? La teoría de probabilidad permite cuantificar la información que un estadístico
(proporción P) aporta sobre el valor desconocido del parámetro (probabilidad ), auténtico objetivo
del estudio.

9
Inferencia y decisión

Si se sabe cuánto oscila un estadístico de una muestra a otra, se podrá cuantificar la información que
contiene. Veamos la distribución del promedio obtenido en una muestra aleatoria simple (MAS).

1.5. Muestra aleatoria simple

Definición
Muestra Aleatoria Simple (MAS) es aquella en la que (1) todos los elementos de
la población tienen la misma probabilidad de pertenecer; y (2) cualquier
combinación de n elementos tiene la misma probabilidad de pertenecer a ella.

Nota: Todos los elementos de la muestra tienen la misma distribución, ya que vienen de la misma
población.

Ejemplo 1.6: Imaginemos: 1) la población infinita de todos los posibles pacientes de una
enfermedad; 2) un procedimiento aleatorio que selecciona de forma independiente n=1000
pacientes de esta población.

Contra-Ejemplo 1.7: Una asociación profesional con 25000 afiliados decide hacer un
estudio para conocer qué proporción de ellos han recibido malos tratos en su trabajo. Diseña
una muestra aleatoria de 2000 a los que les envía un cuestionario, que contestan sólo 500.
Se puede saber que los 2000 representan a los 25000, pero se desconoce a quién representan
estos 500 y, por tanto, qué información aportan sobre el total de la población.

Nota: La definición de la población a la que se desea aplicar los resultados puede cambiar la
consideración de la muestra.

Contra-Ejemplo 1.8: Supongamos: 1) la población finita de los 80 pacientes de una enfermedad


determinada de un centro hospitalario; 2) un proceso aleatorio de selección de 20 pacientes
diferentes. Nótese que, al ser un muestreo sin reemplazamiento, al eliminar un paciente cada vez, la
población de los pacientes susceptibles de ser seleccionados va variando, con lo que la variable no
tiene la misma distribución para cada uno de los elementos de la muestra.

Ejemplo 1.9: En el fondo, el objetivo del estudio del Contra-Ejemplo 1.8 no puede ser conocer
cómo se comportan estos 80 pacientes (tema vital para ellos y para el centro que los atiende, pero sin
ningún interés para el resto de pacientes y centros). El objetivo del estudio debe ser más ambicioso,
de manera que se puedan beneficiar los pacientes de otros profesionales y centros. Ahora, por un
lado la situación se simplifica, ya que eliminar un elemento de esta población infinita prácticamente
no modifica su distribución. Pero, por otro lado se complica, ya que debe tenerse en cuenta que los

10
Bioestadística para no estadísticos

casos estudiados (sean 20 o sean 80) no son una muestra aleatoria de la población de todos los
pacientes con la misma enfermedad. ¿Hasta qué punto los resultados son extrapolables?

Recuerde
Caso, muestra y población no se definen por separado, de forma aislada. Haga
siempre la definición conjunta.

Volvamos a la definición de MAS. También resalta que la información aportada por las diferentes
unidades deba ser independiente entre sí. Es decir, el valor obtenido en una observación no aporta
información sobre el valor de otras observaciones. Este “no aportar información” debe entenderse
como que la distribución de las restantes variables es la misma sea cual sea el valor observado.

Ejemplo 1.10: Sigamos con el ejemplo 1.6 de pacientes con una enfermedad. Cada uno de
los elementos de la muestra aporta exactamente la misma información sobre la población:
que cierto paciente tenga un valor elevado no implica que cualquier otro paciente lo deba
tener ni más alto ni más bajo.

Contra-Ejemplo 1.11: En un estudio multi-céntrico, ¿puede creerse que el resultado de un


paciente de un centro no aporta información sobre el resultado de otro paciente del mismo
centro? O por el contrario, ¿es más razonable pensar que los resultados obtenidos en
pacientes de un mismo centro son más similares que los de pacientes de centros diferentes?
Si es éste último caso, la variable centro es una variable importante que debe ser tenida en
cuenta en el análisis posterior.

Contra-Ejemplo 1.12: Preguntar la altura a 5 estudiantes proporciona 5 piezas de


información que se van añadiendo. Pero preguntar otra vez a uno de estos no estudiantes no
aportan información nueva, independiente de la ya disponible.

Recuerde
En una MAS: 1) las unidades se escogen al azar; 2) todas ellas tienen la misma
probabilidad de ser escogidas; 3) todas las posibles combinaciones de elementos
tienen la misma probabilidad de figurar en la muestra.

11
Inferencia y decisión

1.6. Inferencia estadística y proceso científico


La capacidad de la estadística para inferir formalmente desde unos pocos datos de la muestra a la
totalidad de la población ha permitido un progreso espectacular en todas las ciencias. Hoy en día, se
acepta como modelo de razonamiento científico el contenido en el siguiente esquema.

1. Descubrir el problema a investigar.


2. Documentar y definir el problema o hipótesis.
3. Deducir consecuencias contrastables de las hipótesis.
4. Diseñar la observación o la experimentación.
5. Recoger los datos.
6. Análisis de datos mediante inferencia estadística.
7. Interpretar.
8. Integrar en el cuerpo de conocimiento.
Cuadro 1.1 Pasos del método científico

Este modelo integra razonamiento inductivo y deductivo. El razonamiento deductivo es necesario,


por ejemplo, para diseñar la recogida de datos. El inductivo, por su parte, es necesario para
generalizar las observaciones obtenidas en unos cuantos elementos.

Lectura: Su versión profesional es el ciclo plan/do/check/act: (1 plan) tras un análisis de la situación de


partida, el planificador establece una estrategia para alcanzar unos objetivos; (2 do) ejecuta el trabajo
definido en el plan anterior; (3 check) evalúa el grado de obtención de objetivos; y (4 act) en base a los
resultados del paso anterior elige una opción (quizás cambiar el plan por uno mejor o quizás aplicarlo tal
cual en una escala mayor). Y vuelve a empezar el ciclo.

Figura 1.1 Esquema del método científico- técnico.

1.7. Posibles errores en la inferencia estadística


En Bioestadística, la definición previa de muestra aleatoria se enfrenta a varios retos. En primer
lugar, los individuos tienen derecho a rechazar su participación en el estudio, o incluso a
abandonarlo en cualquier momento. En segundo lugar, puede no haber una definición operativa de
la población; por ejemplo: no hay ningún listado con todos los pacientes de una determinada
enfermedad. Todos estos fenómenos no aleatorios pueden provocar distorsiones no aleatorias,
llamadas sesgos.

12
Bioestadística para no estadísticos

Ejemplo 1.13: Si cierto número de casos no termina el estudio, el investigador debe dejarlo
claro y analizar o, por lo menos discutir, hasta qué punto compromete las conclusiones.

Lectura: ¿Hasta qué punto debemos creernos las previsiones electorales que se publican en diferentes
medios? A continuación, y respecto a las elecciones generales de octubre de 1989, figuran los resultados
reales (parámetros poblacionales) junto a las previsiones (estimaciones basadas en muestras) publicadas
por El Periódico de Catalunya y por La Vanguardia. El segundo diario, que se comprometía con un
margen menos ambicioso (2%), cumplió. En cambio, el primero falló con dos formaciones: a pesar de que
prometía un margen de error máximo de 1 punto, para el PP se distanció 6.7 puntos; y para IU, 1.2.

Previsiones
RESULTADOS EL PERIÓDICO LA VANGUARDIA
23/10/1989 23/10/1989
(%) n=9524 +2000 n=3262
(%) (%)
PSOE 39.6 40.5 41.5
PP 25.8 19.1 25.0
CIU 5.0 4.9 4.5
IU 9.1 10.3 7.5
CDS 7.9 8.5 6.5
Margen 1 2
Tabla 1.2 Prospección de voto y resultados electorales de octubre de 1989

Las “fichas técnicas” de ambos estudios aportan explicaciones a estas diferencias: tipo de entrevista
(personal o telefónica); método de selección de los casos; días en los que se realizó la encuesta;
considerar la profesión como estrato; más encuestas en Cataluña donde el PP suele estar bajo;... Nótese
que estas explicaciones se basan en argumentos sociológicos, no estadísticos. Un argumento estadístico es
que, por pura mala suerte, la estimación de El Periódico, se alejó del auténtico valor.

La lectura anterior ilustra que en todo muestreo hay dos clases de errores: los debidos
exclusivamente a las fluctuaciones del azar o errores aleatorios; y todos los demás, conocidos
como errores sistemáticos o sesgos. La estadística ayuda a cuantificar la magnitud de los primeros.
Controlar los segundos es una responsabilidad compartida entre la estadística y la disciplina
aplicada. En el ejemplo anterior, la Sociología. En los estudios clínicos, el profesional sanitario
debe razonar si las condiciones del estudio permiten negar la existencia de sesgos. La Figura 1.2
adelanta los posibles sesgos en un ensayo clínico —que se verán en el tema 10.

13
Inferencia y decisión

Figura 1.2 Algunos posibles sesgos

Y la Tabla 1.3 algunos remedios.

selección Asignación oculta al azar


realización Con placebo y enmascarado
Sesgo de … desgaste Seguimiento completo
evaluación Enmascarada
análisis Plan de análisis previo a los datos
Tabla 1.3. Cómo evitar algunos tipos de sesgo

Recuerde
Al pasar de la muestra a la población, en el proceso inferencial hay dos posibles
fuentes de errores: los aleatorios que la Estadística le ayudará a cuantificar; y los
sistemáticos, o sesgos, cuya posible existencia debe Vd. estudiar a la luz de sus
conocimientos clínicos.

1.8. Poblaciones implicadas en la inferencia estadística


Un estudio debe, en primer lugar, cuantificar la magnitud del error aleatorio; luego, justificar que
esta magnitud es suficiente para los objetivos del estudio; y, en tercer lugar, defender la ausencia de
sesgos. Cuando se dan estas condiciones, se dice que el estudio es válido. Ahora bien, ¿válido para
qué conclusiones, las de los autores del estudio o las de aquellos que desean aplicarlo en una nueva
población? Las siguientes definiciones de poblaciones, progresivamente más amplias, ayudan a
clarificar estos conceptos.

14
Bioestadística para no estadísticos

Definiciones
Población origen de la muestra (“actual population”) o población muestrada es
aquella población imaginaria de la que se hubiera obtenido, por extracción
aleatoria 'pura', la muestra. Excluye, por ejemplo, a los casos que se niegan a
participar en el estudio.

Población objetivo o diana (“target population”) es aquella población a la que


los autores del estudian desean aplicar los resultados.

Poblaciones externas (“external populations”): son otras poblaciones, quizás más


amplias, a las que otros investigadores pueden desear aplicar los resultados.

Figura 1.3 Esquema de las poblaciones y muestras (M1…M5) de un estudio

Como pueden no incluirse entre sí, no podemos representarlas con las muñecas rusas (Figura 1.3).
Las posibles muestras SÍ están comprendidas en la población muestreada: si son aleatorias, la
inferencia estadística permite este salto. Además el autor del estudio debe valorar posibles
diferencias o sesgos entre las poblaciones origen y objetivo. Y los que deseen aplicar los resultados,
con su propia población externa.

Ejemplo 1.14: Los ensayos clínicos suelen elegir casos entre 18 y 65 años. Así, los
pacientes menores y mayores no forman parte de la población objetivo. Sí forman parte de
la externa, los argumentos para aplicar a ellos los resultados del estudio son ajenos a la
inferencia estadística.

15
Inferencia y decisión

Lectura: La definición de los criterios de selección es crucial: según Rafael Dal-Ré et al, “En general, la
inclusión de enfermos en ensayos clínicos es un problema más importante de lo que los propios
investigadores piensan, y siempre resulta más difícil de lo que en un principio se planeó.”

Recuerde
Criterios de elegibilidad muy restrictivos dificultarán el reclutamiento y limitarán
la aplicación posterior de los resultados.

Ejercicio 1.7
A partir de un artículo de investigación (p.e., “resultados a los 12 meses de un
programa de deshabituación tabáquica en un centro de atención primaria”) defina:
una población externa, población objetivo, población muestreada y muestra.

Historieta: Si le preguntan “¿es representativa su muestra?”, conteste con aplomo que sí: siempre hay
una población origen para la que su muestra sería representativa. Las preguntas de interés son ¿representa
a la población objetivo? ¿Cómo la ha definido? El reto es interpretar de forma clara y transparente a
dónde le permiten llegar sus datos.

Definición
Error aleatorio es la variación entre los valores muestrales (estadísticos)
obtenibles en las posibles muestras (centrados en el parámetro de la población
origen).

Un estudio es preciso si el error aleatorio es pequeño.

Sesgo es una diferencia entre los valores del parámetro en las poblaciones origen
y objetivo.

Hay validez interna si no tiene sesgos respecto a la población objetivo. Y hay


validez externa si la ausencia de sesgos abarca a la población externa.

Ejercicio 1.8
Los textos médicos suelen estar basados en artículos científicos escritos desde
centros de atención terciaria. ¿Puede este hecho provocar un sesgo?

16
Bioestadística para no estadísticos

Figura 1.4 Relación entre propiedades de inferencia y poblaciones (Kleinbaum et al.)

Ejercicio 1.9
Autores, revisores y editores tienden a valorar más los estudios con resultados
estadísticamente significativos. ¿Puede esta actitud provocar un sesgo?

Recuerde
La inferencia estadística sólo cuantifica la magnitud del error aleatorio.

Historieta: Seleccionar una muestra “al tuntún” no es lo mismo que hacerlo “al azar”.

2. Estadístico media muestral

̅
2.1. Distribución del estadístico media muestral 𝑿

Recuerde
̅ es: X
El cálculo del promedio o media muestral X ̅ = ∑ 𝑥𝑖 ⁄𝑛

Lectura: Mediavilla et al. La media del colesterol LDL (mmol/l) en los pacientes incluidos es
Xincl= 3.33 y la de los pacientes excluidos esXexcl= 3.49.

Detengámonos un segundo: la media muestral, ¿tiene distribución? ¿Qué significa esto? La


pregunta es si el “estadístico media muestral” es una constante o, por el contrario, se trata de una
variable que debe ser caracterizada por su distribución. Como hay muchas muestras aleatorias
posibles, cada una con diferentes casos, la media varía: es una variable.

17
Inferencia y decisión

̅ de colesterol
Ejemplo 2.1: En el estudio anterior, si se obtienen dos muestras, las medias X
LDL serán algo diferentes, aunque se trate de casos de la misma población.

Ejemplo 2.2: Seleccionamos al azar n=100 pacientes con hipertensión y calculamos la


media muestral o promedio de sus valores del colesterol LDL. Este valor será diferente que
si obtenemos otra muestra de 100 pacientes y volvemos a calcular su media.

Historieta: Seleccionamos al azar un paciente y le preguntamos 100 veces por su edad (¡Pobre tipo! ¡Qué
paciencia! ¿Y qué pensará de nosotros?) y hacemos el promedio. Ahora, cabe esperar que obtengamos el
mismo valor si calculamos este promedio en otras 100 preguntas sobre su edad (se asume que el paciente
es muy paciente, claro). Si en medio de tantas preguntas no ha cumplido años, no habrá variabilidad en la
edad, y la media tampoco variará.

Ejemplo 2.3: Al paciente anterior, en lugar de preguntarle la edad, se le determina 5 veces


la presión arterial. Ahora, los resultados podrían variar. Nótese que, en este caso, la
variabilidad que se cuantifica hace referencia a la población de las diferentes mediciones en
un mismo paciente, no a la población de pacientes. Es decir, cuantifica la variabilidad intra-
paciente en lugar de la entre-paciente.

Nota: Esta variabilidad intra-paciente podría incluir cambios naturales del paciente, pero también error
aleatorio de medida, diferente calibrado, distinto evaluador, etc. Dejamos su estudio para el curso de
observacionales.

Así, las medias varían de una muestra a otra. Si se desea utilizar el estadístico promedio como
estimador del parámetro poblacional “esperanza”, esta variabilidad inducirá a errores lo que, por
supuesto, nunca es deseable. Ahora bien, ¿se pueden cuantificar estos errores? O, lo que es más
importante, ¿se puede limitar su magnitud? Para responder a estas dos preguntas cruciales, se debe
contestar antes a otras más sencillas:
1) ¿Alrededor de qué valor varían? (Es decir, ¿cuál es su centro?)
2) ¿Varían mucho o poco alrededor de este valor? (Es decir, ¿cuál es su dispersión?)
3) ¿Qué forma tiene su distribución?

̅ tiene una cierta


Nótese que, una vez aceptado que el estadístico promedio o media muestral X
distribución, las dos primeras preguntas se reducen a conocer su centro y dispersión poblacional.
Veámoslas sucesivamente.

18
Bioestadística para no estadísticos

̅
2.2. Centro de la distribución del estadístico 𝐗
̅ recibe el nombre de esperanza de X
El centro poblacional del estadístico media muestral X ̅ y se
̅). Se sabe que, si la muestra es aleatoria simple, la esperanza de X
representa por E(X ̅ coincide con la
esperanza de X.

Fórmula
̅ ) = E(X) = 
E( X

Ejemplo 2.4: Si obtenemos MAS del colesterol LDL en 100 pacientes, el centro de las
medias de todas las muestras (E(𝑋̅)) coincide con la media poblacional del LDL (E(X)=).

Recuerde
̅ coincide con el de X.
Si el muestreo es aleatorio, el centro de X

Ejercicio 2.1
¿Es deseable esta situación? ¿Qué utilidad puede tener este hecho?

En resumen, se sabe que el conjunto de las medias de todas las posibles muestras aleatorias tiene su
̅), en el mismo centro de la variable en estudio, =E(X). Así, cuando usamos la media
centro, E(X
̅ para conocer la media de la población =E(X), hay el ‘consuelo’ de que el conjunto
de la muestra X
de todas las posibles muestras “apuntan” en la dirección correcta. Los errores serán tanto por exceso
como por defecto. Pero, estos errores no tienen “favorito”: hay equilibrio entre los positivos y los
negativos.

̅ es un estimador insesgado de μ=E(X)


2.3. 𝑿

Definición
Un estimador es insesgado si el centro de su distribución a lo largo de todas las
posibles muestras coincide con el parámetro.

Ejemplo 2.5: Se desea estimar cómo evolucionan los ingresos de los médicos colegiados.
Cada año, seleccionados al azar informan sobre su salario. El conjunto de las medias de
̅) al centro de los salarios, E(X).
todas las posibles muestras tiene como centro E(X

19
Inferencia y decisión

Contra-Ejemplo 2.6: No sería correcto extrapolar estos resultados a otros colectivos con
otros salarios. Si se hiciera, se cometería un sesgo igual a la diferencia entre los salarios
medios de ambos colectivos.

Analogía: Sean dos lanzadores con arco que apuntan a sus respectivas dianas (Figura 2.1).
El lanzador de la izquierda tiene un sesgo hacia la izquierda y arriba, mientras que el de la
derecha está centrado.

Figura 2.1 El arquero de la izquierda tiene mayor sesgo que el de la derecha.

Ejemplo 2.7: Dos informáticos han diseñado dos experimentos para conocer el tiempo de
un nuevo algoritmo para decodificar el ADN. El primer informático analiza muestras del
cromosoma 21, más corto. Mientras que el segundo selecciona muestras de todos los
cromosomas. Las posibles muestras del primero tendrán medias muestrales, cuyo centro,
̅ ), estará por debajo de la media poblacional, =E(X). Las del segundo informático
E(X
estarán centradas en la auténtica media poblacional (Figura 2.2).

Figura 2.2 Estimador sesgado, E(𝑋̅) ≠ 𝜇; e insesgado, E(𝑋̅) = 𝜇

Recuerde
̅ es insesgado.
Si la muestra es aleatoria, el promedio muestral X

Podría ser peor, claro, podría ser que las estimaciones apuntaran en dirección incorrecta. La
ausencia de sesgo parece un pobre consuelo, ya que estas estimaciones no aciertan. Si no se puede

20
Bioestadística para no estadísticos

garantizar que cada estimación acierte, ¿se puede por lo menos cuantificar la magnitud de su error?
̅ aportará esta información.
La varianza de X

̅
2.4. Dispersión de la distribución del estadístico 𝐗

Ejercicio 2.2
¿Recuerda el cálculo de la varianza de una muestra?
REPASO: 𝑆 2 = ∑(𝑥𝑖 − 𝑋̅)2 ⁄(𝑛 − 1)
𝑆 2 = [∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ⁄𝑛]⁄(𝑛 − 1) (más eficiente)
Practique ambas fórmulas, a mano y con R, para el ejemplo sencillo de n=5
alumnos que contestan que en su familia son 1, 2, 3, 4 y 5 hermanos. [Es una
excepción, no se lo pedimos nunca. Hágalo. Convienen interiorirzarlas.]

¿Qué fórmula es más intuitiva? ¿Qué ventaja adivina que puede tener la otra?

̅). La dispersión de X
Varianza del estadístico media muestral: V(X ̅ es directamente proporcional a la
dispersión de X e inversamente proporcional al tamaño n de la muestra.

Fórmula
𝑉(𝑋̅) = 𝑉(𝑋)⁄𝑛

̅), y el tamaño muestral, n,


Nótese que la relación entre la variabilidad de las medias muestrales, V(X
es inversa. Ello implica que cuanto mayor sea el tamaño n de la muestra, menos varían las medias
̅. Ya intuíamos que a mayor tamaño de la muestra, mayor credibilidad de resultados,
muestrales X
pero ahora una fórmula los relaciona.

Ejemplo 2.8: Supóngase que se están tomando muestras de la altura de niños. La


variabilidad de las posibles medias muestrales será mayor si tomamos muestras de tamaño
n=3 que si son de tamaño n=1000.

Lectura: Una flor no indica primavera.

Ejercicio 2.3
¿Es coherente esta situación?, ¿qué utilidad puede tener?

21
Inferencia y decisión

Contra-Ejemplo 2.9: No se tendrá más información si se mide 1000 veces al mismo niño.
Para que una nueva observación aporte información completa deberá ser independiente de
las observaciones previas.

̅ de una
Tampoco sorprende que a mayor variabilidad de la variable, mayor oscilación de la media X
muestra a otra.

Ejemplo 2.10: En muestras de la altura de niños, la variabilidad de las medias será mayor si
los niños tienen edades comprendidas de 5 a 15 años, que si todos tienen 8 años.

Ejemplo 2.11: Suponga que los ingresos de los titulados de una facultad aumentan con el
tiempo que pasa desde que dejan la universidad. Si es así, la dispersión de X será mayor si
se estudia el conjunto de todos los titulados, que si se estudia solamente los titulados en un
̅ , obtenidas de la población total,
cierto año. En consecuencia las medias muestrales, X
fluctuarán más que las obtenidas de muestras de un solo curso.

2.5. Error típico


̅ es el promedio de las distancias (cuadradas) con el centro: representa el error
La varianza de X
(cuadrado) esperado que se cometería en una muestra al estimar el parámetro poblacional a partir
̅ obtenido.
del valor muestral X

Recuerde
̅ proporciona el promedio de los errores al cuadrado.
La varianza de X

̅ informa del error “cuadrado”, su raíz, dará el error típico de X


Si la varianza de X ̅.

̅
Fórmulas error típico de 𝑿
𝜎
A nivel teórico, conocida  poblacional: 𝜎𝑋̅ = √𝑉(𝑋̅) =
√𝑛

𝑆
A nivel práctico, a partir de la S muestral: 𝑆𝑋̅ =
√𝑛

22
Bioestadística para no estadísticos

Ejercicio 2.4
Suponga ahora que está interesado en conocer el promedio de hermanos de las
familias de los alumnos del Ejercicio 2.2. Si esta muestra de n=5 fuera una
muestra aleatoria (y, por tanto, representativa) de todas las familias, ¿qué error
cabe esperar que tiene la media observada en la muestra al estimar la media
poblacional? ¿Cómo lo interpreta?

Recuerde
̅ es la desviación típica de la variable en estudio
El error típico de la media X
dividida por la raíz del número de casos.

Ejemplo 2.12: La siguiente frase “los 100 niños tratados han tenido fiebre durante una
media de 3 días; el error típico (o estándar) ha sido de 0.1 día” hace inferencia hacia los
valores de la población: se afirma que, al aplicar este tratamiento en todos los niños de la
población origen, la media de duración de la fiebre es de 3 días y que el error esperado al
decir que la media poblacional es de 3 días es de 0.1 día.

Debe quedar claro que se trata de un error, por tanto con connotación negativa. Nótese que mientras
el término desviación típica no debería tener ninguna connotación, ni positiva ni negativa, ahora el
error típico ya deja claro desde el primer momento que se trata de algo negativo, no deseable: el
error que cabe esperar que se cometa al estimar el parámetro media poblacional a partir del
estimador media muestral.

Ejemplo 2.13: La altura de las mujeres adultas tiene una distribución Normal de media
=165cm, y desviación típica =7cm. Que la desviación típica sea de 7cm no es ni bueno ni
malo, simplemente refleja una situación natural: para un ecólogo, será fuente de riqueza;
para un fabricante de pantalones, un reto que superar. En cambio, si para estimar la altura
media  de las mujeres se calcula la media en una muestra de n= 100 mujeres, el error típico
que conlleva la estimación es:

𝑆𝑋 7
𝑆𝑋̅ = = = 0.7 𝑐𝑚
√𝑛 √100
̅ al estimar  es de 0.7cm.
Este valor del error típico dice que la imprecisión de X

23
Inferencia y decisión

Nota: de la misma manera que X ̅ estima , S estima  y SX̅ , σX̅ . Como en general no se conocerá , el
error típico que se emplea es SX̅ .

Ejercicio 2.5
Se estima en 4.4 puntos el incremento en la calidad de vida de la semana 0 a la 24
en 43 pacientes. Si la desviación típica observada ha sido de 1.2 puntos, ¿Cuánto
vale el error típico? Interprete el resultado. Diga qué cuantifican, en este ejemplo,
la desviación típica y el error típico.

El error típico habla del error esperado o promedio, ya que el error exacto que se comete en una
muestra concreta permanece desconocido y puede ser más grande o más pequeño.

Nota: Formalmente no se puede interpretar el error típico como el promedio de los errores (es la raíz
cuadrada del promedio de los errores cuadrados), pero a nivel práctico, decir que representa el error
promedio o esperado es una buena aproximación.

A diferencia de la desviación típica, el error típico puede hacerse tan pequeño como se quiera:
simplemente se trata de aumentar el tamaño de la muestra —siempre aleatoria.

El error típico habla de error aleatorio. Si Vd. dispone de una muestra aleatoria, aunque sea
pequeña, sabrá cuantificar la oscilación originada por suerte, buena o mala.

Figura 2.3 El azar permite cuantificar la precisión del muestreo

24
Bioestadística para no estadísticos

2.6. ¿Desviación típica o error típico?


“¿Y qué debo utilizar, la desviación típica o el error típico?”.

Esta pregunta no tiene razón de ser, ya que no son medidas alternativas para un mismo objetivo: la
desviación típica es una medida descriptiva de cómo son los casos, mientras que el error típico es
una medida del error asociado a un proceso inferencial. Así, se usa la desviación típica al describir
los casos en los que se ha hecho el estudio (al inicio de “resultados”); y se usa el error típico al
inferir (desde la muestra a la población) el efecto observado. Esta inferencia permitirá a otros
científicos utilizar nuestros resultados.

Recuerde
La desviación típica es una medida de dispersión que describe los datos: ¿cómo
son mis casos?
El error típico es una medida del error de estimación al hacer inferencia: ¿qué
incertidumbre o ruido conlleva mi salto de la muestra a la población?

Lectura: La guía CONSORT aconseja la desviación típica para la tabla de descriptiva inicial y medidas
de inferencia (como el error típico) para estimar el efecto de la intervención.

Recuerde
La desviación típica se usa al inicio, al describir la muestra; el error típico, al
final, al inferir el resultado principal a la población objetivo.

La relación entre el tamaño muestral y el error típico no es inversamente proporcional. Sí que es


inversa, pero hay una raíz por medio. Por tanto, si se quiere disminuir el error típico a la mitad, se
deberá multiplicar por cuatro el tamaño muestral.

Ejemplo 2.14: El nivel de plaquetas en pacientes de una determinada enfermedad tiene una
V(X)=2500 unidades2. Si, para conocer su valor medio, se obtiene una muestra de 25
pacientes, el error típico del promedio es:
̅) = √[V(X)⁄n] = √[2500 u2 ⁄25] = √100 u2 = 10 u
σX̅ = √V(X
En cambio, si se aumenta la muestra de 25 a 100 casos, el error típico es:
̅) = √[V(X)⁄n] = √[2500 u2 ⁄100] = √25 u2 = 5 u
σX̅ = √V(X
Recoger cuatro veces más casos baja la oscilación a la mitad.

25
Inferencia y decisión

Recuerde
Si desea estimar un parámetro y dispone de un estimador insesgado, el error típico
(SE: Standard Error) de este estimador, le informa del error esperado al afirmar
que el valor del parámetro poblacional coincide con el valor del estimador
obtenido en su estudio.

2.7. Estabilidad del conjunto


̅ se vaya haciendo más pequeño a medida que aumenta
El hecho de que el error típico de la media X
el tamaño muestral indica una cierta estabilidad de los valores obtenidos en los grupos que se
contrapone a la variabilidad de los correspondientes a las unidades.

Recuerde
La variabilidad de los individuos contrasta con la regularidad del conjunto.

Ejemplo 2.15: Pongamos que la probabilidad de nacer varón sea ½. El próximo nacimiento
de Barcelona tiene esta probabilidad de ser varón. Pero no será mitad niño y mitad niña: o
bien será niño o bien será niña. La incertidumbre es total. En cambio, podemos tener la
tranquilidad de que el próximo año nacerán alrededor de un 50% de niños y un 50% de
niñas en Cataluña. No le pediremos a un político que elabore un plan de contingencia por si,
por puro azar, durante unos años sólo nacen bebés de uno de los dos géneros.

Ejemplo 2.16: A una persona en concreto o le toca la lotería o no le toca. La incertidumbre


es absoluta. Pero el que organiza los juegos, además de contar con su tanto por ciento, puede
tener la suerte de no repartir los premios gordos (o justo al revés). A medida que crece el
número de apostantes, más estables son los resultados para el organizador.

2.8. Más propiedades de los estimadores *


̅ sirvió para definir el concepto de estimador insesgado, se
De la misma forma que la esperanza de X
̅ para definir otras propiedades.
puede utilizar la oscilación de X

Definición
Un estimador es convergente si, a medida que crece el tamaño de la muestra, se
acerca progresivamente al valor del parámetro.

Así, cuanto mayor sea la muestra, mejor será la estimación.

26
Bioestadística para no estadísticos

̅ es un estimador convergente: V(X


Ejemplo 2.17: X ̅ ) disminuye a medida que aumenta n.

Definición
Entre dos estimadores insesgados, se dice que es más eficiente el que tiene menor
error típico.

Analogía: Sean otros dos lanzadores con arco. Ambos insesgados. El de la izquierda tiene mayor
dispersión alrededor de la diana, por lo que es menos eficiente (Figura 2.3).

Figura 2.4 El arquero de la derecha es más eficiente porque su oscilación es menor.

Nota: Observe la connotación económica: el estimador más eficiente proporciona más información (tiene
menos error aleatorio) para un mismo tamaño muestral (=coste). O también, permite obtener la misma
cantidad de información con una muestra más pequeña (menor coste).

Ejemplo 2.18: Dos investigadores han diseñado dos experimentos para comparar la
biodisponibilidad de dos preparaciones farmacéuticas alternativas. El primero ha obtenido
dos muestras de voluntarios, administrando a cada una, una de las dos formulaciones. Luego
̅ −𝑋
compara las medias de las dos muestras (𝑋 ̅ ).
1 2

El segundo investigador ha recogido la información de las dos preparaciones en un único


̅ ), eliminando, de esta forma, la variabilidad
grupo, y calcula la media de las diferencias (𝑋 𝐷

debida al voluntario. Los gráficos muestran que, siendo ambos experimentos insesgados, el
segundo es más eficiente.

̅𝟏 − 𝑿
Figura 2.5 Ambos estimadores, 𝑿 ̅𝟐 y 𝑿
̅ 𝑫 , son insesgados pero 𝑿
̅ 𝑫 es más eficiente

27
Inferencia y decisión

Lectura: La estadística permite cuantificar los errores aleatorios. Si le conviene que la Muestra Aleatoria
Simple deje de ser “simple”, ningún problema, un profesional de la estadística le ayudará a obtener el
valor del error típico. Pero si la muestra deja de ser “aleatoria”, debe discutir Vd. todos los posibles
sesgos concebibles.

2.9. Estimación puntual

Definición
Al valor observado de un estimador en una muestra se le denomina estimación
puntual del parámetro.

Ejemplo 2.19: En una muestra aleatoria de 9 personas, la presión arterial sistólica (PAS) ha
̅ igual a 120 mmHg y una desviación típica muestral (S) de
tenido una media muestral X
12mmHg. Así, la estimación puntual de la PAS media en esta población ha sido de 120
mmHg. El error típico de esta estimación se puede cifrar en:
𝑆𝑋̅ = 𝑆⁄√𝑛 = 12 𝑚𝑚𝐻𝑔⁄√9 = 4 𝑚𝑚𝐻𝑔
Por lo tanto, hay una señal de 120 mmHg que está afectada por una oscilación de 4 mmHg.

Recuerde
El error típico informa del error esperado, pero el error exacto en una muestra
concreta permanece desconocido, pudiendo ser inferior o superior.

Ejercicio 2.6
El descenso de la PAS tras la administración de un fármaco en una muestra de 16
pacientes ha tenido una media de 12 mmHg y una desviación típica de 8 mmHg.
Calcule el error típico e interprete los resultados.

Ejercicio 2.7
Si hubiera deseado que el error típico hubiera sido de 1 mmHg, ¿Cuántos casos
hubiera necesitado (desviación típica de 8 mmHg)?

̅
2.10. Forma de la distribución del estadístico 𝑿
̅ se distribuyen alrededor de la media
Ya se ha dicho que las posibles medias muestrales X
poblacional =E(X) con una distancia promedio que cuantifica el error típico. Ahora bien, ¿qué
̅?
forma tiene la distribución de X

28
Bioestadística para no estadísticos

Por las leyes de combinatoria y probabilidad, en general la muestra contendrá tanto valores
̅ será próxima a la media
superiores como inferiores a la media poblacional; y su media X
poblacional μ. También es posible obtener valores alejados, si bien será menos frecuente; de hecho,
̅ de , menos probable es observarla. La distribución Normal de Gauss-Laplace
cuanto más se aleje X
̅ de una MAS.
aplica a la X

Recuerde
̅ se distribuye de acuerdo con la ley Normal Gauss-Laplace.
La media muestral X

La distribución Normal aparece en variables que son el resultado de muchos factores o fuerzas que
actúan independientemente y con influencias similares. Y eso es precisamente lo que es una media
̅, ya que cada observación de la muestra contribuye con el mismo peso o influencia.
muestral X
Queda por aclarar qué significa “muchos”: ¿cuántos casos se necesitan para que la distribución del
promedio de una muestra se acerque a la ley Normal?

Nota técnica: El Teorema del Límite Central (TLC) establece que, si se toman muestras de tamaño n, de
̅ se aproxima a la
una población de media  y desviación típica , a medida que crece n, la distribución de X
ley Normal con media  y desviación típica 𝜎⁄√𝑛.

Ejercicio de navegación
Asegúrese de que su navegador soporta JAVA y observe en esta página cómo se
comporta la media muestral 𝑋̅ al crecer “n”.

Ejercicio 2.8
A partir de lo visto, ¿la distribución de la variable 𝑋̅ cambia de forma cuando
crece el tamaño de la muestra? ¿y la de X?

Ejercicio 2.9
¿Cómo cambia la forma de la distribución de la variable 𝑋̅ cuando crece el
tamaño de las muestras?

Ejemplo 2.20: La edad de los pacientes incluidos en un estudio sigue una distribución
uniforme (aplanada, con el mismo número de casos en todas las franjas de edad). Si se
toman muestras de tamaño n=30 y se calcula la media muestral 𝑋̅ de la edad, la distribución
de 𝑋̅ se acercará a la Normal. La de la edad, sigue siendo la misma.

29
Inferencia y decisión

Ejemplo 2.21: La Presión Arterial Sistólica en los adultos sanos tiene una distribución que
se asemeja bastante a la ley Normal. Si se toman muestras de tamaño n=3 y se calcula la
media muestral 𝑋̅ de la PAS, la distribución de esta media será Normal.

Recuerde
̅
Las condiciones para poder creer que el promedio obtenido en una muestra X
sigue una distribución Normal son, o bien muestra n30 o bien distribución
Normal de la variable en estudio.

̅
2.11. Intervalo 1- de las medias muestrales 𝑿
Se vio que la distribución Normal permite construir intervalos que contengan un determinado
porcentaje de unidades o casos. Ahora, la variable en estudio es 𝑋̅, por lo que, utilizando la
Distribución Normal, se pueden construir intervalos que contengan un deseado porcentaje de las
medias 𝑋̅ que se podrían obtener en todas las posibles muestras.

Recuerde
Intervalo 1- de 𝑋̅𝑛 = 𝜇 ± 𝑧1−𝛼 𝜎⁄√𝑛

Intervalo 95% de 𝑋̅𝑛 = 𝜇 ± 1.96 𝜎⁄√𝑛

̅ alrededor del parámetro E(X) = μ. Una proporción 1 - α de las posibles medias


Figura 2.6 Distribución del estimador X
̅ está incluida entre los límites indicados.
muestrales X

Para que este intervalo contuviera el 95% de las medias muestrales, el valor de la distribución
Normal debía ser Z/2 = Z0.025 = 1.96.

30
Bioestadística para no estadísticos

Ejemplo de R
# Z0.025 (cola superior, lower.tail=FALSE)
> qnorm(p=0.025,lower.tail=FALSE)
[1] 1.959964

Ejemplo 2.22: La glucosa en sangre (X) sigue una distribución Normal de media μ=100 y
desviación típica =10: 𝑋 → 𝑁(100 𝑚𝑔⁄𝑚𝑙 , 10 𝑚𝑔⁄𝑚𝑙 )
Se desean construir intervalos que contengan:
(i) el 95% de las unidades de la población;
(ii) el 95% de las posibles 𝑋̅ de muestras de tamaño n=9; y
(iii) el 95% de las posibles 𝑋̅ de muestras de tamaño n=100.
Los tres intervalos coinciden en que deben contener el 95% de sus unidades y dejar fuera el
5% (=0’05). Pero se refieren a unidades totalmente diferentes, con distribuciones
diferentes. En el primer intervalo las unidades son individuos; mientras que en el segundo y
tercer ejemplo se trata de las medias muestrales que se obtendrían si se repitiera
indefinidamente el proceso de tomar muestras de n=9 y n=100 de estos individuos.

Todas estas distribuciones (Figura 2.6) seguirán la ley Normal: al ser Normal la distribución
de la glucosa en los casos, también lo es la distribución de la media 𝑋̅, sea cual sea el
número de casos. Todas tienen, también, la misma media. Pero cambia la dispersión: para el
primer ejercicio, se trata de la desviación típica de la variable original, la glucosa en sangre,
10 mg/ml; mientras que para los dos restantes, se trata del error típico, debiéndose dividir la
desviación típica por la raíz del número de casos respectivos:

Figura 2.7 Distribución de las variables 𝑋, 𝑋̅n=9 y 𝑋̅n=100

(i) 𝑋 → 𝑁(100 𝑚𝑔⁄𝑚𝑙 , 10 𝑚𝑔⁄𝑚𝑙 )


(ii) 𝑋̅𝑛=9 → 𝑁(100, 10⁄√𝑛) = 𝑁(100, 10⁄√9) = 𝑁(100 𝑚𝑔⁄𝑚𝑙 , 3.33 𝑚𝑔⁄𝑚𝑙)

31
Inferencia y decisión

(iii) 𝑋̅𝑛=100 → 𝑁(100, 10⁄√𝑛) = 𝑁(100, 10⁄√100) = 𝑁(100 𝑚𝑔⁄𝑚𝑙 , 1 𝑚𝑔⁄𝑚𝑙 )


Los límites de los intervalos se pueden calcular utilizando la Normal: Z0.025 = 1.96

i) Intervalo que contiene el 95% de las glicemias individuales, X:


𝜇 ± 𝑧𝛼⁄2 𝜎⁄√𝑛 = 100 ± 1.96 · 10 = 100 ± 19.6 = [80.4, 119.6]

ii) Intervalo del 95% de las medias (𝑋̅𝑛=9 ) de las muestras de n=9 individuos, 𝑋̅𝑛=9 :
𝜇 ± 𝑧𝛼⁄2 𝜎⁄√𝑛 = 100 ± 1.96 · 10⁄3 = 100 ± 6.53 = [93.47, 106.53]

iii) Intervalo del 95% de las medias (𝑋̅𝑛=100 ) de las muestras de n=100 individuos,𝑋̅𝑛=100 :
𝜇 ± 𝑧𝛼⁄2 𝜎⁄√𝑛 = 100 ± 1.96 · 10⁄10 = 100 ± 1.96 = [98.04, 101.96]

Figura 2.8 IC95% de 𝑋, 𝑋̅n=9 y 𝑋̅n=100

Nota: Observe, una vez más, la mayor variabilidad de las muestras de menor tamaño.

Este ejemplo muestra cómo obtener, a partir de los valores poblacionales de media [E(X)=] y
varianza [V(X)], dónde estarán los valores de la media muestral (𝑋̅) en el 95% de las posibles
muestras. Puede ser interesante, pero tiene poca utilidad práctica, ya que el problema habitual es
justo al revés: conocidos los estimadores muestrales de media (𝑋̅) y varianza (S²), ¿qué se sabe de la
media poblacional E(X) = ? Esta interesante pregunta se contesta en el siguiente tema.

Ejercicio 2.10
El cociente de inteligencia (CI) sigue en terminos generales, una N(100,15). Si se
recolectaran muchas muestras de tamaño n=9 y en cada muestra j se calculara su
media 𝑋̅𝑗 :
a) ¿Cómo variarían las medias 𝑋̅𝑗 de la muestras?
b) En una facultad de Medicina, se ha recogido una muestra de tamaño n=9 y se
ha observado 𝑋̅𝑗 =104, ¿se trata de (1) un ejemplo aceptablemente típico; o (2)
especialmente afortunado, muy cerca de ; o (3) tan raro y alejado que se
sospecha que estos alumnos no son de aquella población?
c) Repetir los dos apartados anteriores, pero con n=25 y n =225.

32
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1. Sobre ambos. Escogeremos sus indicadores según la forma de la distribución, pero siempre debemos informar de
ambos. Usualmente, la comunidad científica enfoca su interés en los valores centrales para poder resumir o
representar a los casos. Pero hay que hacer el esfuerzo de cuantificar también el grado de dispersión. E incluso
conocer la forma de la distribución.

1.2. Cualquier ejemplo es válido. También sería terriblemente aburrido “decir toda la verdad” sobre la carga viral.
Nótese, en cambio, que no lo sería sobre el género (“53 fueron del género masculino y 47 del femenino”). Y quizás
tampoco sobre el número de infecciones oportunistas (“2523 casos no presentaron ninguna; 48 tuvieron una; 7, dos
y 1 caso, tres infecciones”).

1.3. En el estudio de los odontólogos, la unidad es “visita a la consulta”, mientras que en la población general, la unidad
es “habitante”. Como hay habitantes que van al dentista más veces que otros, éstos estarán sobre-representados en
un estudio en el que se seleccionen “visitas”. Nótese que aquellos que nunca van al dentista tienen una probabilidad
nula de ser seleccionados. En resumen, porque hablan de unidades diferentes, el estudio de los dentistas (“visitas”)
ofrecerá cifras distintas (en este ejemplo, más altas) que el de la población general (“ciudadanos”).

1.4. Los estudios de satisfacción hospitalaria se basan en las altas hospitalarias, mientras que el estudio del defensor se
basó en ciudadanos. Igual que en el ejercicio anterior, aquellos ciudadanos que van menos a los centros públicos,
tienen una probabilidad menor de ser seleccionados. En resumen, cabe esperar mayor satisfacción entre las “altas”
hospitalarias, que entre los habitantes.

1.5. La unidad del primer estudio son los “pacientes ingresados”, pero la del segundo las “camas ocupadas”. El primero
informará sobre la frecuencia de infección nosocomial en un paciente que acuda a ese hospital; pero el segundo, de
la probabilidad de que cierto paciente ingresado cierto día y ocupando una cama, tenga dicha condición. Igual que
antes: si los pacientes que desarrollan infecciones nosocomiales permanecen más tiempo en el centro y la selección
se hace a partir de las “camas ocupadas”, las cifras de infección serán mayores.

1.6. Por ejemplo, en un estudio del perfil lipídico en 41 pacientes con HIV tratados, la media del colesterol total fue de
4.51 mmol/l. Se trata de la media obtenida en la muestra, y que informa sobre el valor de la esperanza (media en la
población), que es desconocida.

1.7. La muestra queda configurada por los casos concretos seleccionados; la población muestreada es aquella de la cual
se hubiera obtenido por meros mecanismos aleatorios, la muestra; la población objetivo, todos los fumadores de esa
región sanitaria; y la población externa, los fumadores de la zona dónde se quieren aplicar los resultados.

1.8. No, si el objetivo es utilizar los resultados en esos centros. Pero si desea utilizarlos en otros centros con diferente
gravedad habría sesgo.

1.9. Se trata del sesgo de publicación: al publicar sólo lo que ha resultado significativo, se da menor oportunidad a
difundir resultados sobre no-eficacia (volveremos a este tema).

2.1. Si se desea utilizar la media muestral (X) para conocer la media poblacional (E(X)=) es bueno que la distribución

deX se disponga alrededor del auténtico valor de . Dicho al revés: sería peor que se distribuyera alrededor de
cualquier otro valor. Y cuanto más alejado de  estuviera, peor.

33
Inferencia y decisión

2.2. Media 𝑋̅ = ∑ 𝑥𝑖 ⁄𝑛 = (1 + 2 + 3 + 4 + 5)/5 = 3


Varianza 𝑆 2 = ∑(𝑥𝑖 − 𝑋̅)2 ⁄(𝑛 − 1) = [(1 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + (5 − 3)2 ]⁄4 = 10⁄4 = 2.5
.𝑆 2 = [∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ⁄𝑛]⁄(𝑛 − 1) = [(12 + 22 + 32 + 42 + 52 ) − (1 + 2 + 3 + 4 + 5)2 ⁄5]⁄4 = [55 − 225⁄4] = 10⁄4 = 2.5

𝑆 = √𝑆 2 = √2.5 ≈ 1.58
Es decir, la media muestral es 3 hermanos; la varianza muestral, 2.5 hermanos² y la desviación tipo muestral es de
aproximadamente 1.6 hermanos. Podemos imaginar que la distancia (o desvío) de una familia “típica” con la media
es de 1.6 hermanos.
La primera es más intuitiva. La segunda (esto no tiene porqué saberlo) es computacionalmente más eficiente y más
exacta.
2.3. Es coherente: cuantos más casos se tiene, de más información se dispone: hay menos error aleatorio. Es útil (y, por
tanto, deseable) en el sentido de que un mayor esfuerzo en la recolección de datos se ve recompensado por menor
oscilación de las estimaciones.

2.4. 𝑆𝑋2̅ = 𝑆 2 ⁄𝑛 = 2.5⁄5 = 0.5; 𝑆𝑋̅ = √𝑆𝑋2̅ = √0.5 ≈ 0.707

Si se afirma que la media de la población es de 3 hermanos (es decir, si decidimos aproximarnos a la media
poblacional a partir de la media muestral), el error esperado al hacer esta afirmación es de 0.7 hermanos.

2.5. 𝑆𝑋̅ = √𝑆𝑋2̅ = 𝑆⁄√𝑛 = 1.2⁄√43 = 0.18

La señal obtenida ha sido 4.4 y el error asociado que lleva esta señal es de 0.18.
La desviación típica dice que el incremento en calidad de vida observado en esta muestra tiene una distancia
promedio de todos los casos de 1.2 al centro, estimado en 4.4. El error típico en cambio, habla de la oscilación
esperada del estimador de la media; es decir, del error esperado al decir que la media muestral es igual que la
poblacional.

2.6. 𝑆𝑋̅ = √𝑆𝑋2̅ = 𝑆⁄√𝑛 = 8⁄√16 = 2

La señal obtenida ha sido de 12 mmHg y el error asociado que lleva esta señal es de 2 mmHg.

2.7. Si desea que 𝑆𝑋̅ = 1 → 8⁄√𝑛 = 1 → 𝑛 = 82 = 64. Una vez más, si desea reducir a la mitad la oscilación del
estimador, debe multiplicar por 4 el tamaño muestral (64=16·4).

2.8. A medida que crece el tamaño muestral, lo que va cambiando de forma es la distribución de la variable media
muestral 𝑋̅. La distribución de los valores observados, es decir, lo que se llama la distribución de la variable en
estudio es siempre la misma para todos los casos, haya 3, 50 ó 1000. Si no tiene claro que lo que cambia es la
distribución de la media muestral 𝑋̅, no la de X, repita la última navegación.

2.9. Su centro, la esperanza, no cambia, pero sí que lo hace la dispersión y puede hacerlo la forma. La dispersión,
cuantificada por el error típico, se va haciendo más pequeña a medida que crece el tamaño muestral (la reducción es
proporcional al incremento de √𝑛). La forma, en el caso de variables que no siguen una distribución Normal, se
aproxima cada vez más a la de esta distribución (en el caso de variables que siguen la ley Normal, ya tiene esta
distribución para cualquier n).

2.10. a) 𝑉(𝑋̅) = 𝑉(𝑋)⁄𝑛 = 152 ⁄9 = 25 𝑢2 → 𝜎𝑋̅ = 5 𝑢


La variabilidad de las medias muestrales es la tercera parte de la variabilidad de la variable.

34
Bioestadística para no estadísticos

b) [𝑋̅𝑖 − 𝐸(𝑋)] = [104 − 100] = 4 𝑢; cifra “razonable” ya que su valor esperado era 5 u. Por tanto diríamos que la
opción correcta es la "(1) un ejemplo aceptablemente típico".

c) Si n = 25, 𝑉(𝑋̅) = 𝑉(𝑋)⁄𝑛 = 152 ⁄25 = 9 𝑢2 → 𝜎𝑋̅ = 3 𝑢

[𝑋̅𝑖 − 𝐸(𝑋)] = [104 − 100] = 4 𝑢; cifra “razonable”, ya que su valor esperado es 3 u.

Si n = 225, 𝑉(𝑋̅) = 𝑉(𝑋)⁄𝑛 = 152 ⁄225 = 12 𝑢2 → 𝜎𝑋̅ = 1 𝑢

[𝑋̅𝑖 − 𝐸(𝑋)] = [104 − 100] = 4 𝑢, NO es una cifra “razonable”, ya que su valor esperado es 1u. Por tanto,
diríamos que la opción correcta es la "(3) tan raro y alejado que se sospecha que estos alumnos no son de
aquella población".

35
Capítulo 8:

Intervalos de confianza
Erik Cobo, Belchin Kostov, Jordi Cortés, José Antonio
González y Pilar Muñoz
Hector Rufino, Rosario Peláez, Marta Vilaró y Nerea Bielsa

Septiembre 2014
Intervalos de confianza

Intervalos de confianza
Presentación ................................................................................................................................... 3
1. IC de μ con σ conocida* ................................................................................................ 4
2. IC de μ con σ desconocida ............................................................................................ 6
2.1. Distribución (Ji o Chi cuadrado) ........................................................................ 6
2.2. Distribución T de student ......................................................................................... 8
2.3. IC de usando S ...................................................................................................... 9
2.3.1. Premisas para estimar sin conocer ................................................................................ 11
2.3.2. Estimación auto-suficiente (bootstrap) * .............................................................................. 12
2.3.3. Interpretación y uso de la transformación logarítmica * ...................................................... 14
2
3. IC de * ........................................................................................................................ 15
4. IC de la diferencia de 2 medias .................................................................................... 17
4.1. Muestras independientes .......................................................................................... 17
4.2. Muestras apareadas .................................................................................................. 18
5. IC del coeficiente de correlación de Pearson (ρ) * ..................................................... 20
5.1. Variabilidad compartida: correlación intraclase* .................................................... 23
6. IC de la probabilidad ................................................................................................. 24
6.1. Método para muestras grandes ................................................................................. 24
6.2. Método para muestras pequeñas .............................................................................. 28
7. IC de medidas de riesgo en tablas 2x2......................................................................... 30
7.1. Diferencia de proporciones (Riesgos)* .................................................................... 30
7.2. Riesgo relativo (RR)* .............................................................................................. 32
7.3. Odd ratio (OR)* ....................................................................................................... 33
7.4. Cálculo con R de los IC de DR, RR y OR ............................................................... 34
Soluciones a los ejercicios. ............................................................................................................. 38
Tabla salvadora ............................................................................................................................... 46

* Indica tema más avanzado que no es crucial para los ejercicios, aunque el lector debe recordar que
aquí lo tiene —cuando lo necesite.

2
Bioestadística para no estadísticos

Presentación
El Intervalo de Confianza (IC) proporciona los valores del parámetro más compatibles con la
información muestral. Para obtenerlos, tomaremos de R los valores de 2 nuevas distribuciones: la t
de Student y la ² (Ji Cuadrado).

Como el parámetro es un valor poblacional, se pretende conocer verdades absolutas y dar respuestas
universales. Verdades universales, aunque reducidas a la población objetivo, con sus condiciones y
criterios. En la perspectiva que presentamos, antes de hacer el estudio, cualquier valor del
parámetro es teóricamente posible. Pero después del estudio, los contenidos en el IC son los más
verosímiles. En resumen, los IC cuantifican el conocimiento, tanto sobre el auténtico valor, como
sobre la incertidumbre que sobre él tenemos: mayor amplitud del intervalo, mayor imprecisión.

No es necesario que recuerde o aplique las fórmulas, pero SÍ que compruebe que sabe obtener con
R los resultados e interpretar su significado.

Como siempre, no es necesario que entre a fondo en los puntos marcados con asterisco; pero SÍ que
conviene que recuerde que aquí tiene la solución a ese problema por si alguna vez se le presenta.

Contribuciones: (1) la versión original de 2013 descansa en el libro de Bioestadística para No


estadísticos de Elsevier de EC, JAG y PM y en el material de la asignatura de PE de la FIB (UPC);
fue editada por BK y EC y revisada por RP y JC; (2) la de enero de 2014 fue revisada por JAG, RP,
HR y MV para incorporar mejoras y sugerencias anónimas; y (3) la de septiembre de 2104 por NB
y EC.

3
Intervalos de confianza

1. IC de μ con σ conocida*
En el capítulo anterior propusimos usar el valor de la media muestral como estimador puntual del
parámetro poblacional, lo que venía avalado por ser la media muestral un estimador insesgado.
Además, el error típico informaba sobre la oscilación o imprecisión (el “ruido”) de la información
(la “señal”) aportada por la media muestral. Al final, con la ayuda de la distribución Normal,
construimos un intervalo que contenía el 95% de las medias muestrales.

Pero a nivel práctico, conocemos y queremos estimar . Es decir, la pregunta de interés es:
conocido el estimador muestral media ( ), ¿qué sabemos sobre la esperanza poblacional E(X) = ?

Queremos un intervalo que informe, con una certeza cuantificable, dónde se encuentra el valor del
parámetro. Para construirlo, recuperamos los valores que poníamos alrededor de μ; y
cambiamos μ por .

Nota: La Figura1.1 muestra gráficamente el efecto de sumar y restar la distancia

-Z /2 / n +Z /2 / n

Figura1.1. Representación gráfica del IC.

Nota: A nivel práctico se puede coger tanto Zα/2 como Z1-α/2 dado la simetría de la distribución Normal.
En el caso de un α del 5%,

La Figura 1.2 muestra el resultado de añadir esta distancia alrededor de 7 posibles medias
muestrales . Los intervalos de las medias 1 a 5 ( a ), incluyen el valor del parámetro (línea
vertical), es decir, aciertan, tal y como también lo harían todos los intervalos sobre medias
contenidas entre los límites L1 y L2, que delimitan, precisamente, el 95% central de las medias
muestrales.

Figura1.2 Siete posibles medias muestrales y sus respectivos ICs.

4
Bioestadística para no estadísticos

En cambio, los intervalos de las medias de las muestras 6 y 7 ( y ) no contienen el parámetro.


Representan a ese = 5% de posibles muestras que fallarían.

El intervalo así construido tiene, por tanto, un 95% de posibilidades de contener el parámetro
poblacional, por lo que recibe el nombre de Intervalo de Confianza del 95% (IC95%).

Nota: Un 95% de confianza significa que (cabe esperar que), cada 20 estudios que se realicen, 19
contengan el parámetro de interés y 1 no lo haga.

Nota: Si desea aumentar la cobertura al 99% (α = 1%) o al 99.9% (α = 0.1%), simplemente se trata de
sustituir el Z0.975 = 1.96 por los correspondientes cuantiles (Z0.995 = 2.58 y Z0.9995 = 3.29).

Recuerde
Este método requiere conocer la dispersión poblacional σ y por tanto es poco
usado.

Ejemplo 1.1 (Prestado del control de calidad y de la vida misma): La asociación de usuarios
(ASU) sospecha que las gasolineras no sirven la cantidad pactada. Por ley, se acepta que el
dispensador tenga un error =10cc por cada litro que expende. En una muestra de n=100
pedidos de 1 litro (¡qué poco suspicaz el dependiente!), la media observada ha sido =
995cc. El IC95% de vale:

Por tanto, se cree con una confianza del 95% que la auténtica media poblacional (μ) de esta
máquina está entre 993cc y 997cc.

Ejemplo 1.2: La glicemia en mmol/L tiene una desviación típica igual a 1. En una muestra
de 9 pacientes, la media ha sido de 5.

Se cree, con una “fuerza” del 95% que el auténtico valor poblacional se encuentra entre
estos límites.

Esta fórmula para calcular el IC95% de utiliza , lo que implica que, para poder estimar la media
poblacional necesita conocer previamente la varianza de la variable. Esta situación es casi
excepcional.

5
Intervalos de confianza

Ejemplo 1.3: La distribución de cierto parámetro sanguíneo sigue una N( , ). Por un


cambio del procedimiento analítico, se incrementan sus valores en una cierta constante K y
se puede asumir que el nuevo valor sigue una N( ’, ), que tenga una media desconocida y
una varianza conocida.

Recuerde
El IC de μ conocida introduce el tema. Sólo se usa para predeterminar ‘n’.

2. IC de μ con σ desconocida
¿Qué ocurre si σ es desconocida? De hecho, esta es la situación habitual. Ahora, para construir los
intervalos de confianza, ya no usaremos esta versión del estadístico señal/ruido

sino en esta otra:

Nota: Sustituir el parámetro por el estadístico S implica sustituir una constante, que tiene un único
valor, por una variable aleatoria, que tiene toda una distribución de valores.

Cambiar por S tiene el precio de recurrir a una nueva distribución: la t de Student.

2.1. Distribución (Ji o Chi cuadrado)


Antes de la distribución t de Student, necesitamos otra distribución, la χ2.

Si X es N(0,1), su cuadrado, X2, sigue una distribución de Ji cuadrado con 1 grado de libertad
(GdL): X2~

Al ser un cuadrado, todos sus valores son positivos.

Ejemplo 2.1: Sea X una v.a. N(0,1),


sabemos que P ( X > 1.96 ) = P ( X < -1.96 ) = 0.025
o también, que P ( |X| > 1.96 ) = P ( X > 1.96 ) + P ( X < -1.96 ) =0.05
Por tanto P (|X|2>1.962 ) = P ( X2> 3.84 ) =P ( > 3.84 )= 0.05

6
Bioestadística para no estadísticos

Ejemplo de R

# Cálculo de Fx: P(X<3.84) si X es una con 1 GdL


> pchisq(1.96^2,df=1)
[1] 0.9500042
# Cálculo de x: P(X<=x)=0.2 si X es una chi^2 con 1 GdL
> qchisq(0.2,1)
[1] 0.06418475

Sean ahora n variables aleatorias independientes idénticamente distribuidas (v.a.i.i.d) con


distribución Normal centrada (µ=0) y reducida (σ=1):

v.a.i.i.d

entonces, la suma de sus cuadrados sigue una distribución de Ji cuadrado con n grados de libertad
(GdL):

Esta distribución tiene una forma asimétrica que se reduce cuando aumenta el número de GdL, tal y
como muestra la Figura 2.1.

Figura 2.1. Distribuciones de con 1, 2 y 5 GdL.

Ejercicio 2.1
Calcule con R las probabilidades P(X≤1), P(X≤3) y P(1≤X≤3) si X ~

7
Intervalos de confianza

2.2. Distribución T de student


A partir de las distribuciones Normal y Ji-Cuadrado, se puede obtener la distribución t de Student.
independientes, entonces y se dice que sigue una

distribución t de Student con n GdL.

Ejemplo 2.2. Sea t una v.a. con distribución t de Student con 14 GdL (t ~ t14). La
probabilidad de que t pueda tomar valores inferiores a -2.5 es P (t<-2.5)= 0.012.
Asimismo, P (t>2.5)= 0.012. Y el valor de t que deja por debajo una probabilidad de 0.025
es -2.14.

Ejemplos de R
# Sea X una t de Student con 14 GdL
# P(X<-2.5)
> pt(q=-2.5,df=14)
[1] 0.01273333
# P(X>2.5)
> pt(q=2.5,df=14,lower.tail=FALSE)
[1] 0.01273333
# P(X<x)=0.025
> qt(p=0.025,df=14,lower.tail=TRUE)
[1] -2.144787

La t de Student es simétrica alrededor de cero, muy parecida a la normal, especialmente para


valores grandes de GdL.
t de Student

0.4 GdL=2
GdL=5
GdL=10
GdL=30
N(0,1)
0.3
dt(x, 2)

0.2

0.1

0.0

-3 -2 -1 0 1 2 3

Figura2.2.La distribución Normal y t de student con diferentes GdL (2,5,10 y 30)

La distribución ‘t’ se aplana y se aleja más de la distribución Normal cuanto más pequeña sea la
muestra.

8
Bioestadística para no estadísticos

Nota: Gosset era el responsable de calidad de la cervecera Guiness. Para detectar los lotes que no
cumplían con las especificaciones deseadas, él había aceptado el coste de rechazar un 5% de los que sí
que las cumplieran, para lo que utilizaba los límites –1.96, +1.96. Pronto sospechó que desechaba
demasiados: fuera de estos límites había más del 5% de los lotes correctos. Cayó en la cuenta de que S era
un estadístico y no un parámetro y propuso una distribución algo más aplanada que la Normal, en la que
observó que rechazaba el % deseado de lotes correctos. Recibe este nombre porque lo firmó con el
seudónimo de “estudiante” —dicen que porque Guiness no quería que se supiera que estudiaban su
calidad..

Ejercicio 2.2.
Sea t una variable aleatoria con distribución t de Student con 12 grados de libertad
(t ~ t12). Encuentre la probabilidad de P ( t > 1.796 ).

La simetría de la t de Student permitirá trabajar de forma simétrica.

Ejemplo de R
# Para calcular t19,0.025 y t19,0.975 en R
> qt(p=0.025,df=19)
[1] -2.093024
> qt(p=0.975,df=19)
[1] 2.093024

2.3. IC de usando S
La t de Student permite construir IC para μ desconociendo σ2.

Fórmula
El Intervalo de Confianza de (1-α)% de , sin conocer es:

Ejemplo 2.3: El tiempo utilizado en la atención al paciente sigue una distribución Normal.
Para conocer el tiempo medio empleado en este servicio, se han recogido 20 observaciones
que han tardado, en minutos, X = 34 y S=2.3.

Se cree, con una confianza del 95%, que la media poblacional del tiempo de atención se
sitúa entre 32.92 y 35.08 minutos.

9
Intervalos de confianza

Recuerde
La amplitud del IC valora la ignorancia o incertidumbre sobre el único y auténtico
valor de la esperanza μ. No indica que μ oscile ni que tenga más de un valor.

Ejercicio 2.3
Sin cambiar la confianza, ¿cómo podría reducir el intervalo del Ejemplo 1.2 a la
mitad?

Ejercicio 2.4
Con los datos del Ejemplo 1.2, calcule el IC para una confianza del 99%.

Ejercicio2.5
Al final, ¿el IC95% contiene o no contiene ?.

Ejercicio2.6
El IC99% (elija una):
a) incluye el 99% de las medias poblacionales
b) incluye el 99% de las medias muestrales
c) incluye la media poblacional el 99% de las ocasiones
d) incluye la media muestral el 99% de las ocasiones

Ejercicio 2.7
Con un IC95% (1- =95%) de μ podemos afirmar que (elija una):
a) el 95% de los casos están dentro del intervalo.
b) si se repitiera el proceso, el 95% de los casos estarían dentro del intervalo.
c) hay una probabilidad del 5% de que el parámetro μ no esté en el intervalo.
d) hay una confianza del 95% de que el parámetro μ esté en el intervalo.

Ejercicio 2.8
Asumiendo que la desviación típica poblacional de las GOT (Transaminasa
Glutámico Oxalacética) es de 120 u, ¿cuántos casos se necesitan para...
...tener un error típico de estimación de μ ( /√n) igual a 12 u?
...tener una semi-amplitud del IC95% de μ (Z0.975 /√n) igual a 12 u.?
...tener una amplitud total del IC95% de μ (±Z0.975 /√n) igual a 12 u.?

10
Bioestadística para no estadísticos

Nota técnica: En la estadística clásica, no bayesiana, el parámetro es una constante, no una variable
aleatoria. Por ello, se evita hablar de un intervalo de probabilidad del parámetro y se usa el término de
confianza. Desde esta perspectiva sólo puede usarse probabilidad en lugar de confianza si queda claro que
las variables aleatorias son los extremos del intervalo. En otras palabras, no decir que entre los límites a y
b del intervalo se encuentre un parámetro "flotante" con alta probabilidad, como si a y b fueran fijos, sino
que el procedimiento del IC garantiza con alta probabilidad que el parámetro esté entre los dos valores
aleatorios a y b.

2.3.1. Premisas para estimar sin conocer

Nota: Para referirse al término inglés assumptions, diferentes autores utilizan diferentes vocablos:
asunciones, hipótesis previas necesarias, requisitos, condiciones de aplicación... Como dijimos en el
capítulo 1, usamos “premisas” para resaltar su papel secundario y diferenciarlas de las hipótesis, que
aunque también son supuestos, reflejan el objetivo del estudio.

Para poder afirmar que el estadístico t sigue una t de Student con n-1 GdL, la premisa necesaria es
que la variable en estudio X siga una distribución Normal. Ahora bien, aunque no sea Normal, si el
tamaño muestral crece, la estimación S2 de 2
mejora, acercándose al valor real, por lo que la
2
sustitución de por S2 tiene menores implicaciones. Por esta razón, aunque la variable estudiada
no sea Normal, en estudios grandes puede usarse la Normal.

Recuerde
La fórmula requiere: o bien que X sea Normal; o bien que n≥ 30.

Nota: ¿Qué significa tamaño grande? ¿Por qué unos autores dicen 20, otros 30 y otros 100? ¿Hay algún
número mágico que cambie tanto la forma de la distribución? No, se trata de una aproximación sucesiva y
se necesitará menos muestra cuanto más se asemeje X a la Normal.

Así pues, se sabe cómo inferir los resultados de la muestra a la población si se dispone de una
variable Normal; o bien si la muestra es suficientemente grande. Estas fórmulas deben servir para
solucionar la gran mayoría de las situaciones.

Ejercicio 2.9
En una muestra de 100 pacientes con infarto, se ha valorado la Transaminasa
Glutámico Oxalacética (GOT) a las 12 horas. La media ha sido de 80 y la
desviación típica de 120. Haga un IC95% de la media.

Nota: Se pide un tamaño muestral mayor que 30 para poder usar una fórmula estadística. Pero en un
estudio clínico, el tamaño muestral debe fijarse por la cantidad de información que se desea disponer.

11
Intervalos de confianza

Lectura: En el caso de que no disponga de una muestra grande ni de una variable con distribución
Normal se puede recurrir a dos grandes grupos de soluciones: 1) métodos estadísticos que no requieren
esta distribución (cálculos exactos o por re-muestreo, principalmente); y 2) transformar la variable para
conseguir su Normalidad. Existen varias transformaciones que funcionan muy bien en la práctica. Para
variables positivas (como “el tiempo hasta...” o “el nivel de GOT”) la transformación logarítmica suele
corregir la habitual asimetría y conseguir distribuciones muy parecidas a la Normal. Por otro lado, si se
dispone de un recuento de fenómenos raros, de baja probabilidad, que suelen seguir una distribución de
Poisson, la transformación raíz cuadrada suele funcionar bien.

Ejemplo de R

# Dada una muestra X, con t.test se obtiene el IC de la


# de la media poblacional:
> X <- c(110,100,115,105,104)
> t.test(x=X,conf.level=0.95)
One Sample t-test
data: X
t = 41.1378, df = 4, p-value = 2.087e-06
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
99.59193 114.00807
sample estimates:
mean of x
106.8
#Se cree, con una “fuerza” del 95%, que el auténtico valor poblacional
se encuentra entre [99.59 , 114.01].

2.3.2. Estimación auto-suficiente (bootstrap) *


La informática permite sistemas alternativos de estimación que descansan en menos premisas. El
más conocido consiste en generar sub-muestras al azar de la muestra obtenida y, a partir de ella,
deducir la distribución del estimador muestral.
Ejemplo 2.4: Un estudio sobre acupuntura emplea el índice BDI-II (Inventario de
Depresión de Beck-II) para evaluar la gravedad de la depresión. Como esta variable no se
ajusta bien a la normal, decide calcular el IC(µ) con Bootstrap .

Ejemplo de R
#Instalar paquete
>install.packages("bootstrap")
#Cargar paquete
>library("bootstrap")
##-- IC para una media (BDI-II)
#Semilla
>set.seed(123)
#Tamaño de la muestra
>n<-755

12
Bioestadística para no estadísticos

#Generación de la muestra (BDI-II)


>x <- runif(n,0,65)
#Parámetro para el que quiere calcular el IC
>theta <- function(x){mean(x)}
#Bootsrap con 1000 repeticiones
>results <- bootstrap(x,1000,theta)
# Cálculo del IC
>IC <- quantile(results$thetastar,c(0.025,0.975))
>IC
2.5% 97.5%
31.12718 33.93205
#Siendo la media observada en la muestra 32.5

Por tanto, la interpretación será: “mediante un método de bootstrap, libre de premisas sobre
la forma de la distribución de la variable, la estimación puntual de la media poblacional es
32.5, con una incertidumbre (IC95%) desde 31.1. a 33.9.

Dado que este método genera submuestras al azar, diferentes ejecuciones, pueden originar
diferentes resultados. Para garantizar que no se ha escogido el resultado más conveniente (una
variante del “outcome selection bias”), conviene especificar en el protocolo la semilla que generará
las sub-muestras y el programa para obtener y analizar los datos.

Ejemplo 2.4 (cont): Veamos ahora cómo calcular el IC del coeficiente de correlación de,
por ejemplo, el índice BDI-II y la edad a la que el individuo sufrió el mayor episodio de
depresión.

Ejemplo de R
##-- IC para una la correlación
# Tamaño muestral
n <- 755
#Semilla
set.seed(123)
#Generación de y1 (BDI-II)
y1 <- runif(n,0,65)
#Generación de y2 (Edad de mayor episodio de depresión)
y2 <- rnorm(n,22.5,12.28)
#Unimos y1 e y2 en un data.frame
xdata <- matrix(c(y1,y2),ncol=2)
#Parámetro para el que se quiere calcular el IC (en este caso, coef, de
correlación)
theta <- function(x,xdata){cor(xdata[x,1],xdata[x,2])}
# Bootstrap con 1000 repeticiones
results <- bootstrap(x=1:n ,1000,theta,xdata)
#Cálculo del IC

13
Intervalos de confianza

IC <- quantile(results$thetastar,c(0.025,0.975))
IC
2.5% 97.5%
-0.05202905 0.08796262

Recuerde:
Si no se cumplen las premisas, valore emplear el método bootstrap.

2.3.3. Interpretación y uso de la transformación logarítmica *


Algunas variables sólo pueden tomar valores positivos y son muy asimétricas.

Ejemplo 2.5: El salario, que por ahora aún no es negativo, cumple el modelo de Pareto:
“el 80% de Italia está en manos del 20% de los italianos”. Los aumentos de sueldo no se
negocian de forma aditiva o lineal (100€ más para todos), sino multiplicativa: un “5%
más” significa multiplicar por 1.05. Y, en matemáticas, las multiplicaciones ‘piden’
logaritmos.

Definimos Y como la transformación logarítmica (natural, neperiana o de base e) de la variable X.


Es decir, Y=log(X). Obtendremos los estadísticos de Y, haremos su IC y, a partir de él,
obtendremos el IC de X mediante la operación inversa.

Nota técnica: exp{Y} = eY indica el número e = 2.7183 elevado al número Y. La operación matemática
EXP y log son inversas: eln(y) = Y; ln(eY) = Y. El lector no debe desanimarse por la aparición de unos
logaritmos a los que no está habituado. Piense que son tan solo un instrumento para dar simetría a las
variables. Recuerde que el pH no tiene secretos para Vd: Es cómodo valorar la acidez con el pH, aunque
sea el logaritmo de la concentración de hidrogeniones.

Definición:
Sea Y=log(X)

Ejemplo 2.6 (cont. del Ejemplo 2.3): La media del logaritmo (Y) del tiempo utilizado en
la atención al paciente (en la muestra de 20 pacientes) es de ӯ = 3.55 y su desviación
estándar S=0.069. Como Y sigue razonablemente bien la Normal, el IC95% de es:

14
Bioestadística para no estadísticos

Para facilitar la interpretación se deshace el logaritmo mediante la función exponencial. La


estimación puntual de es e3.55= 34.81 y por intervalo:

Los resultados son muy similares a los originales, IC95%= [32.92, 35.08]. Es bueno que,
independientemente de las premisas de salida, obtengamos conclusiones similares. Ahora
la simetría ocurre en una escala multiplicativa: 35.95=34.81·1.03; y 33.71=34.81/1.03. Es
decir, la imprecisión obliga a multiplicar y dividir por 1.03.

2
3. IC de *
El IC se basa en que, si X es N, S2 multiplicada por (n-1) y dividida por la varianza poblacional

sigue una distribución Ji cuadrado:

Fórmula
El Intervalo de Confianza (1-α)% de σ2 es:

Premisa: X~N

Ejemplo 3.1: El tiempo observado hasta la desaparición de un signo en 25 pacientes ha


mostrado una variabilidad S2=82 min2. ¿Qué sabemos sobre el auténtico valor de la
varianza poblacional?

Por tanto, habiendo observado una varianza muestral S2=64 min2, sabemos sobre la
varianza poblacional ² que, con una confianza del 95%, es alguno de los valores
comprendidos entre 38.98 min2 y 123.87 min2. Dos aspectos resaltan: la asimetría del
intervalo alrededor de la estimación puntual (64) y su gran magnitud: aunque la muestra no
es muy pequeña (n=25), el grado de incertidumbre parece notable. Para evitar tener que
interpretar “minutos cuadrados”, haremos su raíz:

15
Intervalos de confianza

IC95%( ) ≈ [6.24, 11.13]

El intervalo sigue siendo asimétrico alrededor de la estimación puntual, que era 8. Y sigue
pareciendo grande (el extremo superior casi dobla al inferior). Pero esta impresión ya no es
tan exagerada. Lo que no hay duda es que ahora, sin cuadrados, es más fácil interpretarlo:
con una confianza del 95%, la desviación típica poblacional es algún valor comprendido
entre 6.24 min y 11.13 min.

Ejemplo de R

# R no dispone de ninguna función específica para calcular este


# intervalo. Podemos crearla nosotros
> IC_var <- function(x,confidence){
S2 <- var(x) # Varianza muestral
alfa <- 1-confidence # Nivel de significación
n <- length(x) # Tamaño muestral
X1 <- qchisq(p=1-alfa/2,df=n-1) # Valor de Ji cuadrado 1
X2 <- qchisq(p=alfa/2,df=n-1) # Valor de Ji cuadrado 2
LI <- (S2*(n-1))/X1 # Limite Inferior
LS <- (S2*(n-1))/X2 # Limite Superior
return(c(LI,LS)) # Retorna el Intervalo
}
# Ejemplo con una muestra de 5 valores
> PAS <- c(128,102,126,116,100)
> conf <- 0.95
> IC_var(PAS,0.95)
[1] 61.31046 1410.35059
# Y el intervalo de confianza de la desviación típica :
> sqrt(IC_var(PAS,0.95))
[1] 7.83010 37.55463

Ejercicio 3.1.
Preguntados por el nº de asignaturas matriculadas, 4 alumnos han contestado: 2, 3,
4 y 5. Con la función de R anterior, calcule S2 y S y estime 2
y .

Nota técnica: Los GdL o la información “neta” de una muestra vienen dados por el número de
observaciones (independientes) menos las preguntas que previamente ha debido contestar. Por ejemplo, si
para calcular S2 en una muestra de n casos primero se ha debido estimar 1 parámetro µ mediante , los

16
Bioestadística para no estadísticos

GdL que tiene esta estimación de la varianza son “n-1”. Más formalmente, un sistema de n ecuaciones
(piezas de información) con k incógnitas tiene n-k GdL.

4. IC de la diferencia de 2 medias

4.1. Muestras independientes

Fórmula
El Intervalo de Confianza (1-α)% de μ1 - μ2 en muestras independientes es:

Tenemos sólo una S2 porque asumimos igualdad de varianzas (homoscedasticidad: 2


1 = 2
2 = 2
);
y entonces, S21 y S22 estiman el mismo parámetro 2
mediante la ponderación de S21 y S22 según sus
GdL.

Fórmula
La estimación conjunta (“pooled”) de la varianza en 2 muestras se calcula:

Nota: observe que esta ponderación acaba siendo la fórmula de siempre de la varianza: la suma de todas
las distancias a su propia media, dividida por sus GdL.

Recuerde
La fórmula del requiere:
(i) MAS independientes
(ii) Varianzas (desconocidas) iguales: “homoscedasticidad”
(iii) Y1~N ; Y2~N

Ejemplo 4.1: Para comparar 2 intervenciones, usamos el tiempo medio hasta la


desaparición de un signo en 2 grupos de pacientes en condiciones independientes (n1=50 y
n2=100). Los resultados son: , siendo S1=8 y S2=6. Suponiendo MAS
independientes y con varianzas poblacionales iguales, encuentre el IC95% de μ1 – μ2.

17
Intervalos de confianza

Ejemplo de R
# Cálculo del valor de t con 148 GdL
> qt(p=0.025,df=148,lower.tail=FALSE)
[1] 1.976122

Nota: La homoscedasticidad o estabilidad de las varianzas aparece cuando el efecto se concentra en los
valores medios: lo que sucede cuando el cambio de tratamiento produce el mismo efecto en todos los
casos y hace relevante a todas las unidades el efecto poblacional medio. Aunque la igualdad de varianzas
poblacional no es directamente observable, sí lo es el nivel de similitud de los valores muestrales.

Ejemplo de R
# Dadas dos muestras indep. x e y, la función t.test da el IC de μ1–μ2

> x <- c(1,5,6,8,10)


> y <- c(2,7,11,1,12,3,4)
> t.test(x,y,var.equal=TRUE)
Two Sample t-test
data: x and y
t = 0.1214, df = 10, p-value = 0.9057
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.956190 5.527618
sample estimates:
mean of x mean of y
6.000000 5.714286

4.2. Muestras apareadas


En ocasiones, las unidades de las dos muestras para las cuales quiere calcular la diferencia de
medias se encuentran emparejadas por algún factor. El caso más habitual podría ser el de un
conjunto de pacientes en qué se mide una variable en el momento basal del estudio y en una visita
posterior. En este caso, tenemos las 2 muestras (basal y visita posterior) emparejadas por cada
paciente. Para el cálculo del IC en muestras apareadas, se calcula primero la variable diferencia
Di = YiA - YiB y luego se aplica el método del cálculo del IC de μ para una muestra.

18
Bioestadística para no estadísticos

Fórmula
El Intervalo de Confianza de (1-α)% de μ1 - μ2 en muestras apareadas es:

Recuerde
La fórmula requiere:
(ii) MAS apareadas
(iii) D~N

Ejemplo 4.2: Las 2 intervenciones anteriores, A y B, se han probado en los 6 mismos


pacientes y los tiempos hasta la desaparición del síntoma han sido:

Pac. Pac. Pac. Pac. Pac. Pac.



1 2 3 4 5 6
YiA 23.05 39.06 21.72 24.47 28.56 27.58 27.406 39.428
42.009
YiB 20.91 37.21 19.29 19.95 25.32 24.07 24.460 44.591

Di= YiA-YiB 2.13 1.85 2.43 4.51 3.24 3.51 2.946 0.996

Si consideramos las 2 muestras como independientes (solución errónea) el IC95% es:

En cambio, el IC95% correcto, considerando las 2 muestras apareadas es:

Así, el cálculo erróneo previo provoca una estimación demasiado alta de la imprecisión, y
daba un IC con el valor 0 de no diferencias en su interior.

Observe que la varianza de la variable diferencia (0.996) es muy inferior a la “pooled”


(42.009), indicando el beneficio de hacer un diseño con datos apareados. Enseguida
explicaremos sus razones, que no son más que eliminar la variabilidad compartida.

19
Intervalos de confianza

Ejemplo de R
# Dadas dos muestras apareadas x,y t.test y paired=TRUE
# dan el IC de la diferencia de μ en muestras apareadas
> ?sleep
> data(sleep)
> t.test(extra~group,data=sleep,paired=TRUE)
Paired t-test
data: extra by group
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal 0
95 percent confidence interval:
-2.4598858 -0.7001142
sample estimates:
mean of the differences
-1.58

Ejercicio 4.1.
Calcular, con R, el IC de la diferencia de las medias de YA y YB
YA = 23.05,39.06,21.72,24.47,28.56,27.58
YB = 20.91,37.21,19.29,19.95,25.32,24.07
(i) Considerando que son muestras independientes.
(ii) Considerando que son muestras apareadas.
(iii) Compare los errores típicos de ambos e interprete.

Si no se puede asumir que las varianzas sean iguales aparecen dos dificultades. La primera es
práctica: la diferencia de las medias ya no representa un efecto común para atribuir a cada caso. La
segunda es técnica: el estadístico ya no sigue una t de Student. Encontrar una transformación de Y,
en que las varianzas sean iguales y la distribución normal soluciona ambos problemas.

5. IC del coeficiente de correlación de Pearson (ρ) *


La covarianza y la correlación indican la relación entre 2 variables numéricas X, Y:

Población Muestra
Covarianza XY S XY

Correlación XY rXY

Tabla 5.1. Nomenclatura para covarianza y correlación.

20
Bioestadística para no estadísticos

La covarianza indica el grado de variación conjunta entre las 2 variables. A nivel muestral, la
covarianza se calcula de forma muy similar a la varianza:

Ejercicio 5.1.
Imagine la covarianza de una variable X consigo misma. ¿En qué se convierte la
formula anterior de la covarianza al aplicarla a X con X: SXX?

La covarianza tiene las unidades de medida de ambas variables, por lo que conviene definir un
coeficiente que pueda ser interpretado de la misma forma para cualquier unidad de medida. El
coeficiente de correlación lineal “tipifica” la covarianza dividiéndola por sus desviaciones típicas. A
nivel muestral, se calcula:

La correlación varía entre -1 y +1, donde el signo indica la dirección de la relación: directa (si es
positivo) o inversa (si es negativo). La magnitud mide la intensidad de la relación. rXY = 0 indica
ausencia de relación lineal. En cambio, rXY = 1 o rXY = -1 indica una relación lineal ‘perfecta’ que
se puede representar mediante una recta Y= a+bX (Figura 5.1).
r = -1.00 r = -0.75 r = -0.50

r = -0.25 r = 0.00 r = 0.25

r = 0.50 r = 0.75 r = 1.00

Figura 5.1. Ejemplos de diferentes grados de correlación entre dos variables X y Y

21
Intervalos de confianza

Ejercicio 5.2
Recupere los datos del capítulo 3 sobre peso del recién nacido y semana de
gestación.
A) Mirando sus gráficos y la figura anterior, ¿qué correlación adivina entre ambas
variables? (a qué figura se parece más?)
B) Suponga que ha decidido estudiar sólo los partos a término ( 38 semanas):
¿cuál cree que es ahora el valor de la correlación?
C) Busque en R el comando para obtener el coeficiente de correlación y obténgalo
para las preguntas A y B (recuerde que puede seleccionar casos mediante, por
ejemplo, el comando subset(data.frame, concidición lógica), en este caso
subset(births,births$gestwks>=38)).
D) ¿Por qué cree que han dado diferente las correlaciones para las 2 situaciones
anteriores?

Recuerde
Si reduce la “ventana” de su estudio restringiendo una variable, disminuirá su
variabilidad y las posibilidades de observar relación con otras variables.

El IC95% del coeficiente de correlación lineal se puede estimar de diferentes maneras aunque lo más
habitual es hacerlo mediante la transformación de Fisher.

Recuerde

El Intervalo de Confianza de (1-α)% del coeficiente de correlación (ρ) se obtiene


mediante una fórmula de la que sólo debe recordar que genera intervalos
asimétricos y permite usar la D. Normal..

Nota: la transformación de Fisher es:

Usaremos R para obtener e interpretar los resultados.

Ejemplo de R
# Consideramos las dos variables X y Y
> X<-c(23.05,39.06,21.72,24.47,28.56,27.58)
> Y<-c(20.91,37.21,19.29,19.95,25.32,24.07)
# Coeficiente de correlación y su IC95%
> cor.test(X,Y)

22
Bioestadística para no estadísticos

Pearson's product-moment correlation


data: X and Y
t = 14.0386, df = 4, p-value = 0.0001494
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9078685 0.9989555
sample estimates:
cor
0.9900039

Ejemplo 5.1 (cont. del ejemplo anterior de R): Hemos obtenido una estimación puntual del
coeficiente de correlación muy alta, r=0.990. Además, bajo la premisas de MAS, sabemos
que , el auténtico coeficiente poblacional de correlación, es algún valor comprendido
entre 0.908 y 0.999. Nótese la gran asimetría del intervalo alrededor de 0.990.

Ejercicio 5.3
A) Calcule, con R, el IC del coeficiente de correlación para las muestras:
YA = 23.1 39.3 21.3 24.5 28.6 25.4
YB = 20.6 37.2 19.4 18.5 24.9 24.1

B) Dibuje su gráfico bivariante según las instrucciones vistas en el capítulo 3.

5.1. Variabilidad compartida: correlación intraclase*


En el caso de datos apareados, ambas variables están en la misma escala y puede recurrirse al
Coeficiente de Correlación Intra-clase (ICC), Se asume que las unidades tienen dos tipos de
variabilidades. Una que comparten ambas determinaciones y que diferencia unos individuos de
2
otros: variabilidad entre-casos ( E) —o también, idiosincrasia: aquello que es propio de una
unidad. La otra, la no compartida, contiene lo que no se repite, como podrían ser los errores de
medida o las variaciones temporales dentro del individuo, muchas veces denominada, variabilidad
2
intra-caso ( I). ICC es simplemente la proporción de variabilidad compartida:

Recuerde
ICC distingue 2 fuentes de variabilidad.

23
Intervalos de confianza

A diferencia de la correlación r de Pearson, ICC solo puede tomar valores entre 0 y 1.

Nota: En el caso de datos apareados, tiene sentido rechazar correlaciones negativas, en las que, al
repetirse la determinación, un caso se parecería menos a sí mismo que a los otros: para 2 determinaciones
de una misma variable en la misma escala ambos coeficientes coinciden.

En el caso de sólo 2 repeticiones, ICC puede obtenerse a partir de la correlación r de Pearson.

Ejemplo 5.2 (cont del Ejemplo 4.1): Obtuvo una estimación puntual del coeficiente de
correlación muy alta, r=0.990. Al haber sólo 2 repeticiones, puede interpretar como ICC.
Existe una gran repetibilidad de los valores. El análisis de datos apareados, al hacer la
diferencia entre ambas variables, elimina la variabilidad compartida, entre-casos, 2E, y el
análisis de datos apareados será más preciso, con un error típico e estimación mucho
menor.

Lectura: extendido a más de 2 determinaciones, el ICC valora el grado de similitud entre los k casos
pertenecientes a un grupo.

Recuerde

ICC extiende el coeficiente r a más de 2 determinaciones.

6. IC de la probabilidad
Una variable dicotómica, se puede resumir como el hecho de padecer o no cierto acontecimiento
adverso (AA), definida mediante la proporción P de pacientes que lo han experimentado. La
proporción P de la muestra estima la probabilidad poblacional de que un nuevo paciente de las
mismas características presente dicho AA.

Población Muestra
Probabilidad Proporción
π P

Tabla 6.1. Nomenclatura para probabilidad y proporción

Nota: P es un estimador insesgado de : E(P) = . Y es convergente, ya que su varianza disminuye al


aumentar el tamaño muestral: V(P) = ·(1- )/n.

6.1. Método para muestras grandes


Si el tamaño muestral lo justifica, es cómodo recurrir a la aproximación a la Normal (mediante la
binomial) de la distribución del estimador P, P~ N ( , ·(1- )/n )

24
Bioestadística para no estadísticos

Definición
El error típico del estimador P cuantifica su distancia esperada al parámetro π y

vale .

Ejercicio de Navegación
Observe que la aproximación de la Binomial a la Normal es tanto mejor cuanto
mayor es el número de observaciones y más alejado de 0 y de 1 está el valor de .

Nota: Observe que, en una binomial, dará los mismos resultados estimar la probabilidad de éxito, que
su complementario, la probabilidad 1- de fracaso. O de la proporción poblacional de hombres y
mujeres. Por ello, y 1- tienen un papel simétrico, por lo que la condición de que no sea muy pequeña
también aplica a 1- .

Utilizando la Normal, el cálculo del IC es casi idéntico al de .

Fórmula
El IC (1-α)% de una probabilidad (π) es:

Recuerde
Se aceptan como condiciones de aplicación de la aproximación Normal que el
tamaño muestral sea grande y las probabilidades y 1- no extremas:
·n 5 y (1- )·n 5

Note la situación circular: ¡para estimar el intervalo de π es necesario conocer π! Hay dos posibles
soluciones. La primera viene de que el producto ·(1- ) tiene un máximo cuando = 0.5 = 1-
(Tabla 6.2).
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1- 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
(1- ) 0.09 0.16 0.21 0.24 0.25 0.24 0.21 0.16 0.09
Tabla 6.2 . Ilustración de que el máximo de π·(1-π) es para π = 0.5.

Se puede, por tanto, adoptar una actitud conservadora y decir que, en una muestra de tamaño n, la
dispersión del estadístico P vale, como mucho:

25
Intervalos de confianza

Por lo que el cálculo del IC1-α de es:

Fórmula

La segunda solución consiste en sustituir por p, tal como se hizo con ² por S². Ahora, el cálculo
del IC1- de es:

Fórmula

Recuerde
En el IC95% de , en lugar de , se emplea, o bien 0.5, o bien P:
IC1- ( ) = P Z /2 p= P Z /2 [0.5·(1-0.5)/n]
IC1- ( ) = P Z /2 p= P Z /2 [P·(1-P)/n]

Ejemplo 6.1: Se lanza 100 veces una moneda al aire y se observan 56 caras.
Según el primer método:

Y de acuerdo con el segundo:

Ambos métodos conducen a un intervalo muy similar (idéntico hasta el segundo decimal).
Interpretamos que, con una confianza del 95%, la probabilidad de cara es uno de los
valores comprendidos entre 0.46 y 0.56.

26
Bioestadística para no estadísticos

Nota: Se da esta coincidencia de resultados porque, en este ejemplo, p se encuentra muy cerca de 0.5, su
máximo. Si se estuviera estimando un fenómeno más raro, con una alejada de 0.5, la concordancia entre
ambos procedimientos sería menor.

Nota: Puede decirse que (0.5·0.5/n) = 0.5/ n es el valor del error típico de p en la situación de máxima
indeterminación. Tiene la ventaja de que, dado cierto tamaño muestral, se dispone del mismo valor para
cualquier variable dicotómica que desee estimar. Por lo tanto, en una encuesta con muchas preguntas o en
una variable con varias categorías (por ejemplo, en la intención de voto) puede usar el mismo valor de P
para cada una de ellas.

Ejemplo de R
# La instrucción prop.test propociona el IC para pi
> prop.test(56,100)
1-sample proportions test with continuity correction
data: 56 out of 100, null probability 0.5
X-squared = 1.21, df = 1, p-value = 0.2713
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4573588 0.6579781
sample estimates:
p
0.56

Nota: Hay una pequeña diferencia entre la fórmula que emplea R y el cálculo anterior que no debe
preocupar al estudiante. Los ejercicios de e-status dan ambas respuestas como buenas. El método clásico
(la fórmula explicada) sólo funciona para 'n' muy grande, mientras que el método que proporciona R
(prop.test, basado en el “Wilson score method”) funciona bien en general, incluso para tamaños de pocas
decenas.

Ejercicio 6.1
Dispone de una población, pongamos que infinita, de preguntas tipo test. Para un
examen se seleccionan al azar 30 preguntas y un alumno contesta bien 18 de ellas.
Como el interés del evaluador es conocer la proporción de preguntas de la
población conocidas por este alumno (no de esta muestra de 30 preguntas)¿qué
sabe sobre la proporción poblacional de preguntas que conoce el alumno?

Ejercicio 6.2
En un mega-ensayo, de los primeros 160 pacientes incluidos, 34 presentan una
infracción mayor del protocolo en la primera visita. Calcule, con R, el IC95% de la
probabilidad de que un paciente tenga esta condición.

27
Intervalos de confianza

Ejercicio 6.3
¿Qué amplitud máxima tiene el IC95% ( ) de la proporción de pacientes con AA si
n=100? ¿Y si n=400? ¿Y si n=2500? ¿Y si n=10000?

Ejercicio 6.4

¿Qué relación hay entre la amplitud del IC95%de y el tamaño muestral n? Si


quiere reducir la amplitud del intervalo a la mitad, ¿cuánto debe aumentar ‘n’?

Ejercicio 6.5
De un total de 100 médicos, 40 prescriben cierto fármaco. Calcule el IC 95% de la
proporción poblacional de médicos que lo prescriben. ¿Algún comentario sobre
cómo deberían haber sido seleccionados estos médicos?

Ejercicio 6.6
Situándonos en el caso de mayor variabilidad o incertidumbre ( =1- =0.5),
¿cuántos casos se necesitan para...
... estimar una proporción con un error típico de 0.05?
... estimar una proporción con un IC95% de amplitud total de 0.05?

6.2. Método para muestras pequeñas


También se puede calcular el IC95% ( ) mediante un cálculo exacto basado en la Binomial.

Recuerde
También en muestras pequeñas puede obtener de R el IC95% de .

Ejemplo 6.2: Auditando la calidad de la documentación de las historias clínicas,


observamos 8 de 10 programas que sí que cumplían con todas las normas de calidad. ¿Qué
sabemos sobre la auténtica probabilidad de que la historia clínica esté bien
documentada? No hacen falta muchos cálculos para saber que no puede ser 0. Ni
tampoco 1. Veamos qué otros valores pueden ser razonables y cuáles no. Si asumimos que
=0.8, la probabilidad de observar X=8 en una muestra de n=10 vale:

P[X=8|X~B(10,0.8)] = =0.302 [dbinom(8,10,0.8)]

Por tanto, π=0.8 parece un valor razonable. Ahora bien, si fuera 0.3:

28
Bioestadística para no estadísticos

P[X=8|X~B(10,0.3)] = =0.001 [dbinom(8,10,0.3)]

Y la de observar 8 o más sería:

[1 - pbinom(7,10,0.3)]
Por lo tanto, =0.3 no es un valor razonable.
Podemos proponer como valores poco ’razonables’ aquellos para los cuales la probabilidad
de observar 8 o más observaciones NO alcanza el valor deseado. Por ejemplo:
Límite Inferior del tal que cumpla que:

Límite Superior del tal que cumpla que:

Es decir, 0.444 y 0.975 son valores del parámetro que hacen poco probables (<0.05)
muestras con 8 observaciones (o más extremas). Por tanto, el IC95% del parámetro va de
0.444 a 0.975:
IC95%( ) = [0.444, 0.975]
En otras palabras: habiendo observado 8 de 10 historias con una documentación perfecta,
lo único que podemos garantizar (con un riesgo =0.05) es que la auténtica probabilidad
de que una historia de este programa esté bien documentada es algún valor entre 0.444 y
0.975.
Notemos la gran amplitud de este intervalo, resultado de un tamaño muestral pequeño para
una variable dicotómica. Lo que hace más relevante el IC95%.

Recuerde
En muestras pequeñas aún es más importante reflejar la incertidumbre y
proporcionar el IC95% de .

Ejemplo de R
# IC95% exacto para con 8 éxitos de 10 observaciones
> binom.test(8,10,conf.level = 0.95)
Exact binomial test
data: 8 and 10
number of successes = 8, number of trials = 10, p-value = 0.1094
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4439045 0.9747893

29
Intervalos de confianza

Nota: El método de R “binom.exact” es apropiado para cualquier 'n' (¡incluso para n=2!) pero es costoso
en tiempo de ejecución para 'n' grandes. Por lo que en ese caso es mejor usar el método “prop.test”
(Wilson score method).

Ejercicio 6.7.
Suponiendo en el ejemplo 6.2 que de los 10 programas estudiados, sólo 2
cumplían con las normas de calidad, encontrar el IC95% para mediante un
cálculo exacto basado en la Binomial. Comparar con el anterior e interpretar: ¿son
complementarios?

7. IC de medidas de riesgo en tablas 2x2

7.1. Diferencia de proporciones (Riesgos)*


Se definió la diferencia de riesgos como la diferencia entre la probabilidad de que un caso expuesto
al factor desarrolle la enfermedad y la misma probabilidad en un caso no expuesto al factor
(diferencia de riesgo entre expuestos y no expuestos).

Ejemplo 7.1: Recuerde la siguiente tabla en la que la estimación muestral p de la


probabilidad en los expuestos era 5.3% [P(Y+|X+) = 7 / 132 0.053] mientras que en los
no expuestos era 0.9% [P(Y+|X-) = 8 / 868 0.009].

Y+ Y- Total
X+ 7 125 132
X- 8 860 868
Total 15 985 1000
Tabla 7.1 Presencia de la enfermedad Y y el factor de riesgo X en 1000 casos.

La diferencia entre 0.053 y 0.009 es 0.044, es decir, expresado en porcentajes, un 4.4%.

Fórmula
El Intervalo de Confianza de (1-α)% de la DR es:

Nota: Como en el caso de la diferencia de medias en muestras independientes, la imprecisión de la


diferencia de las proporciones es la suma de las imprecisiones de ambas proporciones.

30
Bioestadística para no estadísticos

El requisito para poder aplicar esta fórmula es que el tamaño muestral sea grande. Por dar unas
cifras “mágicas” de referencia, las frecuencias de las celdas de la tabla 2x2 deberían ser superiores a
3 y el tamaño total de la tabla, a 100.

Recuerde
Para poder aplicar la fórmula se requiere:
(i) Celdas con más de 3 efectivos
(ii) Tamaño muestral superior a 100

Ejemplo 7.2: En los datos del ejemplo, el IC95%(RA) es

Y se concluye, por tanto, que los expuestos al factor tienen un riesgo entre 0.5% y 8.3%
superior.

Nota: Para evitar el uso de frases con connotación causal, no hemos dicho “la exposición aumenta el
riesgo entre un 0.5% y un 8.3%” .

Y+ Y- Total
X+ 94 38 132
X- 215 653 868
Total 309 691 1000
Tabla 7.2 Datos para los ejercicios 7.1, 7.2 y 7.3.

Ejercicio 7.1
Con los datos de la Tabla 7.2, calcule el IC95% (DR)

31
Intervalos de confianza

7.2. Riesgo relativo (RR)*


Se definió el riesgo relativo como el cociente entre las probabilidades de desarrollar la enfermedad;
los expuestos dividida por la de los no expuestos (razón entre riesgo en expuestos y riesgo en no
expuestos).

Ejemplo 7.3: Siguiendo con los datos de la Tabla 7.2, la razón entre 0.053 y 0.009 vale
5.7538, es decir, que el riesgo relativo observado es casi 6 veces superior en los expuestos.

Fórmula

El Intervalo de Confianza de (1-α)% del RR (o cociente de probabilidad) es:

Recuerde
El requisito para aplicar esta fórmula es, como antes, tamaño muestral grande.

Nota técnica: Este cálculo es ahora más complejo. Dada la asimetría del RR (que oscila entre 0 y 1 para
riesgos inferiores en los expuestos y entre 1 e infinito para riesgos superiores) es preciso hacer
previamente la transformación logarítmica natural (neperiana) para poder aprovechar la simetría
resultante. La varianza del logaritmo del RR tiene ahora la misma interpretación en cualquier sentido.

Nota técnica: La fórmula de la varianza del logaritmo del RR no es inmediata. Es la suma de las
varianzas de los logaritmos de las proporciones que son, a su vez, la varianza de la binomial dividida por
el cuadrado de la proporción.

Ejemplo 7.4: En los datos del ejemplo, el RR=5.7538


Log(RR) = Log(5.7538) = 1.7499

32
Bioestadística para no estadísticos

Así, se puede afirmar que el valor de log(RR) aumenta entre 0.75 y 2.75, lo que resulta
prácticamente imposible de interpretar: ¿Qué significa un aumento de log(RR) igual a
2.75? Para facilitar la interpretación se deshace el logaritmo:

Por lo que se concluye que los expuestos tienen un riesgo que es entre 2.1 y 15.6 veces
superior: sea cual sea el riesgo en los no expuestos, en los expuestos, éste es entre 2.1 y
15.6 superior.
Nótese que el intervalo del RR es claramente asimétrico alrededor de la estimación puntual
5.75.

Nota: Una vez más para disminuir la connotación causal, hemos evitado en la frase verbos como
‘aumenta’ o ‘multiplica’: “la exposición al factor aumenta el riesgo entre 2.1 y 15.6 veces” o “el hecho de
estar expuestos multiplica el riesgo entre 2.1 y 15.6 veces”.

Ejercicio 7.2
Con los datos del Ejercicio 7.1 calcule el IC del RR

7.3. Odd ratio (OR)*


Se definió el odds ratio como el cociente entre las odds (o razones sí/no) de desarrollar la
enfermedad entre los expuestos y los no-expuestos.

Ejemplo 7.5: Siguiendo con los datos de la Tabla 7.2, las odds son 0.056 y 0.009 y su
razón vale 6.0200, es decir, que la razón enfermo/sano es 6 veces superior en los
expuestos.

Como con el riesgo relativo, la asimetría del OR aconseja emplear la transformación logarítmica.

Fórmula
El Intervalo de Confianza de (1-α)% del OR (o cociente de momios) es:

Donde a, b, c y d representan los 4 valores de la tabla 2 x 2

Nota técnica: El IC del OR se obtiene asumiendo estimaciones de Poisson independientes en las 4 celdas.

33
Intervalos de confianza

Recuerde
El requisito para aplicar esta fórmula es, otra vez, tamaño muestral grande.

Ejemplo 7.6: En los datos del ejemplo, el OR= (7/125)/(8/860)= 6.0200


Log(OR) = Log(6.0200) = 1.7951

Y para facilitar la interpretación se deshace el logaritmo:

Por lo que se concluye que los expuestos tienen una razón enfermo/sano que es entre 2.1 y
16.9 veces superior.

Lectura: Como siempre, se ha evitado hablar de efecto causal con frases como “el factor multiplica la
razón enfermo / sano entre 2.1 y 16.9 veces”.

Nota: Observe que los IC del RR y del OR son muy similares. Recuerde que esto ocurre con eventos
raros, como es el caso, donde la proporción de enfermos es muy baja en los 2 grupos.

Lectura: Serra-Prat M. Si agrupamos las distintas categorías de la variable origen en dos categorías
(autóctonos e inmigrantes), observamos una asociación estadísticamente significativa entre el déficit de
yodo y el origen; OR = 2.88; IC95%: [1.33 , 6.12].

Ejercicio 7.3
Con los datos del Ejercicio 7.1 calcule el IC95% del OR

7.4. Cálculo con R de los IC de DR, RR y OR


Los IC de las 3 medidas de asociación más usuales para dicotomías se obtienen con R.

Ejemplo de R
# IC95% mediante la funcion epi2x2 del package epibasix
> install.packages('epibasix')
> library(epibasix)
> tabla <- matrix(c(7,125,8,860),2,2,byrow=T) # Tabla 7.2
> results <- epi2x2(tabla)
> attach(results)

34
Bioestadística para no estadísticos

# CIL=Confidence Interval Lower; CIU=Confidence Interval Upper


# rdCo=Risk Difference
# Estimación puntual e IC para la DR
> rdCo;rdCo.CIL;rdCo.CIU
[1] 0.04381371
[1] 0.0006959811
[1] 0.08693145

# Estimación puntual e IC para el RR


> RR;RR.CIL;RR.CIU
[1] 5.753788
[1] 2.121543
[1] 15.60471

# Estimación puntual e IC para el OR


> OR;OR.CIL;OR.CIU
[1] 6.02
[1] 2.145785
[1] 16.88911
> detach(results)

Lectura: Los intervalos de confianza son el método de inferencia más relevantes y fácilmente
comunicables. Las revistas biomédicas más importantes aconsejan basar la presentación de los resultados
del estudio en intervalos de confianza. En el ítem 17b de la guía CONSORT (Figura 7.1) puede encontrar
con más detalle el porqué de la presentación de los resultados en intervalos de confianza. Este ítem
recomienda reportar a la vez una medida basada en diferencias (el RA) y otra basada en cocientes (OR o
RR) ya que ninguna por separado aporta una visión completa del efecto y sus implicaciones.

Figura7.1. Modelo de Consort para presentar los resultados de dicotomías.

Ejercicio 7.4
Pongamos que se define el Fracaso Escolar (FE) como el hecho de no terminar los
estudios dentro del plazo previsto más un año de margen (posibles valores:
SÍ/NO). Se dispone de un posible predictor dicotómico de FE: notas de entrada
superiores (S) o inferiores (I) a la media de dicho centro.
a) Invente una tabla 2x2 que muestre relación entre FE y notas.

35
Intervalos de confianza

b) Calcule las 3 medidas y sus IC95% con R.

Ejercicio 7.5
El comité de cierta empresa solicita una compensación económica para los
empleados que pasan mucho tiempo delante del ordenador, alegando que este
hecho genera Enfermedades de la Columna Vertebral (ECV). Vd forma parte del
equipo que debe pronunciarse sobre este tema. Han recogido información sobre
ECV en todos los trabajadores de la empresa y comparan los datos de aquellos
que pasan más de 25 horas a la semana delante del ordenador con los que pasan
menos de 10 horas. Los datos figuran en la tabla siguiente:

ECV+ ECV-
25 111 87
10 231 261

a) Vd debe elegir entre una medida de asociación para comparar los riesgos de
ambos grupos. A partir de la nota técnica final del apartado 4.2, ¿qué implican
los modelos aditivo y multiplicativo que subyacen detrás de la diferencia de
riesgos y del riesgo relativo?
b) Calcule el RA.
c) Calcule el RR.
d) Finalmente han decidido utilizar la medida de asociación más habitual: el odds
ratio. Calcúlelo con R junto con su IC95%.
e) Interprete el resultado anterior. En concreto, ¿se sostiene que la probabilidad de
ECV es la misma en ambos grupos?

Ejercicio 7.6
En la tabla figuran datos de Bishop et al. sobre la promulgación de la pena de
muerte (P: SI/NO) en función de la raza (Blanco/negro) del acusado (A) y de la
víctima (V). Construya la tabla para estudiar la relación entre la pena y la raza de
la víctima sin tener en cuenta la raza del acusado. Estime con R el IC95% del
odds ratio. Interprete el resultado.

36
Bioestadística para no estadísticos

Pena de muerte: SÍ Pena de muerte: NO


A:Blanco A:Negro A:Blanco A:Negro
V:Blanco 19 11 V:Blanco 132 52
V:Negro 0 6 V:Negro 9 97

37
Intervalos de confianza

Soluciones a los ejercicios.


2.1. (Redondeamos al entero superior para obtener la amplitud deseada “o superior”)
. > pchisq(1,df=3)
[1] 0.198748
> pchisq(3,df=3)
[1] 0.6083748
P(1≤X≤3) = P(X ≤3) - P(X ≤1) = >pchisq(3,df=3) - pchisq(1,df=3)
[1] 0.4096268

2.2. . P(X > 1.796) = 0.05

.>pt(q=1.796,df=12,lower.tail=FALSE)

[1] 0.04884788

2.3 La amplitud del intervalo es lo que en la fórmula va detrás del “ ”. Por ello, la amplitud depende de 3 valores: Z /2,

y n. Por el enunciado, no podemos cambiar la confianza y por tanto Z /2 deberá quedar igual. Así pues, sólo

disponemos de y de ‘n’ para hacer más estrecho el intervalo. Podríamos disminuir controlando sus fuentes de
variación, pero por ahora centrémonos en ‘n’. Como ésta dentro de una raíz cuadrada, para conseguir que el IC95%
sea la mitad de amplio, hay que multiplicar por 4 el tamaño muestral.

2.4 Debemos cambiar el valor 1.96 por 2.576 obtenido de R:


>qnorm(p=0.995)
[1] 2.575829
IC99%( ) = X Z0.995 / n =5 2.576 · 1/ 9 = 5 2.576 /3 [4.14, 5.86]

2.5 No puede saberse si uno concreto contiene . Si se repite indefinidamente el proceso, el (1- )% de las ocasiones
contendrá , pero no se puede saber para cada vez.

2.6 La respuesta correcta es la c), ya que el IC se hace alrededor de la media muestral observada X para tener una alta

confianza de contener a la (única) media poblacional desconocida. [‘a’ es falsa porque sólo hay 1 media

poblacional; ‘b’ porque sólo sería cierto si, por azar, X=μ, lo que tienen una probabilidad prácticamente nula (0 en
caso de continuas); y ‘d’ porque siempre incluye a la media muestral en que se basa.]

2.7 El IC se no hace referencia a los casos, sino a los parámetros desconocidos, por ello, las respuestas posibles son la
c) o la d), si bien es más correcto formalmente hablar de confianza que de probabilidad (lea la “nota” que sigue al
ejercicio para más explicaciones).

2.8 a) Si / n =12 y =120 n=100


b) Si Z0.975 / n =12; 1.96·120/ n = 12; n = (1.96·120/12)² =384.16 n=385
c) Si Z0.975 / n = 6; 1.96·120/ n = 6; n = (1.96·120/6)² =1536.64 n=1537

38
Bioestadística para no estadísticos

2.9 Dado que la muestra es de 100 casos, no es necesario preguntarse si GOT es Normal (lo que es una suerte, ya que
GOT son positivas, por lo que una desviación típica mayor que la media implicaría valores negativos en una
distribución simétrica como la Normal).
> qt(p=0.025,df=99)
[1] -1.984217

IC95%( ) = X t99,0.975 S/ n 80 1.98 · 120/ 100 80 24 [56, 104]

3.1. Cálculo de S2 y S:
#Con R, el intervalo de la varianza ( es
> muestra <- c(2,3,4,5)
>IC_var(muestra,0.95)
[1] 0.5348507 23.1701080
#Y, el intervalo de confianza de la desviación típica ( ) es
>sqrt(IC_var(muestra,0.95))
[1] 0.7313349 4.8135338

4.1. a) Muestras independientes  IC95% = [-5.39 , 11.29]


> YA<-c(23.05,39.06,21.72,24.47,28.56,27.58)
> YB<-c(20.91,37.21,19.29,19.95,25.32,24.07)
>t.test(YA,YB,var.equal = TRUE)
[…]
95 percent confidence interval:
-5.39087 11.28754
[…]

b) Muestra sapareadas IC95% = [1.90 , 4.00]


>t.test(YA,YB,paired=TRUE)
[…]

95 percentconfidenceinterval:
1.898994 3.997673
[…]

c) Comparación de los errores estándar. En el caso de muestras apareadas, el error estándar es mucho más pequeño
(0.41 vs. 3.74)
> # Error típico para muestras independientes
>var_pooled<-(var(YA)*5+var(YB)*5)/10
>errortip_ind<-sqrt(var_pooled*(1/6+1/6))
>errortip_ind
[1] 3.742676
> # Error típico para muestras apareadas
>var_apa<-var(YA-YB)
>errortip_apa<-sqrt(var_apa/6)

39
Intervalos de confianza

>errortip_apa
[1] 0.4082109

5.1 Se convierte en la varianza de X: al cambiar Y por X, la X aparece 2 veces y queda SX2.

5.2 a) >install.packages('Epi')

>library(Epi)

>data(births)
>plot(births$gestwks~births$bweight, main="Peso del bebé en función de la
gestación",

xlab="Peso del bebé (g)",ylab="Semanas de gestación")

Peso del bebé en función de la gestación


40
Semanas de gestación

35
30
25

1000 2000 3000 4000

Peso del bebé(g)

Observe que a la figura a la que más se asemeja es r=0.75

b) #Seleccionamos sólo los tiempos de gestación ≥38 semanas


>births2<-subset(births,births$gestwks>=38)

>plot(births2$gestwks~births2$bweight, main="Peso del bebé en función de la


gestación (>38 semanas)",

xlab="Peso del bebé (g)", ylab="Semanas de gestación")

40
Bioestadística para no estadísticos

Ahora la más parecida es r=0.25

c) El comando a utilizar es cor(x,y)


>cA<-cor(births$bweight,births$gestwks,use="pairwise.complete.obs")
> cA
[1] 0.7122162
>cB<-cor(births2$bweight,births2$gestwks, use="pairwise.complete.obs")
> cB
[1] 0.2896377

Nota: si pide que R le muestre el data.frame births, verá que hay algunas variables de interés (las utilizadas para el
cálculo de correlación) que contienen NA’s; con el argumento ‘use="pairwise.complete.obs" ’ le
indicamos que calcule el coeficiente de correlación sólo con aquellos individuos que no contengan NA’s en estas
variables.

d) Observe en el gráfico que la impresión de relación viene sobre todo por los valores del cuadrante inferior
izquierdo: son los bebés muy pre-término los que muestran un peso menor y marcan más la relación. Al eliminarlos,
baja el valor de r. En el caso extremo que reduzcamos las semanas de gestación a un único valor, no tendríamos
variabilidad en esta variable, no podríamos distinguir los casos por la duración de la gestación y no podríamos mirar
si los de más semanas pesan más: su correlación sería 0.

5.3 a) El IC95%para ρ es [0.739, 0.997]


>YA<-c(23.1,39.3,21.3,24.5,28.6,25.4)
>YB<-c(20.6,37.2,19.4,18.5,24.9,24.1)
>cor.test(YA,YB)$conf.int
[1] 0.7389701 0.9967569
b) > plot(YA~YB, main="Gráfico bivariante")

6.1. IC95%( ) = P Z /2 [P(1-P)/n] ) = P Z /2 [0.6·0.4 /30] ) 0.60 0.18 = [0.42, 0.78]


Parece que, con 30 preguntas, se sabe, de este alumno, menos de lo que parecía: sólo se sabe que la proporción
poblacional de preguntas que conoce este alumno es algún valor entre el 42 y el 78%. Si descontamos la influencia
del azar, podemos afirmar que este alumno sabe entre un 42 y un 78% de las preguntas. [Recuerde la premisa de

41
Intervalos de confianza

independencia de las observaciones: si algunas preguntas estuvieran relacionadas, el intervalo de incertidumbre


sería aún mayor.]

[Condiciones de aplicación: 0.42·30 = 12.6>5 y (1-0.78)·30 = 6.6>5]

Como ya se ha dicho, el método de R garantiza mejor cobertura en muestras pequeñas


>prop.test(18,30)
[…]
95 percent confidence interval:
0.4075022 0.7677666
[…]

6.2. IC95%( )= P Z /2 [P(1-P)/n] )=0.212 Z /2 [0.212·0.788/160] ) 0.212 0.0634 [0.1491, 0.2759] [15%, 28%]
[Condiciones de aplicación: 0.15·160 = 24 >5]

Con R:
>prop.test(34,160)
[…]
95 percent confidence interval:
0.1535181 0.2856165
6.3. Amplitud máxima IC95% 1.96 [0.5·0.5/n]
a) n=100 1.96 [0.5·0.5/100] = 1.96·0.05 = 0.098 10%
b) n=400 1.96 [0.5·0.5/400] = 1.96·0.025 = 0.049 5%
c) n=2500 1.96 [0.5·0.5/2500] = 1.96·0.01 = 0.0196 2%
d) n=10000 1.96 [0.5·0.5/10000] = 1.96·0.005 = 0.0098 1%

6.4. La amplitud del intervalo es inversamente proporcional a la raíz del tamaño muestral. Como en el caso de la media
muestral, para disminuir la incertidumbre a la mitad, es necesario aumentar el tamaño muestral cuatro veces.

6.5. IC95%( ) = P Z /2 [P(1-P)/n] ) = 0.40 Z /2 [0.40·0.60/100] ) 0.40 0.096 [0.304, 0.496] [30%, 50%]
[Condiciones de aplicación: 0.3·100 = 30>5]

Con R:
>prop.test(40,100)
[…]
95 percent confidence interval:
0.3047801 0.5029964
[…]
Debería ser una selección al azar. Y no lo ha dicho. Recuerde que el IC y el error típico de estimación sólo tienen
en cuenta los errores aleatorios, pero no los sistemáticos. Si la muestra no fuera al azar, los autores deberían
mencionar que, por la existencia de un sesgo impredecible, la incertidumbre es quizás mayor que la reflejada por el
intervalo.

6.6. Si P = (1- )/n = 0.5·0.5/n =0.05 n=100


Si Z0.975 P = 025; 1.96· 0.5·0.5/n = 0.025; n = (1.96·0.5/0.025)² =1536.64 n=1537

6.7. >binom.test(2,10,conf.level=0.95)$conf.int

[1] 0.02521073 0.55609546


El IC95% de [0.025, 0.556] es el complementario del hallado para 8 casos ya que 0.025=1-0.975 y 0.556=1-0.444.

42
Bioestadística para no estadísticos

7.1. IC95%(RA) = RA Z /2 [ P1·(1-P1)/n1 + P2·(1-P2)/n2] =


= 0.4644 1.96 [(0.712·0.288/132)+(0.248·0.752/868)]
= 0.4644 1.96·0.0420 = 0.4644 0,0824 = [0.3820, 0.5468] [38,2%, 54,7%]
Por lo que puede afirmarse que los expuestos al factor presentan entre un 38 y 55% más de riesgo.

7.2. RR=0.7121/0.2477=2.875 Log(RR) = 1.0560


IC95%log(RR) = Log(RR) Z /2 [(1-p2)/n2p2 + (1-p1)/n1p1]=
= 1.0560 1.96 [0.2879/132·0.7121 + 0.7523/868·0.2477]
= 1.0560 1.96·0.0810 = 1.0560 0.1588 =[0.8973, 1.2148]
IC95%(RR) = exp[IC95%log(RR)] = [e0.8973, e1.2148] [2.45 , 3.37]
Por lo que se concluye que los expuestos tienen un riesgo que es entre 2.45 y 3.37 veces superior.

7.3. En los datos del ejemplo, el OR = (94/38)/(215/653)= 7.5131 Log(OR) = 2.0166


IC95%log(OR) = Log(OR) Z /2 (1/a+1/b+1/c+1/d) =
= 2.0166 1.96 [1/94+1/38+1/215+1/653]
= 2.0166 1.96·0.2077 = 2.0166 0.4071 =[1.6096, 2.4237]
IC95%OR = exp[IC95%log(OR)] = [e1.6096, e2.4273] [5.0 , 11.3]
Por lo que se concluye que los expuestos tienen una razón enfermo / sano que es entre 5.0 y 11.3
veces superior.

7.4. a) La tabla muestra un posible ejemplo.

FE:NO FE: SÍ

PAU:S 200 10

b) Puede hallar los resultados con R con el siguiente código:


>install.packages('epibasix')
> library(epibasix)
>tabla<- matrix(c(200,10,100,100),2,2,byrow=T)
> results <- epi2x2(tabla)
> attach(results)
# Estimación puntual e IC para el RA
>rdCo;rdCo.CIL;rdCo.CIU
# Estimación puntual e IC para el RR
> RR;RR.CIL;RR.CIU
# Estimación puntual e IC para el OR
> OR;OR.CIL;OR.CIU
> detach(results)

7.5. a) Ambos parten del principio de que una proporción de casos desarrollan la ECV, independientemente de su
exposición al ordenador. Pero difieren en que la diferencia de riesgos considera que por el hecho de estar expuesto,
aparecen nuevos casos, diferentes a los anteriores, que desarrollan también la enfermedad. En cambio, el riesgo

43
Intervalos de confianza

relativo considera que el hecho de estar expuesto aumenta, en una cierta persona, la probabilidad de desarrollar
ECV. Es decir, en la diferencia de riesgos se ‘suman’ dos grupos de casos, mientras que en el relativo, lo que se
modifica es la probabilidad de cada caso.

b) RA = (111/(111+87)) - (231/(231+261)) 0.091

c) RR = (111/(111+87)) / (231/(231+261)) 1.194

d) OR = 111·261/(87·231) 1,442

ln(OR) 0.366

V(ln(OR)) = (1/111)+(1/261)+(1/87)+(1/231)= 0.029

SE(ln(OR)) 0.1693

IC95%ln(OR) = ln(or) 1.96· SE(ln(or)) (0.034, 0.698)

IC95% OR = exp(0.034, 0.698) (1.034 , 2.009)

e) No, dado que el IC excluye el valor de no relación, podemos rechazar la independencia entre el grado de
exposición al ordenador y la presencia de ECV. Otro tema es la relación causal, ya que se trata de un estudio
transversal y no puede distinguirse qué variable sigue a qué variable.

Puede hallar los resultados con R con el siguiente código:

>install.packages('epibasix')
> library(epibasix)
>tabla<- matrix(c(111,87,231,261),2,2,byrow=T)
> results <- epi2x2(tabla)
> attach(results)
#b) Estimación puntual (e IC) para el RA
>rdCo;rdCo.CIL;rdCo.CIU
#c) Estimación puntual (e IC) para el RR
> RR;RR.CIL;RR.CIU
#d) Estimación puntual e IC para el OR
> OR;OR.CIL;OR.CIU
#Forma logarítmica
>lnOR<-log(OR)
>varlnOR<-(1/111)+(1/261)+(1/87)+(1/231)
>SElnOR<-sqrt(varlnOR)
>LI<-log(OR)-1.96*SElnOR
>LS<-log(OR)+1.96*SElnOR
>IC<-c(exp(LI),exp(LS))
> detach(results)

7.6. En los datos globales, sin tener en cuenta otras variables, la disparidad “PENA MUERTE = SÍ/PENA MUERTE =
NO” es entre 1.16 y 7.15 superior cuando la víctima es de raza blanca que cuando lo es de raza negra.

44
Bioestadística para no estadísticos

Víctima Blanco Negro ln(OR) = ln(2.88) 1.06

Pena: SÍ 30 6 V(ln(OR)) = a-1 + b-1 + c-1 + d-1 =

= 30-1 +106-1+184-1+6-1 0.21


Pena:NO 184 106
IC95%ln(OR) 1.06±1.96 0.22 1.06±0.91 =[0.15,1.97]
OR=(30*106)/(184*6)=2.88
IC95%OR [exp(0.15), exp(1.97)] [1.16, 7.15]

[Nótese la simetría del intervalo en la escala logarítmica y su asimetría en la escala natural].

Puede hallar los resultados con R con el siguiente código:


>install.packages('epibasix')
> library(epibasix)
>tabla<- matrix(c(30,6,184,106),2,2,byrow=T)
>results <- epi2x2(tabla)
>attach(results)
># Estimación puntual
>OR;OR.CIL;OR.CIU
#Forma logarítmica
>lnOR<-log(OR)
>varlnOR<-(1/30)+(1/184)+(1/6)+(1/106)
>SElnOR<-sqrt(varlnOR)
>LI<-log(OR)-1.96*SElnOR
>LS<-log(OR)+1.96*SElnOR
>IC<-c(exp(LI),exp(LS))
>detach(results)

45
Intervalos de confianza

Tabla salvadora
La siguiente tabla le recuerda las fórmulas y comandos de R que proporcionan los IC estudiados.

No debe recordarlos, pero sí saber interpretar sus resultados.

Fórmula R

IC de desconocida t.test

IC de Función propia

IC de y t.test
desconocidas

Dónde:

IC de Muestras prop.test
grandes

Muestras binom.test
pequeñas

IC del RA epi2x2

(‘epibasix’)

IC del RR epi2x2

(‘epibasix’)

epi2x2

IC del OR (‘epibasix’)

a, b, c y d representan los 4 valores de la tabla 2 x 2

Recuerde que cuando no se cumplen las premisas de normalidad puede ser install.packages("bootstrap")
útil utilizar métodos no paramétricos o de remuestreo, como por ejemplo el library("bootstrap")
bootstrap

Tabla 7.3. Tabla resumen de las fórmulas vistas en este capítulo.

46
Capítulo 9:

Prueba de significación y
contraste de hipótesis
Erik Cobo, Jordi Cortés y José Antonio González
Laura Riba, Rosario Peláez, Marta Vilaró y Nerea Bielsa

Septiembre 2014
Bioestadística para no estadísticos

Prueba de significación y contraste de hipótesis

Presentación .......................................................................................................................................... 2
1..Objetivos de la inferencia estadística ........................................................................................... 3
2. Prueba de significación, PS ........................................................................................................... 3

2.1. Valor p.................................................................................................................... 5

2.2. Mecánica de la prueba de significación ................................................................. 6

2.3. Prueba de significación de una probabilidad ......................................................... 6

2.4. Prueba de significación de una media ( = H)..................................................... 10

2.5. El estadístico “ ” como cociente señal/ruido ....................................................... 14

2.6. Prueba de significación de la comparación de dos medias .................................. 14

2.7. Valor p frente a IC ............................................................................................... 16


3. Decisión: contraste de hipótesis, CH .......................................................................................... 20

3.1. Límites de significación ....................................................................................... 22

3.2. Errores tipo I y II. Riesgos α y ......................................................................... 23


4. Use intervalos de confianza ......................................................................................................... 25

4.1. IC, PS y CH * ....................................................................................................... 25

4.2. Interpretación errónea de p y α * ......................................................................... 26

4.3. Sólo el contraste de hipótesis permite “Aceptar H0” * ........................................ 28

4.4. Interpretación del CH * ........................................................................................ 30


5. Equivalencia ................................................................................................................................. 33

5.1. Sensibilidad de un estudio.................................................................................... 37

5.2 Margenes de equivalencia, no inferioridad y no superioridad ............................. 38


Soluciones a los ejercicios ............................................................................................................... 39
Tabla salvadora ................................................................................................................................ 44

* Indica tema más avanzado que no es crucial para los ejercicios, aunque el lector debe recordar que
aquí lo tiene —cuando lo necesite.

1
Prueba de significación y contraste de hipótesis

Presentación
Este capítulo formaliza la respuesta a dos preguntas diferentes pero relacionadas: “¿Qué sé?”
(inferencia) y “¿Qué hago?” (decisión). Se define la prueba y el nivel p de significación en el
entorno de la evidencia empírica o inferencia sobre conocimiento. Por su parte, los riesgos α y β y
el contraste de hipótesis se enmarcan en la decisión entre dos acciones alternativas Finalmente
distingue entre pruebas de diferencias y de equivalencia.

Al terminar este capítulo, el lector debe retener especialmente (1) la importancia de que las
hipótesis sean independientes de los datos en que se contrastan; (2) que las reglas lógicas que
gobiernan la adquisición de conocimiento y las que determinan la acción no son equivalentes; y (3)
el papel del IC en las revistas científicas, y el del contraste de hipótesis en las agencias de decisión.

Contribuciones: (1) la versión original de 2013 descansa en el libro de Bioestadística para No estadísticos
de Elsevier de EC, JAG y PM y en el material de la asignatura de PE de la FIB (UPC); fue editada por JC y
revisada por RP y MV; (2) la de febrero de 2014 fue revisada por LR, JC, EC y MV para incorporar
mejoras y sugerencias anónimas; y (3) la de septiembre de 2104 por NB y EC.

2
Bioestadística para no estadísticos

1. Objetivos de la inferencia estadística


A la vista de la información aportada por la muestra, las principales preguntas de la inferencia
estadística son: (1) ¿qué valores del parámetro son creíbles?; (2) ¿se puede negar cierto valor del
parámetro? Y, (3) a partir de ahora, ¿qué hago? La primera, mediante intervalos de confianza, se
resolvió en el tema anterior; las 2 últimas se exponen en éste.

La pregunta que responden los intervalos de confianza (¿qué valores son creíbles?) engloba, de
alguna manera, a la pregunta de la prueba de significación (¿se puede negar cierto valor?). Los
intervalos de confianza aportan más información y son más fáciles de entender, asimilar y explicar.
¿Qué interés ofrece, entonces, poner a prueba una hipótesis? Pues quizás, que puede ser la auténtica
pregunta de interés.
Ejemplo 1.1: saber si un fármaco es más eficaz que otro puede reducirse a conocer si la
diferencia de sus medias en la respuesta de interés es o no es exactamente el valor 0. Por
tanto, poder negar el valor 0, implica haber demostrado que un producto es más eficaz que
otro.

La pregunta sobre una hipótesis la aborda la inferencia estadística (“¿qué sé?”) en la Prueba de
Significación, PS, o valor de p.

La pregunta sobre la acción futura (¿qué hago?) la aborda la decisión estadística en el contraste de
hipótesis, CH, acotando los riesgos alfa y beta de emprender acciones erróneas (tipo I y II).

2. Prueba de significación, PS
Se desea poner a prueba una hipótesis previa H confrontándola con los datos.
Ejemplo 2.1: desde hace un tiempo, un residente se juega a cara y cruz las guardias que
coinciden con las fiestas familiares. Su compañero lanza su moneda y... ¡siempre gana! Un
día, el primero decide estudiar formalmente si la moneda está apañada. Así, el problema
consiste en analizar si podemos descartarla hipótesis:
H: = 0.5 (moneda correcta)
Donde representa la probabilidad de cara que se desea negar.
Lanzar n=100 veces la moneda y observar la proporción P de caras, proporcionará
“evidencia” empírica. Suponga que observa P=0.63. Este resultado invita a creer que la
moneda está “cargada”: que no es cierto que =0.5. En cambio, si el resultado fuera P=0.52,

3
Prueba de significación y contraste de hipótesis

se consideraría “compatible” con que la moneda no esté cargada. Cuanto más se aleje P de
0.5, más información en contra de H.

Hay que considerar la aleatoriedad del proceso. Es posible que una moneda perfecta, no cargada,
genere una observación de 63 caras en 100 lanzamientos. Y, de forma recíproca, también es posible
que una moneda con probabilidad de cara de 0.6 genere una muestra con un 50% de caras.

Nota: Se podría abordar el problema desde un punto de vista físico y, dando por bueno (‘premisas’) el
conocimiento actual de esta ciencia, estudiar la composición de la moneda, su centro de gravedad, su
circunferencia,... Ahora bien, sea cual sea su respuesta, siempre conviene estudiar qué dicen las
observaciones, no sea que convenga revisar el modelo teórico.
La hipótesis H establece una condición sobre el parámetro poblacional que se desea negar . Esta
información se “condensa” en un estadístico apropiado, que fluctúa aleatoriamente. Cuando H es
correcta, la distribución es conocida, y el estadístico se localizará de forma previsible en una zona
determinada por H. Y cuanto más lejos se aleje el estadístico de dicha zona, más credibilidad gana
la posibilidad de que proceda de otra distribución con un parámetro distinto al de H.

Ejercicio 2.1
En una prueba de significación (elija una):
a) Se desea conocer el valor de cierto parámetro
b) Se construye una hipótesis sugerida por los datos
c) Se busca “evidencia” (pruebas) a favor de la hipótesis H que se desea
demostrar que es cierta
d) Ninguna de las anteriores es correcta

Ejercicio 2.2
Vd. desea aportar evidencia de que un nuevo tratamiento es mejor que uno
clásico. Escriba la hipótesis H:
a) H: el nuevo tratamiento no es mejor que el clásico
b) H: el nuevo tratamiento es mejor que el clásico
c) H: el rendimiento del nuevo tratamiento supera al clásico
d) Ninguna de las anteriores es correcta

Necesitamos un proceso que (1) permita “incorporar” la información muestral o “evidencia”


empírica; y que (2) sea transparente, en el sentido de ser reproducible por otros investigadores.

4
Bioestadística para no estadísticos

Lectura: Nature, Lancet y BMJ han lamentado en 2014 la falta de reproducibilidad de los
resultados de investigación y, por tanto, el despilfarro de recursos que implica

2.1. Valor p
Este método calcula el valor p (p value) o probabilidad de que se presente un valor del estadístico
más alejado de H que el observado. Cuanto más pequeño es p, menos verosímil es H.

Recuerde
La verosimilitud de H disminuye si el valor p es pequeño.

El valor p (Figura 2.1) puede interpretarse como “cuán inverosímil es el resultado observado si H
fuera cierta” o “hasta qué punto resultados como el observado (o más extremos) son
probabilísticamente compatibles con H”. Lo que suele interpretarse como que hay “suficiente
evidencia o pruebas en contra de H” para negarla, lo que suele resumirse con un “el resultado es
estadísticamente significativo”.

Recuerde
Si p es muy pequeño, hay evidencias “estadísticamente significativas” en contra
de H.

Figura 2.1 Distribución del estadístico si H es cierta. El valor p indica la probabilidad de observar valores del
estadístico igual o más extremos que el observado, en el caso de que H sea cierta.
En función de si situamos los “valores más extremos” en 1 lado o en 2 hablaremos de pruebas uni o
bilaterales. En las primeras, el valor de p es la probabilidad de obtener un valor o bien mayor, o bien
menor, (dependiendo del problema) que el estadístico observado (probabilidad de una cola). En las

5
Prueba de significación y contraste de hipótesis

pruebas bilaterales, el valor de p es la probabilidad de obtener un valor más extremo del estadístico
(se suman las probabilidades de ambas colas). Profundizaremos en este asunto en el punto 0.

2.2. Mecánica de la prueba de significación


La prueba de significación se basa en el siguiente proceso formal:
1) Antes de los datos
a) Escoger una variable (response, outcome, endpoint) que valore el objetivo del estudio
b) Fijar un diseño de recogida de datos y un estadístico que resuma los resultados de la variable
c) Definir la hipótesis H que se desea rechazar
d) Describir la distribución del estadístico bajo H y las premisas necesarias, escribiendo el plan
de análisis estadístico.
e) Acotar el valor de p que llevaría a rechazar H, usualmente p=0.05
2) Recoger, con calidad, los datos (realizar o el experimento o la observación “natural”)
3) Una vez “cerrada” la base de datos:
a) Calcular el valor p.
b) Detallar el IC95%.
Nota: Se habla despectivamente de “p huérfana” cuando p no se acompaña de medidas del efecto y de su
incertidumbre.

Recuerde
Primero el diseño (con la hipótesis y la variable); luego los datos; y al final la p
con un IC95%.

A continuación exponemos este proceso para el caso de una probabilidad.

2.3. Prueba de significación de una probabilidad


Vamos a usar la distribución de la proporción P observada en una muestra para poner a prueba una
hipótesis H sobre una probabilidad poblacional .

Nota: Recuerde que P ~ N( , (1- )/n). Note que, a diferencia de IC, ahora viene dada por H.
Ejemplo 2.1 (cont): En el ejemplo anterior de la moneda, con n=100,
Variable: resultado cara o cruz
Estadístico: proporción P de caras
Hipótesis H: = 0.5 (moneda correcta)

Si H es cierta:

6
Bioestadística para no estadísticos

Premisas: muestra grande y

Límite de p=0.05
Caso a)
Con n=100 se observan 63 caras:
La proporción observada es:

El estadístico señal/ruido:

# Cálculo del p-valor


# Unilateral:P(Z>2.6) cola sup.-> lower.tail=FALSE
> pnorm(q=2.6,lower.tail=FALSE)
[1] 0.004661188
# Bilateral: Multiplicando por 2 colas
> 2*pnorm(q=2.6,lower.tail=FALSE)
[1] 0.009322376

Por tanto, como el p valor (o probabilidad de observar un valor de P tan o más alejado de H)
es p<0.01, se considera H poco verosímil y se rechaza que valga 0.5 (Figura 2.2).
I) El intervalo de confianza es:

Creemos que la “auténtica” proporción de cara π se encuentra entre 53% y 73%.

Figura 2.2 Bajo H: π=0.5 y con una muestra n=100, P ~ N(0.5,0.052). Si se observan 63 caras, P=0.63. Como
P(P>0.63)≈ 0.005≈ P(P<0.37), el nivel de significación es p=2*0.005=0.01.

Caso b)
Con n=100 se observan 52 caras:

7
Prueba de significación y contraste de hipótesis

# Cálculo del p-valor


# P(Z>0.4) (cola superior, lower.tail=FALSE)
> pnorm(q=0.4,lower.tail=FALSE)
[1] 0.3445783
# Multiplicando por 2 (valor bilateral)
> 2*pnorm(q=0.4,lower.tail=FALSE)
[1] 0.6891565

Por tanto, .
Como p= 0.69 no es “pequeño”, nada se opone a aceptar H (véase Figura 2.3).
VI) El intervalo de confianza es:

Creemos que la “auténtica” proporción de cara π se encuentra entre 42% y 62%.

Figura 2.3 Si se observan 52 caras, P=0.52 y la probabilidad de observar 52 o más caras es de 0.345, que junto a su
simétrica (observar 48 o menos caras) hace p=0.690.

A continuación se muestra cómo realizar esta prueba directamente con R:

Ejemplo 2.1. en R
Caso a): con n=100 se observan 63 caras:
> prop.test(x=63, n=100, p=0.5, conf.level=0.95, correct=FALSE)
1-sample proportions test without continuity correction
data: 63 out of 100, null probability 0.5
X-squared = 6.76, df = 1, p-value = 0.009322
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5322053 0.7181764

8
Bioestadística para no estadísticos

sample estimates:
p
0.63
Caso b): con n=100 se observan 52 caras:
> prop.test(x=52, n=100, p=0.5, conf.level=0.95, correct=FALSE)
1-sample proportions test without continuity correction
data: 52 out of 100, null probability 0.5
X-squared = 0.16, df = 1, p-value = 0.6892
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4231658 0.6153545
sample estimates:
p
0.52

Nota: El cálculo del p valor con R y según el método explciado cambia la distribución de referencia pero coinciden
algebraicamente (la Ji cuadrado de 1 GdL es el cuadrado de una N(0,1)). En cambio los intervalos de confianza de
R con la función prop.test usa el Wilson score method, que funciona bien incluso para tamaños de pocas decenas.

Ejercicio 2.3
Una serie de 400 pacientes con SIDA han recibido, en diferentes etapas de su
seguimiento, dos tratamientos diferentes, A y B que son, a priori, potencialmente
similares. Ahora, se les ha preguntado cuál prefieren y un 58% han optado por el
A. Se desea saber si puede rechazarse que sean igualmente preferidos. [Escriba
todos los pasos del proceso.]

Ejercicio 2.4
Repita el Ejercicio 2.3 asumiendo que las preferencias por A han sido 53%.

Muchos paquetes informáticos de estadística, al redondear, dan un nivel de significación con


muchos ceros (por ejemplo, p=0.00000) que parecería indicar un resultado imposible, de
probabilidad nula. Como ello no es así, cambie el último 0 por 1; y el ‘=’ por ‘<’: p<0.001.

Recuerde
No escriba p=0.000. En su lugar, ponga p<0.001.

9
Prueba de significación y contraste de hipótesis

Ejercicio 2.5
Los usuarios de una biblioteca llevan años protestando por las prestaciones del
sistema de búsqueda instalado para realizar sus consultas. Los responsables de la
biblioteca deciden valorar la posibilidad de cambiar el sistema. Durante el periodo
de prueba, han realizado un experimento comparando ambos sistemas mediante
una escala que mide la satisfacción de los usuarios.

Hacen la prueba anterior de preferencias y resumen sus resultados con la siguiente


frase: el nuevo sistema genera mayor satisfacción en los usuarios (p<0.01). ¿Cuál
o cuáles de las siguientes son ciertas?:

a) Se rechaza la hipótesis H de que la satisfacción sea igual en ambos grupos.


b) Suponiendo que ambos sistemas generen la misma satisfacción, la probabilidad
de haber obtenido un resultado tan o más extremo que el observado es menor
del 1%.
c) Creemos que el resultado observado refleja una diferencia poblacional del nivel
de preferencias.
d) La proporción de casos más satisfechos con el sistema antiguo que con el
nuevo es menor del 1%.
e) Cuando se dice que el nuevo sistema es mejor se tiene una probabilidad de
error menor de 0.01.
f) La probabilidad de que el nuevo sistema sea mejor es 0.01.

2.4. Prueba de significación de una media ( = H)

La aplicación del mecanismo anterior a una variable continua en la que se desea contrastar una
hipótesis sobre su media es muy similar.

Ejemplo 2.2: Se quiere ‘testar’ en la respuesta Y si su media se corresponde con una


cierta media H especificada en la hipótesis H.

Para escribir que la media de la población origen de la muestra es una media H pre-especificada,
escribimos: H: = H

Si, como es usual, la varianza poblacional ² es desconocida, se recurre a su estimador muestral S²


y a la distribución t de Student. Por lo tanto, bajo H:

10
Bioestadística para no estadísticos

Y puede calcularse el nivel de significación p como:

Ejemplo 2.3: ¿Recuerda el ejemplo para demostrar que las gasolineras estaban poniendo
menos gasolina de la que cobraban? Se resolvió con un IC, pero ¿se puede demostrar que
timan? En una muestra aleatoria de 100 servicios, con S=10cc, se debe tomar una decisión
sobre si , habiendo observado una media cc.

Variable: contenido real en servicios de 1000cc


Estadístico: media
H: H = 1000cc
Regla para el rechazo de H: si p<0.05
Se usará el estadístico señal/ruido

que bajo H tiene una distribución t-Student: ~ si la variable es normal


(premisa).
Cálculo del estadístico:

# Cálculo del p-valor


# Prob(t<-3) (cola inferior, lower.tail=TRUE)
> pt(q=-3, df=99, lower.tail=TRUE)
[1] 0.001707754
# Multiplicando por 2 (valor bilateral)
> 2*pt(q=-3, df=99, lower.tail=TRUE)
[1] 0.003415508

Decisión: como p=0.0034 < 0.05, rechazamos =1000cc con p=0.0034.


Conclusión práctica: Rechazamos que se esté dispensando la cantidad especificada.

I) Cálculo del intervalo de confianza:

11
Prueba de significación y contraste de hipótesis

# t99,0.025
> qt(p=0.025,df=99,lower.tail=FALSE)
[1] 1.984217

La “auténtica” media de cantidad servida se encuentra entre 995 y 999 cc. Nos están
timando, aunque a nivel individual, la cantidad es pequeña. La pequeña amplitud del IC 95%
muestra que se dispone de mucha información.

Esta prueba completa con R es:

Ejemplo 2.3 en R
> install.packages('BSDA')
> library(BSDA)
> tsum.test(mean.x=997, s.x=10, n.x=100, mu=1000)
One-sample t-Test
data: Summarized x
t = -3, df = 99, p-value = 0.003416
alternative hypothesis: true mean is not equal to 1000
95 percent confidence interval:
995.0158 998.9842
sample estimates:
mean of x
997

Ejemplo 2.4: En 9 voluntarios sanos se ha estudiado la diferencia D entre los tiempos de


respuesta a un estímulo visual y auditivo, habiéndose observado, = 6.71 y S=6.0.
Asumiendo que D~N, ¿se puede aceptar que E(D)= =0, lo que implica que la respuesta a
ambos estímulos es idéntica?

Solución:
Variable: diferencia entre el tiempo de respuesta a los estímulos visual y auditivo
Estadístico: media de las diferencias o
Hipótesis que se quiere rechazar:
Límite de p=0.05

Estadístico referencia:

Que bajo H se distribuye como: , si D normal (premisa).


Cálculo de p:

12
Bioestadística para no estadísticos

# P = Prob [ (|t| > |3.355|)


> pt(q=3.355,df=8,lower.tail=FALSE)*2
[1] 0.01000575

Como p=0.01; H: H = 0 es poco verosímil. Conclusión práctica: ambos estímulos no


tienen la misma respuesta (media).

I) Cálculo del intervalo de confianza:

# t8,0.025
> qt(p=0.025,df=8,lower.tail=FALSE)
[1] 2.306004

La “auténtica” diferencia entre la respuesta media a ambos estímulos se encuentra entre 2.10
y 11.32.

Prueba completa con R:

Ejemplo 2.4 en R
> install.packages('BSDA')
> library(BSDA)
> tsum.test(mean.x=6.71, s.x=6, n.x=9, mu=0)
One-sample t-Test
data: Summarized x
t = 3.355, df = 8, p-value = 0.01001
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.097992 11.322008 …

Ejercicio 2.6
La satisfacción de los usuarios se mide por una escala entre 0 y 100 con una
distribución que se asemeja razonablemente a la Normal. El objetivo de un
servicio sanitario es conseguir satisfacciones por encima de 70. En una muestra al
azar de 16 usuarios se ha observado una media de 79 y una desviación típica de
12. ¿Se puede afirmar que la media poblacional está por encima de 70?

13
Prueba de significación y contraste de hipótesis

2.5. El estadístico “ ” como cociente señal/ruido


El numerador de representa la distancia entre el valor de la muestra y el parámetro de la
población. Y el denominador informa del error típico de , ya que como es un parámetro de la
población (forma parte de la pregunta), no tiene error aleatorio de muestreo.

Ejemplo 2.3 (cont.): En el ejemplo sobre el control de calidad en las gasolineras, si desea
saber si el surtidor cumple con las especificaciones ( ), este numerador representa la señal
que proporciona la muestra: cuánto se distancia de la media especificada en la hipótesis. Se
ha observado un valor de . Por otro lado, la oscilación de explicable por el muestreo

aleatorio puede cuantificarse en = 1. Y por tanto el cociente “señal/ruido” vale -3,

indicando que la señal observada es negativa y 3 veces superior al error aleatorio.

Recuerde
Interprete el estadístico como un cociente señal/ruido.

2.6. Prueba de significación de la comparación de dos medias


Para realizar una comparación de 2 medias, el estadístico a utilizar es:

Fórmula
El estadístico para comparar 2 medias es:

Donde S es la desviación ponderada de las 2 muestras, pooled, raíz de:

Ejemplo 2.5: Se realiza un Ensayo Clínico el que se quiere valorar la eficacia de un nuevo
fármaco antidiabético. Para ello se asignan 18 pacientes al azar, con razón “1 a 2” a dos
grupos: el de referencia, que recibirá el fármaco habitual, y el de la intervención, que
recibirá el nuevo fármaco. A continuación se muestra la reducción en el nivel de glucosa
(mg/dL) respecto el nivel inicial para cada individuo de cada uno de los grupos a los 3
meses del inicio del tratamiento:
G1 = grupo referencia: 13, 14, 10, 11, 14, 11 (mg/dL)
G2 = grupo experimental: 16, 11, 13, 12, 14, 12, 13, 13, 13, 12, 14, 15 (mg/dL)

14
Bioestadística para no estadísticos

La hipótesis nula es que no hay diferencias entre ambos fármacos en la reducción del nivel
de glucosa.
Solución:
Variable: reducción de glicemia
Estadístico: diferencia de medias
Hipótesis que se quiere rechazar: H: G1 = G2

Límite p=0.05
Estadístico de referencia

Cuya distribución bajo H es:


Premisas: las dos muestras provienen de una distribución normal, y sus varianzas
son iguales.
Cálculos:

# P = Prob [(|t| < |-1.32|)]


> pt(q=1.32,df=16,lower.tail=FALSE)*2
[1] 0.2054096

Como p=0.20, no hay evidencia para rechazar H. No podemos afirmar que los fármacos
sean diferentes en eficacia.

Nota: No hemos demostrado que tengan igual eficacia. Tan sólo no hemos logrado demostrar que sean
diferentes. Tampoco hemos establecido que ambos sean eficaces: falta ver (1) si la reducción desde basal
es significativa; y (2) cuál hubiera sido la evolución de otro grupo de referencia no tratado (que incluiría,
entre otros, una posible calibración desigual de los aparatos).

I) Cálculo del intervalo de confianza:

15
Prueba de significación y contraste de hipótesis

PS con R:Ejemplo 2.5 en R


> g1 = c(13, 14, 10, 11, 14, 11) # grupo referencia
> g2 = c(16, 11, 13, 12, 14, 12, 13, 13, 13, 12, 14, 15) # grupo
experimental
> t.test(g1, g2, alt="two.sided", var.equal=TRUE)
Two Sample t-test
data: g1 and g2
t = -1.3242, df = 16, p-value = 0.2041
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.6009321 0.6009321
sample estimates:
mean of x mean of y
12.16667 13.16667

2.7. Valor p frente a IC


Digamos otra vez que las pruebas de significación (PS) y los intervalos de confianza (IC) son dos
herramientas de inferencia: ambas permiten pasar de la muestra a la población. Mientras PS hace
una pregunta concreta o “cerrada” sobre el valor del parámetro en la población (¿es = 0.5?), el
intervalo de confianza hace una pregunta “abierta”, (¿cuál es el valor de ?). Se podría argumentar
que el intervalo es una herramienta positiva, que dice cuáles son los valores del parámetro
compatibles con la muestra observada, mientras que la prueba de hipótesis es una herramienta
negativa.

Ejemplo 2.6: Recuperemos el ejemplo de las 52 caras en 100 lanzamientos de una moneda.
El intervalo de confianza del auténtico valor de la probabilidad de cara era:

Se cree, con una confianza del 95%, que esta moneda tiene una probabilidad de cara situada
entre el 42% y el 62%. Este resultado coincide con el de la prueba de hipótesis que, con un
p=0.69, no permite rechazar la H de π=0.5.

En el caso de observar 63 caras el IC es:

16
Bioestadística para no estadísticos

Por lo que ahora se cree, con una confianza del 95%, que esta probabilidad de cara, , es
alguno de los valores comprendidos entre el 53% y el 73%. Dado que excluye el valor 0.5,
coincide con PS, que había rechazado H:π=0.5 con nivel de significación p=0.001.

Las conclusiones de IC y PS coinciden.

Definición
Un intervalo de confianza incluye el conjunto de valores del parámetro que,
puestos en H, no pueden ser rechazados.

Nota técnica: en algunas situaciones, la estimación de la varianza del estimador no es la misma bajo los
diferentes escenarios de IC y PS, por lo que no coincidirán plenamente. Por ejemplo, en el caso de y P
la amplitud de los intervalos suele diferir:
PS (P): aceptar si P H 1.96 [ H(1- H)/n]
IC (1- ): P 1.96 [P(1-P)/n]
En el modelo lineal (comparación medias, regresión,..) sí que coinciden.

Se puede utilizar IC95% para hacer PS de H de interés, ya que valores del parámetro excluidos del IC
generarían PS con valores de p<0.05.

Ejercicio 2.7
En 100 pacientes con SIDA el intervalo de confianza al 95% de la media del
recuento de CD4 va de 375 a 500. Si se plantearan las dos pruebas de
significación siguientes con = 0.05:
(A) HA: = 400
(B) HB : = 350
Las conclusiones serían:
a) nada se opone a aceptar ambas H;
b) se rechazan ambas H;
c) nada se opone a aceptar HA y se rechaza HB;
d) se rechaza HA y nada se opone a aceptar HB.

IC ayuda a interpretar PS, ya que informa sobre los valores plausibles del parámetro.

Nota técnica: en el caso de rechazar una hipótesis H bilateral, p.e. π=0.5, la conclusión formal de la
prueba de significación sería que se rechaza H sin decantarse hacia ninguno de los dos lados. Pero, a nivel

17
Prueba de significación y contraste de hipótesis

práctico, el intervalo de confianza permite conocer, no sólo el lado, sino también los valores razonables
del parámetro.
Cuando no se rechaza H, IC distingue entre poca información (IC amplio) y efecto nulo o pequeño
(IC estrecho).

Recuerde
Utilice siempre IC.

Lectura: las recomendaciones para los autores de revistas biomédicas anteponen el uso de IC al de PS:
“Although P values may be provided in addition to confidence intervals, results should not be reported
solely as P values” (Consort, item 17).

Cuando no es significativa, PS concluye: “nada se opone a aceptar la H”. Pero ello puede ser, bien
por falta de evidencia para establecer algo existente (¿muestra pequeña, diseño deficiente, análisis
pobre,..?), o bien porque realmente no hay nada que ver.

Recuerde
En PS, ausencia de pruebas no es prueba de ausencia.

Lectura: siempre es frustrante no lograr demostrar el objetivo. Pero si la Ciencia no se lo permite, aún le
quedan otros recursos. No se pierda esta página que recoge ejemplos sobre la retórica de los resultados
negativos. Planteamientos unilaterales y bilaterales

Hasta el momento, hemos planteado pruebas bilaterales o de dos colas, como el ejemplo de la
moneda, defectuosa tanto si salían caras de más o de menos. En consecuencia, el rechazo de H ha
contemplado ambos lados (Figura 2.4).

H: = 0.5

Figura 2.4 Las pruebas bilaterales miran la probabilidad en ambas colas.

Pero se pueden plantear también pruebas de una sola cola. En el ejemplo de la gasolinera, en el que
se quería detectar si había timo, ¿qué se puede concluir si la media observada se situaba por encima
de la media teórica? ¿Qué regalan gasolina? En esta situación, tiene más sentido una prueba
unilateral por la izquierda (Figura 2.5):

H: ≥ 1000

Figura 2.5 Las pruebas unilaterales por la izquierda miran la probabilidad en el lado izquierdo.

18
Bioestadística para no estadísticos

Y, de forma simétrica, si se estudia cómo aumenta la respuesta al aumentar la dosis, podría tener
más sentido una prueba unilateral por la derecha (Figura 2.6):

H: ≤ 0

Figura 2.6 Las pruebas unilaterales por la derecha miran la probabilidad en el lado derecho.

Recuerde

En el caso de pruebas unilaterales, debe considerar sólo 1 cola.

Resaltemos dos aspectos relevantes:

(1) Al concentrar todo el nivel de significación en un lado, se hace algo mayor esa cola, por lo que
una H uni o bilateral puede cambiar las conclusiones.

(2) El signo igual (acompañado, ahora, por el desigual) sigue figurando en H.

Recuerde

H es el punto de salida y debe establecerse antes de recoger los datos.

Ejercicio 2.8
Repita el Ejercicio 2.6 bajo un planteamiento unilateral.

Ejercicio 2.9
Se desea resolver la prueba H: 0 mediante un estadístico que sigue una
distribución normal (0,1). El resultado de la prueba ofrece z=-2, por lo que se
concluye (elija una):
a) que la media poblacional es 0
b) que la media poblacional es mayor que 0 (con un margen de error del 5%);
c) que la media poblacional es menor que 0 (con un margen de error del 5%);
d) hay una probabilidad del 95% de que la media poblacional sea 0;
e) nada se opone a aceptar la H de que la media es igual o inferior a 0.

19
Prueba de significación y contraste de hipótesis

3. Decisión: contraste de hipótesis, CH


CH es un instrumento para tomar una decisión manteniendo controlados los riesgos de error.

Definición
Un CH plantea elegir entre dos acciones alternativas.

Historieta: Tener 2 opciones es un tan sólo un dilema. El problema es no tener ninguna.

Ejemplo 3.1 (Prestado de un ejercicio de la profesora Monique Becue). Para clasificar


cierto “garabato” como 8 o como B, un programa de reconocimiento de patrones mide la
curvatura izquierda (Y) cuya distribución tiene una media de 12u si se trata de un “8”, y una
media superior si se trata de una “B”. Se sabe que la distribución de Y es Normal y que
=3u. Si se está dispuesto a aceptar que un 5% de “ochos” (8) sean reconocidos como “bes”
(B), ¿a partir de qué valor se dirá que se trata de una “B”?
Variable: curvatura izquierda del garabato (Y)
Se usará el estadístico

H: = 12u (se trata de un 8)


Regla: Con p=0.05, se rechazará H si > Z = 1.645.

> qnorm(p=0.05,lower.tail=FALSE) # Z0.05


[1] 1.644854

Distribución del estadístico bajo H: .


Premisas: dado que n=1, Y debe ser normal.
Cálculo del límite: y = H + z ( / n) = 12 + 1.645 * 3 = 16.935
Si y > 16.935 se rechaza que sea un 8.

Suponga ahora que también conoce la distribución de las “B”: N(21,3). Aceptando como
límite de decisión y = 16.935, desea calcular la probabilidad de que una B sea reconocida
como un 8 (Figura 3.1). Ahora dispone de dos situaciones hipotéticas, entre las que debe
escoger.
H0: = 12 (se trata de un 8)
H1: = 21 (se trata de una B)

Prob[y 16.935 condicionado a Y~N(21,3)] = P [Z ] = P(Z -1.355)

20
Bioestadística para no estadísticos

> pnorm(q=-1.355,lower.tail=TRUE) # P ( Z -1.355 )


[1] 0.08770878

Figura 3.1 Si el valor supera el límite 16.935 clasifica el garabato como B (A1) y en caso contrario como 8 (A0).

Nota: En lo que sigue emplearemos A0 y A1 (acción 0, acción 1) para resaltar la acción que implica CH.
Sea A0 “conservadora” y A1 “innovadora”. Para tomar la acción A1 hace falta rechazar H0.

Nótese que se han identificado dos conclusiones erróneas y se han cuantificado los riesgos
respectivos:
P (concluir B | realidad 8) = 0.05
P (concluir 8 | realidad B) 0.088

Un organismo científico, como la revista Medicina Clínica o la colaboración Cochrane, está


interesado en lo que científicamente se sabe y, por tanto, en realizar intervalos de confianza o
pruebas de significación. En cambio, un órgano ejecutivo, como una agencia reguladora del
medicamento o un comité que elabora protocolos, debe proponer decisiones, acciones concretas.

Nota: ¿Cuál es el papel de las sociedades científicas? ¿Aportar un conocimiento que facilite una toma de
decisión posterior por quién corresponda? ¿O elaborar consensos de guía de práctica clínica de uso
posterior obligado? Esta pregunta nos supera. Como posibles usuarios, agradeceremos una guía
consensuada de práctica clínica que se nos presente a modo de sugerencia. Sin lugar a duda, nuestros
representantes, que deben asignar presupuestos a diferentes partidas, requerirán otra metodología.

Ejemplo 3.2: Fisher y Hill mantuvieron posiciones distintas en cuanto a la evidencia disponible
sobre los efectos del tabaco. Sea cual sea esta evidencia, a un responsable de Salud Pública, lo
que le concierne es, a la luz de dicha información, cuál debe ser su actuación. Greenland
recuerda que un organismo de Salud Pública debe actuar y debe, por tanto, tomar decisiones:
ante humo en un bosque, la acción pertinente es enviar bomberos, no científicos para averiguar si
debajo del humo hay fuego.

21
Prueba de significación y contraste de hipótesis

A nivel personal, por ejemplo, un fumador debe valorar las consecuencias de los dos “errores”
posibles: a) que decida seguir fumando, pero tenga razón Hill y él mismo sea de la proporción de
casos que desarrollan el cáncer hacia los 50 años; o b) que decida no fumar, pero tenga razón
Fisher y no se “ahorre” dicha enfermedad. Cada uno debe valorar qué consecuencias tiene cada
posible situación.

Figura 3.2. Ronald Fisher fumando en pipa

Recuerde
PS contesta “¿qué creo?” y CH, “¿qué hago?”.

3.1. Límites de significación


El límite del nivel de significación p a partir del cual se rechaza H tiene un equivalente en la escala
de los estadísticos, o . En la escala Z, los límites que corresponden a p=0.05 son -1.96 y +1.96.
En la t de Student, dependerá de los grados de libertad.

Figura 3.3 Es equivalente preguntarse si p<0.05 o si Z es mayor que 1.96 o menor que -1.96.

Ejercicio 3.1
En los ejercicios 2.3 y 2.4 comparó el valor de p con 0.05. ¿Cómo habría hecho
la comparación con Z? ¿Y con t en el 2.6?

22
Bioestadística para no estadísticos

3.2. Errores tipo I y II. Riesgos α y


En CH hay 2 tipos de errores.

Definición
El error de primera especie o tipo I consiste en decidir la acción alternativa (A1)
cuando era cierta H0.
Tomar A1 | es cierta H0

Ejemplo 3.3: Concluir que es una B cuando en realidad es un 8 es un error tipo I.

Definición
El error de segunda especie o tipo II consiste en decidir la acción nula (A0)
cuando es cierta H1.
Tomar A0 | es cierta H1

Ejemplo 3.3 (cont): Concluir que es un 8 cuando en realidad es una B es un error tipo II.

Definición
Las probabilidades correspondientes de cometer errores de primera y de segunda
especie reciben el nombre de riesgos y :
= P(Decidir A1 | es cierta H0)
= P(Decidir A0 | es cierta H1)

Ejemplo 3.4: Riesgo = P(Decidir es una B | en realidad es un 8)


Riesgo = P(Decidir es un 8 | en realidad es una B)
De esta manera, representa la proporción de 8 que serán identificados como B y su
recíproco.

Nota: De aquí proviene el nombre de estadística frecuentista, ya que acota la frecuencia de errores.

Ejemplo 3.5: Un laboratorio farmacéutico propone a una agencia reguladora del


medicamento un Ensayo Clínico para contrastar H0 (misma eficacia que referencia) frente
H1 (eficacia mayor = ∆). Si rechaza H0, acuerdan poner el fármaco en el mercado (A1). El
riesgo α sería la proporción de medicamentos como la referencia (H0) que son finalmente
puestos en el mercado (A1). A su vez, el riesgo β es la proporción de medicamentos que no
llegan al mercado (A0) entre los que alcanzan el efecto ∆ (H1).

23
Prueba de significación y contraste de hipótesis

Ejercicio 3.2
Un proveedor entregaba un reactivo con un tiempo de reacción medio de 100 seg
y desviación tipo de 10 seg. Ahora, ofrece uno mejor, con parámetros =50 seg y
=5 seg y Vd. decide hacer un CH para guiar su actitud futura. Sean:
H0: =100seg y =10seg (viejo); A0: decidir usar el viejo;
H1: =50seg y =5seg (nuevo); A1: decidir usar el nuevo.
El riesgo de cometer un error de primera especie es (cuál/cuáles son ciertas?):
a) la probabilidad de que el reactivo sea nuevo
b) decidir usar el nuevo (A1) a pesar de ser como los viejos (H0)
c) delante de reactivos con propiedades como los viejos, la probabilidad de
decidir usar los nuevos
d) decidir usar el viejo (A0) a pesar de ser de los nuevos (H1)
e) con propiedades como los nuevos, la probabilidad de decidir usar los viejos
f) la proporción de reactivos como los viejos que serán aceptados como si fueran
de los nuevos.
g) todas son falsas.
Ejercicio 3.3
En un contraste de hipótesis, si H0 es cierta, es posible (elija una):
a) cometer dos errores, el de tipo I y el de tipo II
b) sólo se puede producir el de tipo I
c) sólo se puede producir el de tipo II
d) ninguno, ya que H0 es cierta.

Definición
La potencia es 1- o probabilidad de decidir A1 cuando es cierta H1:

Decisión
Tipos de errores y riesgos
A0 A1

H0 1-α Tipo I (riesgo ) Tabla 3.1 Resumen tipos de


Realidad errores y riesgos
H1 Tipo II (riesgo ) Potencia = 1-

24
Bioestadística para no estadísticos

4. Use intervalos de confianza


Las guías de publicación aconsejan emplear siempre intervalos de confianza.

Recuerde
Use IC95%.

Si Vd. desea emplear P valores, lea los siguientes apartados (marcados con *) y estos 2 artículos
sobre la distinción entre evidencia y decisión y 12 interpretaciones erróneas del P valor.

4.1. IC, PS y CH *
En IC, el nivel de confianza α se decide a priori. En CH también, y se opta por aquel diseño y
estadístico que minimiza β, que también se establece a priori. Por tanto, en el entorno de IC y CH,
lo único que tiene valor y debe, por tanto, ser reportado son los valores de α y β decididos a priori.
En cambio, en PS, el nivel p es un resultado obtenido al final del experimento y el nivel de
evidencia que aporta en contra de H sería diferente ante un valor de p=0.023 o de p<0.001, por lo
que se recomienda reportar el valor de p exacto —hasta el decimal requerido.

Resumen
En IC debe informar del valor de α fijado a priori.
En PS debe reportar el valor exacto obtenido de p.
En CH se debe informar de los valores de α y β fijados a priori.

La misma concordancia en el cálculo que existe entre IC y PS, aplica también a CH. En cambio, los
resultados de cada técnica deben interpretarse de acuerdo con sus objetivos.

Resumen
IC, PS y CH difieren en objetivos:
IC, estimar valores del parámetro
PS, aportar evidencia en contra de H
CH, decidir entre A0 y A1 minimizando los riesgos α y β
Pero coinciden en su mecánica:

IC (1- ):

PS ( ): aceptar H si

CH ( ,β): decidir A0 si

25
Prueba de significación y contraste de hipótesis

4.2. Interpretación errónea de p y α *


En la ¡Error! No se encuentra el origen de la referencia. los riesgos α y β representan
probabilidades condicionadas a la fila, no a la columna. Es decir, proporcionan la probabilidad de
una conclusión (acción) dada una H. Nótese que las filas representan valores del parámetro, que es,
bajo el escenario definido, una constante; mientras que las columnas representan zonas en las que se
sitúa el estadístico, que sí que es una variable aleatoria.

Así, en CH (H0 frente a H1) para tomar una decisión (A0 frente a A1), α y β representan la
proporción o frecuencia de decisiones erróneas a largo plazo. En el Ejemplo 3.5, α es la proporción
de fármacos iguales que el control (H0) que a largo plazo son puestos en el mercado (A1); y β, la de
fármacos que superan el control en un valor ∆ (H1) que no son puestos en el mercado (A0).

Nótese que en PS, p (y su máximo aceptado, 0.05) indica el nivel de evidencia en contra de H,
mientras que en CH α y β indican la frecuencia de decisiones erróneas.

Recuerde
p en PS es medida de información empírica (“evidencia”) en contra de H;
mientras que α y β en CH cuantifican la frecuencia de decisiones erróneas.

La Tabla 4.1 expone términos que pueden emplearse para informar del resultado de PS o CH.

PRUEBA DE Si el valor de p es…


SIGNIFICACIÓN Grande (p.ej. 0.634) Pequeño (p.ej. 0.0001)
H es … Verosímil inverosímil

La diferencia… es explicable por el azar del muestreo no es explicable por el azar del muestreo

La diferencia… no es estadísticamente significativa sí es estadísticamente significativa


no hemos logrado demostrar que la moneda
A nivel práctico … creemos que la moneda está cargada
está cargada

CONTRASTE DE Si el estadístico se sitúa en…


HIPÓTESIS Región de aceptación Región crítica
Hipótesis… Se acepta H0 se rechaza H0
Acción… Se toma la acción A0 Se toma la acción H1

Tabla 4.1 La PS y CH en palabras

26
Bioestadística para no estadísticos

Recuerde
Ni el riesgo α ni el nivel de significación p pueden resumirse por “la probabilidad
que tengo de haberme equivocado”.

Ejercicio 4.1
¿Cuál o cuáles son correctas?
a) El nivel p es la probabilidad de equivocarse;
b) El nivel p es la probabilidad de equivocarse al rechazar H:
c) El nivel p es la probabilidad de equivocarse al aceptar H;
d) El nivel p es la probabilidad de observar el resultado actual (o más extremo)
en caso de que fuera cierta H
e) El riesgo α es la probabilidad de equivocarse;
f) El riesgo α es la probabilidad de equivocarse al rechazar H:
g) El riesgo α es la probabilidad de equivocarse al aceptar H;
h) El riesgo α es la frecuencia esperada de ocasiones en las que siendo cierta HO
tomaremos la decisión (errónea) A1.
i) El riesgo β es la probabilidad de equivocarse;
j) El riesgo β es la probabilidad de equivocarse al rechazar H:
k) El riesgo β es la probabilidad de equivocarse al aceptar H;
l) El riesgo β es la frecuencia esperada de ocasiones en las que siendo cierta H 1
tomaremos la decisión (errónea) A0.

Ejemplo 4.1: La celebración final de carrera ha sido magnífica. A las 5 am los amigos se
despiden, pero uno de ellos decide seguir la farra y le pide al taxista que le lleve a una buena
partida de Póker. Tras pasar los controles típicos, que su amigo creía cosa de película,
consigue entrar en un 5º piso de la calle Enrique Granados donde se sienta a una mesa y
empieza a perder dinero. Sus rivales no paran de sacar magníficas jugadas. Tanto, que él
calcula que, asumiendo que no hacen trampas, la probabilidad de esos resultados (o incluso
mejores) es de tan sólo una entre cien. ¿Qué hace? Por supuesto, deja de jugar. El nivel de
significación p=0.011 le permite rechazar la H de que no le hacen trampas.

Ejemplo 4.2: En la celebración de las Navidades, un joven investigador vuelve del hospital
Mount Sinai para visitar a su familia. Y acaban jugando al Póker con idénticos resultados
que el ejemplo anterior. A pesar de que este investigador calcula el mismo nivel de

27
Prueba de significación y contraste de hipótesis

significación anterior (asumiendo que no hacen trampas, esos resultados o mejores sólo
ocurren 1 vez entre cien), sigue jugando confiado, ya que no se plantea la posibilidad
alternativa, de que su familia le haga trampas. Por lo que dice, “caramba, qué mala suerte
tengo hoy”.

Lectura: La estadística Bayesiana lamenta que la solución de los dos ejemplos anteriores no tenga en
cuenta toda la información contenida en el enunciado. Antes de empezar a jugar, el primer titulado ya
podía sospechar que le harían trampas, pero no el segundo. Para poder calcular, a partir de los resultados
muestrales, la probabilidad de que una hipótesis sea cierta, es preciso recurrir a una formalización del
conocimiento científico previo: antes de los datos que actualmente se están analizando, ¿qué se sabía
sobre este tema?, ¿qué se sabía sobre el valor del parámetro? Si se acepta representar el nivel de
incertidumbre previa en forma de probabilidades sobre los diferentes valores del parámetro, ya se tienen
los elementos necesarios para actualizar la información científica mediante el teorema de Bayes.

Ejercicio de Navegación
Referencias críticas sobre el abuso de las pruebas de significación, así como
enlaces a paginas web aplicadas, y un "applet" muy instructivo, pueden
encontrarse en:
http://www.stat.duke.edu/~berger/p-values.html

Recuerde
IC, PS y CH estudian la información aportada por los datos actuales, pero no la
“suman” a la información previa.

4.3. Sólo el contraste de hipótesis permite “Aceptar H0” *


PS no especifica H1 y, por tanto, no tiene definida ninguna medida análoga al riesgo β. En
consecuencia, PS no tiene argumento para defender H.

Nota técnica: el riesgo puede delimitarse cuando el contraste de hipótesis tiene, como en el ejemplo del
8 y la B, la forma:
H0: = 0
H1: = 1
Pero si la prueba de significación es de la forma:
H: = H
Entonces la definición de una medida análoga al riesgo bajo todos los posibles H s próximos a H
ese riesgo tiende hacia 1- (Figura 4.1). Es decir, como PS sólo define H, este planteamiento “asimétrico”
conduce a la conclusión asimétrica: si el valor de p es pequeño, se considera inverosímil. En cambio, si p
es grande, “nada se opone a aceptar H”.

28
Bioestadística para no estadísticos

Figura 4.1 Si no hay hipótesis alternativa cerrada, el riesgo beta no está acotado

Recuerde
En PS, “ausencia de pruebas” no es “prueba de ausencia”.
En PS diga “no se han detectado diferencias” en lugar de “no existen diferencias”.
El CH, al tener acotados α y β, permite tomar ambas decisiones.

Ejercicio 4.2
El laboratorio Yotambién S.L., para demostrar que su genérico es tan eficaz como
el de la compañía Losprimeros S.A., realiza un ensayo en el que compara ambos
productos. Supóngase que obtiene un nivel de significación p=0.23, ¿puede
concluir que ambos productos tienen la misma eficacia?

Conviene ir con mucho cuidado con las palabras que se utilizan para explicar las conclusiones de
una prueba de significación. La Tabla 4.1 resume algunas de las más habituales. Nótese la asimetría
de la conclusión a la que se llega en ambas regiones: mientras en la zona crítica se afirma que se
rechaza H (“se ha demostrado la culpabilidad del acusado”), en la zona de aceptación no hay
afirmaciones rotundas (“absuelto por falta de pruebas”).

Ejercicio 4.3
¿Alguna(s) de las siguientes es falsa? :
a) En PS se buscan evidencias en contra de H
b) CH permite tomar ambas decisiones
c) Tanto p como α cuantifican áreas de las distribuciones de probabilidad, pero
miden aspectos distintos.
d) En PS debe reportarse el valor exacto del nivel de significación p

29
Prueba de significación y contraste de hipótesis

e) En CH debe reportarse el valor previo α, usualmente, 0.05


f) En PS, si p>0.05, nada se opone a aceptar H
g) Una ventaja de CH es que permite decidir tanto A0 como A1
h) Una ventaja de CH es que cuantifica β

Ejercicio 4.4
PS es conservadora en el sentido de que se declara ..???.. H hasta que no haya
clara evidencia en su contra:
a) ???=cierta
b) ???=falsa
c) PS no es conservadora
d) todas son incorrectas.

Ejercicio 4.5
En un estudio para comparar dos tratamientos, p=0.341. ¿Cuál/es son ciertas?
a) Nada se opone a aceptar H0.
b) No existen diferencias
c) No se han detectado diferencias
d) La probabilidad de que sean diferentes es 0.341.

Lectura: Karl Popper ha contribuido a incorporar los avances estadísticos a la epistemología o metodología
científica. De acuerdo con esta asimetría de la conclusión de una prueba de hipótesis, afirmó que lo único
que se puede hacer con una teoría científica es ponerla a prueba y rechazarla en el caso de que encontremos
pruebas en su contra, pero que nunca se podrá demostrar que sea cierta y constituya la última palabra de la
ciencia en ese punto. Así, Popper dice que el criterio para establecer el status científico de una teoría es su
refutabilidad o su testabilidad: “para ser colocados en el rango de científicos, los enunciados o sistemas de
enunciados deben ser susceptibles de entrar en conflicto con observaciones posibles”, lo que es conocido
como problema de la demarcación. Así, una teoría científica es más fuerte cuando es más falseable, cuanto
más fácilmente podría demostrarse su falsedad (caso de ser falsa).

4.4. Interpretación del CH *


Desde un punto de vista formal, disponer de dos hipótesis simples, cada una con un único valor,
permite definir muchas propiedades interesantes para escoger el “mejor” estadístico. Los libros
clásicos de estadística matemática exponen la teoría desarrollada por Pearson y Newman sobre el
contraste de dos hipótesis simples. Fisher, se centraba en la inferencia sobre una hipótesis, por lo
que sólo puede cuantificar p y sólo puede rechazar H en lo que él llamó PS.

30
Bioestadística para no estadísticos

Recuerde
PS es inferencia; si la p es pequeña, Fisher recomienda modificar nuestras
opiniones sobre la veracidad de H.

CH es decisión que permite acotar los riesgos de tomar acciones erróneas.

Ejercicio 4.6
Las siguientes frases podrían figurar en la discusión de un artículo, ¿Cuáles son
de inferencia y cuáles de decisión?
a) el riesgo es mayor en pacientes de tipo A.
b) el riesgo disminuye a la mitad si se adoptan las medidas X.
c) la obesidad abdominal es el componente de síndrome metabólico de mayor
prevalencia en mujeres.
d) el valor predictivo de la escala de Z implica que debería utilizarse en el futuro
para clasificar a este tipo de enfermos.
e) si hay dos o menos factores de riesgo presentes y la PAS ≥ 160 o la PAD ≥
100 (siendo PAS < 180 y PAD < 110), conviene intentar cambios en el estilo de
vida durante varios meses y luego, si se mantiene, tratamiento farmacológico.

Las acciones conllevan consecuencias. Y conviene tenerlas en cuenta. Ya expusimos que Greenland
reclamó distinguir entre la Ciencia de la Epidemiología y la acción de fomentar la Salud Pública. Y
en el capítulo de probabilidad y riesgo recordamos que la definición estadística de riesgo incluye la
gravedad de las consecuencias.

Historieta: Los mismos datos en los Ejemplos 4.1 y 4.2 han llevado a decisiones diferentes: abandonar el
garito de juego o seguir jugando con la familia. La diferencia es el grado previo de credibilidad de la
hipótesis. Pero además, las consecuencias son diferentes, ya que seguir la partida familiar no conlleva
pérdidas: incluso, en el caso de trampas, “el dinero se queda en casa”.

Ejemplo 4.3: Gosset era un estadístico que trabajaba en la cervecera Guiness en su


departamento de control de calidad, donde se planteaba la decisión de aceptar o rechazar una
barrica de cerveza. Además de los riesgos α y β, debía considerar los costes por desechar
una barrica correcta y por poner en el mercado una que no lo era.

31
Prueba de significación y contraste de hipótesis

Recuerde
El proceso de decisión, además de los riesgos de error debe valorar también sus
consecuencias, el coste que se paga por cada decisión errónea y el premio que se
obtiene con las decisiones correctas.

Ejemplo 4.4: Es bien conocido que aunque un tratamiento puede haber demostrado un
cierto efecto positivo en una variable de interés, sus costes pueden aconsejar antes otra
intervención sanitaria más eficiente, en el sentido de que una misma “inversión” origine un
mayor “retorno”, valorado en términos de salud.

Lectura: Aconsejar un producto químico o biológico de nueva creación no conlleva los mismos riesgos
que aconsejar un hábito saludable que se ha practicado siempre.

Nota técnica: CH es el primer instrumento de la teoría de la decisión, que constituye toda una rama de la
estadística y es ampliamente utilizada en otras disciplinas, como por ejemplo, la economía, donde los
“costes” y los “premios” son fácilmente expresables en una única escala. El diagnóstico y el tratamiento
son dos ejemplos de acciones médicas que podrían beneficiarse de las aportaciones de la teoría de la
decisión.

Puede ser razonable esperar que el efecto de una intervención sea el mismo en diferentes
condiciones (país, entorno de atención al paciente, raza,…). Incluso que lo sea la capacidad
predictiva de un indicador valorada por su sensibilidad y especificidad. Pero no es en absoluto
razonable esperar que las consecuencias de una decisión se valoren igual en diferentes entornos. Por
ejemplo, el “valor” del mismo coste de un medicamento puede diferir de un país a otro.

Recuerde
El proceso de decisión implica una valoración de las consecuencias que tienen
connotaciones locales y es más difícilmente extrapolable que la mera inferencia
de conocimiento.

Ejercicio adicional
Encuentre un original científico reciente que, en su discusión, vaya de la
interpretación de los resultados de inferencia a la decisión ulterior sin considerar
formalmente el proceso de decisión, sus riesgos y sus consecuencias en el entorno
en el que propone la acción.

32
Bioestadística para no estadísticos

En ocasiones resulta difícil discernir si el p valor reportado hace referencia a un objetivo de


inferencia o decisión, pero esto no ocurre con el intervalo de confianza, donde queda claro el
objetivo de inferencia.

5. Equivalencia
Hasta ahora hemos intentado establecer ‘diferencias’.

Ejemplo 5.1: Por ejemplo, “el riesgo de sida es mayor en toxicómanos por vía parenteral”,
o bien “el nuevo tratamiento es mejor que el clásico”.

Pero puede interesar establecer ‘equivalencia’.

Definición
Un tratamiento es equivalente a otro si la diferencia de sus efectos no alcanza un
cierto valor que marca el límite de la irrelevancia.

Ejemplo 5.2: Se desea establecer que: 1 < 1- 2 < 2

1 y 2 delimitan el intervalo de equivalencia.

Ejemplo 5.3: Se desea establecer, de forma simétrica, que: -

El concepto de equivalencia es más amplio que el de la estricta igualdad, pues incluye también
los valores, cercanos a la igualdad, que no son relevantes desde el punto de vista práctico. La
siguiente figura representa todos los posibles valores de la diferencia entre las dos medias de
interés: µ1-µ2.

Figura 5.1 Definición de los conceptos de no superioridad, equivalencia y no inferioridad

33
Prueba de significación y contraste de hipótesis

Para establecer equivalencia se debe demostrar que las diferencias no alcanzan los dos límites
especificados. Se puede hacer con un intervalo de confianza que deberá quedar comprendido entre
estos límites, lo que equivale a realizar dos pruebas que deberán rechazar ambos límites.

Ejemplo 5.4: La figura 5.2 muestra 3 estudios en los que se concluiría equivalencia y 3
estudios en los que no.

Figura 5.2 Los estudios 1 a 3, que dejan fuera 1 y 2, establecen equivalencia

Ejercicio 5.1
Si en el Ejemplo 5.4 de los datos de la figura 5.2 se hubiera hecho la PS para
demostrar diferencias, ¿en qué estudios de los anteriores se concluiría que los
tratamientos son diferentes? Razone posibles discordancias.

Recuerde
Ambos límites deben ser rechazados para poder establecer equivalencia.

Definición
Un tratamiento es no inferior a otro si éste no le supera en un cierto valor que
hace relevantes las consecuencias.

Recuerde
Los planteamientos de “no inferioridad” y “no superioridad” sólo consideran un
límite, sea 1 o 2.

34
Bioestadística para no estadísticos

Tanto la no inferioridad como la no superioridad se establecen mediante un constraste unilateral. Y


la equivalencia puede establecerse mediante el uso simultáneo de ambos, por lo que el
procedimiento que se utiliza recibe el nombre de Prueba Doblemente Unilateral (PDU) o two-one-
sided test.

Ambos contrastes de la PDU se suelen realizar con riesgo = 0.05 y el riesgo global de la PDU
se mantiene en 0.05. Si el IC se calcula con una confianza 1-2 (0.90, si =0.05), coincidirán las
conclusiones de la PDU con las del IC.

Nota: Aunque la estimación por intervalo se realiza con una confianza 1-2 = 0.90, el criterio de decisión
basado en dicho IC tendrá un riesgo α=0.05. Ello es así porque ambos límites de no equivalencia (que
definen las dos H0) no pueden ser simultáneamente ciertos; y, por tanto, sus riesgos no necesitan ser
sumados.

Nota: Si en lugar de dos CH se hubieran realizado dos PS con sus correspondientes niveles de
significación p1 y p2, se acepta como nivel único de significación p, el mayor de los dos p1, p2
observados.

Ejemplo 5.5: Un nuevo (N) antiinflamatorio tiene una tolerabilidad superior a cierto
producto clásico de referencia (R). Interesa poder demostrar que sus niveles de eficacia son
parecidos. La eficacia se mide por la proporción de casos en los que desaparece el dolor a
los 30'. Ambos fármacos serán equivalentes en eficacia si las proporciones de desaparición
del dolor no difieren en más de un 8%. El intervalo de confianza (90%) de la diferencia de
ambas proporciones va entre -6% y +3%. Dado que no alcanza los límites, se puede
rechazar la no equivalencia (α=0.05).

Ejercicio 5.2
Mediante un diseño en que todos los casos pasan por los dos tratamientos, se ha
obtenido en n=20 casos el valor de la Diferencia entre ambas Presiones Arteriales
Diastólicas (PAD) tras 3 meses con el tratamiento de Referencia y 3 con el
Nuevo. Se ha establecido el límite de no equivalencia clínica de un hipotensor en
10 mmHg. Los resultados han sido D=3 y SD=10. Calcule el intervalo de
confianza y decida si existe equivalencia.

35
Prueba de significación y contraste de hipótesis

Ejercicio 5.3
Decidir en el ejercicio anterior si existe equivalencia mediante el doble contraste
de hipótesis unilateral. ¿Cómo cambiaría la presentación de resultados entre PS y
CH?

Ejercicio 5.4 (mismo hipotensor, pero menos casos):


Repita el Ejercicio 5.2 y el Ejercicio 5.3 mediante IC y CH, asumiendo que los
resultados han sido: n= 5; D=3 y SD=10.

Ejemplo 5.6 (muy técnico): Para el establecimiento de equivalencia en biodisponibilidad (o


bioequivalencia) se suele requerir que el cociente de los niveles en sangre entre R y N se
encuentre entre 0.8 y 1.25. Es decir, que ni R puede estar al 80% de N (80%=cuatro quintos:
4/5), ni que N puede estar al 125% de R (125%=cinco cuartos: 5/4). En concreto, se pide
que la media geométrica de dichos cocientes esté entre ambos valores o lo que es lo mismo,
que la media aritmética de la diferencia entre ambos logaritmos se sitúe entre log(0.8)=-
0.223 y log(1.25)=0.223. Así, se trabajará con la “diferencia de los logaritmos naturales”,
que se corresponde con el logaritmo de los cocientes que se desea mantener, en promedio,
entre los dos valores requeridos. En un diseño de datos apareados los resultados han sido:
n=12, DL =0.1 y SDL =0.2.
Mediante IC90%: LR-LN LR-LN t /2 ·SLR-LN/ n
LR-LN 0.1 t11,0.05 · 0.2 / 12 LR-LN (-0.004, 0.204)

# t11,0.05
> qt(p=0.05,df=11,lower.tail=FALSE)
[1] 1.795885

Mediante PDU =0.05: H0A: LR-LN -0.223


H1A: LR-LN > -0.223

> pt(q=5.597,df=11,lower.tail=FALSE)
[1] 8.05157e-05

H0B: LR-LN 0.223


H1B: LR-LN < 0.223

36
Bioestadística para no estadísticos

> pt(q=2.133,df=11,lower.tail=FALSE)
[1] 0.0281428

Por lo que tanto el IC como la PDU permiten concluir la equivalencia de ambos productos.

Lectura: Los planteamientos de equivalencia que se han resuelto en estos ejemplos hacen referencia a la
equivalencia en media. Ello implica que un paciente tiene los mismos valores esperados bajo ambos
productos en comparación y, por tanto, ambos preparados o productos son igualmente aconsejables para
un nuevo paciente (equivalencia poblacional o prescribilidad). Para que dos preparados se puedan
intercambiar en un paciente ya tratado (equivalencia individual o intercambiabilidad) es necesario,
además, que no exista interacción entre el preparado y el paciente, es decir: que la diferencia (quizás nula)
entre ambos preparados sea la misma para todos los pacientes. La demostración de esta condición ha sido
exigida por algunos, resultando en una mayor dificultad para la salida al mercado de productos genéricos.

5.1. Sensibilidad de un estudio

Definición
Sensibilidad es la capacidad de un ensayo clínico concreto para distinguir entre
un tratamiento eficaz y un tratamiento ineficaz o menos eficaz.

Es importante en cualquier ensayo pero tiene una implicación diferente en los ensayos que intentan
demostrar diferencia entre tratamientos (de superioridad) que en los que intentan demostrar no-
inferioridad.

En un ensayo de superioridad, si ésta se demuestra, queda también establecida su sensibilidad (se


auto-valida). En cambio, un ensayo de equivalencia que alcanza el resultado deseado, o un ensayo
de superioridad con un resultado negativo, siempre queda la duda de si: a) no ha demostrado
diferencias porque no existen; o b) porque el estudio no hubiera sido capaz de establecerlas —por
no ser “sensible” a ellas.

La sensibilidad se puede deducir a partir de: (1) Evidencia histórica de la sensibilidad a los efectos
del tratamiento (ensayos pasados con un diseño similar lograron distinguir a los tratamientos
efectivos); y (2) un apropiado diseño y desarrollo del ensayo, que no limitan su capacidad para
distinguir entre tratamientos.

37
Prueba de significación y contraste de hipótesis

Recuerde
Un estudio de superioridad significativo permite inducir (aporta evidencia de) su
sensibilidad. Un estudio de equivalencia requiere poder deducir su sensibilidad de
su diseño y calidad de ejecución.

Varios factores pueden reducir la sensibilidad del ensayo: cambios en la población en estudio
(criterios de selección), cambios en la dosis y pautas de tratamiento, cambios en las variables de
eficacia y su momento de evaluación, periodos de lavado pre-inclusión, bajo cumplimiento con la
medicación, baja respuesta de los pacientes a los tratamientos, uso de tratamientos concomitantes
prohibidos, pacientes que tiendan a mejorar espontáneamente, criterios diagnósticos mal aplicados
(pacientes sin la patología), evaluación sesgada debida al conocimiento de que todos los pacientes
reciben algún tratamiento activo, etc.

Quien proponga un diseño de no-inferioridad, debe poder aportar evidencia histórica de la


sensibilidad de diseños similares a los efectos del tratamiento del estudio. Así, el diseño debe ser
similar a los ensayos previos respecto a: criterios de selección, variables, análisis, etc. Además, su
ejecución debe de ser de alta calidad: reclutamiento, seguimiento, administración de la intervención,
valoración, etc.

5.2 Margenes de equivalencia, no inferioridad y no superioridad


El margen se establece a priori a partir de criterios clínicos.

En cualquier caso, el margen de no-inferioridad siempre debe ser inferior al margen previo de
eficacia establecido respecto a un placebo, quizás la mitad o la tercera parte. Este hecho puede
provocar un mayor tamaño muestral

Recuerde
debe ser menor a

Referimos al lector interesado a la extensión de la Consort para equivalencia; a los documentos ICH
E10 de elección del grupo control y E9 de análisis estadístico; y a la directriz de la EMA sobre
estudios de equivalencia.

38
Bioestadística para no estadísticos

Soluciones a los ejercicios


2.1. La respuesta correcta es la d). La a) es incorrecta ya que “conocer el valor del parámetro” es el objetivo de la
estimación por intervalo de confianza, no del contraste de hipótesis. La b) no es correcta ya que en la prueba de
significación la hipótesis forma parte del enunciado del problema y debe ser siempre independiente de la obtención
de los datos (lo que suele garantizarse especificándola previamente). La c) no es correcta ya que se buscan pruebas
en contra de H, que se desea rechazar.

2.2. La respuesta correcta es la a) ya que debe situarse en H aquello que se desea rechazar para poder demostrar su
complementario.

2.3. El proceso formal de decisión es el siguiente:


I) Variable: preferencia por A o por B
II) Estadístico: proporción P que prefieren A
III) Hipótesis que se desea rechazar: H: = 0.5 (ambos fármacos tienen igual preferencia)
Se fija el límite del nivel de significación en p=0.05.
IV) Si H es cierta:
Premisas: muestra grande y
V) Cálculo del valor p:

# Prob(z>3.2) (cola superior, lower.tail=FALSE)


> pnorm(q=3.2,lower.tail=FALSE)
[1] 0.000687138
# Multiplicando por 2 (valor bilateral)
> pnorm(q=3.2,lower.tail=FALSE)*2
[1] 0.001374276

Por ello, puede rechazarse, con p=0.0014 que ambos tratamientos sean iguales: el tratamiento A es preferido al
tratamiento B.
VI) Cálculo del intervalo de confianza:

La “auténtica” preferencia π por A se encuentra entre 53% y 63%. Al excluir 50%, IC permite la misma
conclusión que PS.

2.4. En caso que P=53%, se tiene:


V) Cálculo del valor p:

# Prob(z>1.2) (cola superior, lower.tail=FALSE)


> pnorm(q=1.2,lower.tail=FALSE)
[1] 0.1150697
# Multiplicando por 2 (valor bilateral)

39
Prueba de significación y contraste de hipótesis

> pnorm(q=1.2,lower.tail=FALSE)*2
[1] 0.2301393

Se ha obtenido p=0.23. Nada se opone a aceptar que ambos tratamientos tienen la misma preferencia.
VI) Cálculo del intervalo de confianza:

La “auténtica” preferencia π por A se encuentra entre 48% y 58%. El intervalo contiene el valor 0.5, por lo que
se llega a la misma conclusión con IC que con PS.

2.5. Las tres primeras son correctas, la cuarta no tiene sentido y las dos últimas son un error habitual de interpretación
de p, que cuantifica la probabilidad de unos resultados condicionando a H, no la probabilidad de H condicionando a
unos resultados. Más adelante insistimos en esta distinción.

2.6. El estadístico es:

# P = Prob(t>3) con 15 grados de libertad


> pt(q=3,df=15,lower.tail=FALSE)*2
[1] 0.008972737

La probabilidad vale p <0.01 y, por tanto, se ha logrado demostrar que > 70.

Utilizando el t test de R se obtiene, además, el intervalo de confianza:

> library(BSDA)
> tsum.test(mean.x=79, s.x=12, n.x=16, mu=70)

t = 3, df = 15, p-value = 0.008973
alternative hypothesis: true mean is not equal to 70
95 percent confidence interval: 72.60565 85.39435

El intervalo excluye el valor 70, por lo que permite la misma conclusión que PS.

2.7. La correcta es la respuesta c).

2.8. Ahora cambia el nivel p de significación, que al dividirse por 2 da 0.0045, por lo que las conclusiones no cambian.
Nótese que un planteamiento unilateral es más adecuado en este ejemplo.

2.9. Ejercicio difícil, ya que 2 es mayor que 1.96 y parece que podemos rechazar H, pero observe que -2 está a la
izquierda de +1.96, por lo que se acepta H. Es correcta la respuesta e), ya que se trata de una prueba unilateral cuya
H incluye el 0 y todos los valores negativos. Dado que el estadístico se sitúa en H, la única conclusión posible en
una prueba de significación es “nada se opone a aceptar H”.

3.1. En 2.3, al ser , se rechaza H.

40
Bioestadística para no estadísticos

En 2.4, al ser , nada se opone a aceptar H.

En 2.7, al ser , se rechaza H.

# t14,α/2
> qt(p=0.025,df=14,lower.tail=FALSE)
[1] 2.144787

3.2. Son correctas las respuestas c), expresada más formalmente en términos de probabilidad poblacional; y f), como
frecuencia a largo plazo.

3.3. Es correcta la respuesta b) ya que H0 es cierta.

4.1. Efectivamente, las correctas son las tres largas d), h) e I): ¡es peligroso abreviar!

4.2. No, los resultados de su experimento lo único que le dicen es que, asumiendo que los dos productos sean iguales, la
probabilidad de obtener unos resultados como los suyos (o más extremos) no es muy pequeña. Por tanto, no puede
demostrar que H sea falsa, lo que no equivale a haber demostrado que H sea cierta. Por ello, no puede afirmar que
tengan la misma eficacia. Más adelante se estudia cómo puede demostrar equivalencia.

4.3. Todas son ciertas.

4.4. La correcta es la respuesta a).

4.5. Son correctas la a) y la c).

4.6. a) y c) son claramente inferencia, así como d) y e) decisión. b) hace inferencia sobre las consecuencias de una
decisión.

5.1. Se rechazaría la H de estricta igualdad en los estudios 1, 4 y 5. Nótese que el estudio 1 tiene un IC, razonablemente
estrecho, que le permite concluir tanto equivalencia (porque excluye ε1 y ε2) como diferencias (porque excluye 0);
es decir, los dos tratamientos no son estrictamente iguales, pero sus diferencias no alcanzan el criterio de
relevancia. El estudio 6, en cambio, tiene un IC tan amplio, aporta tan poca información, que no le permite ni
rechazar la estricta igualdad ni el límite de relevancia clínica. Los restantes estudios no presentan estas paradojas: el
2 y el 3 no consiguen rechazar la estricta igualdad y sí que consiguen establecer equivalencia (aunque el 2 tiene un
IC más estrecho que implica que se dispone de mucha información); y el 4 y el 5 consiguen rechazar la estricta
igualdad y no consiguen establecer equivalencia. Nótese que el estudio 5 no incluye el margen de equivalencia ε2,
pero que se sitúa al lado de la no equivalencia (lo que coincide con el planteamiento unilateral).

5.2. IC90%:

# t19,0.05
> qt(p=0.05,df=19,lower.tail=FALSE)
[1] 1.729133

Luego la media de las diferencias entre las presiones de ambos hipotensores está entre –0.866 (el de referencia
consigue presiones más bajas en media: gana por 0.866 mmHg) y +6.866 (el nuevo consigue presiones más

41
Prueba de significación y contraste de hipótesis

bajas: gana por 6.866 mmHg). Luego la diferencia entre ambos fármacos está entre los límites –10 y +10: se ha
establecido equivalencia.

5.3. PS : PDU HA: D -10 t1 = (3-(-10)) / (10/ 20) = 5.814 p < 0.001

HB: D 10 t2 = (3- 10) / (10/ 20) = -3.130 p ≈ 0.003

# p = Prob(t>5.814) con 19 grados de libertad


> pt(q=5.814,df=19,lower.tail=FALSE)
[1] 6.677505e-06
# P = Prob(t<-3.130) con 19 grados de libertad
> pt(q=-3.130,df=19,lower.tail=TRUE)
[1] 0.002756741

La primera prueba permite afirmar que la media de las diferencias entre ambos hipotensores está por encima de
–10. Y la segunda que está por debajo de +10. Por tanto, con un nivel de significación P 0.003, se ha
establecido que la media de las diferencias de ambos hipotensores está entre –10 y +10.

CH: PDU =0.05: H0A: D -10


H1A: D > -10 t1 = (3-(-10)) / (10/ 20) = 5.814
H0B: D 10
H1B: D < 10 t2 = (3- 10) / (10/ 20) = -3.130

Se llega a la misma conclusión, pero ahora se dirá que, con riesgo α=0.05, se autoriza el nuevo.

5.4. IC90%:

# t4,0.05
> qt(p=0.05,df=4,lower.tail=FALSE)
[1] 2.131847

Ahora, el IC90% sobrepasa el dintel superior que marca la no equivalencia y, por tanto, no se puede defender
que haya equivalencia.

CH: PDU =0.05 : H0A: D -10


H1A: D > -10 t1 = (3-(-10)) / (10/ 5) = 2.907 p = 0.022 < 0.05 = α

H0B: D 10
H1B: D <10 t2 = (3- 10) / (10/ 5) = -1.565 p ≈ 0.096 > 0.05 = α

# p = Prob(t>2.907) con 4 grados de libertad


> pt(q=2.907,df=4,lower.tail=FALSE)
[1] 0.02190478
# p = Prob(t<-1.565) con 4 grados de libertad
> pt(q=-1.565,df=4,lower.tail=TRUE)
[1] 0.0963175

42
Bioestadística para no estadísticos

Asimismo, aunque la primera prueba aún permite afirmar que la media de las diferencias está por encima de –
10, la segunda no ha permitido establecer que esté por debajo de +10. Por tanto, no se ha podido demostrar
que la media de las diferencias de ambos hipotensores esté entre –10 y +10. Por tanto, la acción debe ser no
autorizar el nuevo (A0).

43
Prueba de significación y contraste de hipótesis

Tabla salvadora
Tabla resumen de las pruebas de hipótesis vistas con el estadístico del test, su distribución (bajo H0), sus premisas necesarias, el criterio de decisión y la función de R.

Hipótesis Distribución Criterio de decisión Función en


Parámetro Estadístico Premisas
nula si H0 cierta (riesgo α bilateral) R

Rechazar H0 si
y
prop.test

t.test
Rechazar H0 si
Y ~ Normal tsum.test

(BSDA)

Rechazar H0 si
t.test

44
Tema 10:

Ensayo clínico
Azar, riesgos de sesgo, ética
Erik Cobo y Joan Carles Oliva
Jordi Cortés, José Antonio González y Marta Vilaró

Enero 2014
Ensayo clínico

Ensayo clínico

Presentación ...................................................................................................................... 3

1. Características fundamentales ....................................................................................... 4

1.1. El ensayo clínico es experimental .......................................................................... 4

1.2. El ensayo clínico es ético ....................................................................................... 5

1.3. El ensayo es clínico ................................................................................................ 5

1.4. El ensayo clínico es prospectivo ............................................................................ 6

1.5. El ensayo clínico es comparativo ........................................................................... 6

1.6. El ensayo clínico estima efectos ............................................................................ 8

1.7. El ensayo clínico puede apoyar decisiones ............................................................ 9

1.8. El ensayo clínico es controlado ............................................................................ 10

2. El azar ......................................................................................................................... 10

2.1. Obtención al azar: representatividad .................................................................... 11

2.2. Asignación al azar (aleatorización): comparabilidad ........................................... 12

3. Riesgos de sesgo ......................................................................................................... 14

3.1. Sesgo de selección ............................................................................................... 14

3.2. Sesgo de ejecución ............................................................................................... 15

3.3. Sesgo por atrición................................................................................................. 15

3.4. Sesgo del informe selectivo ................................................................................. 15

3.5. Sesgo de evaluación ............................................................................................. 16

3.6. Sesgo impredecible .............................................................................................. 16

4. Ajuste: el control metodológico .................................................................................. 17

4.1. Un buen control metodológico evita los riesgos de sesgo ................................... 19

4.2. Un buen control aumenta la precisión de la estimación ....................................... 20

4.3. Métodos de control o ajuste ................................................................................. 22

2
Bioestadística para no estadísticos

4.3.1. Restricción ............................................................................................................ 23

4.3.2. Estudio de subgrupos ............................................................................................ 24

4.3.3. Modelado .............................................................................................................. 26

4.3.4. Control global (minimización) .............................................................................. 28

4.4. Enmascaramiento ................................................................................................. 29

5. Ética, azar y papel del científico ................................................................................. 32

6. Regresión a la media ................................................................................................... 35

7. Tipos de ensayos clínicos ............................................................................................ 39

7.1. Según el objetivo .................................................................................................. 39

7.2. Según lo avanzado de la propuesta de intervención............................................. 40

7.3. Según el diseño .................................................................................................... 40

7.4. Según el método de asignación ............................................................................ 41

Soluciones a los ejercicios .............................................................................................. 42

Presentación
Estamos ya en condiciones de estudiar la metodología del ensayo clínico para poder estimar el
efecto de una intervención, cómo sortear sus riesgos de sesgo y ejecutarlo respetando los derechos
humanos.

Contribuciones: Basados en la versión previa de EC, JAG y PM, lo re-elaboraron EC y JCO; y lo


revisaron JC, JAG, y MV.

3
Ensayo clínico

1. Características fundamentales

1.1. El ensayo clínico es experimental


Un ensayo clínico es un experimento que asigna seres humanos a intervenciones en comparación.

La característica fundamental del ensayo clínico es que el investigador determina el grado de


exposición a la causa en estudio: el investigador decide el valor de la causa en estudio.

Recuerde

Un EC asigna intervenciones a los participantes.

Nota técnica: Es equivalente asignar “intervenciones a participantes” que asignar “participantes


a intervenciones”.

Ejemplo 1.1: Asignamos una de las intervenciones en estudio a cada paciente que acepta
participar.

Ejemplo 1.2: Repartimos (asignamos) los trabajadores de cierta entidad entre los protocolos
alternativos de seguimiento y control sanitario que deseamos comparar.

Recuerde

Distinga entre intervenciones (X) asignables por el investigador y condiciones (Z)


con las que se presentan las unidades.

Historieta: El pasado, Z, me esclaviza; el futuro, X, me libera.

Ejercicio 1.1

Un estudio pretende evaluar el efecto que, sobre la variable respuesta Tensión


Arterial (TA), tiene el número de visitas de seguimiento. Suponga:

a) Un estudio experimental que asigna a cada paciente un determinado número


de visitas, y

b) Un estudio observacional que simplemente observa el número de visitas


espontáneamente solicitadas por el paciente.

1) ¿El número de visitas es X o Z en cada estudio?

4
Bioestadística para no estadísticos

2) Ambos estudios demuestran una relación significativa entre número de visitas


y TA: 5 mmHg menos por cada visita adicional (IC95%: 3 a 7 mmHg).
Interprete este mismo resultado en ambos estudios.

Recuerde

Una variable susceptible de ser intervenida, debe ser “asignable”.

1.2. El ensayo clínico es ético


Nos hemos dotado de derechos y principios éticos que nos protegen. Los Comités de Estudios de
Investigación Clínica (CEICs) vigilan que se respeten.

Ejemplo 1.3: Sólo causas con efectos potencialmente positivos, los “tratamientos”, son
éticamente asignables a seres humanos (principio de no maleficencia).

Nota: El investigador que recluta voluntarios puede decir, por ejemplo: “Mire, Vd. va a recibir
todo el conjunto de intervenciones efectivas que gracias a la generosidad de pacientes con su
enfermedad, la Ciencia ha seleccionado previamente. Ahora estamos estudiando, en condiciones
muy controladas y reguladas, el balance entre beneficios y riesgos de una nueva y prometedora
posibilidad. Si Vd. se ofrece voluntario, tendrá una posibilidad del 50% de acceder a ella. Para
alcanzar el máximo rigor científico, ni Vd. ni yo sabremos durante el estudio si la recibe o no, lo
que nos obliga a utilizar un simulador del tratamiento. Por supuesto, tanto si recibe Vd. esta
nueva opción, o el simulador al que llamamos placebo, en ambos casos estará tratado dentro del
máximo nivel técnico y científico”.

Por ello, previamente al inicio del estudio, un comité de ética debe velar por la veracidad de esta
afirmación.

Nota: El apartado de este capítulo profundiza en la ética del Ensayo Clínico.

1.3. El ensayo es clínico


Lo más frecuente es evaluar la eficacia y la seguridad de un tratamiento con un fármaco. Pero
“intervención” puede indicar cualquier maniobra o producto, químico o biológico, administrados
con intención preventiva o curativa.

5
Ensayo clínico

Ejercicio 1.2

Poner un par de ejemplos de EC: 1) en el que no intervengan fármacos; y 2) cuya


intención sea preventiva.

1.4. El ensayo clínico es prospectivo


Su objetivo es responder la pregunta de un clínico, o un paciente, sobre cómo una intervención
cambiará su futuro.

Ejemplo 1.4: Si me tomo una aspirina, ¿se me irá el dolor de cabeza?

1.5. El ensayo clínico es comparativo

Historieta: Le preguntan a una estadística, “¿es guapa tu pareja?”; y responde, “¿comparada con
la de quién?”

Fould (1985) [ Pocock, p 53] revisó 52 ensayos no comparativos en psiquiatría y encontró que 44
(85%) concluyeron que existía éxito terapéutico; mientras que de 20 ensayos con un grupo de
referencia, sólo 5 (25%) encontraron dicho éxito.

Ejercicio 1.3

¿Qué puede explicar estas discrepancias?

Ejemplo 1.5: La artritis reumatoide es una enfermedad crónica que tiende a empeorar con el
paso del tiempo. Si administramos una nueva terapia y hacemos una comparación antes-
después (pre-post), el efecto medido podría ser incluso negativo: al final del ensayo, los
pacientes pueden estar incluso peor que al inicio. Sin embargo, el tratamiento en
investigación podría ser positivo, pues tiene el mérito de enlentecer la progresión de la
enfermedad. Este beneficio sólo se puede poner de manifiesto con un comparador.

6
Bioestadística para no estadísticos

Figura 1.1 Hay más casualidades que causalidades

Nota: Para poder afirmar que la clase le cambió, es preciso asumir que si no hubiera ido a clase
no lo sabría. Como este hecho no ha sido observado, no hay evidencia de que la relación
observada (“antes=no sabe, luego=sí”) sea causal.

Ejercicio 1.4

Una comparación antes-después muestra que la presión sistólica bajó 5mmHg en


los pacientes asignados a la intervención A. Comente algunas explicaciones
alternativas al descenso de la presión sistólica.

Ejercicio 1.5

Proponga intervenciones de control o alternativas a tomar una aspirina en un vaso


de agua.

Recuerde

La pregunta sobre el futuro lleva implícita una intervención de referencia.

7
Ensayo clínico

Historieta: Tip y Coll están en el safari fotográfico de su vida. Bajan a recepción vestidos con
botas y cargados con cámaras y objetivos. Pero les avisan de que un león anda suelto y que ellos
deben asumir los riesgos, por lo que les piden que firmen un acuerdo informado. Tip sale
corriendo y vuelve con bambas, un ligero atuendo deportivo y una mini-cámara. Coll le dice
riendo, “serás tonto, ¿crees que así correrás tú más que el león?”; y Tip le responde, “no amigo
mío, por favor no te confundas, yo sólo quiero correr más que tú”.

Recuerde

Debe precisar tanto la intervención en estudio como la alternativa a la que


pretende sustituir.

Contra-ejemplo 1.6: En los niveles iniciales de investigación, un estudio de factibilidad


podría centrarse en un solo grupo, que recibe la intervención en estudio.

1.6. El ensayo clínico estima efectos

Definición

Efecto es la diferencia entre la respuesta Y que se observa cuando se asigna A y


la que se observa cuando se asigna B.

Estimar efectos precisa inferencia causal. Los estudios observacionales sin comparador requieren el
razonamiento contrafáctico (de no haberse observado la causa A, el efecto Y no se habría
producido); pero en los estudios experimentales, las respuestas a las causas en comparación son
potencialmente observables y comparables.

Ejemplo 1.7: “Among persons at high cardiovascular risk, a Mediterranean diet


supplemented with extra-virgin olive oil or nuts reduced the incidence of major
cardiovascular events”. Como esta aparición de eventos cardiovasculares es observable en
todos los pacientes reclutados, no hay necesidad de argumento contrafáctico.

Nota técnica: Veremos más adelante que cada paciente será asignado a una sola intervención y,
por tanto su respuesta bajo la otra intervención no se observará, será un dato ausente (“missing”).
Pero como la asignación al grupo de tratamiento es al azar, se trata de “missings at random”,
cuya ausencia no sesga los resultados.

Observe que hemos definido “efecto de A relativo a B en la respuesta Y”. Además, convendrá
especificar la población de pacientes P a la que aplican los resultados.

8
Bioestadística para no estadísticos

Ejemplo 1.7 (cont.): Efecto de la dieta mediterránea (A) relativo al consejo para reducir
grasas (B) en los eventos cardiovasculares mayores (respuesta Y) en pacientes con diabetes
tipo II o, al menos, 3 riesgos cardiovasculares mayores (población P).

Recuerde

Comparar las respuestas entre 2 grupos aleatorizados permite estimar el efecto.

Ejercicio 1.6

Durante un año, en 2580 pacientes, eliminaron el cabello de la zona de la incisión


quirúrgicamediante un proceso nuevo. Luego, . compararon la tasa de infección
de la cicatriz con 17424 pacientes vistos en los 7 años anteriores. Como no hubo
cambio significativo en la tasa de infección, que se mantuvo en torno al 1% (Surg
Gynecol Obstet 1986; 162:181), los autores dijeron “dado que no hemos visto
diferencias, el uso de controles históricos no compromete las conclusiones”.
Busque diferencias entre los dos grupos en comparación que puedan comprometer
esta interpretación.

Ejercicio 1.7

¿Qué problemas pueden haber con el uso de controles de la bibliografía? ¿Y con


los controles del mismo hospital?

Recuerde

La máxima calidad científica requiere un comparador interno y simultáneo.

1.7. El ensayo clínico puede apoyar decisiones


El futuro de una intervención puede pivotar sobre ECs: sólo si el resultado es positivo, la
intervención pasa a formar parte del arsenal terapéutico. En este caso, los riesgos de decisiones
erróneas deben estar controlados. El entorno de decisión de Neyman-Pearson, con riesgos alfa y
beta acotados, es el preferido por las agencias de regulación de medicamentos.

Ello requiere que el criterio para tomar decisiones esté perfectamente definido. En el caso más
general, descansa en 1 análisis principal de 1 variable principal de evolución.

9
Ensayo clínico

Nota: Por supuesto, el EC puede desear aportar conocimiento sobre otros temas, usualmente
recogidos en objetivos y variables secundarios. Además, otros objetivos secundarios pueden
comprobar la robustez de los resultados (¿se habría llegado a la misma decisión con otro análisis
o variable?) o la validez de las premisas (¿permite el análisis de subgrupos sostener que el
mismo efecto aplica a todos los casos?).

1.8. El ensayo clínico es controlado

Nota: En un ensayo clínico el término ‘control’ puede tener dos connotaciones: (1) el grupo
sometido a la intervención de referencia, comparativa, como en ‘control histórico’, ‘control
interno’, etc.; y (2) el hecho de controlar las restantes variables. Para distinguir, usamos
comparador o referencia para el primer uso.

El ensayo clínico debe garantizar que la única diferencia entre los grupos en comparación son los
tratamientos. En caso contrario, la comparación de los grupos estaría afectada, sesgada, por estas
otras diferencias.

Historieta: Un niño juguetón y algo sádico quita una pata a una araña, y la suelta mientras le
dice “anda”. Observa que la araña se escapa corriendo. Lo repite hasta que la araña se queda sin
patas y no se marcha, por lo que concluye “cuando le quitas todas las patas se vuelve sorda”.

Recuerde

Sólo podemos “concluir” que el tratamiento es eficaz, si éste es la única diferencia


entre los grupos. Si hay más diferencias, requiere “interpretar” y “discutir”.

El ensayo clínico “controla” que no aparezcan riesgos de sesgo durante la selección, seguimiento y
evaluación de los participantes. Antes de estudiar cómo lo hace y cuáles son los riesgos de sesgo,
veamos las contribuciones del azar.

2. El azar
La inferencia estadística puede recurrir al azar de dos formas: para seleccionar a las unidades o para
asignar los tratamientos. Como se muestra a continuación, el primer caso persigue
representatividad; y el segundo, comparabilidad.

10
Bioestadística para no estadísticos

Figura 2.1 Dos aportaciones del azar a la validez: representatividad y comparabilidad.

Ejercicio 2.1

De acuerdo con la Figura 2.1, diga si las siguientes afirmaciones son ciertas.

a) Puede haber validez interna sin que exista validez externa.

b) Puede haber validez externa sin que exista validez interna.

c) Para que los grupos sean comparables debe haber extracción al azar.

d) Un seguimiento idéntico y completo garantiza comparabilidad.

e) El azar dota de transportabilidad.

2.1. Obtención al azar: representatividad


Ya se dijo que, si los elementos de la muestra eran seleccionados al azar, la teoría de probabilidad
permite cuantificar (error estándar, intervalos de confianza) la incertidumbre al inferir al conjunto
de toda la población los resultados obtenidos en la muestra.

Ejemplo 2.1: Al realizar la planificación sanitaria de una comunidad se recurre a una


muestra aleatoria para conocer el estado de salud de sus ciudadanos.

11
Ensayo clínico

Recuerde

La teoría de probabilidad permite cuantificar las oscilaciones de los resultados


debidas al azar del muestro.

Ejercicio 2.2

Para realizar el estudio del Ejemplo 2.1, a partir de un listado de todos los
elementos de la población, se seleccionan al azar una serie de individuos en los
que se evalúa su nivel de salud. Dado que es un derecho no participar, ¿qué
consecuencias puede tener que algunos casos rehúsen?

Recuerde

La obtención al azar otorga representatividad a los resultados.

La selección al azar de los participantes requiere disponer de (un listado de) todos los miembros
elegibles de la población, lo que puede ser factible en sociología, política o salud pública, pero no
en clínica. Por eso, los ensayos clínicos NO se basan en la selección o extracción al azar.

2.2. Asignación al azar (aleatorización): comparabilidad


Los ensayos clínicos SÍ se basan en la asignación al azar.

Una vez se han seleccionado aquellos individuos que formarán parte del estudio, el proceso de
asignación aleatoria del tratamiento genera dos muestras de esta misma población. Dado que ambas
muestras provienen, de manera aleatoria, de la misma población, la distribución de todas las
variables es la misma a nivel poblacional.

Como todas las terceras variables están igualmente distribuidas en los grupos, no existe ninguna que
pueda explicar diferencias entre los grupos, por lo que la asignación aleatoria del tratamiento ofrece
una estimación insesgada del efecto (causal).

Recuerde

Asignar al azar otorga comparabilidad de los grupos y permite una estimación


insesgada del efecto.

12
Bioestadística para no estadísticos

Ejercicio 2.3

Sobre la asignación al azar, diga cuáles de las siguientes afirmaciones son


correctas:

a) Las dos muestras provienen de la misma población.

b) A nivel poblacional, las dos muestras son idénticas.

c) Los valores observados en las dos muestras son idénticos.

Figura 2.2 Papel del azar. Un profesional que desee


‘controlar’ un elevado número de variables con pequeños
efectos en la respuesta puede recurrir al azar para conseguir
un reparto similar del conjunto de todas ellas, de la misma
forma que al freír unos champiñones introducimos entropía,
azar, ruido, para que se hagan homogéneamente. ¡Y funciona!

Nota técnica: Al ser muestras aleatorias, aplica todo lo estudiado en inferencia. Si, por ejemplo,
la variable respuesta es numérica y estamos interesados en comparar medias, la diferencia de las
medias muestrales ( ̅ ̅ : (1) tiene como valor esperado la diferencia poblacional entre
medias [ ( ̅ ̅ ], es decir, no hay sesgo porque el conjunto de todos los estudios
posibles apunta en la dirección correcta; y (2) su imprecisión es la suma de las oscilaciones de
las dos medias: [ ( ̅ ̅ ⁄ ⁄ ], lo que proporciona su error estándar.

Por tanto, el resultado de un estudio aleatorizado concreto (1) apunta en la dirección correcta; y (2)
permite cuantificar su desvío esperado del auténtico valor.

Recuerde

Un estudio aleatorizado (bien diseñado y ejecutado) carece de sesgo.

Recuerde

El azar proporciona la base para calcular la incertidumbre originada por estudiar


un subconjunto de casos.

13
Ensayo clínico

Ejercicio 2.4

Sobre la estimación del efecto, si hay asignación al azar, son correctas:

a) Diferentes asignaciones (o reparto de los casos) darán lugar a diferentes


estimaciones.

b) La oscilación de las posibles estimaciones es desconocida.

c) La distancia entre el verdadero efecto y la estimación en una asignación


concreta es estimable.

d) La distancia entre el verdadero efecto y el promedio de las estimaciones de


todas las posibles asignaciones es conocida.

3. Riesgos de sesgo
Para tener una estimación insesgada del efecto, además de asignar al azar, hay que hacer bien todo
el estudio. Repasemos, cronológicamente, algunas oportunidades que tenemos para hacerlo mal.

3.1. Sesgo de selección


Hay sesgo de selección cuando las intervenciones se asignan a grupos que proceden de poblaciones
diferentes.

Ejemplo 3.1: Asignar los pacientes más graves a la intervención nueva.

Nota: Un clínico que desea actuar de esta manera no cree en el estudio y no debería participar en
el mismo.

Se previene con la asignación al azar y oculta: la aleatorización garantiza que los grupos en
comparación proceden de la misma población; y mantenerla oculta hasta el momento de la
intervención minimiza las posibilidades de excluir pacientes de forma direccionada.

Contra-ejemplo 3.2: Un investigador que excluye los pacientes más graves del estudio
para tratarlos, si estuviera permitido, fuera del mismo, reduce la extensión de la población
estudiada y por tanto atenta a la validez externa (transportabilidad), pero no a la interna
(comparabilidad).

14
Bioestadística para no estadísticos

3.2. Sesgo de ejecución


Hay sesgo de ejecución (“performance”: actuación, rendimiento, acción, o desempeño) cuando los
grupos en comparación reciben diferentes cuidados (aparte de los que se comparan).

Ejemplo 3.3: En un estudio que sólo enmascara la evaluación de la respuesta final, dar más
medicación de rescate a los pacientes del grupo de referencia.

Se previene con el enmascaramiento.

3.3. Sesgo por atrición


Hay sesgo por atrición o desgaste cuando se pierden casos. La aleatorización garantiza grupos
comparables al inicio del estudio. Para mantener esta propiedad es necesario mantener hasta el final
del estudio a todos los casos.

Contra-ejemplo 3.4: Un paciente o un clínico pueden decidir interrumpir la intervención en


estudio. Es su derecho. Pero este hecho es, en sí mismo, un resultado muy importante que
debe ser reportado, por lo que debe mantenerse al paciente en el estudio.

Recuerde

No confunda abandonar el tratamiento en estudio con abandonar el estudio.

Se evita con un seguimiento completo.

3.4. Sesgo del informe selectivo

Ejemplo 3.5: Escoger aquella variable de la evolución o aquel análisis estadístico que más
favorecen las expectativas o los resultados deseados.

La obligación de publicar los protocolos pretende evitar el cambio de variable y análisis principal.
Aun así, conviene publicar un plan de análisis estadístico especificado sin ambigüedades.

Nota: Una práctica pasada consistía en desvelar el grupo (A o B) de cada paciente pero no el
tratamiento de cada grupo (experimental o referencia) y escribir 2 informes (uno asumiendo que
el experimental era A; y otro, B) y, una vez firmados ambos, desvelar cuál era el grupo
experimental. Pero los eventos adversos permitían desvelar el tratamiento de cada grupo, Por
ello, se abandonó este método.

15
Ensayo clínico

3.5. Sesgo de evaluación

Ejemplo 3.6: Ser más “generoso” al valorar la respuesta de los tratados.

El enmascaramiento previene el riesgo de sesgo durante la evaluación.

Los diseños PROBE, enmascaran la evaluación de la respuesta para evitar este riesgo de sesgo.

3.6. Sesgo impredecible


Los sesgos comentados hasta el momento explican estimaciones optimistas de los efectos de las
intervenciones. Como la estadística acompaña las medidas del efecto con estimaciones de su
incertidumbre, también debemos estudiar qué pasa con las estimaciones de los errores típicos.

El sesgo impredecible o imprevisible aparece cuando la imprecisión del estudio es mayor que la
cuantificada por el error estándar.

Recuerde

Si hay sesgo impredecible, la estimación obtenida del error estándar es optimista.

Ello que implica que el auténtico valor estará más allá de los límites del IC más veces de las α
aceptadas: es decir, la cobertura prometida, por ejemplo, del 95%, es mayor que la real.

Recuerde

Si hay sesgo impredecible, la cobertura del IC es menor de la especificada.

Figura 3.1 Comparación de métodos de ajuste


de casos mixtos aplicado a los resultados de
estudios controlados de 14 regiones en el IST.
RC: resultados de los ECAS correspondientes;
CCs: comparadores concurrentes sin ajuste,
LR(F): ajuste con regresión logística
completa, LR(5%): ajuste con regresión
logística por pasos pr = 0,05; LR(15%): ajuste
de la regresión logística por pasos pr = 0,15;
MH: ajuste por estratificación de Mantel-
Haenszel; PS(M): ajuste por emparejamiento
del “propensity score”; PS(S): ajuste por
estratificación del “propensity score”, PS(R):
ajuste por regresión del “propensity score”.

16
Bioestadística para no estadísticos

La Figura 3.1 tomada de Deeks et al, muestra que el uso de técnicas de ajuste no soluciona este
problema.

Recuerde

La asignación al azar proporciona estimaciones no sesgadas de las medidas del


efecto y de su incertidumbre.

Todo desvío, incorrección o error en un EC puede contribuir a aumentar la incertidumbre,


resultando en IC excesivamente optimistas ya que sólo recogen la oscilación aleatoria pura.

Ejercicio 3.1

¿Cuáles de los 6 sesgos comentados pueden aparecer en un estudio no


enmascarado? Ponga ejemplos de qué podría pasar. ¿Y en un estudio PROBE?

Ejercicio 3.2

¿Por qué conviene NO excluir del ensayo un paciente que debe abandonar el
tratamiento (p.e., por falta o de eficacia o de tolerabilidad)?

Ejercicio 3.3

¿Cómo podemos comprobar que unos autores no presentan, de todos los posibles
análisis, aquellos que les convienen?

Ejercicio 3.4

Intente explicar con sus propias palabras qué es el sesgo impredecible.

Ejercicio 3.5

Ponga un ejemplo hipotético de cómo se puede producir cada tipo de sesgo.

4. Ajuste: el control metodológico

Nota: El término control tiene muchas acepciones. En un EC puede referirse: (1) al grupo o (2) a
la intervención de referencia; (3) al riguroso seguimiento de los pacientes por los investigadores;
(4) a la regulación legal; (5) a la garantía de calidad que proporcionan la monitorización y la
gestión de datos; y (6) a la metodología que permite mejorar las propiedades estadísticas.

17
Ensayo clínico

En un ensayo con 2 casos y 2 intervenciones, cualquier diferencia entre los casos puede ser una
explicación alternativa a las diferencias observadas. Y por tanto, ese estudio tiene un valor muy
limitado.

Ejemplo 4.1: Supongamos una población con sólo 2 casos (Mar y Pep), que asignamos al
azar a las 2 intervenciones en comparación (A y B). Hay 2 asignaciones posibles: (1) Mar
con A y Pep con B; y (2) Mar con B y Pep con A. El promedio de los efectos estimados en
los 2 posibles estudios con estos 2 casos coincide con el efecto poblacional, pero cada uno
de los 2 estudios diferirá del auténtico valor por 2 motivos, uno aleatorio y otro sistemático.
El primero es el resultado de la variabilidad entre casos y podemos cuantificarlo con el error
típico. El segundo, en cambio, incluye todas las diferencias “reproducibles”: por ejemplo,
que las mujeres vivan unos 5 años más que los hombres. Un observador crítico encontrará
muchas otras diferencias entre Mar y Pep a las que podría atribuir las diferencias
observadas.

Pero el conjunto de todos los estudios posibles apunta en la dirección correcta: es insesgado.

Recuerde

El azar garantiza que el conjunto de la ciencia avanza en la dirección correcta.

Pero un buen investigador no tiene suficiente con el hecho de que la ciencia avance. Él quiere que
su estudio concreto sea convincente. Quiere que su estudio acierte en sus estimaciones.

Recuerde

Aunque la asignación aleatoria permite estimaciones insesgadas a lo largo de


todos los experimentos, no garantiza que cada posible experimento esté
equilibrado para toda tercera variable.

18
Bioestadística para no estadísticos

Figura 4.1 Límites del azar. Si una variable importante debe


quedar equilibrada entre los grupos, el azar no lo garantiza,
especialmente si la muestra es pequeña. El azar que le sirve al
cocinero para ‘equilibrar’ los champiñones, no funciona con los
bistecs. Puede argumentarse que, si se dispusiera de muchos
bistecs, la mitad de ellos se harían por su cara proximal y la otra
mitad por la distal, llegando a un equilibrio ‘a largo plazo’. Cierto,
habría ‘equilibrio’ para el conjunto de los comensales. Pero cada
uno de ellos se comería un bistec que tendría una cara cruda y la
otra hecha. De la misma manera, si un investigador quiere
garantizar que, en su estudio concreto una variable importante
quede equilibrada, no debe descansar en el azar.

4.1. Un buen control metodológico evita los riesgos de sesgo


Delante los posibles riesgos de sesgos, ¿qué puede hacerse? Muy sencillo: no dejar en manos del
azar aquellas terceras variables que, si resultaran desequilibradas, podrían comprometer las
conclusiones del estudio. Nótese que las variables no observables (pongamos V) nunca
comprometerán la credibilidad del estudio (porque no puede observarse su desequilibrio). Pero
entre las variables observables (Z), aquellas relacionadas con la respuesta, pueden comprometer la
credibilidad de los resultados y, por tanto, no conviene dejarlas en manos del azar.

Ejemplo 4.2: Si el nivel inicial de la enfermedad es una variable crucial, que determina
claramente la evolución de los pacientes, conviene controlarla.

Contra-Ejemplo 4.3: La situación personal, familiar y profesional es un conjunto de


muchas variables que podrían influir, como mucho, un poco cada una de ellas, en la presión
arterial. Ajustar por cada una de ellas haría inviable el estudio.

Figura 4.2. Límites del control. Pretender controlar cada


pequeña variable haría inviable el estudio. Si se definen
bloques de edad, género, color de los ojos y preferencias
sexuales dentro de cada centro, siempre faltarán casos en
alguno de los bloques y nunca se podrá cerrar el estudio.

19
Ensayo clínico

Recuerde

Las terceras variables observables se controlan con las técnicas de diseño y de


ajuste; y las no observables, con la asignación al azar.

Ejercicio 4.1

De las siguientes expresiones, remarque aquellas que son ciertas.

a) Si realizo al azar la asignación del tratamiento, las dos muestras, que vienen
de la misma población, tienen una idéntica distribución poblacional.
b) Si realizo al azar la asignación del tratamiento, las dos muestras, que vienen
de la misma población, toman idénticos valores en ambas muestras.
c) Si realizo al azar la asignación del tratamiento, la estimación es insesgada.
d) Si realizo al azar la asignación del tratamiento, no debe preocuparme ningún
posible desequilibrio entre las muestras, ya que la estimación es insesgada.
e) Si mediante las técnicas de ajuste controlo a todas las terceras variables
observables, la asignación al azar ya no aporta nada al diseño.
f) Si se acepta que la ciencia empieza por descubrir las variables importantes, las
técnicas de control (que controlan a las variables conocidas Z) tienen un papel
más relevante que la asignación al azar (que controlan a las desconocidas V).

4.2. Un buen control aumenta la precisión de la estimación


Un control o un ajuste bien planificado y ejecutado suele conllevar un beneficio en la precisión de
la estimación.

Ejemplo 4.4: Cabe esperar menos diferencias entre dos pacientes de la misma edad, género
y centro, que entre dos pacientes de diferentes edades, géneros y centros.

La comparación directa de dos pacientes de las mismas características, al estar menos influida por
fluctuaciones aleatorias, aportará más información.

Ejemplo 4.5: Vimos 2 pruebas para comparar 2 medias, para datos independientes y
apareados. En ambas, el numerador proporciona la misma señal. Pero la imprecisión
calculada en el denominador era diferente: cuanto mayor era la correlación entre las dos
observaciones, mayor era el beneficio por aparear los casos.

20
Bioestadística para no estadísticos

Nota técnica: Vimos que una gran correlación entre las dos determinaciones corresponde a una
situación con mucha variabilidad entre-casos y poca variabilidad intra-casos.

Recuerde

Existe mayor eficiencia en la prueba de comparación de medias con datos


apareados que independientes.

Recuerde

El ajuste permite controlar la variabilidad de la variable Z que se deja fija. Eso


implica, en un buen diseño, mayor eficiencia estadística, por lo que un mismo
número de casos permite un menor error de estimación y un intervalo de
confianza más estrecho.

Además, controlar mediante el diseño permite equilibrar el número de casos en cada grupo.

Ejemplo 4.6: Un estudio de factibilidad desea asignar 12 pacientes, 6 hombres y 6 mujeres,


a dos intervenciones. Si se desea comparar medias, se sabe que los hombres y las mujeres
difieren en la variable respuesta, y se puede asumir que las varianzas son iguales, la máxima
eficiencia se obtiene asignando 3 de cada género a cada intervención.

Un ajuste no planificado en el protocolo puede tener consecuencias imprevisibles sobre la


eficiencia. Puede conllevar un beneficio o, por el contrario, aumentar considerablemente el error
típico de estimación de los parámetros.

Ejemplo 4.7: El mismo estudio de factibilidad anterior decide controlar por género en el
análisis en lugar de en el diseño. Podría haber sucedido que la intervención A la formaran 5
hombres y 1 mujer. Y al revés para la B. Las comparaciones A frente a B, serían 5 a 1 para
los hombres y 1 a 5 para las mujeres, con mayor imprecisión que si hubieran sido 3 a 3.

Ejercicio 4.2

Siguiendo con el ejemplo anterior, suponga que: desea conocer el efecto sólo en
los hombres; dispone de 8 casos; y la varianza de la variable cuantitativa
respuesta es 1. Calcule el error estándar de la estimación del efecto de A frente a
B en los hombres si los 8 observados han quedado repartidos entre las
intervenciones de las 2 formas siguientes: (i) 4 a 4; y (ii) 7 a 1. ¿Cuánto mayor es
el error en el 2º caso?

21
Ensayo clínico

Nota técnica: Estos beneficios son muy claros si se analiza una respuesta numérica (p.e.,
comparación de medias). Veremos que la situación es más sofisticada en otros casos (p.e.,
comparación de proporciones, análisis de supervivencia, etc.).

4.3. Métodos de control o ajuste


Hay 4 grandes grupos de métodos para el control metodológico: restricción, análisis de subgrupos,
modelado; y ajuste global. Todos ellos pueden decidirse en la fase de diseño o en la fase de análisis,
pero sólo un ajuste decidido independientemente de los resultados está protegido del riesgo de sesgo
del informe selectivo. Por ello, es importante especificar el método de ajuste durante el diseño del
estudio.

Recuerde

Especificar el control en el diseño garantiza que los resultados no guían el


método (sesgo del informe selectivo).

La Tabla 4.1 resume las ventajas e inconvenientes de las diferentes posibilidades para el control
metodológico y los nombres que reciben si se decide en el momento del diseño o durante el análisis.

Nota técnica: En el entorno del EC, el azar proporciona la propiedad de no sesgo y el control
aumenta la precisión (eficiencia). En los estudios observacionales el ajuste tiene otra
interpretación, ya que también persigue “controlar” el sesgo.

El curso de observacionales abordará más afondo estos métodos. Veámoslos brevemente.


Opción Fase Nombre Ventajas Inconvenientes

Diseño Criterios de elección Control completo Reduce la población objetivo


Barato Número de variables limitado
Restricción Análisis de
Análisis Simple de diseñar Posible confusión residual
un subgrupo Simple de analizar (si las restricciones son amplias)
Bloques Potencia Logística más sofisticada
Diseño
(apareamiento) Eficiencia Coste
Subgrupos
Sin premisas Dispersión de casos en estratos
Estratificación
Análisis Directa Diferentes estratificaciones
(apareamiento)
Cálculo simple Difícil ‘sintesís’
Diseño Modelado Factible con pocos casos Muchas premisas
Redondea efectos menores Elección del modelo
Modelado
Covarianza, Permite predicciones Elección de variables
Estadístico Análisis
regresión, otros Permite variables continuas Interpretación
Permite varias variables Parametrización del software
Ajuste Diseño Minimización Permite considerar varias Z
Logística sofisticada
global Análisis Pareja óptima No reduce población objetivo

Tabla 4.1 Opciones para el control [Adaptada de Kleinbaum et al]

22
Bioestadística para no estadísticos

Figura 4.3 Control por variables conocidas. Un profesional


que desee tener ‘controlada’ una variable conocida y medida
sin error, utilizará un sistema que le garantice que queda
igualmente distribuida en los grupos en comparación, de la
misma forma que al freír un bistec nos aseguramos que cada
lado se fría justo en la cantidad que deseamos.

4.3.1. Restricción

La forma más sencilla de control es la restricción de la población en estudio, bien sea mediante la
definición de criterios de selección en el protocolo, bien sea mediante el estudio de un subgrupo en
el momento del análisis.

Ejemplo 4.8: Se limita el estudio a casos de una cierta edad y de un hospital concreto.
Ahora, estas dos variables ya no pueden ser una explicación alternativa a la relación
observada entre el tratamiento X y la respuesta Y.

Su gran ventaja es la sencillez de aplicación. Su inconveniente es la reducción de la población


objetivo, tanto para obtener casos para el estudio como para aplicar después sus resultados.

Ejemplo 4.9: En el ejemplo anterior, si un profesional de otro centro desea utilizar los
resultados de ese estudio deberá analizar con detalle si existen características diferenciales
entre ambos centros que puedan comprometer aplicar los efectos observados en el otro
centro.

Ejercicio 4.3

En un estudio experimental muy controlado, se ha logrado establecer el efecto de


un tratamiento que disminuye el área necrosada tras un infarto. Los criterios de
inclusión de dicho estudio exigían que el paciente fuera tratado en un plazo de
tiempo muy limitado. Por esta razón, el protocolo del centro en el que Ud. trabaja
no incluye este tratamiento para aquellos casos que superan este límite de tiempo.
Ud. desea tratar este paciente. ¿Qué argumentos deben utilizarse?

23
Ensayo clínico

Recuerde

Los criterios de selección son la aplicación de la restricción decidida en la fase de


diseño del estudio.

Lectura: La declaración CONSORT recomienda no distinguir entre criterios de inclusión y


exclusión y llamarlos criterios de selección o elegibilidad. Pero otras, como STARD, siguen
distinguiendo.

Si una variable Z dispone de un amplio rango de variación y los criterios de elegibilidad son
generosos, puede persistir una cierta confusión residual.

Ejemplo 4.10: Si la edad tiene un efecto claro en la respuesta, que hace muy diferente un
caso con 18 años de uno con 70, limitar el estudio a pacientes de 18 a 70 puede ser correcto,
pero no suficiente.

4.3.2. Estudio de subgrupos

La siguiente herramienta de control es la definición de subgrupos, que reciben el nombre de


bloques si se especifican en el diseño y de estratos si se definen en el análisis.

Ejemplo 4.11: En un ensayo clínico multicéntrico se especifica en el protocolo que se desea


tener controlada la variable centro y la asignación aleatoria se planifica de forma que en
cada centro exista el mismo número de casos en cada grupo de tratamiento. Se dice que cada
centro es un bloque y que el estudio está balanceado por centro.

Ejemplo 4.12: En un estudio sobre el efecto de los programas de atención a domicilio en la


supervivencia de las personas mayores que se quedan solas, se decide estratificar en el
análisis por el nivel de actividades iniciales que realiza cada persona.

Una única estimación del efecto que represente al efecto común de cada subgrupo será siempre más
fácil de aplicar, pero requiere asumir que el efecto es el mismo en todos los subgrupos.

Recuerde

Sea parsimonioso al exponer sus resultados. Si es razonable, proporcione una


única medida del efecto que sirva para todos los subgrupos: bloques o estratos.

Lectura: No hay nada más tedioso que un informe que va presentando resultados por subgrupos
cuando el efecto es muy similar en todos ellos.

24
Bioestadística para no estadísticos

En el curso de observacionales veremos métodos para poner a prueba si existe un único efecto
común a todos los subgrupos. Observe que si tiene sospechas de que el grupo puede modificar el
efecto, quizás sea más práctico restringir el estudio a un subgrupo concreto. Y si no las tiene, el
estudio común de varios subgrupos partirá de esta premisa de que el efecto es común a todos los
subgrupos. Y las premisas no se someten a prueba, que se reserva para la hipótesis. Considerar a
la homogeneidad del efecto como una premisa, o a su heterogeneidad como una hipótesis, podría
explicar los matices diferenciales entre los consejos de Trials, Lancet y NEJM sobre cómo
interpretar el análisis de subgrupos.

Ejemplo 4.13: Si el estado pandrial puede modificar el efecto del tratamiento, no tiene
sentido combinar los resultados obtenidos en pacientes en ayunas con los de pacientes en
plena digestión. Es más simple y directo definir al estado pandrial como criterio de
selección o como condición del estudio. Si conviene, más adelante ya se estudiará la posible
interacción o se complementará el estudio realizado con otro de la condición no
considerada.

Ejercicio 4.4

Imagine dos estudios multicéntricos, ambos de n=200, para comparar un


tratamiento t con un comparador c. El estudio A ha sido diseñado para recoger
información de cinco centros. Cada uno aporta 40 casos, 20 en cada brazo de
tratamiento. El estudio B se inicia en veinte centros, de los que uno aporta 160
casos; y los otros 19 centros, los 40 restantes; destacando 10 centros que sólo
aportan un caso cada uno. ¿Cuáles de las siguientes afirmaciones son ciertas?

a) El estudio A seguro que evita la posible confusión por la variable centro, ya


que está equilibrado o balanceado.

b) La razón entre el número de casos tratados con t y con c es constante para


todos los centros del estudio A. Esto implica que la variable centro y la
variable tratamiento son independientes por lo que sus efectos no se pueden
confundir.

c) En el estudio B, hay 10 centros que no pueden aportar, por sí solos,


información del efecto del tratamiento y por tanto no podrán constituir, cada
uno de ellos, un bloque separado.

25
Ensayo clínico

d) El estudio A por su equilibrio en número de casos parece que será más


eficiente, proporcionando intervalos de confianza más estrechos.

e) El estudio B al abarcar más centros, es más extrapolable a otros centros


nuevos.

f) El estudio B no es un estudio multicéntrico sólido.

El apareamiento es un caso extremo en el que cada bloque o estrato está compuesto por dos
observaciones que comparten cierta característica común que, por otro lado, les diferencia de las
otras parejas. El grado de conexión entre estas parejas, naturales o artificiales, puede variar.

Ejemplo 4.14: Los diseños con intercambio del tratamiento (“cross-over”) consisten en
aplicar un tratamiento en un periodo y otro tratamiento en otro periodo, cambiando el orden
de aplicación en diferentes pacientes. Cada paciente define una pareja de observaciones y
constituye un (mini) bloque.

Ejemplo 4.15: Olvide ahora los ensayos clínicos que estiman efectos. En un estudio
etiológico de búsqueda de causas X, a cada paciente que ha desarrollado cierta enfermedad
(Y+) se le busca una pareja sana (Y-) que tenga los mismos valores en las terceras variables
Z. Cada pareja constituye un (mini) grupo.

4.3.3. Modelado

La siguiente opción de control es el modelado estadístico, del que las diferentes técnicas de
regresión son el procedimiento más habitual. El protocolo puede especificar en mayor o menor
grado el modelo que se utilizará para realizar el ajuste.

Ejemplo 4.16: Al comparar 2 antihipertensivos (X), puede especificar que el análisis de la


respuesta (por ejemplo, Y=PAD a las 12 semanas) se ajustará mediante un modelo de
regresión lineal que incluye el valor inicial o basal (Z) de la PAD. Nótese que la relación
entre PA basal (Z) y final (Y) no es objetivo del estudio (un investigador experto en el tema
conoce la magnitud de esta relación con anterioridad). El auténtico objetivo es conocer el
efecto del tratamiento X en la respuesta Y ajustando por la condición Z. [Los modelos de
regresión se estudian en el curso ‘observacional’.]

26
Bioestadística para no estadísticos

Cuanto más concreto sea el protocolo sobre el modelo que se utilizará para realizar el ajuste o
control metodológico, mayor será el carácter confirmatorio del estudio.

Un ejemplo (4.17) muy sencillo de modelo que se especifica completamente en el protocolo


es el llamado estudio del cambio o diferencia entre valores finales y basales —o iniciales.

Nota técnica: Algunos paquetes estadísticos dan una falsa sensación de facilidad en el uso de
estos modelos. La selección de variables a ser incluidas no es un tema trivial, especialmente en
presencia de colinealidades o correlaciones entre las variables a ser introducidas. Dejar el control
para el final es muy desaconsejable, ya que el margen de maniobra es siempre inferior.

Recuerde

Considere al inicio del estudio el método para controlar las terceras variables.

Ejercicio 4.5

En el estudio del efecto de un tratamiento X en la PAD de las 12 semanas, se ha


realizado un modelo de regresión que incluía la PAD en la semana inicial. Los
estudios que se comentan a continuación han llegado al modelo por diferentes
caminos. Ordénelos de mayor a menor protección ante el riesgo de sesgo del
informe selectivo (“data driven analysis”). Y remarque cuáles representan un
salto importante en credibilidad.

a) Tal y como especificaba el protocolo, la respuesta estudiada ha sido el cambio


o diferencia entre la PAD final y la inicial.

b) Con la PAD12 como respuesta, se ha introducido la PAD0 en el modelo con un


coeficiente que ya venía especificado en el protocolo.

c) Con la PAD12 como respuesta y tal como especificaba el protocolo, se ha


introducido la PAD0 en el modelo y se ha dejado al programa que escoja el
coeficiente por el procedimiento habitual (que minimiza el error de predicción
de la respuesta).

d) Como a) pero sin que figurara en el protocolo.

e) Como b) pero sin que figurara en el protocolo.

f) Como c) pero sin que figurara en el protocolo.

27
Ensayo clínico

g) Tal como decía el protocolo, entre todos los posibles modelos, se ha


seleccionado aquél en el que más significativa era la variable tratamiento.

4.3.4. Control global (minimización)

Finalmente, el cuarto método de control considera simultáneamente varias variables en el ajuste. En


un diseño experimental con aleatorización, persigue mejorar el equilibrio proporcionado por la
asignación al azar. Requiere una logística más sofisticada ya que para aleatorizar, el investigador
debe proporcionar los valores de las variables por las que se quiere ajustar. En cambio, como
garantiza que se registra al paciente antes de asignarlo, protege del sesgo de selección.

Ejemplo 4.18: En el estudio de la PAD se quiere tener controladas edad, centro, estrés y
sedentarismo. En el momento de introducir un nuevo paciente en el estudio, el investigador
proporciona los datos de estas variables al centro de aleatorización que, sin romper el
enmascaramiento del investigador, asigna el nuevo caso al grupo que consigue un mayor
equilibrio en estas variables.

La minimización permite tener equilibrados los grupos sin necesidad de recurrir a criterios de
inclusión más restrictivos, ni a la definición de muchos subgrupos, lo que podría comprometer el
reclutamiento de casos.

Nota técnica: Los algoritmos habituales de minimización suelen ponderar por separado a las
variables consideradas en el proceso y persiguen equilibrio en cada una de ellas.

La minimización puede combinarse también con la asignación aleatoria y el enmascaramiento de


investigadores y pacientes.

Ejemplo 4.19: Un investigador interesado en ajustar por edad, centro, estrés y sedentarismo
(estas dos últimas medidas en escalas de 0 a 10) ha determinado en estudios previos que la
relación de estas 4 variables con la PAD es la siguiente: cada decena de años supone 5
mmHg más, los hombres tienen 5 mmHg más; cada punto de sedentarismo son 2 mmHg
más y cada punto de estrés son 3 mmHg más. Así, un índice global combina estos valores en
cada paciente y el próximo se asigna al grupo que hace más similares en ese centro las
medias de este índice en los dos grupos. Es óptimo, no para cada variable Z por separado
sino para el conjunto de todas ellas. Es decir, pretende compensar los desequilibrios de unas
variables con los de otras.

28
Bioestadística para no estadísticos

También puede usarse en los estudios observacionales.

Ejemplo 4.20: En la misma búsqueda anterior de causas X, y de la misma forma que antes,
a cada paciente que ha desarrollado cierta enfermedad (Y+) se le busca una pareja sana (Y-).
La diferencia ahora es que la pareja debe tener un valor próximo en los valores de las
terceras variables Z, sea en cada una de ellas, como en el Ejemplo 4.18 o en su combinación
en un índice como en el Ejemplo 4.19.

Recuerde

Sólo el control bien planificado puede garantizar dos beneficios: ausencia de


sesgo y mayor eficiencia de las estimaciones.

4.4. Enmascaramiento

Historia (real): Una comisión de la academia francesa de ciencias, encabezada por Benjamin
Franklin, hizo el primer (documentado) estudio enmascarado que desmontó creencias sobre el
mesmerismo y el magnetismo animal.

Toda imprecisión en la recogida de datos implica pérdida de información y, en consecuencia, limita


la eficiencia estadística, aumentando el error de las estimaciones. Pero además, si el error que se
comete está ligado a ambas variables en estudio (causa X y respuesta Y), la estimación de la
relación entre ambas, estará sesgada.

Ejemplo 4.21: Conocer el tratamiento recibido puede originar puntuaciones


sistemáticamente diferentes de la respuesta.

Historieta: Podría ser que la capacidad de recordar los hábitos sexuales pasados dependa de
tener el sida. Un paciente con varias parejas previas puede no acordarse de ningún partenaire si
no ha desarrollado el sida; pero, en caso de contagio, se acordará muy bien de cada uno de ellos.

En un ensayo clínico, los datos de todas las variables se recogen en el mismo momento de aparición
y su riesgo de asesgo es menor. Pero ciertas decisiones en el seguimiento o ciertos criterios de
evaluación podrían originar sesgos. Para minimizar estos riesgos de sesgos, los ensayos clínicos
recurren al enmascaramiento del tratamiento, de forma que se pueda administrar, seguir y evaluar
a ciegas, sin que sea posible identificar los tratamientos en comparación. Para permitirlo, los
estudios de intervenciones farmacológicas (químicas o biológicas) administran un placebo que
emula al tratamiento en estudio. Si se trata de una intervención quirúrgica u otro tipo de maniobra,
se procede a fingirla con un simulador (‘sham procedure’).

29
Ensayo clínico

Nota: Un buen simulador (placebo) debe ser idéntico en todo: apariencia, sabor, olor,…

Si se están comparando dos productos que se administran por vías diferentes puede recurrirse al
doble placebo o doble simulador (double dummy) que consiste en administrar a cada grupo su
tratamiento más el simulador del otro.

Conviene mantener el enmascaramiento hasta que finalice la limpieza de la base de datos, que se
“blinda” para no permitir modificaciones posteriores.

Nota: Diga “a ciegas”, “enmascarado” o “cegado” y evite “ciego”. [“blind”  “blinded”]

Historieta: ¿Apoyan los estudios con investigadores ciegos, evaluadores ciegos y pacientes
ciegos la tesis de Ernesto Sábato en su “informe sobre ciegos”?

Historia (real): Los que describen más a sus pacientes como enmascarados y menos como
ciegos son los oftalmólogos.

Ejercicio 4.6

A continuación tiene una lista de persones que participan en un ensayo. Diga: (1)
quiénes conviene que desconozcan el tratamiento (futuro, presente o pasado) del
paciente; y (2) a quiénes de éstos puede aplicar el término ‘doble ciego’. Listado:
(a) voluntario que recibe intervención; persona que (b) recluta pacientes; (c)
evalúa criterios de selección; (d) obtiene consentimiento informado; (e)
administra tratamiento farmacológico; (f) realiza intervención o maniobra
(quirúrgica, fisioterapéutica, etc); (g) realiza seguimiento de los pacientes; (h)
obtiene la variable de evolución; (i) introduce datos; (j) monitoriza datos; (k)
diseña análisis estadístico; (l) ejecuta análisis estadístico; y (m) interpreta
resultados.

Lectura: El ítem 11c de la extensión de Consort para intervenciones no farmacológicas dice:


“Whether or not those administering co-interventions were blinded to group assignment.”

Recuerde

Especifique quiénes están enmascarados.

Lectura: Isabelle Boutron et al. recopilan métodos de enmascaramiento usados para


intervenciones no farmacológicas.

30
Bioestadística para no estadísticos

Recuerde

Ocultar la intervención evita riesgos de sesgo. Siempre.

Poner una máscara al investigador no asegura que no pueda ver el tratamiento administrado.

Ejemplo 4.22: Al comparar un inhibidor de la multikinasa con placebo, la tabla de eventos


adversos muestra 9 variables con diferencias significativas, como alopecia con un 27% en
los tratados y un 3% de los controles.

Historieta: Si este investigador no veía que los pacientes tratados tenían rubor y se quedaban
calvos es que estaba realmente ciego y no sólo enmascarado

Ejercicio 4.7

¿Cómo cree que debería haber sido la discusión de las limitaciones en el artículo
del Ejemplo 4.22? ¿Lo hacen los autores? ¿Reciben alguna carta posterior?

Ejercicio 4.8

En las intervenciones que implican cambios de hábitos por el paciente, es


imposible que éste desconozca el grupo de tratamiento al que pertenece. Si debe
hacer ejercicio o dieta, tiene que saberlo. Y también el profesional que le asesora
durante el periodo del estudio. Discuta quiénes conviene que permanezcan
enmascarados y porqué.

Ejercicio 4.9

Imagine un estudio en el que un grupo recibe consejo dietético y el otro no, con
evaluación a ciegas. ¿Cuáles de las siguientes expresiones son ciertas?

a) El efecto directo de la intervención y los posibles efectos indirectos originados


por conocer el paciente y la intervención que se le aplica están confundidos,
en el sentido que no pueden descomponerse: el estudio proporciona una
estimación de la suma de ambos efectos.

b) Desde el punto de vista de adquisición de conocimiento, sería interesante


poder distinguir entre los efectos directos e indirectos de la intervención.

31
Ensayo clínico

c) El sesgo originado por conocer el paciente su tratamiento elimina la utilidad


posterior de los resultados.

d) Dado que un paciente siempre sabrá si está haciendo ejercicio o no,


preocuparse por este posible sesgo es irrelevante a efectos prácticos.

Recuerde

Valore si se desveló el tratamiento y discuta sus posibles implicaciones.

5. Ética, azar y papel del científico


La Declaración de Helsinki (DH) recoge los principios éticos que rigen toda experimentación con
seres humanos para proteger sus derechos, seguridad y bienestar. Son:

Confidencialidad: exige la preservación del anonimato en la recogida, gestión y comunicación de


la información.

Autonomía: requiere el respeto a la individualidad y deseos de cada uno: los participantes deben ser
capaces de tomar una decisión informada sobre su inclusión en la investigación, lo que requiere el
consentimiento informado. Las personas con autonomía disminuida tienen derecho a una protección
adicional. El paciente debe ceder su derecho a decidir al proceso de aleatorización

Beneficencia: se apoya en el principio hipocrático de no maleficencia, es decir, de no causar daño:


no asignar una intervención por debajo de las recogidas en las guías de práctica clínica.

Equidad: el peso de la investigación descansa por igual en todos los ciudadanos (justicia
distributiuva).

Nótese que aleatorización incluye dos singificados: “asignación” y “azar”. Ambos con
implicaciones éticas. (1) Ambas pautas de tratamiento deben ser éticamente asignables a los
pacientes; y (2) los voluntarios deben renunciar mediante el consentimiento informado a su derecho
a decidir (principio de autonomía).

Ejemplo 5.1: El famoso ensayo clínico sobre la estreptomicina, realizado en los años
cuarenta por Daniels y Hill, asignaba los pacientes al azar al grupo con antibiótico más
reposo o bien al grupo tratado únicamente con reposo. Dos consideraciones apoyan a la
asignación y a su aleatoriedad. La primera, común a casi todos los estudios, es que los
(posibles) efectos positivos se compensan con los (posibles) efectos negativos y, en ausencia

32
Bioestadística para no estadísticos

de conocimiento sólido, ambos tratamientos son éticamente asignables (“equipoise”). La


segunda consideración es un aspecto poco conocido de este ensayo: el British Council sólo
disponía de suficiente estreptomicina para tratar a unos 150 enfermos, ante 300 candidatos.
Y propusieron asignarlo al azar para garantizar el principio ético de equidad.

Recuerde

Hay “equipoise” si no hay evidencia científica a favor de una intervención.

Recuerde

Asignar al azar apoya el principio de equidad.

Recuerde

El mayor compromiso ético viene impuesto porque ambas intervenciones deben


ser asignables.

Ejercicio 5.1

¿Es ético el uso de placebo?

Ejercicio 5.2

En el ejemplo previo de la Estreptomicina, si un paciente renuncia a participar en


el estudio ¿qué principio de ética podemos comprometer si lo tratamos fuera del
estudio?

Recuerde

Tratar fuera del estudio puede atentar al principio de equidad.

Si hay duda científica sobre una intervención, la actitud más ética es empezar lo antes posible un
estudio bien diseñado (“asignar al azar el primer paciente”) que permita que el máximo número de
pacientes se beneficien de sus resultados.

En ocasiones, el pronóstico es malo incluso con el ‘mejor cuidado de salud”. Una nueva
intervención de la que no se conocen bien sus efectos (positivos y negtivos), puede cumplir con
equipoise clínica, pero abre una esperanza a los pacientes que quizás prefieran algo a lo que
agarrarse. La duda es si queremos una sociedad en la que los pacientes tienen acceso a todas las

33
Ensayo clínico

intervenciones imaginables o, por el contrario, sólo a aquellas que han demostrado un balance de
efectos beneficioso.

Rawls sugiere considerar la situación de partida o posición original: antes de saber el resultado del
reparto de papeles que en la vida nos toca desempeñar, es decir, independientemente de si somos el
paciente actual, el paciente futuro o el investigador, ¿en qué sociedad preferimos vivir: una que
haga ensayos clínicos aleatorizados y aprenda rápidamente o una que no los haga y no pueda
seleccionar las intervenciones con perfil favorable de beneficios y riesgos?

La FDA ha apostado por aprender rápidamente y dificulta el acceso fuera de los ensayos clínicos.

S. Senn propone:

1) Hacer EC cuando el investigador crea mejor el nuevo Tratamiento

2) El nuevo tratamiento sólo es accesible en el EC.

3) El investigador debe creer que ningún paciente sale perjudicado por entrar en el EC.

4) La experimentación continúa hasta que: (a) el investigador deja de creer en el estudio en


marcha; (b) el investigador convence a la sociedad de su eficacia.

Finalmente, conviene recordar que los pacientes han aportado sus propios datos para la
investigación. Y, por tanto, la sociedad a la que representan debe conocer sus resultados y
conclusiones. Sir Ian Chalmers, confundador de la Cochrane, resaltó en los 90 y aún insiste en que
una comunicación deficiente (carencia de informes y publicaciones, difusión incompleta o
sesgada,…) de los resultados no es ética.

Ejercicio 5.3

¿En qué párrafos de la DH se habla de la obligación de publicar?

Ejercicio 5.4

¿Qué dice SPIRIT sobre la política de publicación? ¿Qué poder da a los CEIC?

Recuerde

Son obligaciones éticas de investigadores y estadísticos garantizar que:

1) El diseño permitirá responder la pregunta

2) Ningún paciente saldrá perjudicado por participar

34
Bioestadística para no estadísticos

3) Se empieza lo antes posible

4) Los resultados se comunicarán de forma clara y rápida

6. Regresión a la media
Regresión hacia la media es el hecho de que los valores extremos observados una primera vez
tienden a no ser tan extremos en una medición posterior.

Historieta: El curandero Asclepio conoce bien las dolencias crónicas de su conciudadano


Alejandro. Sabe que son muy variables, con épocas buenas y malas que se alternan. También
sabe que Alejandro acude a él cuando está en una de las épocas malas —a la que seguirá, algún
día, una buena. Por eso, le receta algo inofensivo y le pide paciencia hasta que surja efecto. En la
siguiente crisis, le dice: “bueno, esto ya hizo su efecto un tiempo, ahora deberemos cambiar a
algo más fuerte”.

Historieta: La mitad de los internistas americanos reconocen una práctica similar

Figura 6.1 Altura de padres e hijos: recta identidad. La nube


representa todos los casos y la variabilidad: en muchas parejas de
padres e hijos, su altura no coincide. En cambio, la diagonal
180 representa la “recta identidad” en la que se sitúan aquellas parejas en
las que si coincide la altura del hijo con la del padre.

Galton, al estudiar la herencia, observó una relación no


determinista entre la altura de progenitores y
descendientes, como la que muestra la Figura 6.1, una

180
relación positiva, pero muy alejada de la diagonal (recta
identidad), que hubiera implicado que todos los hijos
tenían la misma altura que sus padres. Por debajo de la diagonal, se encuentran los casos con padres
más altos; y, por encima, los de hijos más altos.

Si se concentraba en estudiar aquellas parejas en las que los padres eran extremadamente altos
(como los seleccionados por la línea púrpura en la Figura 6.2), se encontró que los hijos, en
promedio, eran más bajos: estaban más cerca de la media de la altura. Además, en el otro lado,
también estaban más cerca de la media los hijos de padres extremadamente bajos (línea verde), que
eran más altos que sus padres.

35
Ensayo clínico

Figura 6.2 Altura de padres e hijos: recta de regresión. El método de


mínimos cuadrados (ver curso observacionales) traza la recta que pasa por
el promedio de la altura de los hijos para cada valor de la altura de los
padres. El punto lila marca el promedio de la altura de los hijos (180 cms)
cuyos padres tienen una altura de 190 cm. Y el verde, que los hijos de
padres bajos tienen mayor promedio. Como siempre las alturas promedio
de los hijos están más cerca del centro que las de sus padres,

Galton habló de “regreso a la mediocridad”. A este fenómeno,


absolutamente cierto, Galton lo denominó ‘regresión a la
media’. Sin embargo, deducir que la dispersión disminuirá y,
en unas cuantas generaciones, todos nos pareceremos más, es falso: ya puede verse en las figuras
anteriores, que la dispersión de la altura de los hijos es la misma que la de los padres, ya que hijos
de padres no tan extremos ocupan ahora estos lugares.

Figura 6.3 Altura de padres e hijos: recta de regresión de padres según


hijos. Para hijos de un altura dada, el promedio de las alturas de sus padres
está más cerca de la media.

Más aún, la paradoja llega al extremo de que si invertimos los


papeles de ambas alturas y estudiamos la altura promedio de
los padres de hijos extremos observamos lo mismo fenómeno
pero al revés: también sus padres tienen, en promedio, alturas
más cerca de la media. La Figura 6.3 muestra que los padres
de hijos muy altos (línea púrpura) tienen en promedio alturas más bajas; y los padres de hijos muy
bajos tienen también alturas menos extremas.

Figura 6.4 A menor variabilidad, menor efecto de regresión a la media

Este fenómeno es menos marcado cuando más se aproxima


a 1 la correlación entre ambas variables (Figura 6.4). O,
dicho al revés, para que aparezca la regresión a la media, es
preciso un componente aleatorio, variabilidad, en la altura
que no se repita en ambas generaciones (“independiente”).

Nota técnica: Nos hemos centrado en comentar la

36
Bioestadística para no estadísticos

variabilidad y cómo evolucionan los ‘casos’ extremos, pero no hemos mostrado ni comentado las
medias de las alturas de ambas generaciones que pueden perfectamente ser idénticas (como los
ejemplos de las figuras).

Ejemplo 6.1: Genotipo y fenotipo de la altura. Ciertas características se heredan, pero otras
son el resultado de infinidad de factores como la alimentación, ejercicio y reposo de cada
día durante el crecimiento.

Ejemplo 6.2: La repetición de un examen. Un buen examen y una buena corrección


ordenan bien a los aspirantes y deja poco al azar. Cuanto más nos alejemos de este ideal,
mayor será la influencia de la suerte en la puntuación final. Pero la suerte, el azar, no tienen
memoria, no se repiten. Si un ejercicio de evaluación tiene mucho azar (poco repetible o
fiable, en términos técnicos), menos se repetirá el resultado previo. En este caso, aquél
alumno que tuvo la buena suerte de quedar el primero, cabe esperar que se sitúe por debajo
en la siguiente evaluación; y el último, que mejore. Ambos casos, tan solo porque su suerte
(buena y mala) no se repetirá. Sí que se repetirá aquello que es constante, su base: el bueno
seguirá siendo bueno y el malo, también, pero ninguno tan extremo como la vez anterior.

Ejercicio 6.1

Imaginemos en el ejemplo del examen repetido que la tendencia fuera a premiar


al que queda primero, y castigar al último. ¿Qué veríamos al observar la
evolución en el siguiente examen? ¿Cómo lo interpretaríamos?

Ejercicio 6.2

La presión arterial no es 100% repetible, no hay correlación perfecta entre dos


determinaciones en las mismas condiciones. Explique qué pasará al repetir la
determinación al que tenga valores muy extremos.

Sea la repetición de una medida Y, por ejemplo, la PAD, en 2 ocasiones, realizadas de forma que
podamos asumir independientes los errores de medida: Y1 y Y2. Para seleccionar pacientes con
PAD alta, definimos un punto A que está por encima de la media de la primera determinación
[A>E(Y1)], entonces, asumiendo distribución normal bivariante con varianzas iguales, el valor
esperado del cambio o diferencia entre la segunda y la primera determinación vale:

[( ] ( ( )(

37
Ensayo clínico

Ejemplo 6.3: La PAD tiene una media de 80 y una SD de 10 mmHg; si la correlación entre
2 determinaciones vale 0.75 y seleccionamos a los pacientes con PAD igual a 100 mmHg en
la primera determinación, ¿cuánto cabe esperar que baje en la segunda determinación?
E[(Y2-Y1)|Y1=100] = (100-80) (0.75-1) = 20 (-0.25) = -5
El valor esperado de la próxima repetición será 5 mmHg inferior.

Ejercicio 6.3

¿Cuál sería la magnitud del fenómeno de regresión a la media si la correlación


valiera 1? ¿Y si valiera 0? Interprete. ¿Cómo cambia si A se aleja o se acerca a la
media?

Ejercicio 6.4

Ahora seleccionamos por debajo de la media, a pacientes que están muy-muy


sanos en sus parámetros: ¿qué cabe esperar en la siguiente determinación?

Historieta: La salud es un estado transitorio que no presagia nada bueno.

Recuerde

La regresión a la media será mayor cuanto: (1) mayor sea la distancia del punto
de corte A de la media; y (2) menor sea la repetitividad de la variable en estudio.

Recuerde

Mayor fiabilidad, menor problema de regresión a la media.

Ejemplo 6.4: Una forma de aumentar la fiabilidad de un proceso de medida consiste en


realizar medidas repetidas del mismo proceso y tomar el valor medio (quizás habiendo
excluido los 2 extremos). Al aumentar la fiabilidad, disminuirá el fenómeno de regresión a
la media.

Ejercicio 6.5

Vd. quiere valorar cuánto hay de verdad en la “hipertensión de bata blanca” y


cuánto hay de regresión a la media. ¿Cómo lo estudiaría?

38
Bioestadística para no estadísticos

Ejercicio 6.6

Se incluye pacientes en ECAs porque tienen cifras alteradas, no normales. Cabe


esperar por tanto, cierta regresión a la media. Si, como antes, selecciona a
pacientes con PAD igual a 100 (SD=10, E(Y)=80 y ρ=0.75), razone qué sucederá
cuando estudie (1) el “cambio” final-basal en el grupo tratado; (2) su diferencia
entre ambos grupos; o bien, (3) la diferencia entre los valores finales en ambos
grupos. Formalmente, sean las causas T y C y las PAD inicial, Z, y final, Y.
Comente los valores esperados de (1) (YT-ZT); (2) (YT-ZT)-(YC-ZC); y (3) (YT-YC)

Recuerde

Tener un grupo comparativo evita los problemas de regresión a la media

Ejercicio 6.7

Vd. quiere distinguir entre el llamado “efecto placebo” y la regresión a la media.


¿Cómo lo estudiaría?

7. Tipos de ensayos clínicos

7.1. Según el objetivo


Al aconsejar una nueva intervención, podemos distinguir entre (1) añadirla, sin eliminar nada, como
un componente más de la mejor guía disponible; o (2) reemplazar a uno de los componentes de esa
guía. En el primer caso, se debe demostrar que el tratamiento T en estudio (la mejor guía más el
nuevo componente) es mejor que su comparador C (la mejor guía). En el segundo caso, aunque
sería mejor ganar, basta con demostrar equivalencia: que la nueva opción (mejor guía con A pero
sin B) empata con la previa (mejor guía con B pero sin A).

Ejercicio 7.1

¿Estos objetivos se responden mejor desde la perspectiva de la inferencia (Fisher)


o desde la de decisión (Neyman-Pearson)?

39
Ensayo clínico

7.2. Según lo avanzado de la propuesta de intervención


Una primera gran distinción es si el objetivo del estudio es confirmar o explorar. Una hipótesis y un
protocolo previos y completamente especificados permiten demostrar o confirmar una intervención
y estimar la magnitud de su efecto. Dentro de los estudios exploratorios encontramos los de
factibilidad que podrían incluir tan solo el nuevo tratamiento en estudio, y los pilotos, que pueden
llegar a ser una prueba práctica final del estudio confirmatorio antes de emprenderlo.

Una clasificación muy utilizada tiene en cuenta la fase de desarrollo de un fármaco. Una vez se
dispone de un producto químico o biológico ya “inventado”, su desarrollo para personas requiere
estudiar, por este orden, los niveles tolerados por el organismo (fase I); la eficacia a nivel
exploratorio (fase II) y confirmatorio (fase III); y la efectividad (fase IV).

Fase Objetivo Voluntarios Tamaño Duración

I Tolerabilidad y cinética Sanos Unidades Días

II Exploración de Eficacia Pacientes Decenas Semanas

III Confirmación de Eficacia Pacientes Centenas Meses

IV Efectividad y seguridad Pacientes Millares Años

Tabla 7.1: Ensayos clínicos según la fase de desarrollo del fármaco.

Ejercicio 7.2

Ojee la figura de la página 7 del documento ICH E8 y diga si fase (I, II, III, IV)
aplica mejor al tipo de ensayo o al momento del desarrollo del fármaco.

Un ensayo de demostración de eficacia (fase III) actúa como una guía o pivote que decide el futuro
del producto (acceso al mercado o vuelta a I+D o…).

7.3. Según el diseño


Veamos brevemente algunos diseños que estudiaremos más adelante.

Los pacientes pueden asignarse de forma individual o en grupo (cluster).

Ejemplo 7.1: Un estudio para valorar el efecto de una intervención educativa para prevenir
el embarazo adolescente podría asignar clases de estudiantes a la intervención de referencia
(información clásica) o a la intervención en estudio (material específico).

40
Bioestadística para no estadísticos

En el estudio usual, los pacientes solo reciben un tratamiento en estudio, pero ciertas condiciones
crónicas podrían permitir que reciban varias intervenciones en diferentes tiempos o lugares: ensayos
con intercambio o cross-over.

Ejemplo 7.2: Para valorar el efecto de una intervención sobre el asma, cada paciente se
asigna a la secuencia AB o BA, siendo A y B las dos intervenciones en comparación.

Nótese que se trata de un caso particular de estudio apareado.

En el estudio usual, el número final de casos se decide de antemano, pero algunos diseños
secuenciales permiten parar el estudio cuando se ha alcanzado suficiente información para concluir,
o que la intervención es eficaz, o que el presente estudio no podrá demostrarlo.

Los ECAs pragmáticos pretenden valorar el efecto en condiciones lo más parecidas a la clínica real.

7.4. Según el método de asignación


La Tabla 7.2 resume algunas estrategias de asignación al azar del tratamiento.
Asignación Elección del criterio de asignación de tratamientos

Aleatorización simple Cada paciente es asignado a un grupo con la misma probabilidad 

Aleatorización balan- Cada ‘n’ casos, el número de pacientes en cada grupo se equilibra. Los bloques
ceada por bloques se definen por terceras variables (orden, centro, edad,...)
Se definen una serie de variables iniciales que se desea tener equilibradas y,
Minimización
conocidos los datos del paciente, se le asigna con mayor probabilidad al grupo
que hace mínimo el desequilibrio.
Aleatorización según Se procede en función de los valores de severidad. Por ejemplo, los casos
severidad (cut-off) severos se comparan con un activo y los leves con placebo
Aleatorización y libre
Se dispone de datos de pacientes que han aceptado la asignación aleatoria y de
elección
datos de pacientes que han elegido libremente el tratamiento
(comprensive cohort)
Apostar por el mejor Se da mayor probabilidad de asignar un paciente al grupo con mejores
(Play the winner) resultados hasta el momento

Tabla 7.2. Posibilidades de asignación del tratamiento

41
Ensayo clínico

Soluciones a los ejercicios


1.1. 1) En un estudio experimental es X y en un estudio observacional es Z.
2) En un estudio experimental cada visita adicional disminuye 5 mmHg la TA (IC 95%: 3 a 7 mmHg). En un estudio
observacional cada visita adicional se acompaña de 5 mmHg de una disminución de 5 mmHg de la TA. Antes de
asegurar que esta relación es causal, necesitamos un diseño experimental, ya que queda por comprobar: (a) que esta
relación no puede ser explicada por terceras variables; y (b) que los pacientes cumplirán con el régimen de visitas
asignado.

1.2. Cirugía, radioterapia, consejos médicos, dieta ejercicio, tratamientos domiciliarios,…

1.3. Diversas causas alternativas pueden explicar este fenómeno: se puede haber asignado el nuevo tratamiento a los
pacientes con mejor pronóstico (sesgo de selección); la evaluación puede haber sido optimista, por el propio
entusiasmo del experimentador (sesgo de evaluación); o pueden haberse eliminado del juicio final aquellos
pacientes que no han respondido porque “es evidente que en ellos el tratamiento no puede funcionar” (sesgo por
atrición).

1.4. Reposo, concienciación de los pacientes, otras intervenciones, calibrado de los aparatos de medida, sesgos del
observador, etc.

1.5. Podría ser o bien no tomar nada o bien tomar un vaso de agua sin la aspirina.

1.6. Los pacientes bajo la intervención alternativa obtenidos de experiencias anteriores a la realización del estudio en
marcha se denominan controles históricos. El problema del uso de este tipo de “controles” es que no se puede
asegurar una comparación justa: como los dos grupos pueden diferir en alguna característica que no está bajo el
control del experimentador cualquier diferencia observada entre grupos no puede ser atribuida al tratamiento. Otro
motivo que invalida las comparaciones frente a los controles históricos son los cambios, muchas veces no
documentados, en el entorno experimental:
- Uso de información retrospectiva de baja calidad.
- Cambios en la evaluación de la respuesta: criterios, evaluadores, tecnología,…
- Nivel de atención médica y de salud en general distinta.
- Criterios de parada del tratamiento en el grupo histórico distintos a los aplicados al grupo bajo el nuevo
tratamiento.

1.7. Todas estas formas de control suelen englobarse en el término Control Externo y no son formas adecuadas para
estimar, sin sesgo, el tratamiento en investigación. Como un “control” externo implica muy poco “control” de todas
las condiciones del estudio mejor usen “comparador” externo.

2.1. (a) Sí; (b) No; (c) No; (d) No, falta asignación; (e) No, es el estudio, teórico, de los criterios de selección.

2.2. Evidentemente comprometen la representatividad de la muestra. Convendría estudiar si tienen características


diferenciales con los que sí que han aceptado participar.

2.3. (a) Sí; (b) Sí; (c) No.

2.4. (a) Sí; (b) No, ya que es lo que proporciona el error estándar; (c) No, ya que lo que estima el error estándar es la
distancia promedio o esperada (preguntas anterior y siguiente), pero la de un estudio concreto es desconocida; (d)

42
Bioestadística para no estadísticos

Sí. [Nota: si desea ser más preciso recuerde que el error estándar no estima esta distancia sino la raíz cuadrada del
promedio de las distancias cuadradas.]

3.1. Un estudio no enmascarado está afectado por todos los riesgos de sesgo: (1) el de selección por incluir a pacientes
diferentes en los dos grupos); (2) el de ejecución (p.ej., mejor trato a los del grupo control por misericordia o mejor
trato a los tratados por la ambición de los investigadores de demostrar sus hallazgos); (3) el de atrición por eliminar
casos de forma diferencial en los grupos (p.e., los curados en el grupo de referencia y los no curados en el
experimental); (4) el del informe selectivo, por escoger aquella variable o aquél análisis más conveniente; (5) el de
evaluación (p.ej., con una respuesta basada en una escala de valoración subjetiva se podía, incluso de manera
inconsciente puntuar distinto según el tratamiento recibido) y el impredecible, porque las diferencias podrían ir en
cualquier sentido, resultando en mayor incertidumbre que la que recogen las medidas basadas en oscilaciones
únicamente aleatorias (p.e., el error estándar). Los estudios PROBE sólo protegen contra el riesgo de sesgo de
evaluación.

3.2. Excluirlo implica perder la comparabilidad de grupos, generando riesgo de sesgo por atrición. Además, el clínico
que quiera usar las recomendaciones del estudio, necesita conocer cuántos pacientes abandonaron y porqué.

3.3. Revisando el protocolo y el plan de análisis estadístico puede verse si el análisis se ajusta a lo planeado.

3.4. El error estándar sólo cuantifica la variabilidad en los resultados originada por la aleatoriedad del muestreo. Si
hacemos las cosas mal, los resultados aún serán más erráticos, en cualquier sentido. Los valores verdaderos del
efecto estarán fuera de los límites del IC95% más de un 5% de veces. A diferencia del resto de sesgos, que apuntan
en una dirección, ahora aumentan los resultados fuera del IC en ambos lados.

3.5. Dos ejemplo de cada, para comparar (A) dos tipos de dietas para el sobrepeso; y (B) un activo con un placebo.

Sesgo de selección: (A) se asigna la dieta 1 a pacientes con más de 65 años y la dieta 2 a pacientes con menos de 65
años. Los grupos no son comparables. (B) Al ver que a un paciente grave le toca el grupo placebo, el médico le
pide que vuelva más tarde, mientras busca e invita a un paciente muy leve.

Sesgo de ejecución: (A) los pacientes que reciben la dieta 1 tienen más visitas de control que los de la dieta 2. (B)
A los pacientes con placebo se les da enseguida la medicación de rescate.

Sesgo de atrición: (A) se excluyen del estudio a los pacientes que engordan con una de las dietas. (B) Eliminamos
del estudio a los pacientes que no toleran el tratamiento activo.

Sesgo del informe selectivo: (A) reportar la variable peso a la semana que hace mayores las diferencias; y (B)
escoger el análisis que ofrece los resultados deseados.

Sesgo en la evaluación: (A) valorar más positivamente los resultados de la dieta 1. (B) Usar una variable que
permita subjetividades: p.e., periodo libre de enfermedad y explorar más a fondo a los tratados con placebo.

Sesgo impredecible: (A) si no controlamos el nivel de ejercicio, los resultados se pueden desequilibrar hacia
cualquier lado; y (B) si perdemos algunos casos, el desequilibrio puede favorecer a cualquier tratamiento.

4.1. Son falsas la b), la d) y la e). Para saber si es cierta la f) haría falta confirmar la premisa de que el conocimiento de
las variables predictoras avanza de las más importantes a las menos importantes.

43
Ensayo clínico

4.2. (i) EE=1·√(1/4+1/4)≈0.71; (ii) EE=1·√(1/1+1/7)≈1.07. El error estándar del caso no balanceado es más de un 50%
superior.

4.3. ¡Atención! Esta pregunta tiene dos trampas (mis sinceras disculpas). La primera es que la estadística aborda la
evidencia empírica, método inductivo de inferencia. Así, la respuesta formal de un estadístico debe ser “es que he
repetido el estudio con un mayor lapso de tiempo hasta el tratamiento y me da lo mismo”. Si Vd. desea utilizar el
razonamiento lógico-deductivo clásico, debe basarse en consideraciones que exceden nuestro campo. La segunda
trampa es que este capítulo discute un tema científico, de adquisición de conocimiento: ¿qué es lo que sabemos
sobre un cierto tema? En cambio, la pregunta hace referencia a una decisión concreta: tratar o no tratar a ese
paciente. Y la decisión requiere otra metodología. Por supuesto que el conocimiento (bien empírico o bien
deductivo) sobre la eficacia influye en esta decisión, pero no es el único factor. Hay que añadir todas las
consideraciones sobre seguridad (en general, con una transportabilidad más argumentable) y, , sobre coste. Nótese
que dejar al paciente ejercer su derecho a decidir conlleva que él, o ella, pueda considerar además sus propias
preferencias personales –menos argumentable que puedan ser compartidas por todo el grupo de pacientes con la
misma patología.

4.4. Sólo es falsa la e), ya que los resultados de este estudio se basan, en el fondo, en un único centro. Nótese que las
respuestas a) y b) son dos formas correctas de expresar lo mismo.

4.5. Ya están bien ordenadas. a) y b) ofrecen la misma credibilidad. Igual que d) y e). Los dos saltos más importantes
son de c) a d) porque deja de estar especificado en el protocolo y el último, ya que ese criterio es una auténtica
barbaridad, algo así como si dijéramos: “no pares de analizar los datos hasta que den el resultado que yo quiero”,
buen ejemplo de lo que significa “sesgo del informe selectivo”.

4.6. (1) Conviene que todos, pero puede ser imposible para f y no tener sentido para l y m, cuyos desvíos pueden ser
fácilmente detectados. Y (2) ‘doble ciego’ tuvo su utilidad cuando sólo había 2 protagonistas en un ensayo clínico.
Demos las gracias por los servicios prestados: pero ahora CONSORT pide especificar quién está enmascarado.

4.7. Deberían por lo menos mencionar que el investigador podía haber adivinado en muchos casos el tratamiento
recibido y defender, si pudieran sostenerlo, que este hecho no podía haber originado ninguna diferencia en
tratamientos adicionales, ni al determinar el estado vital ni tampoco, más delicado, el nivel de progreso ‘libre de
enfermedad’. Nótese que no encuentran diferencias en la variable más objetiva, estado vital, y en cambio sí las ven
en ‘libre de progresión’ algo más delicada, ya que un buen clínico, que crea en el producto, explorará más a fondo
al paciente tratado con placebo. No, no mencionan esta gran limitación, al revés, “double-blind” está en la primera
línea del resumen. Hasta donde hemos visto, no reciben cartas luego, aunque sí hacen ellos una pequeña
corrección.

4.8. Todo el resto, en especial quiénes tomen decisiones sobre intervenciones adicionales y los evaluadores.

4.9. La única falsa es la c). El argumento correcto es el d). Nótese que, por el contrario, en el caso de un fármaco, es
imprescindible poder distinguir ambos efectos

5.1. El placebo es tan sólo un simulador para enmascarar el tratamiento. La pregunta correcta es si el tratamiento que
recibe el grupo control está de acuerdo con los protocolos profesionales. Recuérdese que al grupo “placebo” no se
le suprimen los tratamientos de conocida eficacia. Por eso, muchos autores prefieren llamarlos estudios “add-on”
para recordar que lo que se hace es añadir el tratamiento en estudio.

44
Bioestadística para no estadísticos

5.2. El de equidad, ya que corremos el riesgo de que algunos grupos sociales tengan mayor acceso a la intervención en
estudio.

5.3. En el párrafo 30.

5.4. El punto 31 dice que el protocolo debe especificar la política de publicaciones. Si el protocolo no deja claro que los
resultados e publicarán independientemente de los resultados y que el patrocinador y el financiador no podrán
influir en el redactado, el CEIC puede negar la autorización del estudio.

5.5. El punto 31 dice que el protocolo debe especificar la política de publicaciones. Si el protocolo no deja claro que los
resultados e publicarán independientemente de los resultados y que el patrocinador y el financiador no podrán
influir en el redactado, el CEIC puede negar la autorización del estudio.

6.1. Observaríamos, quizás con frustración, ¡que el premiado empeora y el castigado mejora! Un observador que no
tenga en cuenta la variabilidad, interpretaría que “la letra con sangre entra”.

6.2. El que tenga valores muy extremos, tendrá tendencia a repetir valores extremos, sí, pero menos extremos: aquél con
valores extremadamente bajos, subirá algo su PA; y aquél con los valores más altos, bajará algo. Sus posiciones
extremas serán ocupadas por otros casos y la variabilidad de todos los casos no cambiará (en ausencia de un efecto
estabilizador como el reposo, relajación, etc.).

6.3. E[(Y2-Y1)|Y1=100] = (100-80) (1-1) = 20 (0) = 0; E[(Y2-Y1)|Y1=100] = (100-80) (0-1) = 20 (-1) = -20; A
medida que se acerca a la media, la magnitud del efecto es menor.

6.4. Se espera que estén otra vez con valores bajos, pero no tanto, algo más cerca de la media.

6.5. Muy difícil —o imposible. Una primera aproximación sería repetir la determinación en todos los casos y mirar si la
distribución ha cambiado. El problema es que el reposo (o algo parecido) puede haber originado tanto un descenso
de la media como de la variabilidad. Si fuera posible, el diseño ideal debería repetir lo anterior en 2 grupos, uno
“expuesto a la bata blanca” (o sus componentes hipertensores) y el otro no. Pero si uno de los componentes es la
propia ansiedad del paciente…. Si se le ocurre un diseño, puede, o discutirlo en el foro, o ¡hacerlo!

6.6. (1) la variable “cambio” final-basal en el grupo tratado (YT-ZT) estará afectada por el fenómeno de regresión a la
media E[(YT-ZT)|YT=100] = (100-80) (0.75-1) = 20 (-0.25) = -5.

Ahora bien tanto (2) su diferencia entre ambos grupos, (YT-ZT)-(YC-ZC), como (3) la diferencia entre los valores
finales en ambos grupos, (YT-YC) están afectadas por igual por el fenómeno de regresión a la media, por lo que, en
ausencia de efecto del tratamiento y de sesgos, tendrán el mismo valor esperado en ambos grupos.

6.7. Una opción (¿ética?) sería realizar un ensayo clínico con tres grupos: el grupo experimental, un grupo comparador
que recibe placebo, y un tercer grupo que saben que no son tratados. Un estudio que compara los 2 últimos grupos
encuentra mejor evolución en el tratado con placebo.
7.1. Nótese que deseamos responder cómo proceder delante de un paciente (¿qué intervención aconsejarle?), por lo
tanto, el paradigma de decisión de NP será más adecuado.
7.2. La figura muestra cómo ambos están relacionados, pero que aplica al desarrollo de cierta indicación del producto.
Así, una nueva indicación puede requerir un nuevo estudio de confirmación de eficacia aunque ya existan de
seguridad previos.

45
Tema 11:

Efecto:
Premisas, pérdidas y
supervivencia

Erik Cobo y Jordi Cortés


Marta Vilaró, Hector Rufino y José A. González

Enero 2014

1
Efecto: premisas, pérdidas y supervivencia

Efecto: premisas, pérdidas y supervivencia


Introducción ....................................................................................................................................... 3
1. Definición de efecto (Causal) ................................................................................................. 4
1.1. Asociación no es causalidad ..................................................................................................... 4
1.2. Buscar causas frente a estimar efectos ...................................................................................... 4
1.3. Efecto en una unidad ................................................................................................................. 4
1.4. Efecto en la población ............................................................................................................... 7
1.5. Premisas de efecto constante: Homoscedasticidad ................................................................... 8
1.6. Independencia de efectos ........................................................................................................ 12
1.7. Otras premisas ......................................................................................................................... 12
2. Efecto y cumplimiento del protocolo .................................................................................. 13
2.1. Eficacia del método y efectividad de uso................................................................................ 13
2.2. Muestras para el análisis ......................................................................................................... 14
3. Análisis de supervivencia ..................................................................................................... 19
Introducción……………………………………………………………………………………...19
3.1. Objetivos del análisis de supervivencia .................................................................................. 19
3.2. El análisis basado en medias no es adecuado ......................................................................... 20
3.2.1. Asimetría de la variable tiempo………………………………………………………….20
3.2.2. Censura…………………………………………………………………………………..21
3.2.3. Consecuencias de la asimetría y de la censura…………………………………………..24
3.3. Funciones específicas .............................................................................................................. 24
3.3.1. Función de supervivencia ……………………………………………………………….25
3.3.2. Función de riesgo (hazard rate)…………………………………………………………30
3.3.3. Función de riesgo acumulada……………………………………………………………32
3.4. Inferencia ................................................................................................................................ 33
3.4.1. Estimación instantánea (Kaplan-Meier) y por intervalo (actuarial)……………………..33
3.4.2. Comparación de curvas…………………………………………………………………35
3.4.3. Modelo de riesgos proporcionales (regresión de Cox)………………………………….35
Soluciones a los ejercicios……………………………………………………………………...….41

2
Bioestadística para no estadísticos

Introducción
Vimos en el capítulo 1 la diferencia entre preguntas sobre causas y preguntas sobre efectos, más
propias las primeras de Epidemiología; y más cerca las segundas de Clínica, de Cirugía o, mejor, de
las especialidades “intervencionistas”. Antes de aconsejar un tratamiento, un buen clínico querrá
conocer muy bien todos sus efectos.

Y en el capítulo 10 acabamos de ver la necesidad de un grupo comparador y hemos dado una


primera definición de efecto. En este tema entramos más a fondo en el concepto de efecto para dejar
explícitos los retos de su estimación —en especial, los originados por impurezas del estudio, como
los datos ausentes.

Al final, completamos las medidas del efecto estudiadas en el capítulo 9 (diferencia de medias,
diferencia de proporciones, cociente de proporciones y odds ratio) con el cociente de tasas o hazard
rate ratio, medida del efecto popular en estudios de supervivencia.

3
Efecto: premisas, pérdidas y supervivencia

1. Definición de efecto (Causal)

1.1. Asociación no es causalidad


Como dijimos en el capítulo 1, que “los casos observados tratados con A respondan mejor que los
tratados con B” no es lo mismo que “todos los casos tratados con A responden mejor que todos
tratados con B”. La figura muestra una representación del libro de causalidad de Hernán y Robins.

Figura 1.1 Hay asociación si los tratados con T evolucionan diferente que los tratados con C,
pero existe causalidad cuando toda la población responde diferente a T y C.

La pregunta del gestor sanitario es claramente la segunda. Y la de un clínico, que trata a un paciente
de esa población, también, aunque este salto requiere algunas premisas que enseguida veremos.

1.2. Buscar causas frente a estimar efectos


También distinguimos en el capítulo 1 entre “búsqueda exploratoria (y retrospectiva) de causas”,
frente a “estimación confirmatoria (y prospectiva) de efectos”. En este capítulo definimos efecto
siguiendo el planteamiento ‘prospectivo’ de Rubin.

Ejercicio 1.1
Un estudio compara el valor de la respuesta Y en hombres y mujeres en casos
tratados. ¿Es causal la expresión “la respuesta Y al tratamiento T es mayor en los
hombres que en las mujeres”?

1.3. Efecto en una unidad


En el capítulo 10 hemos definimos efecto como la diferencia entre la respuesta cuando se asigna
una intervención y la que se observa cuando se asigna la referencia. Más formalmente, sean: la
propuesta de tratamiento en estudio T, el (tratamiento) comparador C, una población de pacientes o
unidades Ui, y una respuesta Y que tiene dos posibles manifestaciones, la respuesta Y observable en

4
Bioestadística para no estadísticos

la unidad ui cuando se le asigna C (YC,i); y la respuesta Y observable en la misma unidad ui cuando


se le asigna T (YT,i).

Definición
T causa el efecto yTi – yCi
Más formalmente: el efecto de la intervención T, relativo al comparador C, en la
respuesta Y, en el individuo ui es: T causa el efecto yTi – yCi.

Por tanto, el efecto de una causa se define de forma relativa a otra causa alternativa. Ello no tiene
porqué ser una limitación, ya que emula el proceso de decisión de la vida real, en la que, por lo
menos, aparece la alternativa de no hacer nada. ¿Para qué se podría desear conocer las
consecuencias de nuestras elecciones, si no hubiera alternativa posible?

Ejemplo 1.1: Supóngase que acude a urgencias un paciente con una fractura de hueso largo
para la que el único tratamiento clínico y éticamente aceptable es la reducción e
inmovilización. Por tanto, ni puede observarse ni tiene sentido práctico preguntarse por la
evolución tras no hacer nada.

Nota: Puede argumentarse que si existe un único tratamiento para una determinada enfermedad, no tiene
ningún interés estimar su efecto ya que no hay alternativa y dicho tratamiento deberá aplicarse
forzosamente. Sin embargo, el concepto de éticamente aceptable depende del entorno y de los recursos
disponibles: el responsable de la administración de los recursos sanitarios decide el patrón de mínimo
tratamiento éticamente aceptable en función del beneficio y el coste de las diferentes intervenciones
sanitarias. Para este gestor, la pregunta no es asignar un u otro tratamiento a un mismo paciente, sino
asignar el recurso sanitario a una u otra patología. A diferencia del profesional asistencial, que cuida
personas, el salubrista debe velar por la salud de toda una población. Su paciente es la comunidad y debe
decidir la prioridad de las diferentes intervenciones, de la misma forma que debe hacerlo un clínico
delante de un paciente politraumatizado.

Definición
yTi , yCi son respuestas potenciales.

Recuerde
El efecto es una diferencia entre 2 respuestas potenciales.

Diferencia en sentido amplio: veremos que también incluye cocientes.

5
Efecto: premisas, pérdidas y supervivencia

Ejemplo 1.2: Se desea comparar el tratamiento Clásico (X=C), con el nuevo que incluye
también el componente T (X=T) y se decide estudiar como respuesta (Y) a la Presión
Arterial Diastólica (PAD). En el paciente Pep tenemos 2 respuestas potenciales Y: YT,Pep , la
PAD de Pep habiendo recibido el tratamiento T, pongamos 80 mmHg; y YC,Pep, la PAD de
Pep habiendo recibido el comparador C, pongamos 90 mmHg. El efecto de la causa T
relativo a C, en la respuesta PAD, en el paciente Pep es: el tratamiento T causa el efecto
yT,Pep - yC,Pep . En nuestro ejemplo, 80-90, lo que significa un descenso de 10 mmHg.

Ejercicio 1.2
La tabla representa ambas respuestas potenciales en una escala de dolor entre 0
(mínimo) y 20 (máximo) en una población de 8 pacientes. Calcule el efecto en
cada caso, su media y su dispersión. Interprete los resultados.

Respuesta potencial
Unidad
Y(t) Y(c)

1 14 13
2 0 6
3 1 4
4 2 5
5 3 6
6 1 6
7 10 8
8 9 8

Esta larga definición y el ejercicio muestran el llamado problema fundamental de la inferencia


causal, consecuencia de que ambas respuestas potenciales (PAD en Pep cuando se asigna T y PAD
cuando se asigna C) no son observables a la vez y en las mismas condiciones en el mismo paciente.

Ejemplo 1.3: Un estudio oftalmológico aplica una pomada local a cada ojo. Aunque es un
estudio apareado, en un mismo paciente, el lugar de aplicación cambia.

Así, el efecto causal en una unidad no es observable mientras no aceptemos algunas


simplificaciones. Una primera premisa es la invarianza, o respuesta constante al estímulo, común en
ingeniería, pero irreal en los sistemas médicos habituales. Por otro lado, el argumento contrafáctico,
que veremos en el curso de observacionales, requiere asumir que sabemos lo que habríamos
observado si hubiéramos optado por la otra alternativa.

6
Bioestadística para no estadísticos

Ejemplo 1.4: ¿Aceptaría un oftalmólogo la premisa de invarianza en un paciente con


cataratas? ¿Estarían los miembros más críticos de este colectivo científico dispuestos a
asumir que, en ausencia de intervención, la evolución de las cataratas es perfectamente
conocida? Si fuera así, pueden cerrar los libros de Estadística —que tratan la variabilidad,
no la constancia.

Ejemplo 1.5: En los primeros años de la enfermedad de la SIDA, ningún paciente con
evolución avanzada lograba sobrevivir más de, pongamos, seis meses desde el diagnóstico:
invariablemente morían antes. Si un científico aplica un tratamiento nuevo a 1 solo paciente
que, sin duda alguna, tiene el sida en dicho estadio evolutivo, y este caso único permanece
vivo a los doce meses, el resto de la comunidad científica estará muy interesada en este
tratamiento. A pesar de disponer de una sola observación.

En Medicina, la premisa de invarianza es raramente sostenible. La situación habitual es justamente


la contraria a la de la Física Clásica: existe una variación notable entre e intra individuos. Si la
evolución de los pacientes es impredecible, la obtención de datos bajo el tratamiento comparador es
obligada.

Recuerde
La presencia de variabilidad obliga a recoger información sobre el comparador.

Ejercicio 1.3
Idealmente, un médico perfecto, ¿qué tratamiento debería haber aplicado a cada
paciente del Ejercicio 1.2?

Ahora bien, se necesita conocer el efecto causal en un paciente “antes de tratarlo”. Lo que requiere
usar lo aprendido en otros pacientes previos.

1.4. Efecto en la población


¿Cómo cambiará la salud global si aplicamos a todos los pacientes la intervención T en lugar de C?

Definición
T causa el efecto E(yTi) – E(yCi)
Más formalmente: el efecto de la intervención T, relativo al comparador C, en la
respuesta Y, en la población P es: T causa el efecto E(yTi) – E(yCi).

7
Efecto: premisas, pérdidas y supervivencia

Como antes, hay 2 respuestas potenciales en cada paciente, pero ahora esta definición no requiere
conocer cada una en cada paciente, sino que basta con conocer su esperanza poblacional. Como,
bajo un proceso de asignación al azar, este efecto poblacional es estimable, se evita el problema
fundamental de la inferencia causal que sí aplica a cada unidad, pero no a su conjunto.

Nota: Si asignamos al azar, el reto de observar sólo una respuesta potencial en cada paciente no requiere
el argumento contrafáctico. Basta con decir que una de las dos respuestas potenciales será observada y la
otra estará ausente, ‘missing’. Como en los ensayos clínicos los pacientes se asignan al azar, la respuesta
potencial no observada es un dato ausente al azar, que no ocasiona sesgo. Así, los estudios
observacionales requieren premisas adicionales, como el argumento contrafáctico o la ausencia de
confusión, pero a los ensayos clínicos les basta con asignar al azar.

1.5. Premisas de efecto constante: Homoscedasticidad


Ahora bien, E(yTi) – E(yCi) es el efecto poblacional promedio. ¿Cómo es el efecto en las unidades?
Repasemos una situación particular, muy simple, útil y contrastable que ya vimos al estudiar la
comparación de 2 medias.

Ejemplo 1.6: Modifiquemos los datos del Ejercicio 1.2 de la escala de dolor y supongamos
ahora que las respuestas potenciales ante ambas intervenciones han sido:

Respuesta potencial Efecto causal


Unidad
Y(t) Y(c) Y(t)-Y(c)

1 11 13 -2
2 3 5 -2
3 2 4 -2
4 3 5 -2
5 4 6 -2
6 4 6 -2
7 5 7 -2
8 8 10 -2

Media (SD) 5 (3.0237) 7 (3.0237) -2 (0)

Sigue existiendo variabilidad entre pacientes (SD≈3), quizás por diferente umbral al dolor o
por distintas condiciones iniciales de un paciente a otro. Pero el efecto ahora es constante
(SD=0), igual en cada paciente. Y lo que es más útil, coincide con el efecto poblacional.

Recuerde
Las diferencias observadas entre pacientes tratados pueden ser debidas a su
propensión particular, no a un efecto variable del tratamiento.

8
Bioestadística para no estadísticos

Bajo la premisa de efecto constante, todas las unidades proporcionan información del mismo efecto
y tiene pleno sentido combinarlas para estimarlo: al ser el mismo en todas las unidades, la
diferencia entre las medias se corresponde con el efecto causal en cada paciente.

Recuerde
Si la premisa de efecto constante es cierta, el efecto poblacional promedio aplica
también a cualquier unidad.

La Figura 1.2. representa gráficamente el cumplimiento de la premisa de Homoscedasticidad. Si el


efecto en las unidades es constante, el efecto poblacional medio (Δ) es igual al efecto para cada una
de las unidades.

Figura 1.2. Efecto poblacional con efecto constante

Nota: Este modelo se conoce técnicamente con el nombre de “efectos fijos”.

Nota: Esta premisa tan simple es la que está detrás del análisis estadístico más habitual, como la
comparación de dos medias mediante la t de Student o el modelo lineal de regresión: el efecto del
tratamiento se manifiesta en las medias, pero no en las dispersiones.

Ejemplo 1.6 (cont): Aunque el efecto tiene variabilidad 0, la respuesta potencial en ambos
tratamientos tiene idéntica desviación típica (≈3).

Recuerde
La premisa de efecto constante tiene la consecuencia contrastable de que ambos
grupos tienen la misma variabilidad (homoscedasticidad).

Nota: Valore repasar homoscedasticidad en el tema de comparación de 2 medias.

Nota: Recuerde que un efecto constante del tratamiento se traduce en distribuciones de idéntica forma,
con varianzas iguales. Esta premisa que está presente en las pruebas estadísticas más usuales, puede
obtenerse mediante transformaciones matemáticas que hacen así más simple la interpretación de los
resultados.

9
Efecto: premisas, pérdidas y supervivencia

Recuerde
Si hay homoscedasticidad, el efecto poblacional promedio equivale al efecto del
tratamiento en cada caso.

Por supuesto, como existe variabilidad de la respuesta entre pacientes, diferentes asignaciones de
los pacientes a los grupos resultarán en diferentes estimaciones puntuales del efecto promedio cuya
oscilación convendrá cuantificar. Ya vimos que asignar al azar ofrece un método para poder
cuantificar el error típico de estimación.

La premisa de efecto constante se puede relajar de 2 formas. La primera es especificando una cierta
variabilidad del efecto.

Ejemplo 1.7: Ahora los nuevos datos para el Ejercicio 1.2 muestran un efecto que oscila de
paciente a paciente con una desviación típica de 0.87.

Respuesta potencial Efecto causal


Unidad
Y(t) Y(c) Y(t)-Y(c)
1 12 13 -1
2 10 13 -3
3 3 6 -3
4 2 5 -3
5 4 5 -1
6 7 9 -2
7 6 8 -2
8 8 10 -2
9 11 12 -1

Media (SD) 7 (3.57) 9 (3.24) -2 (0.87)

Recuerde
Si el efecto es aleatorio, el efecto promedio no aplica directamente a cada unidad.

Cuando el efecto es aleatorio, estimar el efecto esperado en cada unidad requiere tener en cuenta,
además de la incerteza por la estimación, ya considerada por los métodos habituales (p.e., IC95%), la
incerteza por la variabilidad del efecto. Ahora se deben estimar, pues, dos parámetros: el del efecto
promedio y el de la distancia del efecto en cada unidad a este efecto promedio (sigma). Además de
requerir diseños sofisticados, que implican determinaciones repetidas en cada individuo, este
modelo tiene el inconveniente de su aplicabilidad posterior, ya que, cuanto mayor sea esta

10
Bioestadística para no estadísticos

dispersión, mayor será la incertidumbre de cuál será el efecto en una unidad determinada, lo que
puede llegar a requerir estudios “n igual a 1” para determinar el efecto en cada caso particular.

Nota: Observe que la variabilidad añadida por el tratamiento resulta en mayor dispersión en los tratados.

La segunda forma de relajar la premisa de efecto constante es distinguirlo por subgrupos: dentro de
cada grupo el efecto es constante, pero cambia de un subgrupo a otro.

Ejemplo 1.7 (cont): Supongamos ahora, en unos nuevos datos, que hay 3 grupos de
gravedad: los pacientes 3, 4 y 5, leves; 6,7 y 8, moderados y el resto, graves. Como el efecto
depende del nivel inicial, para conocer el efecto es necesario clasificar al paciente, pero
ahora, dentro de cada grupo, el efecto es constante.

Respuesta potencial Efecto causal


Unidad
Y(t) Y(c) Y(t)-Y(c)
1 12 15 -3
2 10 13 -3
3 3 4 -1
4 2 3 -1
5 4 5 -1
6 7 9 -2
7 6 8 -2
8 8 10 -2
9 11 14 -3

Media (SD) 7 (3.57) 9 (4.42) -2 (0.87)

Nota: Esta situación hipotética es muy ideal, ya que el efecto es mayor cuanto mayor es el dolor inicial,
Una consecuencia es que la variabilidad resultante es menor en los pacientes tratados. Frecuentemente, en
estas situaciones, logo-transformar los datos resuelve muchos problemas, empezando por permitir estimar
un efecto multiplicativo en lugar de aditivo.

Ejemplo 1.8: La ingestión de alimentos puede modificar (o interferir o interactuar) la


absorción y, por tanto, el efecto de un tratamiento. Usualmente, las agencias reguladoras no
exigen estudios en los que se recoja simultáneamente la información en las dos situaciones,
antes y después de la ingesta, sino que acepta un estudio en el que se haya dejado fija esta
condición (p.e., “en ayunas”).

La premisa de efecto constante, o por lo menos de cierta irrelevancia por ligeras modificaciones del
tratamiento, puede ser más razonable en intervenciones farmacológicas (p.e., lote de fármaco) que
en otro tipo de intervenciones (p.e. experiencia del cirujano que interviene). Por ello, la extensión

11
Efecto: premisas, pérdidas y supervivencia

de la Consort para intervenciones no farmacológicas aconseja considerar en el diseño, en el análisis


y en el informe a la variabilidad entre las personas que administran la intervención.

1.6. Independencia de efectos


Otra premisa que se debe cumplir es la que en inglés se llama stable-unit-treatment-assumption
(STUVA), por la cual se asume que los resultados de un individuo son independientes de los
resultados y de los niveles de la intervención recibida de otros individuos. Esta premisa no siempre
es sostenible en enfermedades transmisibles.

Ejemplo 1.9: El efecto en mí de una vacuna puede depender de si tú eres o no transmisor de


la enfermedad lo que, a su vez, puede depender tanto de la intervención que te asignan como
de su efecto en ti.

Ejemplo 1.10: La siguiente tabla muestra que el efecto de la intervención en tu caso es el


mismo: independientemente de lo que yo reciba, en tu caso el dolor siempre baja de 100 a 0.
Pero en mi caso, el nivel de descenso de mi dolor depende de ti.

Tú tomas T C T C
Yo tomo T T C C

Tu respuesta 0 100 0 100

Mi respuesta 25 50 100 100

Ejercicio 1.4
¿Cuál es el efecto en mí si tú recibes T? ¿Y cuál si recibes C?

Los ensayos clínicos usuales no estudian ni ofrecen datos sobre esta premisa. Su estudio requeriría,
como en el ejemplo, observaciones repetidas en cada paciente.

1.7. Otras premisas


En el curso observacionales veremos las premisas de intercambiabilidad (exchangeability), no
confusión y suficiencia del modelo. Digamos aquí que la asignación al azar garantiza las dos
primeras y hace innecesaria la tercera.

12
Bioestadística para no estadísticos

2. Efecto y cumplimiento del protocolo

La definición de efecto en la población incluye a todos los casos de la población objetivo. Pero
algunos no cumplen el protocolo establecido.

Ejemplo 2.1: Desviaciones usuales son no acudir a las visitas concertadas o no tomar la
medicación prescrita.

Nota: Un uso coloquial emplea quebrantamiento (violation) del protocolo si se incumple conscientemente
el compromiso adquirido.

Una buena intervención, un buen diseño, un buen investigador y un buen seguimiento conseguirán
mantener al mínimo las desviaciones del protocolo.

Recuerde
El crédito de los investigadores y la intervención se reduce a medida que
aumentan las desviaciones del protocolo.

Excluir del estudio a los pacientes con desviaciones del protocolo implica perder la garantía de
equilibrio proporcionada por la asignación al azar. Por el contrario, incluirlos podría diluir el efecto
de la intervención. Ello obliga a matizar la definición de efecto.

2.1. Eficacia del método y efectividad de uso

Definición
La eficacia del método estudia el efecto en condiciones ideales, con adherencia
absoluta al protocolo.

Ejemplo 2.2: En condiciones óptimas de uso, la “pastilla” evita el 99.7% de embarazos.

Definición
La efectividad de uso estudia el efecto en condiciones habituales.

Cabe esperar que las condiciones habituales de uso cambien mucho de una población a otra, lo que
limita la transportabilidad de resultados.

Ejemplo 2.3 (cont): En mujeres más irregulares en sus tomas, la “pastilla” podría tener
cualquier efecto menor al ideal anterior.

13
Efecto: premisas, pérdidas y supervivencia

2.2. Muestras para el análisis


De acuerdo con la definición de efecto causal en la población y con las propiedades de la asignación
al azar, el análisis principal de un ensayo clínico debe comparar a los pacientes a los que se les
recomienda T con los que han recibido el otro consejo C, lo que recibe el nombre de análisis por
intención de tratar (ITT) o según la asignación del tratamiento (as randomized). El análisis
alternativo, estudiando únicamente los pacientes que han cumplido el protocolo recibe el nombre de
análisis por protocolo (PP).

Ejercicio 2.1
Para estudiar la protección para el cirujano del uso de un doble par de guantes, se
ha realizado un ensayo en el que los cirujanos son asignados al azar al grupo de
utilizar uno o dos pares de guantes.

284 casos seleccionados


uno dos
Asignados a 142 142
Pares realmente usados uno dos uno dos
Casos totales 108 34 46 96
Se rompen 46 3 35 6
Resisten 62 31 11 90
% rotos 42.6% 8.8% 76.1% 6.2%
Debido a ciertas creencias individuales (menor sensibilidad con dos pares, menor
protección con un par,...) algunos cirujanos no han seguido el protocolo y han
utilizado un número de pares diferente al asignado. En la tabla figuran los casos
que han sido asignados a cada grupo, los pares de guantes que finalmente han
usado y el número de casos en los que ha habido rotura. Debido a estas
transgresiones del protocolo hay 3 diferentes estrategias de análisis.

1. Se incluyen todos los casos y se comparan los asignados a un par (49/142:


34.5%) frente a los asignados a dos pares (41/142: 28.9%), lo que se traduce
en un IC95% de la diferencia de proporciones de –5.2% a +16.4%.

2. Se consideran evaluables sólo aquellos casos que han cumplido el protocolo y


se comparan los “asignados a 1 que usan 1” (46/108: 42.6%) con los
“asignados a 2 que usan 2” (6/96: 6.2%), lo que se traduce en un IC95% de
25.8% a 46.9%.

14
Bioestadística para no estadísticos

3. Se comparan todos los casos según los pares de guantes que realmente han
usado: uno (81/154: 52.6%) o dos (9/130: 6.9%). lo que se traduce en un
IC95% de 34.7% a 52.7%.

¿Cuáles de las siguientes son ciertas?

a) El análisis por intención de tratar es el 1)

b) El análisis por cumplimiento de protocolo es el 2)

c) En el análisis 3) se está estudiando un atributo de los pacientes, no una


variable experimental. Por lo tanto, la conclusión pierde la fuerza causal de
que estaba dotada por ser aleatorizado y debe ser interpretado con la prudencia
de los estudios no experimentales.

d) En el análisis 1 se concluye que no se ha podido demostrar que aconsejar el


uso de 2 guantes mejore la seguridad de los cirujanos.

e) En los análisis 2 y 3 los resultados son estadísticamente significativos.

f) En el análisis 2, la selección realizada a los casos no garantiza que los grupos


sean comparables. Se están eliminado la segunda y la tercera columna, que
incluyen los casos más particulares. No es de extrañar que los “super-
precavidos” de la segunda columna (que aunque les toca usar 1, usan 2)
tengan un valor muy bajo de roturas (8.8%); mientras que los “des-
preocupados” de la tercera columna (que deberían usar 2 pero utilizan 1)
tengan el porcentaje más alto de roturas (76.1%). Al eliminar estos casos tan
diferentes, los resultados serán diferentes.

g) En el análisis 3 se demuestra que si se aconseja en el futuro el uso de doble


guante, descenderá la proporción de roturas.

En el momento de asignar la intervención se desea conocer el efecto en el conjunto de todos los


pacientes a los que se les aconsejará —independientemente de su nivel posterior de adherencia. El
cumplimiento es un resultado del estudio, que conviene reportar con detalle, pero desconocido en el
momento de recomendar la intervención.

15
Efecto: premisas, pérdidas y supervivencia

Recuerde
La medida del efecto futuro al asignar el tratamiento la proporciona el análisis por
intención de tratar.

Implica que todos los casos asignados a un grupo deben ser analizados en ese grupo (as
randomized). La guía ICH-E9 sobre principios estadísticos, consensuada en 1998 por la conferencia
internacional para la armonización del desarrollo de productos farmacéuticos, hizo una tímida
definición de ITT que permitía excluir a algunos casos, acercándola algo a la PP. En 2010, la
academia nacional de ciencias americana y la Consort recomiendan emplear el término “según
asignación” (as randomized) para evitar las ambigüedades por el abuso del término ITT.

Recuerde
Los desvíos del protocolo amenazan la validez que proporciona el diseño
experimental y lo acercan al diseño observacional.

Ya se ha dicho que los desvíos implican pérdida de información. Por tanto, cuanto menos sean,
mejor. El estudio sólo recuperará toda la credibilidad perdida si cualquier consideración sobre estos
desvíos conduce a conclusiones similares.

Recuerde
Conviene que ambos análisis (ITT y PP) lleven a la misma conclusión.

Aunque parece razonable esperar que la estimación del efecto del método en los casos PP sea mayor
que la del efecto de uso en la ITT, en realidad, ambas son diferentes estrategias delante de la
pérdida de información, por lo que los resultados pueden variar en cualquier dirección, siendo un
caso concreto de sesgo impredecible.

Ejercicio 2.2
Se asignan al azar 200 casos a dos tratamientos alternativos A y B. En el grupo A,
todos los pacientes cumplen y acaban el protocolo, mientras que en el grupo B, 50
de ellos dejan de tomar la medicación. En el grupo A se curan 60 y en el B, 40.
N ¿ Acaban Curan P(Cura | acaba) P(cura | empieza)
A 100 0 100 60 60% 60%
B 100 50 50 40 80% 40%

16
Bioestadística para no estadísticos

Estime puntualmente el efecto por ITT y por PP. Interprete.

La gran dificultad del análisis por intención de tratar reside en que no se dispone de valores para los
casos que no han cumplido el protocolo. Si hay que incluirlos en el análisis, ¿qué valor se les puede
asignar? ¿Cómo tenerlos en cuenta? La solución clásica consistía en copiar el último valor
disponible (last observation carried forward ó LOCF). Ahora hay mejores.

Ejemplo 2.4: Si el paciente sólo participó en el estudio hasta el tercer mes, se asigna, a la
evaluación de los 12 meses, el valor observado en el tercer mes.

El problema de los datos faltantes es muy serio y de imposible solución ya que, por definición, falta
información que no puede “inventarse”. Una elegante clasificación distingue entre datos ausentes
completamente aleatorios (no dependen de nada); aleatorios (sólo dependen de otras variables
observadas); y no ignorables (dependen de variables no observadas). Los primeros pueden
generarse al azar, los segundos, en función de las variables observadas y los terceros son los únicos
que no pueden generarse y pueden originar problemas. Pero la clasificación de un dato ausente en
una de estas categorías debe hacerse por creencias del investigador, ya que no se dispone de las
variables no observadas. Por tanto, esta clasificación descansa en premisas no contrastables.

Las conclusiones serán robustas si se pueden generar los datos ausentes bajo diferentes premisas y
los resultados del análisis permanecen estables, independientemente de cómo fueron generados los
datos. Para que pueda suceder, el estudio debe tener un número reducido de pérdidas.

Dos argumentos aconsejan usar únicamente los casos que han cumplido el protocolo. El primero
son los estudios de seguridad del fármaco, donde no tiene sentido incluir casos que, por ejemplo, no
han tomado el producto. El segundo argumento aparece en los estudios de equivalencia, ya que una
invención de información tenderá a diluir las diferencias entre los grupos, por lo que incluir estos
casos se convierte en un premio para un mal diseño o un mal seguimiento, lo que de ninguna
manera es razonable.

Recuerde
La comparación más importante es por intención de tratar, si bien para el
establecimiento de equivalencia o en el estudio de tolerabilidad, la comparación
por cumplimiento del protocolo gana relevancia.

17
Efecto: premisas, pérdidas y supervivencia

Son especialmente preocupantes las pérdidas relacionadas con la evolución, ya que podrían afectar
de forma diferente a los grupos. Ello sucederá en los casos de eficacia nula o absoluta; y de falta de
tolerabilidad.

Nota: Si se sabe que el paciente murió entre el mes 3 y 12, no se tendrá un valor introducido en la
respuesta al final a los 12 meses del estudio (por la sana costumbre de los médicos de no pasar visita a los
muertos). Pero ello no implica que a ese paciente no le corresponda, en esa variable, un valor que indique
fracaso.

Recuerde
Si la pérdida está relacionada con la evolución, se sabe mucho sobre el dato
ausente y se debe intentar asignarle, a ciegas del tratamiento, un valor que
considere esta información.

Si las pérdidas son previas a la administración de un tratamiento enmascarado o se trata de


pacientes erróneamente incluidos, podrían no afectar a la comparabilidad. Finalmente, ¿qué se
puede pensar de una situación en la que el paciente o no aparece o retira su consentimiento a
participar en el estudio o simplemente no ha tomado toda la medicación?

Ejercicio 2.3
Lea el documento sobre el tratamiento y la prevención de datos ausentes y resuma
sus principales recomendaciones.

El uso de las tecnologías de la información ha permitido mejorar la calidad de los datos de forma
muy notable ya que permite establecer filtros automáticos de coherencia de los datos y contrastar la
información en el mismo momento en que se genera. Además facilita la transmisión y el
almacenamiento.

Historieta: Una anécdota del Dr. Alberto Cobos ilustra la importancia de estos filtros. El sistema avisó de
que un paciente no podía tener presión arterial 6h después de fallecer. Pero no era un error: estaba en
espera de donación para trasplante. Al haberse ejecutado el filtro en el mismo momento en que se genera
la información, la validación fue inmediata y no generó ninguna molestia.

18
Bioestadística para no estadísticos

3. Análisis de supervivencia

Introducción
El análisis de la supervivencia analiza una variable respuesta definida como el lapso de tiempo
transcurrido entre dos eventos de interés, como podrían ser la aparición de un acontecimiento
adverso tras una intervención terapéutica, o el tiempo transcurrido entre el inicio de una infección y
su diagnóstico.

Nota: En general, cualquier lapso entre dos eventos se denomina tiempo de supervivencia aunque el
punto final no sea la muerte.

En este punto se explican las funciones de supervivencia y de riesgo y se introducen brevemente la


comparación de curvas y el modelo de riesgos proporcionales de Cox. El objetivo ahora es
interpretar los resultados , más que profundizar en su cálculo –que se verá en el curso de estudios
observacionales.

3.1. Objetivos del análisis de supervivencia


Para describir y resumir los tiempos de vida, se emplean las funciones de supervivencia y de riesgo.

Ejemplo 3.1: Han superado los 6 meses de vida 9 de 10 pacientes intervenidos de una
neoplásica gástrica avanzada.

El patrón de supervivencia de 2 poblaciones se compara con los métodos de Log-rank y de Gehan.

Ejemplo 3.2: Un ensayo clínico compara el nuevo tratamiento T con el convencional C:


¿Aumenta T el tiempo de vida?

El modelo de riesgos proporcionales de Cox selecciona a las variables que más contribuyen a
predecir el tiempo de vida —de forma independiente.

Ejemplo 3.3: A partir de la supervivencia de un grupo de pacientes con cáncer de pulmón y


de variables como el género, la edad, los hábitos tabáquicos, ... se desea estudiar cuál de
estos factores ayuda a predecir la supervivencia.

O bien, para estimar el efecto de una intervención ajustando por las condiciones de los pacientes y
del entorno en el que se aplica la intervención.

19
Efecto: premisas, pérdidas y supervivencia

Ejemplo 3.4: En dos pacientes de características similares (edad, género, antecedentes


tóxicos y fisiopatológicos,…) y en idénticas condiciones de administración (mismo centro,
protocolo, tiempo previo de evolución, …), ¿cuánto mayor es la supervivencia en el
paciente tratado con la nueva intervención?

3.2. El análisis basado en medias no es adecuado


Al ser el tiempo una variable cuantitativa, una primera opción sería estudiar el tiempo de
supervivencia mediante la media y la desviación típica. Sin embargo, la asimetría y la censura lo
desaconsejan.

3.2.1. Asimetría de la variable tiempo


A diferencia de otras variables, el tiempo sólo se desplaza en una dirección: el colesterol puede
subir o bajar, pero el tiempo nunca retrocede y siempre es positivo, con una distribución asimétrica.

Ejemplo 3.5: La Figura 3.1 muestra la forma típica de esta variable para un ejemplo
hipotético de meses de supervivencia tras el diagnóstico de una neoplasia de mal pronóstico:
muchos casos tienen valores de unos pocos meses, pero algunos pacientes viven mucho,
llegando incluso uno de ellos a superar los 8 años. Nótense los siguientes puntos: La media
de esta variable, como resultado de estas observaciones extremas, se sitúa alrededor de 15
meses, valor que no representa en absoluto la supervivencia habitual de esta muestra. La
mediana, en cambio, tiene un valor entre 10 y 11 meses, que resume mejor el tiempo de vida
habitual o típico de estos pacientes.

Lo mismo sucede con la desviación típica, cuyo valor, algo mayor de 15 meses, es
demasiado alto para representar la distancia de los casos que no alcanzan la supervivencia
media y demasiado bajo para los casos que sí lo superan.

La superposición de una distribución Normal (que tenga esta media y esta desviación típica)
muestra que el modelo de Gauss-Laplace no puede ser utilizado para representar estos
casos: ¡el 95% de los pacientes vivirían entre -15 y +45 meses!

20
Bioestadística para no estadísticos

Media 14.982

Desviación típica 15.361

Mínimo 0.032

Primer cuartil 4.056


5 25 45 65 85 105

Mediana 10.644

95% Confidence Interval for Mu Tercer cuartil 20.643

Máximo 110.221
8 9 10 11 12 13 14 15 16 17

95% Confidence Interval for Median

Figura 3.1 Histograma, con curva normal superpuesta, de datos completos de supervivencia. Los IC95% de la media
(Mu) y de la mediana no se superponen.

3.2.2. Censura
La variable tiempo hasta un cierto evento requiere un largo plazo para ser observada en su totalidad,
pero los estudios científicos suelen marcar un punto final.

Definición
Tiempo de seguimiento es el lapso de tiempo transcurrido entre la inclusión de
un caso y el cierre del estudio.

Ejemplo 3.5 (cont): En el ejemplo anterior, a los 24 meses de seguimiento ya se conocía el


tiempo de vida exacto del 80% de los pacientes, pero se debería esperar aún más de 6 años
para conocer el 20% restante, lo que restaría actualidad y valor científico a los resultados.

Recuerde
El tiempo observado en los pacientes que siguen vivos al terminar el seguimiento
está censurado.

Los casos censurados deben indicarse, por ejemplo, con “+”: 18+ indica que el paciente seguía vivo
a los 18 meses. Por tanto, su tiempo de vida es igual o superior a 18 meses: el resto de su tiempo
esta censurado.

21
Efecto: premisas, pérdidas y supervivencia

Ejemplo 3.6: ara estudiar el efecto del ácido linoléico en el tiempo de vida de pacientes con
cáncer colorectal, MacIllmurral y Turkie incluyeron 49 pacientes en un ensayo clínico. El
periodo de seguimiento se limitó al tiempo de reclutamiento (48 meses), por lo que sólo
conocieron el tiempo de vida exacto de los pacientes que fallecieron entre su inclusión y el
cierre del estudio (48 meses como máximo). Para los demás, sólo sabían que al finalizar el
estudio seguían vivos: su tiempo de vida observado era menor que el real.

Tratamiento Supervivencia (meses)

Ácido γ-linolénico (n = 25) 1+, 5+, 6, 6, 9+, 10, 10, 10+, 12, 12, 12, 12, 12+, 13+, 15+,
16+, 20+, 24, 24+, 27+, 32, 34+, 36+, 36+, 44+

Control (n = 24) 3+, 6, 6, 6, 6, 8, 8, 12, 12, 12+, 15+, 16+, 18+, 18+, 20,
22+, 24, 28+, 28+, 28+, 30, , 30+, 33+, 42
Tabla 3.2 Datos del ECA de cáncer colorectal: + indica dato censurado. Por ejemplo, “1+” significa que terminó us
seguimiento al mes de su inclusión, y por tanto, su tiempo de vida real es >1 mes.

Para realizar el análisis con R, primero se carga una librería específica como, por ejemplo, survival.
Unos datos de supervivencia deben incluir: 1) los tiempos hasta el evento, 2) un indicador de
censura (p.e., 0: censura, 1: no censura; o bien “+”) y 3), si procede, variables explicativas. La
información de la censura se incorpora a los tiempos de supervivencia mediante la instrucción
Surv(...).

Ejemplo de R
## Aplicación al Ejemplo 3.6
# Instalación y carga del paquete survival
> install.packages('survival')
> library(survival)
# Lectura de los datos
> datos <- read.table(url('http://www-
eio.upc.es/teaching/best/CancerColorrectal.txt'),header=TRUE,sep='\t')
> head(datos)
Tratamiento Tiempo Censura
1 linolenicAcid 1 0
2 linolenicAcid 5 0
3 linolenicAcid 6 1
4 linolenicAcid 6 1
5 linolenicAcid 9 0
6 linolenicAcid 10 1

22
Bioestadística para no estadísticos

# Creación del objeto con censuras


> ColoSurv <- Surv(datos$Tiempo, datos$Censura)
> ColoSurv
[1] 1+ 5+ 6 6 9+ 10 10 10+ 12 12 12 12 12+ 13+
[15] 15+ 16+ 20+ 24 24+ 27+ 32 34+ 36+ 36+ 44+ 3+ 6 6
[29] 6 6 8 8 12 12 12+ 15+ 16+ 18+ 18+ 20 22+ 24
[43] 28+ 28+ 28+ 30 30+ 33+ 42

Nota técnica: Si al instalar el paquete survival, R proporcionase un error debido a la imposibilidad de


instalar (de forma automática) el paquete splines, continúese con el proceso como si tal error no se
hubiese producido ya que las funciones de este apartado no requieren el paquete splines.

Ejemplo 3.7: Un diseño podría incorporar pacientes durante 12 meses y parar el estudio tras
otros 12 meses adicionales de seguimiento. Ahora, los pacientes incluidos el primer día del
estudio habrán sido seguidos hasta un máximo de 24 meses pero los incluidos al final, 12
meses —provocando algunas censuras. La Figura 3.2 muestra los tiempos que se habrían
observado si los pacientes hubieran sido seguidos entre 12 y 24 meses.

Media 10.214

Desviación típica 6.661

Mínimo 0.032
1 5 9 13 17 21
Primer cuartil 4.056

Mediana 10.644
95% Confidence Interval for Mu
Tercer cuartil 15.100

8,5 9,5 10,5 11,5 12,5


Máximo 23.878

95% Confidence Interval for Median

Figura 3.3 Histograma, con curva normal superpuesta, de los datos censurados de supervivencia.

Al haberse eliminado los mayores tiempos, tanto la media como la desviación típica ofrecen
resultados (10 y 7 en cifras redondas) muy diferentes de los reales de la Figura 3.1 (15 y 15). Se vio
que estos indicadores no resumen bien a las variables asimétricas. Ahora vemos, además, que en el
caso de datos censurados, proporcionan resultados sesgados, que no informan de la auténtica media
y desviación típica.

23
Efecto: premisas, pérdidas y supervivencia

En cambio, la mediana o percentil 50 puede ser estimado en este ejemplo ya que hay un 69% de
datos no censurados. Nótese que el valor estimado de la mediana coincide con el anterior.

Recuerde
Los percentiles pueden estimarse siempre que el porcentaje de datos no
censurados supere el percentil que se desea estimar.

Si la censura se produce por cierre del estudio (tiempo de seguimiento menor al tiempo de vida real)
parece razonable asumir que la razón de la censura es independiente del grupo inicial asignado.

Nota técnica: Si en un brazo viven más, habrá más censuras, pero condicionado al tiempo de vida, la
probabilidad de censura es independiente del brazo.

Pero si la censura es el resultado de una pérdida (lost to follow-up) previa al final del periodo de
seguimiento, dicha asunción es más delicada.

Ejemplo 3.8: Si, por ejemplo, por eventos adversos, los pacientes deciden “desaparecer”, la
censura podría depender del brazo de tratamiento, incluso para un mismo tiempo de vida.

Nota: La mayoría de los métodos usados en análisis de supervivencia presuponen la condición de no


informatividad: los individuos censurados están sujetos a la misma probabilidad de muerte que aquellos
que permanecen en el estudio. Técnicamente, que son una submuestra aleatoria. En un ECA, basta con
asumir que la censura es independiente del brazo.

Recuerde
Es preciso aceptar premisas sobre los casos censurados.

3.2.3. Consecuencias de la asimetría y de la censura


La asimetría y la censura desaconsejan el uso de la distribución Normal —qué tan bien caracterizan
la media y la desviación típica. Se puede recurrir a procedimientos no paramétricos, que no
requieren una distribución concreta y permiten además considerar secuencialmente a los datos, de
forma que cada individuo sólo contribuye al estudio mientras está bajo observación; es decir,
mientras no aparece la censura. Por ello, son la alternativa más usada en estudios de supervivencia.

3.3. Funciones específicas


Veamos dos funciones que especifican: una, la probabilidad de que un caso sobreviva cierto tiempo;
y, otra, el riesgo en un instante determinado.

24
Bioestadística para no estadísticos

3.3.1. Función de supervivencia

Definición
La función de supervivencia proporciona la probabilidad de que un paciente
sobreviva cada momento del tiempo.

Recuerde
La función de supervivencia al inicio (t =0) siempre vale 1 ya que ésta es la
probabilidad de no haber padecido el evento al inicio del estudio.

Ejemplo 3.9: La Figura 3.3 representa cómo van variando, a lo largo del tiempo, la
proporción de unidades que están libres (es decir, sobreviven) del evento de interés. Puede
verse, por ejemplo, que en el mes 10, aproximadamente el 60% de los pacientes del estudio
aún no lo habían presentado. Y que el intervalo de confianza (líneas discontinuas) de lo que
sucede en la población origen de la muestra es muy estrecho, indicando que se dispone de
buena información (de hecho, este cálculo se basa en 1000 pacientes).

Figura 3.4 Función de supervivencia con su correspondiente intervalo de confianza al 95%.

Aún en el caso de un riesgo constante, la función de supervivencia mostrará un descenso más


marcado al inicio por el simple hecho de que hay más casos expuestos al riesgo (con una tasa de
una probabilidad de muerte de 0.1% mensual, se esperarán más muertos con 1000 pacientes que no
con 10).

Ejemplo 3.10: Si, por ejemplo, el evento de interés es la muerte, aquellos casos ya
fallecidos ¡no son susceptibles de volver a morir!

25
Efecto: premisas, pérdidas y supervivencia

Ejercicio 3.1

a) ¿Qué proporción de pacientes de la figura seguían vivos al año de


seguimiento? ¿Y al cabo de 3 años para cada grupo de tratamiento?

b) b) ¿Qué indican los números 844, 703,… al pie de la figura? ¿Por qué van
haciéndose menores? ¿A qué se debe el gran salto del tercer al cuarto año?

c) ¿La diferencia en números entre los dos grupos es tan grande como aparenta
una visión rápida del gráfico? ¿A qué se debe?

En R, la función survfit calcula la función de supervivencia. Se debe crear primero un objeto de tipo
Surv que incorpore la información de los tiempos y las censuras conjuntamente (como el ColoSurv
creado en un ejemplo previo)

Ejemplo de R
# Cálculo la supervivencia segun el método de Kaplan-Meier
> ColoSurvfit <- survfit(ColoSurv ~ 1)
> summary(ColoSurvfit)
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 46 6 0.870 0.0497 0.7775 0.973
8 40 2 0.826 0.0559 0.7235 0.943
10 37 2 0.781 0.0611 0.6703 0.911
12 34 6 0.644 0.0717 0.5172 0.801
20 19 1 0.610 0.0755 0.4782 0.777
24 16 2 0.533 0.0831 0.3931 0.724

26
Bioestadística para no estadísticos

30 9 1 0.474 0.0926 0.3233 0.695


32 7 1 0.406 0.1012 0.2495 0.662
42 2 1 0.203 0.1523 0.0468 0.883
> plot(ColoSurvfit)

Cada fila muestra: los valores del tiempo (“time”); el número de pacientes a riesgo en este
momento, es decir que han llegado, vivos y seguidos, a este tiempo (“n.risk”); el número que
padecen el evento en ese instante (“n.event”); la supervivencia o proporción de casos vivos tras ese
instante (probabilidad de sobrevivir el instante t); su error estándar y su intervalo de confianza del
95%.

Nota técnica: la sintaxis "~1" que se pone dentro de la instrucción survfit indica que queremos la
supervivencia de todos los pacientes sin estratificar. Si quisiésemos estratificarla por alguna variable,
deberíamos especificarla (p.ej., "~Tratamiento")

Recuerde
El motivo por el cual aparecen varios eventos en un mismo instante de tiempo es
de tipo logístico. Muchos estudios hacen un seguimiento escalonado en visitas
que conlleva que la mayoría de eventos no puedan ser contemplados hasta que el
paciente acude al centro (y nunca entre visitas).

Ejemplo 3.11: Como hemos dicho, la función de supervivencia representa la probabilidad


de vivir (o no padecer el evento) más allá de cada instante. Así, la supervivencia en el
instante t = 6 meses (1r valor de la cuarta columna) será:

6
𝑆𝑡=6 = 𝑃(𝑇 > 6) = 1 − 𝑃(𝑇 < 6) = 1 − = 0.8695~0.870
46

Nótese que en el instante t = 6 meses, de los 49 participantes iniciales sólo continúan 46, ya
que 3 de ellos se han perdido con anterioridad en los meses 1, 3 y 5 (véase el objeto
ColoSurv). Como en el sexto mes se producen 6 eventos de 46 que llegan, la probabilidad
de morir en el mes 6 es 6/46; y la probabilidad de sobrevivir, su complementario: 1 - 6/46

Recuerde
La función de supervivencia sólo varía cuando se produce algún evento. Por
tanto, sólo se debe calcular en los instantes con eventos.

27
Efecto: premisas, pérdidas y supervivencia

Ejemplo 3.11 (Cont.)La supervivencia en el octavo mes (t=8) se obtiene de la siguiente


forma:

2
𝑆𝑡=8 = 𝑃(𝑇 > 8) = 𝑃(𝑇 > 8|𝑇 > 6) · 𝑃(𝑇 > 6) = �1 − � · 0.8261~0.826
40

De los 40 que han sobrevivido al sexto mes, 2 mueren en el mes 8, con lo que la
probabilidad de sobrevivir al octavo mes habiendo sobrevivido al sexto es 1- 2/40.

Nota técnica: Como vivir más de 8 meses requiere haber vivido más de 6 meses, usando la fórmula de
probabilidad condicionada

[𝑃(𝑇 > 8) ∩ (𝑇 > 6)] 𝑃(𝑇 > 8)


𝑃(𝑇 > 8|𝑇 > 6) = = → 𝑃(𝑇 > 8) = 𝑃(𝑇 > 8|𝑇 > 6) · 𝑃(𝑇 > 6)
𝑃(𝑇 > 6) 𝑃(𝑇 > 6)

Ejercicio 3.2
Realice las operaciones para obtener el valor de la supervivencia en el siguiente
instante con eventos (t=10)

Definición
La mediana de supervivencia e aquel tiempo con probabilidad de vivir más allá
del 50%. Dicho de otra manera, es aquel tiempo, para el cual la función de
supervivencia vale 0.5.

Estimar un cuantil, como la mediada, por los métodos vistos antes, requiere que no haya ninguna
censura previa a dicho cuantil.

Recuerde
Si hay censuras, para calcular la mediana debe usar los métodos de este capítulo.

En R, imprimiendo por pantalla, el objeto survfit, proporciona la mediana y su IC95%.

Ejemplo de R
# Cálculo de la mediana de supervivencia
> ColoSurvfit
Call: survfit(formula = ColoSurv ~ 1)
records n.max n.start events median 0.95LCL 0.95UCL
49 49 49 22 30 20 NA

28
Bioestadística para no estadísticos

Recuerde
El correcto cálculo de la mediana considera los tiempos censurados.

Es incorrecto calcular tanto la mediana de todos los tiempos como la de los


tiempos sin censurar.

Ejercicio 3.3
Calcule la mediana de los siguientes conjuntos de datos:

a) 1, 2 y 3

b) 1+, 2 y 3

c) 1, 2+ y 3

d) 1, 2 y 3+

El siguiente ejemplo muestra el cálculo de la curva de supervivencia con R en función del


tratamiento. Nótese cómo cambia la sintaxis.

Ejemplo de R
# Cálculo de la supervivencia segun el método de Kaplan-
# Meier estratificando por Tratamiento
> ColoSurvfit0 <- survfit(ColoSurv ~ Tratamiento,datos)
> summary(ColoSurvfit0)
Call: survfit(formula =ColoSurv ~Tratamiento, data = datos)
Tratamiento=Control
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 23 4 0.826 0.0790 0.685 0.996
8 19 2 0.739 0.0916 0.580 0.942
12 17 2 0.652 0.0993 0.484 0.879
20 10 1 0.587 0.1087 0.408 0.844
24 8 1 0.514 0.1173 0.328 0.804
30 4 1 0.385 0.1418 0.187 0.792
42 1 1 0.000 NaN NA NA

Tratamiento=linolenicAcid
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 23 2 0.913 0.0588 0.805 1.000
10 20 2 0.822 0.0809 0.678 0.997
12 17 4 0.628 0.1048 0.453 0.871
24 8 1 0.550 0.1175 0.362 0.836
32 5 1 0.440 0.1360 0.240 0.806

29
Efecto: premisas, pérdidas y supervivencia

# Gráfico de la función de supervivencia para cada grupo


> plot(ColoSurvfit0, conf.int=F,col=c(1,2),cex=0.6,xlab="time",
ylab="survival")
> title("Función de supervivencia")
> legend("topright",col=c(1,2),lty=1,legend=c("Control",
"linolenicAcid"))

# Mediana de supervivencia para cada grupo


> ColoSurvfit0
Call: survfit(formula = ColoSurv ~ Tratamiento, data = CancerColo)
records n.max n.start events median 0.95LCL 0.95UCL
Tratamiento=Control 24 24 24 12 30 12 NA
Tratamiento=linolenicAcid 25 25 25 10 32 12 NA

3.3.2. Función de riesgo (hazard rate)


Para comparar los descensos iniciales (en una población más grande) con los finales (provenientes
de la población restante, más pequeña) se calcula la función de riesgo.

Nota: No es lo mismo bajar la proporción de vivos del 100 al 90%, que del 50 al 40%.

Definición
La función de riesgo o fuerza de mortalidad o tasa condicional de fallo (hazard
rate) es la proporción de casos que presentan el evento en un momento
determinado sobre el número de casos que llegan a ese momento.

30
Bioestadística para no estadísticos

Nota: Permite comparar bajadas del 100 al 90% y del 50 al 45%.

Nota técnica: Otra forma de interpretar la función de riesgo en el instante t es entenderla como la
distribución (densidad) residual del tiempo de vida después de t.

Si la función de riesgo es constante a lo largo de todo el periodo, un único valor la resume.

Definición
La tasa de riesgo proporciona un valor común para todo el periodo de
seguimiento.

Ejemplo 3.12: En la Figura 3.4 puede verse la función de riesgo correspondiente a los datos
presentados en la Figura 3.3. Nótese que es aproximadamente constante a lo largo del
periodo de seguimiento, con una tasa de riesgo cercana al 0.05 mensual.

Figura 3.5 Función de riesgo (línea quebrada, más gruesa) y tasa de riesgo (línea recta, más fina) con sus
correspondientes IC95%.

Ejemplo 3.13: Un posible ejemplo de tasa de riesgo constante sería la de las hemorragias
digestivas tras anti-inflamatorios, de los que se afirma que hay el mismo riesgo sea la
primera o la enésima vez que se toman [En este ejemplo, el eje del tiempo se ha sustituido
por el orden de las tomas].

La forma de la función de riesgo dependerá del fenómeno estudiado.

Recuerde
Un riesgo creciente corresponde a una población que envejece.

Ejemplo 3.14: En el análisis del tiempo de vida de pacientes con leucemia que no
responden al tratamiento (Figura 3.5.a).

31
Efecto: premisas, pérdidas y supervivencia

5.a 5.b 5.c

Figura 3.6 Funciones de riesgo creciente, decreciente y en “bañera”.

Recuerde
Un riesgo decreciente corresponde a poblaciones en las que los individuos se
fortalecen con el paso del tiempo.

Ejemplo 3.15: Por ejemplo, después de una operación quirúrgica (Figura 3.6.b).

Recuerde
La forma de bañera (Figura 3.6.c) es apropiada como modelo para poblaciones
que se siguen desde el nacimiento: al principio están las enfermedades infantiles,
después se estabiliza y luego sigue un proceso creciente.

3.3.3. Función de riesgo acumulada


Con R se puede obtener, de forma gráfica, la función de riesgo acumulada de un estudio de
supervivencia.

Ejemplo de R
# Con los mismos datos que en el ejemplo anterior.
# Función de riesgo acumulada para cada grupo.
> plot(ColoSurvfit, conf.int=F,fun="cumhaz",col=c(1,2),
cex=0.6,xlab="time",ylab="hazard")
> title("Función de riesgo acumulada")
> legend("bottomright",col=c(1,2),lty=1,legend=c("Control",
"linolenicAcid"))

32
Bioestadística para no estadísticos

3.4. Inferencia

3.4.1. Estimación instantánea (Kaplan-Meier) y por intervalo (actuarial)


De la misma manera que se pueden calcular o bien la velocidad instantánea o bien la velocidad
“media” durante un periodo de tiempo, la función de riesgo también puede corresponder o bien a un
instante o bien a un intervalo.

Definición
El método actuarial (life tables) calcula, en un intervalo, la proporción de casos
que lo superan respecto al total de casos que lo inician.

Ejemplo 3.16: Ha sido el método empleado en la Figura 3.5.

Nota: Una dificultad de este método la presentan los casos perdidos durante el intervalo, ya que suele
desconocerse el momento exacto de la censura. La solución habitual considera que han sido seguidos
hasta la mitad del intervalo y, por tanto, estuvieron a riesgo durante la mitad del mismo.

Definición
El método instantáneo de Kaplan-Meier “actualiza” la estimación de la función
de supervivencia en cada momento en que aparece un evento

33
Efecto: premisas, pérdidas y supervivencia

Aún en el caso de que la tasa de fallo fuera constante, las fluctuaciones del muestreo originarán que
las estimaciones difieran de un intervalo a otro. En la Figura 3.5 el IC95% de la función de riesgo se
va ampliando con el tiempo, mostrando la mayor incertidumbre originada por el menor número de
casos que alcanzan las mayores cifras del seguimiento. Nótese que, si se puede asumir que la tasa es
constante a lo largo de todo el periodo de seguimiento, se podrán combinar todas las tasas
mensuales en una sola, con el doble beneficio de parsimonia científica y eficiencia estadística:
parsimonia porque se explica el mismo fenómeno de forma más simple; y eficiencia porque se
obtienen estimadores más precisos, con un intervalo de confianza más estrecho.

Recuerde
Para visualizar correctamente la información contenida en la muestra conviene
representar la banda de confianza que informa sobre los auténticos valores
poblacionales que son compatibles con los resultados muestrales observados.

Ejercicio 3.4
¿Cuáles son ciertas?

a) El intervalo de confianza no aporta información en el análisis de


supervivencia.

b) Si la función de riesgo es constante, se puede emplear una tasa de riesgo


común para todo el periodo.

c) Si la función de riesgo es constante, la función de supervivencia también


decrece de forma constante.

d) El método de Kaplan-Meier actualiza la función de supervivencia ante cada


nuevo evento, lo que le confiere una forma escalonada.

e) El método actuarial calcula la función de riesgo en unos intervalos


predefinidos.

f) Aún siendo constante la función de riesgo poblacional, la estimación del


método actuarial tendría fluctuaciones por el proceso de muestreo.

34
Bioestadística para no estadísticos

3.4.2. Comparación de curvas


Nota: Para comparar dos curvas de supervivencia, una primera aproximación estudiaría un único
tiempo, por ejemplo, los 3 años. Este procedimiento desprecia el resto de información y la
elección de este punto en el tiempo puede ser controvertida.

Es conveniente utilizar la información de todos los tiempos para decidir si las curvas en
comparación provienen de la misma población.

Definición
La prueba del log-rank compara las dos curvas otorgando la misma ponderación
a todos los tiempos de seguimiento.

Nota técnica: Es equivalente a la prueba de Mantel y Haenszel para combinar tablas 2x2.

Definición
La prueba de Gehan otorga una mayor ponderación a los tiempos iniciales, que
tienen más observaciones.

Nota técnica: Es la generalización de las pruebas de Wilcoxon y de Mann-Withney.

Ejercicio 3.5
Observe el gráfico y los datos del Ejercicio 3.1. Si se hubiera realizado la prueba
de Gehan, ¿se habría obtenido una mayor o menor significación?

Estos dos procedimientos proporcionan un nivel de significación (p-valor) que permite detectar y
establecer la supremacía de una población respecto a la otra. Sin embargo, la ausencia de un
parámetro que resuma las diferencias entre ambas poblaciones dificulta la evaluación de la
relevancia clínica.

3.4.3. Modelo de riesgos proporcionales (regresión de Cox)


El Modelo de Cox provee la medida del efecto ‘hazard rate ratio’ o razón de riesgo.

Nota: Es el equivalente en análisis de la supervivencia al modelo de regresión lineal. Ambos se estudian


con mayor detalle en el curso observacionales.

35
Efecto: premisas, pérdidas y supervivencia

Definición
El modelo semi-paramétrico de Cox no exige ninguna forma para la función de
riesgo (puede ser creciente, decreciente,..) pero proporciona el parámetro “razón
entre las funciones de riesgo (hazard rate ratio HRR)” de ambos grupos.

Nota: Este planteamiento responde de forma natural a la pregunta del clínico, que no ambiciona conocer
cuál es el tiempo exacto de vida de un paciente determinado (parte del modelo no especificada con
parámetros), pero centra sus esfuerzos en estimar el efecto de intervenciones (parte del modelo
parametrizada).

El modelo de Cox no impone como premisa una forma para la función de riesgo (parte no
parametrizada), pero sí que asume que el cociente o razón de su valor entre ambos grupos es
constante a lo largo del seguimiento.

Nota: Lo que debe ser constante a lo largo del tiempo es el cociente de riesgos entre los grupos, no el
riesgo a lo largo de cada grupo.

Analogía: La velocidad instantánea de 2 coches puede variar a lo largo del tiempo, pero en cada instante
la velocidad de uno puede ser, por ejemplo, un 20% mayor.

Recuerde
HRR requiere proporcionalidad constante, pero no tasas constantes.

Ejemplo 3.1712: Como ejemplo, se puede pensar que si se desarrolla un nuevo tipo de anti-
inflamatorio, es deseable que la reducción del riesgo de hemorragia digestiva se mantenga
mientras se toma la medicación. En la Figura 3.6 puede verse la forma que adopta la función
de supervivencia y la función de riesgo cuando este efecto, es constante a lo largo del
tiempo. Es decir, cuando el beneficio del tratamiento (reducción en el riesgo) es el mismo en
todo momento.

Figura 3.7 Forma de las funciones de supervivencia y de riesgo cuando la razón de riesgo es constante.

36
Bioestadística para no estadísticos

Las funciones de supervivencia de ambos grupos se van separando progresivamente, resultado del
mayor riesgo en uno de ellos. Por su parte, las funciones de riesgo son paralelas, con una cierta
oscilación por las fluctuaciones del muestreo. La razón de riesgo de este ejemplo es 0.45 (IC95%:
0.52 a 0.38) indicando que uno de los grupos tiene un riesgo que es algo menos de la mitad (la
reducción es del 55%, con un IC95% desde el 48% al 62%).

Nota: El médico podría explicar: ”mire, yo no puedo decirle cuántos cumpleaños le quedan, pero
sí que, si realiza esta intervención, su riesgo queda reducido entre un 48 y un 62%”.

Nótese que el IC95% es razonablemente preciso. Una vez más, adoptar la premisa de riesgos
proporcionales (siempre que sea razonable) hará el modelo más parsimonioso y simple de
comunicar, al mismo tiempo que aumenta su eficiencia estadística.

Ejercicio 3.6.
La siguiente tabla muestra los resultados de la misma referencia del Ejercicio 3.2.
Las dos primeras columnas muestran el número de casos que han presentado
alguno de los eventos que definen la variable principal en cada grupo de
tratamiento. La cuarta muestra el HRR o razón de riesgo (a la que llaman riesgo
relativo) obtenida mediante la regresión la Cox.

a) La tabla proporciona un RR=0.78 con un IC95% de 0.64 a 0.95. Interprete este


resultado.

37
Efecto: premisas, pérdidas y supervivencia

b) Si divido el % de la primera columna (riesgo de presentar el evento en los


tratados) por el de la segunda (idem en los no tratados) obtengo
0.214/0.267≈0.80, que es diferente del riesgo relativo mostrado en la tabla
(0.78). ¿A qué se debe?

El siguiente código R proporciona la regresión de Cox mediante la instrucción coxph(...).

Ejemplo de R
> mod.cox <- coxph(ColoSurv ~ Tratamiento,CancerColo)
> summary(mod.cox)
Call:
coxph(formula = ColoSurv ~ Tratamiento, data = CancerColo)
n= 49
coef exp(coef) se(coef) z Pr(>|z|)
TratamientolinolenicAcid -0.2487 0.7798 0.4303 -0.578 0.563

exp(coef) exp(-coef) lower .95 upper .95


TratamientolinolenicAcid 0.7798 1.282 0.3355 1.812

Rsquare= 0.007 (max possible= 0.945 )


Likelihood ratio test= 0.34 on 1 df, p=0.5623
Wald test = 0.33 on 1 df, p=0.5633
Score (logrank) test = 0.34 on 1 df, p=0.5623

#De la salida de R se destaca que el tratamiento reduce la función de


riesgo (el riesgo)en un 22.02% ((1-0.7798)*100). Es decir, el HRR, de
tratamiento respecto control vale 0.7798 con un IC95%=(0.3355,1.812).

Ejemplo 3.19. La Figura 3.8 muestra la mortalidad acumulada para tres tratamientos
(placebo, ICD y Amiodarona). Que se aproximen a una recta indica que este incremento
parece constante, por lo que una única tasa para cada tratamiento podría resumir el riesgo en
todo el periodo de seguimiento. Además, dos de las rectas se solapan, indicando que su
razón de tasas será uno; pero la tercera sube menos, indicando menor riesgo. En la cabecera
se ve que el valor de HR entre los 2 primeros grupos vale 1.06, casi 1; pero en el tercer
grupo el riesgo es, en cada punto, el 77% de las otras 2 (HR= 0.77).

Finalmente, observe al pie de la figura el número de casos encada tiempo: la información es


muy rica en los primeros 24 meses, a los que llegaron 715, 724 y 733 de los 845, 847 y 829

38
Bioestadística para no estadísticos

pacientes iníciales. Pero el descenso de casos es muy marcado durante el resto del
seguimiento, hasta llegar a los 97, 89 y 103 finales.

Figura 3.8 Comparación de las tasas de riesgo de 3 intervenciones durante 5 años.

Nota: El modelo de Cox puede considerar simultáneamente la hipotética relación de varias variables con
la supervivencia y estudiar de esta manera si la relación de algunas persiste una vez se ha tenido en cuenta
al resto. Para hacerlo, extiende la premisa de riesgos proporcionales a cada variable considerada, tanto
cuantitativa como categórica.

Nota: La construcción e interpretación del modelo múltiple de Cox se aborda en el curso observacionales.

La premisa de proporcionalidad de los riesgos no tiene porqué ser siempre correcta y es


obligación del investigador y del estadístico analizar si es razonable en el fenómeno e intervención
estudiada; y también, hasta qué punto los datos permiten seguir empleándola.

Ejemplo 3.18: La Figura 3.7 muestra una situación en la que el evento tiene una tendencia
diferente a presentarse en ambos grupos: mientras que en uno de ellos se presenta con más
frecuencia en la primera mitad del seguimiento; en el otro grupo, el evento acontece más a
menudo en la segunda mitad.

39
Efecto: premisas, pérdidas y supervivencia

Figura 3.9 Forma de las funciones de supervivencia y de riesgo cuando la razón de riesgo cambia de una mitad a otra
del seguimiento.

Esta situación, sin duda más rebuscada, podría darse en un tratamiento con más de un mecanismo
de acción, de forma que en una parte del seguimiento se observaran unos resultados contrarios a los
de la otra parte. Por supuesto, en esta situación no sería correcto asumir un efecto constante del
tratamiento, entre otras cosas porque ambos efectos se anularían mutuamente y no se observaría
nada (razón de riesgo = 1.095, IC95%: 0.940 a 1.227).

Nota: La expresión “en cien años, todos calvos” nos recuerda que a largo plazo las curvas de
supervivencia siempre se encontrarán en el mismo punto: ¡0%! Como en todos los modelos
estadísticos, esta premisa no aplica más allá de los tiempos cubiertos por el estudio.

40
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1. La frase parece inducir que el “efecto” de la intervención es mayor en hombres que mujeres, pero lo único que
afirma es que, entre los tratados, al final del estudio, la variable outcome o respuesta Y estaba mejor en los hombres
que las mujeres. Falta saber qué habría pasado si no se les hubiera tratado. Podría ser que los no tratados tuvieran
idéntica evolución que los tratados: en este caso, simplemente el pronóstico sería mejor en los hombres —lo que es
interesante, pero no es un efecto de la intervención. Para hablar de efecto, que mide nuestra capacidad de cambiar
el futuro, necesitamos un comparador de la intervención. En este ejercicio el comparador es una condición de los
pacientes (hombres frente mujeres), lo que podría permitir pronósticos para anticipar el futuro, pero no
intervenciones para cambiarlo (mientras no podamos ‘asignar’ el género). En el curso ‘observacionales’ veremos
cómo establecer la calidad de un pronóstico o de un diagnóstico. En el presente contestamos el deseo más
importante de un paciente: “Dr. ¿Puede Vd. hacer algo? (para mejorar mi futuro)”; y en el siguiente, el segundo:
“Dr. ¿Cómo pinta esto?” (O “¿qué me pasará en el futuro?”).

1.2. La tabla completa quedaría:

Respuesta potencial Efecto causal


Unidad
Y(t) Y(c) Y(t)-Y(c)

1 14 13 1
2 0 6 -6
3 1 4 -3
4 2 5 -3
5 3 6 -3
6 1 6 -5
7 10 8 2
8 9 8 1

Media (SD) -2 (2.98)

En el primer paciente el dolor aumenta 1 punto con el tratamiento, pero en el segundo desaparece completamente.
En el conjunto de los 8 pacientes, al tratar el dolor baja una media de 2 puntos. Pero el efecto varía entre pacientes:
tiene una dispersión que la desviación típica cuantifica en casi 3 puntos. El valor de la variabilidad del efecto
(cierto promedio de la distancia con la media) es mayor que el efecto promedio.

1.3. Aquél que le vaya mejor, claro. La tabla siguiente resalta en negro la mejor opción para cada paciente. Por
ejemplo, en el paciente 3 la mejor opción es el tratamiento t, que implica una mejora, respecto a C, de -3 puntos de
dolor (columna derecha). El problema es que el clínico no puede saber cuál para cada caso. Esta situación es
francamente antipática: las 2 últimas columnas muestran el efecto si: (a) asignamos siempre t en lugar de c; y (b)
asignamos (idealmente) el mejor a cada paciente: en el segundo caso, el efecto en el conjunto de todos los pacientes
es algo mejor. Pero la situación es hipotética ya que, en ausencia de ‘marcadores’ iniciales, no sabemos cuál aplicar
a cada paciente.

41
Efecto: premisas, pérdidas y supervivencia

Respuesta potencial Efecto causal


Unidad
Y(t) Y(c) Y(t)-Y(c)

1 14 13 1
2 0 6 -6
3 1 4 -3
4 2 5 -3
5 3 6 -3
6 1 6 -5
7 10 8 2
8 9 8 1

Media (SD) -2 (2.98)

1.4. Las columnas 1 y 3 representan la situación en que tú tomas T (y siempre resulta en que tú tienes 0 dolor). Así,
cuando tú no tienes dolor, el efecto de cambiar C por T en mí, baja de 100 a 25 mi dolor: efecto = —75. En cambio,
las columnas 2 y 4 muestran que cuando tú recibes C y tienes dolor máximo 100, el efecto en mí es más reducido:
baja de 100 a 50: —50.

2.1. Son correctas todas menos la última. El último análisis no puede demostrar nada. Tiene un valor mínimo por todo
lo dicho.
2.2. Así, entre los que acaban (PP), el B tiene mayor eficacia, ya que son un 80% (40 de 50) respecto al 60% (60 de
100) del A. En cambio, respecto a los que empiezan (ITT), considerando que no tomar la medicación es un fracaso
del tratamiento, es el grupo A el que tiene mayor eficacia, 60% respecto al 40% del grupo B. Si yo fuera un
paciente que sabe perfectamente que cumplirá con el protocolo, pase lo que pase, me podría plantear ‘aplicarme’ el
PP. Pero si soy un clínico que no conoce cómo actuará el paciente, lo único que me informa es el ITT.
2.3. Las tablas 1 y 2 proporcionan cada una 8 ideas para descender los datos ausentes durante el diseño y durante la
ejecución del estudio. Léalas con atención, ya que el test de e-status pregunta sobre ellas.

3.1.

a. Algo más de un 80% al final del primer año. Al final del tercer año, un 80% para el grupo tratado con
Fluvastatin y algo más de un 75% para el grupo control.

b. Los números la pie de la figura indican el número de casos que están informando sobre la supervivencia en ese
momento del tiempo de seguimiento. El gran descenso entre el tercer y el cuarto año puede deberse a que el
periodo de seguimiento podía haberse fijado en 3 años, con un periodo de reclutamiento de, por ejemplo, 6
meses.

c. No. Al final del seguimiento, la diferencia quizás apenas alcance un 5% (del 74 al 79%), aunque en el gráfico
parece que sea mucho mayor. Ello se debe a que el eje vertical empieza en el 70%. El gráfico es correcto, ya
que avisa (dos rayas cortan el eje para indicar que no empieza en el cero), pero debe leerse con cuidado.

3.2. La supervivencia en el décimo mes (t=10) se obtiene de la siguiente forma:

2
𝑆10 = 𝑃(𝑇 > 10) = 𝑃(𝑇 > 10|𝑇 > 8) · 𝑃(𝑇 > 8) = �1 − � · 0.826 = 0.781
37

42
Bioestadística para no estadísticos

La probabilidad de vivir más de 10 meses se tiene que expresar de forma condicionada a haber vivido más de 8
meses.

3.3.
a) Mediana = 2

b) Mediana = 2.5

c) Mediana = 3

d) Mediana = 2

Observe los siguientes gráficos de las funciones de supervivencia de los diferentes casos expuestos.

a) b)
1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0

c) d)
1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0

3.4. Sólo son falsas la “a”, ya que hay que hacer IC si se quieren usar los valores muestrales observados para estimar los
poblacionales; y la “c”, pues si la proporción de casos que presentan el evento, por intervalo de tiempo, es
constante, la frecuencia de casos que lo presente será mayor al inicio, ya que hay más casos en observación.

3.5. Menor, ya que la prueba de Gehan otorga menor ponderación a los tiempos finales de seguimiento, que son los que,
en este ejemplo, muestran una mayor diferencia entre los grupos.

3.6.

a. Fluvastatin reduce el riesgo de presentar alguno de los eventos que definen la variable principal un 22% (IC95%
entre un 5% y un 36%). 22% es la estimación puntual que indica el valor más verosímil del descenso del

43
Efecto: premisas, pérdidas y supervivencia

riesgo, mientras que los límites del IC indican el grado de incertidumbre debido al proceso de muestreo y de
inferencia.

b. Varias razones pueden explicar esta pequeña discrepancia. La primera es que el cálculo realizado proporciona
el riesgo relativo sin ajustar, es decir, sin “equilibrar” por el resto de variables que sí que ha tenido en cuenta el
riesgo relativo estimado por el modelo de Cox. La segunda es que 0.80 se ha obtenido sin tener en cuenta el
tiempo de seguimiento de los 844 y 833 pacientes, que el modelo de Cox sí que considera. Al tratarse de un EC
aleatorizado, no cabe esperar grandes diferencias entre los grupos en estas variables, por lo que los resultados
sin ajustar (0.80) y ajustados (0.78) no diferirán mucho.

44
Tema 12:

Tamaño muestral
Jordi Cortés
José Antonio González, Héctor Rufino, Laura Riba y Erik Cobo

Enero 2014

1
Tamaño muestral

Tamaño muestral

Índice

Presentación ......................................................................................................................................... 3
1. Estimación de un parámetro ............................................................................................................. 4
1.1. Estimación de una media .......................................................................................................... 4
1.2. Estimación de una probabilidad ................................................................................................ 6
1.3. Garantías de observar un evento con baja probabilidad ........................................................... 8
2. Comparación de 2 medias ................................................................................................................ 9
2.1. Datos independientes .............................................................................................................. 10
2.2. Datos apareados ...................................................................................................................... 16
2.3. Análisis del cambio ................................................................................................................. 18
2.4. Estudios de equivalencia y no-inferioridad ............................................................................ 19
2.5. Precisión de la estimación del efecto ...................................................................................... 22
2.6. Tamaño desigual en ambos grupos * ...................................................................................... 23
3. Comparación de probabilidades ..................................................................................................... 26
4. Comparación del tiempo hasta un evento ...................................................................................... 27
4.1. Participantes reclutados en un mismo instante ....................................................................... 27
4.2. Participantes reclutados a lo largo del tiempo ........................................................................ 30
5. Consejos prácticos.......................................................................................................................... 32
Soluciones a los ejercicios ................................................................................................................. 34

* Indica tema más avanzado que conviene mirar pero no es crucial para los ejercicios.

2
Bioestadística para no estadísticos

Presentación
El tamaño importa: sabemos ya calcular la precisión de un estimador en unos datos aleatorios. En
este tema, estudiamos el tamaño necesario para una precisión determinada. Y para un estudio
pivote, de decisión, cómo garantizar la potencia deseada.

Por progresividad en la exposición, la primera parte no aplica a los ensayos clínicos sino a estudios
con un solo grupo.

Contribuciones: Basado en transparencias de José Antonio González, Jordi Cortés preparó una
primera versión que ha sido revisada por Héctor Rufino, Laura Riba y Erik Cobo.

3
Tamaño muestral

1. Estimación de un parámetro
Cuando el objetivo es estimar un parámetro poblacional (p.ej, una media), la (im)precisión puede
definirse como la amplitud (A) de dicho intervalo, la semi-amplitud (e = A/2) del intervalo o el
error estándar del estimador (EE). En este apartado se mostrará cómo obtener el tamaño muestral
para la estimación de una media o de una probabilidad a partir de e por coherencia con la medida de
(im)precisión usada por R.

1.1. Estimación de una media


Para el cálculo del tamaño muestral es necesario fijar de antemano unos parámetros que dependen
del tipo de estudio. En el caso de la estimación de una media, estos parámetros son la desviación
típica de la respuesta (σ), la confianza (1-α) y la semi-amplitud (e) del intervalo.

Fórmula
El tamaño muestral para la estimación de una media es:

𝑧𝛼⁄2 · 𝜎 2
𝑛=� �
e

donde 𝑧𝛼⁄2 es el cuantil de la distribución Normal estándar correspondiente


(𝑧𝛼⁄2 = 1.96 en el caso de un IC95%).

En esta fórmula, la confianza 1-α y la semi-amplitud e del intervalo son dos parámetros que escoge
el investigador, si bien es tradicional fijar 1-α=0.95=95%. Por contra, la desviación típica 𝜎 de la
variable de interés viene dada por el fenómeno en estudio y su valor debe provenir de la literatura
existente o de la experiencia profesional de cada uno. La ambición del investigador determina el
nivel de confianza y la precisión, pero la desviación típica es una premisa que depende del
conocimiento previo.

Nota técnica: Se vio que la amplitud del intervalo de confianza depende del error típico del estimador y
del nivel de confianza. La forma de limitar el grado de incertidumbre o amplitud de este intervalo sin
disminuir el nivel de confianza 1-α es disminuir el error típico de la estimación del parámetro a través de
modificar el tamaño muestral. En el caso de la estimación de la media poblacional o esperanza
matemática, el intervalo de confianza, asumiendo σ conocida, es:

𝜎
𝐼𝐶1−𝛼 (𝜇) = 𝑥̅ ± 𝑧𝛼/2 ·
√𝑛

Por tanto, para una semi-amplitud del intervalo de confianza que valga e, se tiene:

4
Bioestadística para no estadísticos

𝜎 𝜎 𝜎
𝐿í𝑚. 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝐼𝐶 − 𝐿í𝑚. 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝐼𝐶 �𝑥̅ + 𝑧𝛼⁄2 · √𝑛� − �𝑥̅ − 𝑧α⁄2 · √𝑛� 2 · 𝑧𝛼⁄2 · √𝑛
𝑒= = = =
2 2 2
𝜎
𝑒 = 𝑧𝛼⁄2 ·
√𝑛

Aislando la n en esta expresión se obtiene la fórmula anterior.

Ejemplo 1.1: Para estudiar la imagen de los diferentes políticos, se pide a los encuestados
que los evalúen en una escala (continua) de 0 a 10 puntos. Si se acepta que la desviación
típica de esta variable es de 1.5 puntos, ¿cuántos casos se necesitan para que la semi-
amplitud del intervalo de confianza (e) al 95% de la media poblacional sea de 0.05 puntos?

𝑧𝛼⁄2 · 𝜎 2 1.96 · 1.5 2


𝑛=� � =� � ≈ 3457.44 → 3458 𝑐𝑎𝑠𝑜𝑠
𝑒 0.05

Nota técnica: En los cálculos de tamaño muestral el número obtenido siempre se redondea al alza para
alcanzar el objetivo especificado.

Ejercicio 1.1
Dado que 3458 casos son demasiados, se rebaja la ambición de conocimiento
desde una semi-amplitud de 0.05 puntos hasta 0.25 puntos. ¿Cuál es ahora el
tamaño necesario?

En R, existen diversos paquetes para el cálculo del tamaño muestral. El paquete samplingbook
contiene funciones aplicables a la estimación de un parámetro; por ejemplo la función
sample.size.mean realiza el cálculo para la estimación de una media. [Recuerde que lo primero es
realizar la instalación y la carga del paquete].

Ejemplo de R

# Instalación y carga de ‘samplingbook’


> install.packages('samplingbook')
> library(samplingbook)

# Aplicación al Ejemplo 1.1. (e es la semi-amplitud, S es


# la sigma (σ) y level es la confianza)
> sample.size.mean(e=0.05, S=1.5, level = 0.95)
Sample size needed: 3458

5
Tamaño muestral

Ejercicio 1.2
En un estudio se pretende estimar la PAS de un grupo de pacientes con una
determinada patología. Se asume una σ = 10 mmHg. Si se desea amplitud (A) de
5 mmHg para el intervalo de confianza del 95%, ¿Cuál es el tamaño necesario?
Haga los cálculos con R.

Ejercicio 1.3

Después de realizar el estudio del ejercicio anterior con el número de pacientes


calculado, resulta que el IC95% es más ancho que los 5 mmHg pretendidos en el
diseño del estudio. ¿Qué ha ocurrido?

1.2. Estimación de una probabilidad


En el caso de una respuesta dicotómica, únicamente se deben especificar 2 parámetros: la confianza
y la semi-amplitud del intervalo.

Fórmula
El tamaño muestral para la estimación de una probabilidad es:

𝑧𝛼⁄2 2
𝑛=� �
2·e

En el caso particular de un IC95%, la fórmula será n ≈ 1/e2 (ya que 1.96 ≈ 2)

Nota: La amplitud del intervalo debe expresarse en tanto por uno (no en porcentaje).

Nota técnica: El intervalo de confianza, en la situación de máxima incertidumbre, es:

0.5 · 0.5
𝐼𝐶95% (𝜋) = 𝑃 ± 𝑧𝛼/2 · �
𝑛

Por tanto, la amplitud del intervalo A vale:

0.5 · 0.5
𝐴 = 2 · 𝑧𝛼/2 · �
𝑛

Aislando la n se llega a la fórmula descrita.

6
Bioestadística para no estadísticos

Ejemplo 1.2: Para conocer el porcentaje de votos de un partido político, con una semi-
amplitud total del intervalo de confianza al 95% igual a 0.5% (Amplitud del 1%) ¿Cuántos
casos se necesitan?

𝑧𝛼/2 2 1.96 2
𝑛=� � =� � ≈ 38416 𝑐𝑎𝑠𝑜𝑠
2𝑒 2 · 0.005

Ejercicio 1.4
Decididamente 38416 son demasiados casos, por lo que una vez más se rebaja la
ambición de conocimiento desde una semi-amplitud de 0.5 puntos (0.5%=0.005)
hasta 2.5 puntos (2.5%=0.025). Calcule el nuevo tamaño muestral.

En R, la instrucción sample.size.prop del paquete samplingbook realiza el cálculo del tamaño


necesario para el intervalo de confianza de una probabilidad. [Instálese y cárguese el paquete si no
se hizo previamente]

Ejemplo de R

# Aplicación al Ejemplo 1.2 (e es la semi-amplitud del IC y


# level es la confianza)
> sample.size.prop(e=0.005, level = 0.95)
Sample size needed: 38415

Nota: El cálculo “a mano” mediante la fórmula da un resultado de 38416 casos, mientras que el resultado
con la función de R es de 38415 casos. El motivo es el redondeo del valor de 𝑧𝛼/2 que realizamos cuando
resolvemos el cálculo a mano. Usamos 1.96 mientras que R usa el valor exacto (1.959964). Siempre que
sea posible es recomendable usar el software.

Ejercicio 1.5
Se desea conocer la prevalencia de diabetes en la población mayor de 18 años con
una incertidumbre del 2% (e = 0.02) y una confianza del 90%. ¿Cuál es el tamaño
necesario? Haga los cálculos con R.

Nota: Por simplicidad, es habitual considerar infinita a la población objetivo, ya que hacerlo así garantiza
los riesgos estadísticos —que en realidad serían ligeramente menores: p.e., la corrección necesaria para
una muestra muy grande de 10000 casos, de una población pequeña de 100000 indica que la amplitud real
del IC se reduciría en menos de 0.05.

7
Tamaño muestral

1.3. Garantías de observar un evento con baja probabilidad


Un objetivo secundario de un ensayo clínico es tener una probabilidad razonable de observar
eventos no deseados.

Lectura: No, mejor, escucha: la vida te da sorpresas, sorpresas te da la vida, o Life is what happens to
you while you're busy making other plans.

El reto es que los efectos no deseados se pueden manifestar en infinidad de formas. Además,
algunos de estos efectos, posiblemente los más graves, pueden presentarse con muy baja frecuencia,
por lo que necesitarían tamaños muestrales inmensos para tener una probabilidad razonable de
observarlos.

Podemos recurrir a las distribuciones de probabilidad estudiadas en el capítulo 5 para estudiar, para
una muestra de n casos, la probabilidad de observar eventos raros.

Ejemplo 1.3: Si suponemos que cierta reacción adversa grave se presenta en 1 de cada 200
pacientes, la probabilidad de observar por lo menos un caso en una muestra de 100
pacientes vale 8.98% [con R, pbinom (q=1, size=100, prob=1/200,
lower.tail = FALSE)].

Ejemplo 1.4: Si deseamos tener una probabilidad del 90% de observar por lo menos un caso
con un evento no deseado que tenga una frecuencia tan baja como 1 cada mil, necesitamos
observar 2303 casos. El cálculo de este valor no es directo y requiere de un tanteo usando la
distribución de Poisson.
𝑋~𝑃𝑜𝑖𝑠𝑠𝑜𝑛 (𝑛 · 𝜆)
[n es el número de pacientes necesarios y λ es la tasa de aparición del evento (λ=1/1000)]
Lo que se desea es que 𝑃(𝑋 ≥ 1) ≥ 0.9. Con R, se observa que la primera n que cumple
este propósito es 2303:

> n = 2303
> ppois(q=0, lambda=n*1/1000, lower.tail = FALSE)
[1] 0.9000415

Nótese que se especifica q=0 (y no q=1) porqué en el cálculo de colas superiores se calcula
la P(X > q), que es equivalente a la P(X ≥ q+1). Pruebe con n's más bajas para verificar que
no se llega a la probabilidad deseada.

8
Bioestadística para no estadísticos

Aunque el estudio de estos efectos se beneficia del análisis globalizador de los diferentes ensayos
disponibles, en la práctica conviene una buena recogida de información observacional una vez
autorizada la intervención.

Lectura: La ICH-E1A da recomendaciones sobre el número de casos necesarios para estudiar la


seguridad de tratamientos crónicos. Pretende detectar aquellos fenómenos cuya incidencia supera el 1% a
los 3 meses, pero no pretende ‘caracterizar’ acontecimientos adversos por debajo del 1 por mil. Sugiere
entre 300 y 600 casos seguidos y tratados durante seis meses y 100 casos durante un año. También alerta
sobre el necesario rigor científico de la comparación con los no tratados.

Ejercicio 1.6
Un fenómeno tiene una incidencia de un 1% a los 3 meses. Calcule la
probabilidad de observar al menos un evento en los siguientes casos usando la
distribución de Poisson:
a) Con 300 casos seguidos durante 3 meses
b) Con 600 casos seguidos durante 3 meses
c) Con 300 casos seguidos durante 6 meses
d) Con 600 casos seguidos durante 6 meses
e) Con 100 casos seguidos durante 1 año
Haga los cálculos usando la función ppois con R.

2. Comparación de 2 medias

En respuesta continua, el análisis más común consiste en la comparación de la media entre dos
grupos de tratamiento.

Un Ensayo Clínico Aleatorizado (ECA) pivote implica una decisión posterior. El entorno de
decisión de Neyman-Pearson permite limitar ambos riesgos de error.

Ejemplo 2.1: Una agencia de regulación que autoriza productos sanitarios desea un
mecanismo de decisión que le garantice que: 1) sólo un 2.5% de las intervenciones no
eficaces alcanzan el mercado; pero 2) que sí lo hagan un 90% de las que tienen cierto efecto
positivo (al que llamarán Delta: ∆).

9
Tamaño muestral

2.1. Datos independientes


La metodología de decisión de Neyman-Pearson permite considerar simultáneamente los riesgos α,
β y la magnitud ∆ que se desea establecer.

En la comparación de dos medias, se está interesado en tomar una decisión entre dos valores
concretos, por ejemplo 0 y ∆, que se sitúan en las hipótesis nula y alternativa:

𝐻0 : 𝜇𝐴 − 𝜇𝐵 = 0

𝐻1 : 𝜇𝐴 − 𝜇𝐵 = Δ

Ejemplo 2.2: Puede imaginarse, por ejemplo, que cierto tratamiento A tenga interés
sanitario y comercial si, respecto a la versión clásica B, ∆ representa aquella diferencia que
hace rentable el desarrollo y la sustitución de B por A. Como es habitual en la prueba de
diferencias, el valor de la hipótesis nula indica la absoluta igualdad entre ambos.

Supóngase que se conoce el grado de dispersión (σ) existente entre los resultados en varios
pacientes sometidos al mismo tratamiento. Supóngase también que se ha decidido que los riesgos de
adoptar decisiones erróneas sean exactamente α (bilateral) y β (unilateral). Para determinar el
número “n” de pacientes necesario en cada grupo, por simplicidad, se considera la situación (de
máxima eficiencia) en la que se dispone de exactamente el mismo número de casos en ambos
grupos: nA = nB = n.

Fórmula
El tamaño muestral en cada grupo para la comparación de 2 medias es:

2 · 𝜎 2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
𝑛=
𝛥2

Nota técnica: en esta situación, dado que la varianza de la diferencia de las medias en muestras
independientes (asumiendo iguales las n y las σ bajo cada tratamiento) es:
𝜎 2 𝜎 2 2𝜎 2
𝑉(𝑦1 − 𝑦2 ) = + =
𝑛1 𝑛2 𝑛
Si la distribución de y es Normal o el número de casos es razonablemente grande, la distribución de esta
diferencia de medias será Normal con esta varianza y centrada en 0, bajo H0, o en Δ, bajo H1.
En la Figura 2.1 puede verse que la distancia entre los centros de ambas distribuciones es:

2 2
Δ = Zα/2 · σ� + Zβ · σ · �
n n

10
Bioestadística para no estadísticos

Si ahora, se especifican los riesgos α (probabilidad de actuar acorde a H1:∆ siendo cierta H0:0) y β
(probabilidad de actuar acorde a H0:0 siendo cierta H1:∆) que se está dispuesto a tolerar, ya se puede
conocer el tamaño muestral n en cada muestra:
2 · σ2 · (Zα/2 + Zβ )2
n=
Δ2

Figura 2.1 El tamaño muestral n requerido es aquel que permite que el solapamiento de las distribuciones del
estadístico bajo H0 y bajo H1 proporcione los valores α y β especificados. Nótese que, si n aumenta, las distribuciones se
hacen más “puntiagudas”, disminuye el solapamiento y, por tanto, los riesgos α y β. La línea continua vertical marca el
valor a partir del cual se tomará una u otra decisión.

Recuerde
El cálculo del tamaño muestral depende de:
- los riesgos α y β que esté dispuesto a aceptar: cuanto menores, mayor tamaño.
- la dispersión σ del fenómeno estudiado: cuanto mayor, mayor tamaño.

- la magnitud ∆ de la diferencia que se desea demostrar: cuanto menor, mayor


tamaño.

Ejercicio 2.1
¿Qué significa ∆ ? ¿La diferencia “ideal” que se quiere demostrar? ¿La diferencia
“real” que se cree que se puede demostrar?

Ejercicio 2.2
En un ensayo clínico de cuyo éxito depende la autorización comercial de un
fármaco, ¿qué consecuencias se derivan de los riesgos α y β de cometer errores de
1ª y 2ª especie? ¿Qué implicaciones tienen para el usuario y el patrocinador?

11
Tamaño muestral

Nota técnica: Tradicionalmente se define un riesgo α bilateral, pero la decisión de autorizar la


intervención sólo se toma en el lado superior, por lo que, por coherencia, algunos metodólogos definen un
α =0.025 unilateral en lugar de un α =0.05 bilateral. Mire este número de J. Biopharm. Stat. donde se le
dedican varios artículos a este asunto (p. 133-170).

Recuerde
La potencia de un estudio para establecer una alternativa de interés es el
complementario del riesgo β.

La potencia es la probabilidad de hallar diferencias entre dos tratamientos que


realmente son diferentes.

Ejemplo 2.3: un riesgo β = 0.20 implica una potencia de 0.8 = 80%.

Ejemplo 2.4: ¿Qué tamaño muestral sería necesario para detectar una diferencia en la altura
media de hombres y mujeres de 10 cm? Sea σ=8 cm y los riesgos habituales (α = 0.05 ;
β=0.20).
2 · 82 · (1.96 + 0.84)2
𝑛= = 10.04
102

Se necesitan 11 casos por grupo (aunque con 10, prácticamente se alcanzaría el objetivo).

Note que también se puede hacer la pregunta a la inversa, es decir, preguntar por la diferencia que
se podría detectar dado un determinado tamaño muestral.

Ejemplo 2.4 (cont.): ¿Qué diferencia en la altura media de hombres y mujeres puede
detectar suponiendo que puede reclutar 40 pacientes en total?

Aislando Δ de la fórmula anterior se obtiene:

2
2 · 𝜎 2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2 2 · 𝜎 2 · �𝑧𝛼⁄2 + 𝑧𝛽 �
𝑛= → Δ=�
𝛥2 𝑛

Por lo tanto, suponiendo que puede reclutar 20 pacientes por grupo (40 en total):

2 · 82 · (1.96 + 0.84)2
Δ=� = 7.084
20

Con 20 pacientes por grupo se puede detectar una diferencia de 7.084 cm en la altura media
de hombres y mujeres.

12
Bioestadística para no estadísticos

Nota: El valor exacto de 𝑧𝛽 = 𝑧0.8 es 0.8416212, por lo que al usar el valor redondeado tanto de 𝑧𝛽 como
de 𝑧𝛼⁄2 los resultados obtenidos pueden variar un poco de los cálculos exactos. Por ejemplo, el valor de Δ
usando todos los decimales es 7.088.

Se puede definir la diferencia tipificada o estandarizada ∆S como la razón entre la diferencia que se
quiere detectar y la desviación típica (diferencia esperada entre dos observaciones):

Δ
Δ𝑆 =
𝜎
Así, esta diferencia tipificada representa el efecto relativo a la dispersión natural de los casos.

Ejemplo 2.5: Si se deseara aumentar la altura en 4 centímetros y la desviación típica se ha


dicho que son 8 cm, el efecto tipificado sería del 50%.

Para un cálculo orientativo preliminar, se puede usar el gráfico de Douglas Altman (Figura 2.2),
donde N representa el tamaño total considerando ambos grupos (N = 2·n). Una la diferencia
estandarizada y la potencia deseadas de los ejes verticales izquierdo y derecho con una línea. El
punto de corte de dicha línea con la línea de α=0.05 (o α=0.01), le indicará el tamaño requerido.

Figura 2.2 Nomograma para el cálculo del tamaño muestral y potencia (Altman, 1982)

13
Tamaño muestral

Ejercicio 2.3
¿Cuántos casos se necesitan si ∆ =5u , σ=8u , α=0.05 bilateral y β=0.20 ? Haga
el cálculo con la fórmula y usando el nomograma.

Ejercicio 2.4
Calcule el tamaño necesario para un caso real propio.

El paquete TrialSize de R contiene funciones de cálculo del tamaño muestral en ensayos clínicos.
Para la comparación de dos medias independientes se usa la instrucción TwoSampleMean.Equality

Ejemplo de R

# Instalación y carga de ‘TrialSize’


> install.packages('TrialSize')
> library(TrialSize)

# Aplicación al Ejemplo 2.4 (k es el cociente entre los


# tamaños de ambos grupos. k=1 implica grupos iguales)
> n <- TwoSampleMean.Equality(alpha=0.05, beta=0.20, sigma=8,
margin=10, k=1)
> n
[1] 10.04657

Ejercicio 2.5
Sea σ=10u , α=0.05 bilateral y ∆ = 5u. Calcule los casos necesarios por grupo
para potencias de 10%, 20%....90%. Dibuje un gráfico con R en el que se
relacione la potencia con el tamaño muestral.

Recuerde
Mayor tamaño muestral implica mayor potencia.

La instrucción power.t.test realiza el proceso inverso, dada una n, calcula la potencia en el caso de
una comparación de medias. [De hecho, puede calcular cualquier parámetro especificando el resto.
Véase la ayuda con ?power.t.test]

Ejemplo de R

# Potencia con n=15, Δ=15, σ=15 y α=0.05


> power.t.test(n=15, delta=15, sd=15, sig.level=0.05)
Two-sample t test power calculation

14
Bioestadística para no estadísticos

n = 15
delta = 15
sd = 15
sig.level = 0.05
power = 0.752921
alternative = two.sided
NOTE: n is number in *each* group

Nota: Esta función retorna una lista con varios objetos. Añada $pow al final de la instrucción para obtener
únicamente la potencia.

Ejercicio 2.6
Sea σ = 10u , α = 0.05 bilateral y N = 100. Dibuje con R un gráfico en el que se
relacione la potencia con el efecto tipificado para Δ = 1, 2,…9.

Recuerde
Mayor efecto Δ en estudio implica mayor potencia.

Ejercicio 2.7
Suponga que los investigadores han sido algo conservadores y han especificado
un tamaño del efecto Δ algo menor que el real. Discuta cómo afecta este hecho a
la potencia del estudio.

Recuerde
Si el efecto real fuera mayor que el Δ empleado en la fórmula, la potencia real
sería mayor.

Ejercicio 2.8
Sea σ=10u , α=0.05 bilateral y β=0.80. Halle los casos que necesita para ∆ desde
1 hasta 9. Dibuje un gráfico con R en el que se relacione los casos necesarios con
el efecto tipificado.

Recuerde
Mayor efecto Δ en estudio implica menor tamaño muestral.

15
Tamaño muestral

2.2. Datos apareados


Los diseños con datos apareados consideran diferentes fuentes de variación. Recuerde que, como
cada unidad proporciona información sobre la diferencia del efecto de ambos tratamientos en
comparación, se definía una nueva variable (D), diferencia entre la respuesta observada en ambas
alternativas:

𝐷𝑖 = 𝑌𝑖𝐴 − 𝑌𝑖𝐵

¿Qué tiene que ver la varianza de esta nueva variable, 𝜎𝐷2 , con la varianza 𝜎 2 que se utiliza en los
datos independientes? Un sencillo modelo descompone 𝜎 2 (la varianza total) en dos componentes:
entre-individuos 𝜎𝐸2 o verdaderas diferencias entre los casos e intra-individuos 𝜎𝐼2 o discordancias
entre dos medidas del mismo individuo:

𝜎 2 = 𝜎𝐸2 + 𝜎𝐼2

En datos apareados, se puede utilizar la misma fórmula que en los datos independientes pero
teniendo en cuenta que el error se refiere a la variabilidad intra-sujeto 𝜎𝐼2 y la n resultante de la
fórmula es la N total, ya que cada observación aporta los dos valores.

Fórmula
El número de observaciones necesarias para la comparación de 2 medias
apareadas es:
2 · 𝜎𝐼2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
𝑁=
𝛥2

Recuerde
Misma fórmula pero: la varianza ahora es intra-sujetos y la ‘N’ resultante es la
total.

Nota: veremos que, si una tercera variable define el apareamiento (por ejemplo, el orden o lugar de
administración), conviene dividir la N total en 2 subgrupos, uno para cada orden de la tercera variable
(por ejemplo, administrar en orden AB y BA, o administrar alternado los lugares).

Ejercicio 2.9
¿Cuántos casos totales se necesitan en un diseño paralelo y en uno apareado si
∆ = 5u , σE2=(9u)2, σI2=(4u)2, α=0.05 bilateral y β=0.20? Haga los cálculos con
las fórmulas.

16
Bioestadística para no estadísticos

Ejercicio 2.10
¿Cuántos casos totales se necesitan en un diseño paralelo y en uno apareado si
∆ = 5u, σE2=50 u2, σI2= 50 u2, α=0.05 bilateral y β=0.20? Haga los cálculos en R.

Ejercicio 2.11
Invente valores de σI2 y σE2 para una variable que le sea familiar.

En ocasiones, se dispone de la varianza total 𝜎 2 y de la correlación entre ambas observaciones en


los datos apareados. Se obtiene la varianza intra-sujetos mediante:

Fórmula
𝜎𝐼2 = 𝜎 2 (1 − 𝜌)

Ejemplo 2.6. Se quiere comprobar la eficacia de un nuevo fármaco sobre la presión arterial
sistólica (PAS) frente el tratamiento habitual. Se realiza un diseño apareado. La correlación
esperada entre la presión inicial y final es 0.8 y la varianza total es 34(𝑚𝑚𝐻𝑔)2 .

Se obtiene la siguiente varianza intra-sujetos:

𝜎𝐼2 = 34 · (1 − 0.8) = 6.8 (𝑚𝑚𝐻𝑔)2

Ejercicio 2.12
Calcule la varianza intra-sujetos de un diseño apareado que presenta una varianza
total de 12𝑢2 . Haga los cálculos para los siguientes valores de 𝜌: 0.2 , 0.5 y 0.8.
¿Qué efecto tiene una mayor correlación entre ambas observaciones sobre la
varianza intra-sujetos?

Como la varianza intra-sujetos será menor cuanto mayor sea la correlación o similitud entre ambas
respuestas, el beneficio de este diseño es mayor cuanto más apareados están los datos.

Otras veces se dispone de la variancia de la variable diferencia 𝜎𝐷2 entre ambas medidas. Se obtiene
la varianza intra-sujetos mediante:

Fórmula
𝜎𝐼2 = 𝜎𝐷2 /2

17
Tamaño muestral

Ejemplo 2.7. En un estudio con datos apareados en el que la varianza de la variable


diferencia es 16𝑢2 , la varianza intra-sujetos es de 8𝑢2 .

Ejercicio 2.13
¿Cúal es la varianza intra-casos en un diseño apareado en el que se conoce que la
desviación típica de la variable diferencia es 12u?

2.3. Análisis del cambio


Una combinación de las dos situaciones anteriores estudia el efecto comparando (entre los grupos
de tratamiento) el cambio en una variable desde el momento basal hasta el final del seguimiento. En
este caso, dentro de cada grupo, disponemos de datos apareados (medidas basal y final) que después
se compararan entre grupos como datos independientes.

En un ensayo aleatorizado, como las basales vienen de la misma población, comparar el cambio
estima el mismo efecto que comparar las respuestas finales: ambos son insesgados. El objetivo de
usar el cambio como variable principal es disminuir la varianza de la respuesta, y en consecuencia,
aumentar la potencia del estudio. El análisis del "cambio" es más eficiente si la correlación entre la
variable basal y final es mayor que 0.5.

Fórmula
La varianza de la nueva variable cambio (𝜎𝐶2 ) será:
𝜎𝐶2 = 2 · (1 − 𝜌) · 𝜎 2

Nota: se debe asumir que ni el paso del tiempo ni el tratamiento afectan a la dispersión, es decir,
homoscedasticidad o misma variabilidad entre tratamientos y entre tiempos.
Nota: En este caso, también se deberá echar mano de la literatura para encontrar estimaciones de la
correlación basal-final.
Nota: Fíjese que para valores de correlación (ρ) inferiores a 0.5, la varianza del cambio resulta superior a
la de la respuesta final y por tanto, no aporta ventajas.

Fórmula
El tamaño necesario en la comparación de 2 medias del cambio es:
2 · 𝜎𝐶2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
𝑛=
𝛥2

18
Bioestadística para no estadísticos

Ejemplo 2.8: Se desea comparar dos tratamientos para eliminar la placa dental. Se planea
un estudio a 6 meses donde se estudiará el cambio en la presencia de dicha placa a través de
un índice estándar de medida. La correlación esperada entre la cantidad de placa inicial y
final es 0.75 y la desviación típica de la respuesta final es 0.2. Si se pretende detectar una
diferencia de 0.1 con una potencia del 80% y un riesgo α=0.05 bilateral, ¿cuál es el tamaño
muestral necesario?

𝜎𝐶2 = 2 · (1 − 0.75) · 0.22 = 0.02

2 · 0.02 · (1.96 + 0.84)2


𝑛= = 31.36 → 32 pacientes por grupo
0.12

Ejercicio 2.14
Compruebe que este número hubiese sido exactamente el doble en caso de usar el
índice a los 6 meses como respuesta y explique las razones.

Nota técnica: Un análisis basado en el modelado estadístico (ANCOVA) es sistemáticamente más


eficiente que el análisis de la variable final o el análisis del cambio. Se estudia en el curso
“observacionales”.

2.4. Estudios de equivalencia y no-inferioridad


Se ha visto que demostrar equivalencia requiere poder afirmar que ε1 < µ1-µ2 < ε2 , o bien, si
hacemos ambos límites simétricos, que |µ1-µ2| < ε . El contraste de hipótesis para establecer
equivalencia es pues:

𝐻0 : 𝜇𝐴 − 𝜇𝐵 = ε

𝐻1 : 𝜇𝐴 − 𝜇𝐵 = 0

Ejercicio 2.15
En los estudios de diferencias, ∆ representaba cierta diferencia de interés, con
relevancia clínica. ¿Qué significa ε en los estudios de equivalencia y no-
inferioridad?

Recuerde
Δ representa el efecto relevante en estudios de diferencias y ε el efecto irrelevante
en los de equivalencia y no inferioridad.

19
Tamaño muestral

El margen ε de irrelevancia debe ser menor que el ∆ de relevancia.

Ejemplo 2.9: Si un hipotensor A comparado con placebo ha demostrado bajar la PA,


pongamos, 15mmHg, y deseamos demostrar que nuestro hipotensor B es equivalente a A,
parece sensato proponer que ε sea la mitad o la tercera parte de 15mmHg. EMEA, la
agencia europea de regulación, ofrece consideraciones más detalladas.

Nota: Podemos distinguir ∆ y ε al verlos consecutivamente. Muchas referencias monográficas sobre


estudios de equivalencia o el mismo R utilizan ∆ para ambos conceptos –lo que facilita el uso de la misma
fórmula, pero dificulta entender la principal razón de un mayor tamaño muestral. Una vez más, el cálculo
se hace igual que antes con las salvedades siguientes:
- El efecto ∆ del planteamiento clásico, que hace relevante una diferencia, se sustituye por el efecto ε,
que la hace irrelevante. Como ε << ∆, las n's serán muy mayores.
- El planteamiento bajo la hipótesis nula es unilateral. Es decir, se cambia zα/2 por zα y las n's serán
(algo) menores.
- El planteamiento bajo la hipótesis alternativa es bilateral en equivalencia (cambia zβ por zβ/2) y
unilateral en no inferioridad —dónde sólo interesa un lado.

Fórmula
El tamaño muestral para la comparación de medias
2
2𝜎2 �𝑧𝛼 +𝑧𝛽⁄2 �
- en un estudio de equivalencia es 𝑛= ε2
2
2𝜎2 �𝑧𝛼 +𝑧𝛽 �
- en un estudio de no-inferioridad es 𝑛= ε2

Ejemplo 2.10: Se desea estudiar un nuevo hipotensor, más seguro y barato. Se considera
suficiente con demostrar que el clásico no le supera en 5 mmHg (no-inferioridad). ¿Cuántos
casos se necesitan si σ = 15 mmHg, α=0.025 unilateral, β=0.2?

𝐻0 : 𝜇𝐴 − 𝜇𝐵 = 5

𝐻1 : 𝜇𝐴 − 𝜇𝐵 = 0

2 · 152 · (1.96 + 0.84)2


𝑛= ≈ 141.28 → 142 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜
52

Ejercicio 2.16
¿Cuántos casos se necesitan si ε=5 mmHg, σ=15 mmHg, α=0.05 unilateral, β=0.2
en un estudio de no-inferioridad?

20
Bioestadística para no estadísticos

Ejercicio 2.17
En estos estudios, ¿qué riesgo(s) α y/o β pueden perjudicar al usuario y al
patrocinador?

Recuerde
La potencia en estudios de equivalencia (o no-inferioridad) es la probabilidad de
establecer que dos tratamientos son equivalentes (o uno no-inferior a otro) cuando
realmente es así.

Ahora bien, se puede desear establecer equivalencia a pesar de que se crea que los dos tratamientos
no son absolutamente idénticos: aunque tengan diferencias muy pequeñas entre ellos, menores que
la irrelevancia ε, podrían ser alternativas terapéuticas.

Lectura: “when the power of a non-inferiority trial is assessed at a zero difference, then the sample size
needed to achieve that power will be underestimated if the effect of the investigational product is less than
that of the active control” (ICH E9, point 3.5).

Recuerde
Es conveniente disponer de cierto margen de seguridad, por si los productos no
fueran absolutamente idénticos.

Para ello, en las fórmulas habituales se pone, en lugar del límite de no-equivalencia ε, la diferencia
δ entre este límite de no-equivalencia y el margen de seguridad MS que se desea cubrir: δ = ε - MS
donde δ es el valor a poner en la fórmula:
2 2
2𝜎 2 �𝑧𝛼 + 𝑧𝛽 � 2𝜎 2 �𝑧𝛼 + 𝑧𝛽/2 �
𝑛= ó 𝑛=
δ2 δ2

Ejemplo 2.11 (continuación del Ejemplo 2.10) Ahora bien, se sospecha que este nuevo
hipotensor más seguro y barato puede no ser absolutamente idéntico al clásico y se desea
seguir teniendo la misma probabilidad de demostrar su eficacia incluso en el caso de que el
clásico le superara en 1 mmHg. En resumen, ¿cuántos casos se necesitan si ε=5 mmHg,
MS= 1mmHg, σ=15 mmHg, α=0.05 unilateral, β=0.2 (es decir, potencia del 80%)?

δ = ∆ - MS = 5 – 1 = 4
2 · 152 (1.645 + 0.84)2
𝑛≈ = 173.68 → 174 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜
42

21
Tamaño muestral

Ejercicio 2.18
¿Cuántos casos se necesitan si aumentamos el margen hasta 2 mmHg [MS=2
mmHg, ε=5 mmHg, σ=15 mmHg, α=0.05 unilateral, β=0.2?

En R, las funciones TwoSampleMean.Equivalence y TwoSampleMean.NIS realizan el cálculo del


tamaño muestral en comparación de medias en estudios de equivalencia y de no-inferioridad
respectivamente.

Ejemplo de R
# Aplicación al Ejemplo 2.11 (k=1 implica grupos iguales, delta se
refiere a ε)
> n <- TwoSampleMean.NIS (alpha=0.025, beta=0.2, sigma=15, k=1,
delta=5, margin=0)
> n
[1] 141.2798

Ejercicio 2.19
Para probar la no-inferioridad de un nuevo fármaco (B) para la degeneración
macular asociada a la edad, que es menos costoso que el de referencia (A), se
decide diseñar un ensayo con variable respuesta el cambio (antes/después del
tratamiento) en el número de letras que el paciente es capaz de identificar a una
cierta distancia. Calcule con R el tamaño de la muestra por grupo con los
parámetros siguientes:

MS=0 letras, ε=5 letras, σ=15 letras, α=0.004 unilateral, β=0.1.

2.5. Precisión de la estimación del efecto


Hemos visto el cálculo del tamaño muestral que se usa habitualmente, basado en el enfoque de
decisión de Neyman y Pearson para escoger entre dos alternativas. Sin embargo, el objetivo de un
estudio podría ser estimar el efecto de una intervención con una determinada precisión. Estos
estudios son análogos a los de estimación de un parámetro poblacional, pero en este caso, este
parámetro es el efecto de una intervención concreta —definido como la diferencia entre las
respuestas en los 2 grupos. Ahora ya no es necesario especificar la potencia sino la semi-amplitud
(e) del intervalo requerida.

22
Bioestadística para no estadísticos

Fórmula
El tamaño muestral necesario para una comparación de medias para una
precisión determinada del efecto de la intervención es:
2
2 · 𝜎 2 · 𝑧𝛼/2
𝑛=
𝑒2

Ejemplo 2.12. Se está diseñando un ensayo clínico para probar la eficacia de un nuevo
fármaco antidiabético (B) respecto a uno de referencia (A). Se supone que la desviación
estándar de la respuesta es 14 mg/dl. Se desea conocer el efecto con una confianza del 95%
y un error (e) de 3 mg/dl

2 · 142 · 1.962
𝑛= = 167.32 → 168 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜
32

Ejercicio 2.20
Se desea comparar dos tratamientos para reducir el nivel de colesterol en sangre.
Se estima una variabilidad en la respuesta de 8 mg/l. Se desea obtener un IC con
un 99% de confianza y una amplitud no mayor de 5 mg/l (e=2.5). ¿Cuántos casos
son necesarios?

2.6. Tamaño desigual en ambos grupos *


Razones éticas, logísticas o económicas pueden aconsejar asignar a los pacientes en lugar del
equilibrio habitual 1 a 1, con razones 2 a 1, 3 a 1, etc.

Ya se ha comentado que, en general, la situación de máxima eficiencia es aquella en que ambos


grupos están balanceados. El hecho de que no lo estén comporta una pérdida de potencia. Por
ejemplo, la potencia para el caso particular de un efecto Δ = σ es:

𝑛𝐴 · 𝑛𝐵
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 = Φ �� − 𝑧𝛼/2 �
𝑁

donde Φ es la función de distribución normal estándar (En R, pnorm).

Ejemplo 2.13. En un estudio de comparación de medias con α=0.05 y Δ = σ, el tamaño


global es N=40. La potencia resultante dependiendo del equilibrio entre los grupos será:

20 · 20
𝑛𝐴 = 20 𝑦 𝑛𝐵 = 20 → 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = Φ �� − 1.96� = Φ(1.20) = 0.89
40

23
Tamaño muestral

15 · 25
𝑛𝐴 = 15 𝑦 𝑛𝐵 = 25 → 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = Φ �� − 1.96� = Φ(1.10) = 0.86
40

10 · 30
𝑛𝐴 = 10 𝑦 𝑛𝐵 = 30 → 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = Φ �� − 1.96� = Φ(0.78) = 0.78
40

Con un tamaño global de N=40, pasar de tener grupos balanceados a tener un desequilibrio
de 3 a 1 supone una pérdida de potencia del 11%.

Recuerde
La potencia máxima en una comparación de medias se obtiene con los grupos
balanceados.

Recuerde
La potencia de un estudio se define a priori.

En capítulos posteriores, se verá cómo controlar el equilibrio entre los grupos en un ensayo a través
de asignación por bloques.

Las notas siguientes explican dos razones para desequilibrar los grupos: diferentes costes de las
intervenciones y diferentes dispersiones de la variable respuesta (heteroscedasticidad) entre grupos.

Nota: El coste de los tratamientos no siempre es comparable en un ensayo. Si el objetivo no es maximizar


la eficiencia sino minimizar los costes, entonces se introducirá un desequilibrio entre los grupos que
cumpla con este objetivo.

Fórmula
El cociente entre los tamaños entre grupos según los costes de ambos
tratamientos (cA y cB) es:

𝑛𝐴 𝑐𝐵
=�
𝑛𝐵 𝑐𝐴

Ejemplo 2.14. En un estudio donde el tratamiento nuevo (B) es 4 veces más costoso que el
convencional (A), el ratio de asignación debe ser de 2:1.

𝑛𝐴 𝑐𝐵
= � = √4 = 2
𝑛𝐵 𝑐𝐴

24
Bioestadística para no estadísticos

Ejercicio 2.21
El tratamiento B es 2 veces más costoso que el tratamiento A. Si se han asignado
20 pacientes al tratamiento B, ¿Cuántos pacientes deben asignarse al tratamiento
A si se consideran los costes?¿Qué perdida de potencia supone este desequilibrio
si α=0.05?

Nota: La variabilidad que presentan ambos tratamientos puede diferir. En este caso, es conveniente
obtener más casos de aquel tratamiento que presente mayor variabilidad para lograr la máxima eficiencia.

Fórmula
El cociente entre los tamaños entre grupos considerando las desviaciones de la
respuesta en ambos tratamientos (σA y σB) es:
𝑛𝐴 𝜎𝐴
=
𝑛𝐵 𝜎𝐵

Ejemplo 2.15. En un estudio donde el tratamiento nuevo (B) presenta la mitad de


variabilidad que el convencional (A), el ratio de asignación debe ser 1:2.

𝑛𝐴 𝜎𝐴 1
= =
𝑛𝐵 𝜎𝐵 2

Nota: Nótese que no se han detallado las fórmulas teóricas para llevar a cabo los cálculos con
desequilibrios. Sin embargo el parámetro k que contienen las funciones del paquete TrialSize permite
hacer los cálculos considerando este aspecto.

Ejemplo 2.16 (cont). Se quiere detectar una diferencia de 10 unidades entre el tratamiento
nuevo (B) y el convencional (A), siendo σ=8 y los riesgos habituales (α = 0.05 ; β=0.20). Si
se quiere que el ratio de asignación sea 1:2, el tamaño muestral es:

> n = TwoSampleMean.Equality(alpha=0.05, beta=0.20, sigma=8,


margin=10, k=1/2)
> n
[1] 7.534925

Por lo que en el grupo de control habría 8 pacientes y en el grupo del nuevo tratamiento
habría 16 pacientes.

En cambio, si se quisiera que el ratio de asignación fuera 2:1, el tamaño muestral sería:

25
Tamaño muestral

> n = TwoSampleMean.Equality(alpha=0.05, beta=0.20, sigma=8,


margin=10, k=2)
> n
[1] 15.06985

En el grupo de control se reclutarían 16 pacientes y en el del nuevo tratamiento 8 pacientes.


Note que la n que proporciona la función de R siempre es el tamaño muestral del grupo de
control.

3. Comparación de probabilidades

La teoría que subyace detrás del cálculo en una comparación de probabilidades es análoga a la de
comparación de medias ya que la distribución del estadístico sigue, como ya vimos, una
distribución Normal. Sin embargo, la fórmula es un poco más compleja. Sea el contraste:

𝐻0 : 𝜋𝐴 = 𝜋𝐵

𝐻1 : 𝜋𝐴 = pA 𝑦 𝜋𝐵 = p𝐵

Fórmula
El tamaño muestral en cada grupo para la comparación de 2 probabilidades es:
2
𝑧𝛼⁄2 · �2𝑝(1 − 𝑝) + 𝑧𝛽 · �𝑝𝐴 (1 − 𝑝𝐴 ) + 𝑝𝐵 (1 − 𝑝𝐵 )
𝑛=� �
𝑝𝐴 − 𝑝𝐵
𝑝𝐴 + 𝑝𝐵
𝑑𝑜𝑛𝑑𝑒 𝑝 =
2

Ejemplo 3.1: El porcentaje de pacientes que tras sufrir un ictus isquémico se encuentran en
un estado de gravedad leve (mRS ≤ 1) al cabo de 3 meses es un 20% con el tratamiento
convencional (A). Se desea probar un nuevo fármaco (B) en un ECA que incremente esta
proporción hasta el 30%. Con un riesgo alfa del 5% y una potencia del 80%, ¿cuál es el
tamaño necesario por grupo?

2
1.96 · �2 · 0.25(1 − 0.25) + 0.84 · �0.2(1 − 0.2) + 0.3(1 − 0.3)
𝑛=� � = 292.82
0.2 − 0.3

Se necesitan 293 casos por grupo.

Con R, se puede emplear la función TwoSampleProportion.Equality del paquete TrialSize para


comparar proporciones.

26
Bioestadística para no estadísticos

Ejemplo de R

# Aplicación al Ejemplo 3.1 (k=1 implica grupos iguales)


> TwoSampleProportion.Equality(alpha=0.05,beta=0.2,p1=0.2,
p2=0.3, k=1, delta=0.1)
[1] 290.4086

Nota: El resultado difiere ligeramente del ejemplo por una corrección por continuidad que realiza R.

Ejercicio 3.1 [Basado en un ejemplo del libro de Julious]


En un estudio se quiere comparar las eficacias del midazolan oral con la del
diazepam rectal en las emergencias por convulsiones en niños. Se sabe que el
éxito del midazolan está en torno al 55% y se quiere saber si el diazepam
incrementa la probabilidad de éxito hasta el 75%. Con un riesgo α del 5% y una
potencia del 90% ¿Que tamaño se requiere por grupo?

Nota: Una fórmula alternativa a la propuesta para la comparación de proporciones es:

2
�𝑧𝛼⁄2 + 𝑧𝛽 �
𝑛= 2
2�𝑎𝑠𝑒𝑛(√𝜋𝐴 ) − 𝑎𝑠𝑒𝑛(√𝜋𝐵 )�

4. Comparación del tiempo hasta un evento

Este apartado hace referencia a los estudios donde la variable de interés es el tiempo que transcurre
hasta un evento, como los de supervivencia. En este tipo de estudios primero se calcula el número
de eventos E que se necesita observar y luego se obtiene el número de casos y el tiempo que deben
ser seguidos para poder observar esos eventos E.

Existen diversos métodos dependiendo de las premisas y el reclutamiento.

4.1. Participantes reclutados en un mismo instante


Un posible tipo de estudio más sencillo es aquel en que todos los participantes se incorporan al
unísono. Se trata de poblaciones “secuestradas” en un ámbito determinado (trabajadores de un
centro, ancianos en una residencia, alumnos de un colegio…).

En el cálculo del tamaño muestral, se puede tener la premisa de que las tasas (λA, λB) de aparición
del evento en ambos grupos son constantes a lo largo del tiempo o se puede relajar asumiendo
únicamente que su cociente, llamado Hazard Rate Ratio (HRR = λA/λB) es constante.

27
Tamaño muestral

Fórmula
El número de eventos totales para la comparación de 2 tiempos hasta un evento
en el caso de reclutamiento instantáneo es:
2
4 · �𝑧1−𝛼⁄2 + 𝑧1−𝛽 �
𝑇𝑎𝑠𝑎𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒𝑠 → 𝐸 =
[ln(𝐻𝑅𝑅)]2
2
(𝐻𝑅𝑅 + 1)2 · �𝑧1−𝛼⁄2 + 𝑧1−𝛽 �
𝐻𝑅𝑅 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 → 𝐸 =
(𝐻𝑅𝑅 − 1)2
Y el tamaño muestral total (en ambas situaciones) es:
2𝐸
N=
2 − 𝜋𝐴 − 𝜋𝐵
donde πA y πB son la proporción estimada de casos donde NO se presentará el
evento durante el estudio.

Nota: Tasas contantes implica HRR constante. El recíproco no es cierto.

Nota: En supervivencia, el diseño más eficiente no es aquel tal que NA=NB sino aquel en que EA=EB

Nota: Dado que la premisa de tasas constantes en ambos grupos es más restrictiva, está fórmula
proporcionará tamaños menores (más información a priori comporta menos necesidad de información a
posteriori).

Recuerde
La premisa puede ser o bien que la tasa de aparición de eventos es constante a lo
largo del tiempo, o bien que su cociente (HRR) es constante.

Ejemplo 4.1: En una universidad, se decide hacer un estudio para comparar el tiempo de
adherencia a dos dietas saludables (el evento en este caso es el abandono de la dieta). Para
ello, se recluta personal laboral de la universidad que iniciará una de las dos dietas asignada
aleatoriamente al inicio del curso escolar. El tiempo de seguimiento es de 9 meses (=0.75
años) y se estiman unas proporciones de personas que acabarán el curso con la dieta de πA =
0.55 y πB = 0.65. Asumiendo un HRR constante de 0.72, con una potencia del 90% y un
riesgo α del 5%, estime el tamaño muestral necesario.

El número de eventos totales necesarios (personas que abandonaran la dieta) son:

(0.72 + 1)2 · (1.96 + 1.28)2 2.96 · 10.51


𝐸= = = 396.49
(0.72 − 1)2 0.078

28
Bioestadística para no estadísticos

Ahora, ya se puede calcular la N:


2 · 396.49
𝑁= = 991.24
2 − 0.55 − 0.65
Por tanto, se requieren 496 participantes por grupo (la mitad de 991.24 redondeado al alza)

Nota técnica: Fíjese que el tiempo de seguimiento no ha sido utilizado en los cálculos. De hecho, este
dato proporciona el HRR a partir de πA y πB.
ln(𝜋𝐴 )
𝜆𝐴 = −
𝑇 � → 𝐻𝑅𝑅 = 𝜆𝐵
ln(𝜋𝐵 ) 𝜆𝐴
𝜆𝐵 = −
𝑇
[Véase el apartado de la distribución exponencial en el capítulo 6. El HRR se ha introducido en capítulos
anteriores y se ampliará su explicación más adelante]

Ejercicio 4.1
Repita el Ejemplo 4.1 pero asumiendo que las tasas son constantes.
A) A priori, el tamaño que se obtendrá ¿será mayor o menor que el del ejemplo?
B) Dadas las proporciones, ¿cuáles son las tasas? Use las fórmulas de la nota
técnica.
C) Finalmente, ¿cuál es el tamaño por grupo requerido?

Ejercicio 4.2
En una residencia se desea comparar el tiempo hasta un evento cardiovascular
entre dos grupos de pacientes mayores de 70 años asignados aleatoriamente a dos
programas de mantenimiento deportivo (A: Clásico y B: Nuevo). El estudio está
pensado a 3 años y se espera obtener una proporción de eventos al cabo de estos 3
años de 0.2 en el clásico y 0.15 en el nuevo. Asuma tasas constantes y riesgos α y
β de 0.05 y 0.2, respectivamente.

La función ssizeCT.default del paquete powerSurvEpi calcula el tamaño en el caso de HRR


constante.

Ejemplo de R

# Aplicación al Ejemplo 4.1


> ssizeCT.default(power=0.9,k=1, pE=0.45, pC=0.35, RR=0.72, alpha=0.05)
nE nC
496 496

29
Tamaño muestral

4.2. Participantes reclutados a lo largo del tiempo


Es la situación más habitual en los ensayos clínicos: los pacientes van entrando en el estudio a lo
largo del tiempo. Los parámetros necesarios para el cálculo son el tiempo de reclutamiento (TR), el
tiempo que dura el estudio (T), los riesgos α y β y las tasas de ocurrencia del evento en ambos
grupos (en este caso deben asumirse constantes).

Fórmula
El tamaño muestral total para la comparación de 2 tiempos hasta un evento es:
2
2�𝑧1−𝛼⁄2 + 𝑧1−𝛽 � (Φ(𝜆𝐴 ) + Φ(𝜆𝐵 ))
𝑁=
(𝜆𝐴 − 𝜆𝐵 )2
𝑑𝑜𝑛𝑑𝑒:

𝜆3 · 𝑇𝑅
Φ(𝜆) =
𝜆 · 𝑇𝑅 − (𝑒 −𝜆(𝑇−𝑇𝑅) − 𝑒 −𝜆𝑇 )
λ es la tasa [eventos/paciente x unidad de tiempo] esperada.

Nota: El tiempo de duración del estudio (T) se refiere al de obtención de datos e incluye el de
reclutamiento TR y el de seguimiento de los pacientes, que puede ser fijo o variable. T debe ser
estrictamente superior a TR —de lo contrario, los pacientes reclutados el último segundo serían seguidos
sólo 1 segundo.

Nota: La unidad de tiempo en que se especifique la tasa (λ) debe ser la misma en la que se especifiquen
TR y de duración del estudio T. Por ejemplo, si ambos se especifican en años, la λ se deberá especificar
en proporción de eventos al año.

Recuerde
La premisa es que la tasa de aparición de eventos es constante a lo largo del
tiempo.

Ejemplo 4.2: Se quiere diseñar un estudio para comparar la eficacia de dos tratamientos
respecto al tiempo hasta la progresión de la enfermedad en un determinado tipo de cáncer.
Las tasas esperadas son λA = 50% (referencia) y λB = 35% (nuevo tratamiento). Se fija un
tiempo de reclutamiento de 1.5 años y un tiempo de seguimiento máximo de 2 años.
Asumiendo tasas constantes, con una potencia del 90% y un riesgo α del 5%, estime el
tamaño muestral necesario.

Se empieza calculando las Φ’s:

30
Bioestadística para no estadísticos

0.53 · 1.5 0.1875


Φ(λA ) = = = 0.553
0.5 · 1.5 − (e−0.5(2−1.5) − e−0.5·2 ) 0.75 − 0.41

0.353 · 1.5 0.064


Φ(λB ) = = = 0.353
0.35 · 1.5 − (e −0.35(2−1.5) −e −0.35·2 ) 0.525 − 0.34

Ahora, ya se puede calcular la N:

2(1.96 + 1.28)2 (0.553 + 0.353)


𝑁= = 846.27
(0.5 + 0.35)2

Por tanto, se requieren 424 participantes por grupo (la mitad de 846.27 redondeado al alza)

Con R, la función TwoSampleSurvival.Equality realiza el cálculo del tamaño en este supuesto. El


parámetro gamma de la función con un valor positivo suficientemente bajo (sin llegar a ser cero)
asume que el reclutamiento es uniforme a lo largo del tiempo (supuesto razonable en la mayoría de
estudios). Esta función retorna 3 valores: Φ(λA), Φ(λB) y la n en cada grupo.

Ejemplo de R

# Aplicación al Ejemplo 4.2


> TwoSampleSurvival.Equality(alpha=0.05,beta=0.1,lam1=0.50,
lam2=0.35, k=1, ttotal=2, taccrual=1.5,gamma=0.000001)
[1] 0.552969
[1] 0.3531164
[1] 423.1388

Ejercicio 4.3
Se quiere diseñar un ensayo clínico que compare el tiempo hasta la muerte entre
dos tratamientos en pacientes con cancer de ovario en estadios avanzados. El
tratamiento A consistirá en quimioterapia y el tratamiento B en quimioterapia +
cirurgía de citorreducción. Calcule con R el tamaño necesario por grupo con los
siguiente paràmetros:

Potencia = 80%, α=0.05, λA = 0.40 , λB = 0.30, T=6 años, TR =5 años

31
Tamaño muestral

5. Consejos prácticos
Hemos visto que el cálculo muestral precisa valores que reflejan la ambición de la investigación
(confianza, precisión, delta, etc.) y conocimientos previos sobre las variables en estudio (sigma, tasa
en el grupo control, etc.). Estos últimos forman parte de las premisas del estudio y conviene ser
prudente al fijar sus valores.

Nota técnica: estos parámetros reciben el calificativo de molestos o estorbo (“nuisance”) ya que son
necesarios para especificar el modelo o realizar los cálculos, pero no son el objetivo principal del estudio.

Todas estas premisas necesarias para el cálculo del tamaño muestral hacen que no se pueda
considerar una ciencia exacta. Nosotros aconsejamos un proceso iterativo conjunto entre
investigadores y metodólogos.

El primer paso es mirar qué han hecho otros investigadores: ¿cuáles eran sus objetivos, tipo de
diseño, variable principal, análisis estadístico, tamaño empleado,…?.

El segundo paso es diseñar el borrador del propio estudio con valores aproximados de los
parámetros necesarios (∆, σ²): ¿Es razonable el número resultante? ¿Incluiremos este número de
casos en un plazo y con un coste razonable? ¿Tendrán capacidad de convicción los resultados?

El tercer paso consiste en comparar este diseño con otros alternativos y repetir el segundo paso,
hasta optar por un diseño concreto.

Una vez decidido un diseño, el cuarto paso consiste en ajustar por las pérdidas de información.
Aunque el informe final debe incluir todos los casos reclutados, eso no significa que todos ellos
aporten la información deseada. Si la previsión es tener una proporción r de casos no informativos,
conviene re-ajustar el tamaño calculado (n) a uno nuevo (n') que tiene en cuenta estos casos no
informativos:
1
𝑛′ = ·𝑛
1−𝑟
Finalmente, el quinto paso consiste en documentar el cálculo del tamaño muestral, lo que requiere
justificar los valores empleados en las fórmulas y usar tablas publicadas o programas validados para
el cálculo definitivo.

Especialmente aconsejables son, en castellano, el programa ene de Llorenç Badiella; y en Inglés, los
libros: (1) Sample Size Tables for Clinical Studies (Machin & Campbell); (2) Sample Sizes for
Clinical Trials (Julious); y (3) Fundamentals of Clinical Trials (Friedman) para tiempo hasta el
evento.
Historieta: según Montgomery, el mejor momento para diseñar un estudio es cuando termina.

32
Bioestadística para no estadísticos

Fórmula R

2 · 𝑧𝛼⁄2 · 𝜎 2
Media 𝑛=� � sample.size.mean
Estimación de A
un parámetro
𝑧𝛼⁄2 2
Probabilidad 𝑛=� � sample.size.prop
A

2 · 𝜎 2 · (𝑧𝛼⁄2 + 𝑍𝛽 )2
Independientes 𝑛= TwoSampleMean.Equality
𝛥2

2 · 𝜎𝐼2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2
Apareadas 𝑁= -
𝛥2

Análisis del 2 · 𝜎𝐶2 · (𝑧𝛼⁄2 + 𝑧𝛽 )2


𝑛= -
cambio 𝛥2
Comparación
de medias 2
Equivalencia 2𝜎 2 �𝑧𝛼 + 𝑧𝛽⁄2 � TwoSampleMean.Equivalence
𝑛=
𝛥2

2
No- 2𝜎 2 �𝑧𝛼 + 𝑧𝛽 � TwoSampleMean.NIS
Inferioridad 𝑛=
𝛥2

2
8 · 𝜎 2 · 𝑧𝛼/2
Precisión 𝑛= -
𝐴2

Comparación 2
𝑧𝛼⁄2 �2𝑝(1 − 𝑝) 𝑧𝛽 �𝑝𝐴 (1 − 𝑝𝐴 ) + 𝑝𝐵 (1 − 𝑝𝐵 )
de Independientes 𝑛=� + � TwoSampleProportion.Equality
probabilidades 𝑝𝐴 − 𝑝𝐵 𝑝𝐴 − 𝑝𝐵

Reclutamiento 2𝐸 ssizeCT.default
N=
instantáneo 2 − 𝜋𝐴 − 𝜋𝐵 (para HRR constantes)
Comparación
de tiempos Reclutamiento 2
2�𝑧1−𝛼⁄2 + 𝑧1−𝛽 � (Φ(𝜆𝐴 ) + Φ(𝜆𝐵 ))
durante un 𝑁= TwoSampleSurvival.Equality
(𝜆𝐴 − 𝜆𝐵 )2
periodo

Tabla 5.1. Tabla resumen de las fórmulas vistas en este capítulo

Nomenclatura. 𝝈𝟐 : varianza total, 𝝈𝟐𝑰 : varianza intra-sujetos, 𝝈𝟐𝒄 : varianza de la variable cambio, ∆: diferencia que se
quiere detectar, 𝝆: correlación entre ambas observaciones, 𝑨: amplitud del intervalo, 𝑬: número de eventos que se
necesita observar, 𝝀: tasa de aparición del evento y 𝝅: proporción estimada de casos donde NO se presentará el evento
durante el estudio.

33
Tamaño muestral

Soluciones a los ejercicios


1.1 n ≈ (Z α/2 σ / e)2 = (1.96· 1.5 / 0.25)2 ≈ 138.2976 → 139 casos

1.2 > sample.size.mean(e=2.5, S=10, level = 0.95)


Sample size needed: 62

1.3 Se infra-estimó la variabilidad de la respuesta en el cálculo del tamaño.

1.4 n ≈ (Z α/2 / 2·e)2 = (1.96 / 2·0.025)2 ≈ 1536.64 → 1537 casos

1.5 > sample.size.prop(e=0.02, level = 0.90)


Sample size needed: 1691

1.6 a) > ppois(q=0, lambda=300*1/1000, lower.tail = FALSE) [1] 0.2591818 (25.9%)


b) > ppois(q=0, lambda=600*1/1000, lower.tail = FALSE) [1] 0.4511884 (45.1%)
c) > ppois(q=0, lambda=300*2/1000, lower.tail = FALSE) [1] 0.4511884 (45.1%)
d) > ppois(q=0, lambda=600*2/1000, lower.tail = FALSE) [1] 0.6988058 (69.9%)
e) > ppois(q=0, lambda=100*4/1000, lower.tail = FALSE) [1] 0.32968 (33.0%)

2.1 ∆ es el valor de la diferencia entre los tratamientos para el que se desea tener una probabilidad 1-β de demostrar
que los tratamientos son diferentes. Conviene que coincida con la eficacia real y también con la ideal.

2.2 El riesgo α es la probabilidad de que un tratamiento no eficaz (H0) se declare eficaz y se ponga en el mercado (A1).
El riesgo β es la probabilidad de que un tratamiento eficaz (H1) se declare no eficaz y no se lleve al mercado (A0).
Ambos repercuten negativamente en el usuario, a quien representa la administración, y en el patrocinador. Al usuario
porque puede estar pagando por un producto que no es eficaz (α) o porque no se puede beneficiar de uno que lo es (β).
Al patrocinador, porque no comercializa un producto eficaz (β) o porque pierde energías en uno que no lo es (α).

2.3 n = [ 2· 8² (1.96 +0.84)²] / 5² ≈ 40.14 → 41 casos por grupo (debe redondearse al alza).

El nomograma ofrece un resultado similar (doble ya que su N es la total = 2n)

2.4 Use la fórmula y compruebe que coincide su cálculo con el nomograma.

2.5 La instrucción seq (inicio,fin,separación) genera todas las potencias para las que queremos hacer el cálculo.
Recuerde que las β’s son el complementario de las potencias.
> potencias <- seq(0.1,0.9,0.1)
> betas <- 1-potencias
> betas
[1] 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

Con la función TwoSampleMean.Equality se realiza el cálculo de todos los tamaños a la vez. La instrucción ceiling
redondea al alza.
> n <- TwoSampleMean.Equality(alpha=0.05,beta=betas,sigma=10,margin=5,k=1)
> ceiling(n)
[1] 4 11 17 24 31 40 50 63 85

La función plot con el parámetro type=”l” (une los puntos con líneas) realiza el gráfico:
> plot(n,potencias,type="l")

34
Bioestadística para no estadísticos

Puede mejorar el gráfico añadiendo más parámetros (?par) y poniendo una rejilla con abline (?abline).
> plot(n,potencias,type="l",lwd=2,col="green",las=1,xlab="Sample Size",
ylab="Power")
> abline(v=seq(20,80,20),h=seq(0.2,0.8,0.2),lty=2,col="grey")

0.8

0.6
Power

0.4

0.2

20 40 60 80

Sample Size

Puede verse como, para un efecto ∆ que representa el 50% de la desviación típica σ, se necesitan, para la potencia
usual del 80%, algo más de 60 casos por grupo. Nótese en la representación gráfica como crece la potencia a medida
que aumenta el número de casos.

2.6 El siguiente código permite hacer el gráfico


# Deltas
> deltas <- 1:9
> deltas
[1] 1 2 3 4 5 6 7 8 9

# Potencias
> potencias <- power.t.test(n=50, delta=deltas, sd=10, sig.level=0.05)$pow
> round(potencias,2)
[1] 0.07 0.17 0.32 0.51 0.70 0.84 0.93 0.98 0.99

# Gráfico
> efecto_tipificado <- deltas/10
> plot(efecto_tipificado,potencias,type="l",lwd=2,col="green",las=1,
xlab="Delta/Sigma",ylab="Power")
> abline(v=seq(0.2,0.8,0.2),h=seq(0.2,1,0.2),lty=2,col="grey")

1.0

0.8
Power

0.6

0.4

0.2

0.2 0.4 0.6 0.8

Delta/Sigma

35
Tamaño muestral

Puede verse que con 50 casos por grupo se tiene una potencia algo superior al 80% para un efecto que represente
el 60% de la dispersión entre los casos estudiados. Nótese también que, si el efecto se acerca al 100% de la
dispersión entre los casos, con un diseño de 100 casos por grupo se tiene una potencia que se acerca al 100%, es
decir, que, de ser cierto este efecto, la probabilidad de que el resultado del estudio sea significativo se acerca al
100%.

2.7 La potencia del estudio será mayor que la estipulada.

2.8 El siguiente código permite hacer el gráfico:


# Deltas
> deltas <- 1:9
> deltas
[1] 1 2 3 4 5 6 7 8 9

# Tamaños
> n <- TwoSampleMean.Equality(alpha=0.05,beta=0.8,sigma=10,margin=deltas,k=1)
> ceiling(n)
[1] 251 63 28 16 11 7 6 4 4

# Gráfico
> efecto_tipificado <- deltas/10
> plot(efecto_tipificado, n, type="l", lwd=2, col="green", las=1,
xlab="Delta/Sigma", ylab="n", ylim=c(0,600))
> abline(v=seq(0.2,0.8,0.2),h=seq(0,600,100),lty=2,col="grey")

600

500

400
n

300

200

100

0.2 0.4 0.6 0.8

Delta/Sigma

Igual que antes, puede verse como, para un efecto ∆ que representa el 40% de la desviación típica σ, se
necesitan aproximadamente 100 casos por grupo. Nótese como va disminuyendo el número de casos
necesarios a medida que aumenta la magnitud del efecto que se desea establecer y que el decremento de casos
es progresivamente menos acusado.

2.9 n = [ 2· (9² +4²)(1.96 +0.84)²] / 5² ≈ 60.84 → 61 casos por grupo.

N = [ 2· (4²)(1.96 +0.84)²] / 5² ≈ 10.04 → 11 casos en total, que dividido por 2 supone 6 casos.

2.10 El siguiente código realiza los dos cálculos:


# Independientes
> n <- TwoSampleMean.Equality(alpha=0.05,beta=0.2,sigma=10,margin=5, k=1)
> ceiling(n)
[1] 63

36
Bioestadística para no estadísticos

# Apareadas
> N <-TwoSampleMean.Equality(alpha=0.05,beta=0.2,sigma=sqrt(50),margin=5,k=1)
> ceiling(N/2)
[1] 16
2.11 Compruebe los valores con las referencias de la literatura.

2.12 𝜌 = 0.2 → 𝜎𝐼2 = 12 · (1 − 0.2) = 9.6 𝑢2

𝜌 = 0.5 → 𝜎𝐼2 = 12 · (1 − 0.5) = 6 𝑢2

𝜌 = 0.8 → 𝜎𝐼2 = 12 · (1 − 0.8) = 2.4 𝑢2

Cuanto mayor es la correlación entre ambas observaciones, menor es la varianza intra-sujetos.

144
2.13 𝜎𝐷2 = 122 = 144 → 𝜎𝐼2 = = 77 𝑢2
2

2·0.2·(1.96+0.84)2
2.14 𝑛 = = 62.72  63 pacientes por grupo.
0.12

Utilizando el cambio como variable principal disminuye la varianza de la respuesta, y en consecuencia, aumenta la
potencia del estudio. Por lo tanto, el tamaño muestral necesario es menor.

2.15 Mientras que en los estudios de diferencias, ∆ representa la diferencia a partir de la cual se empieza a considerar
relevantes a las diferencias entre los tratamientos, en los de equivalencia y no-inferioridad, deber representar un valor lo
suficientemente pequeño como para que la diferencia entre los dos tratamientos sea irrelevante.

2.16 n ≈ [ 2· 15² (1.645 +0.84)²] / 5² ≈ 111.29 → 112 casos por grupo

2.17 El riesgo α es la probabilidad de que dos tratamientos no equivalentes (H0) se declaren equivalentes (A1). El
riesgo β es la probabilidad de que un tratamiento equivalente (H1) se declare que no lo es (A0). Igual que antes, ambos
deben preocupar a ambos, pero las razones se invierten. El error tipo I del riesgo α implica sustituir un fármaco por otro
cuando no son equivalentes, las consecuencias dependen de la dirección de la no equivalencia y del objetivo del estudio
(eficacia o seguridad). Por su parte, el error tipo II del riesgo beta, implica no sustituirlo cundo en realidad sí que son
equivalentes. Las consecuencias, como antes, dependen de la situación, aunque la habitual es de tipo económico, ya que
no se autoriza un genérico más barato.

2.18 n ≈ [ 2· 15² (1.645 +0.84)²] / 3² ≈ 309.13 → 310 casos por grupo

2.19 > n <- TwoSampleMean.NIS (alpha=0.004, beta=0.10, sigma=15,


k=1,delta=5,margin=0)
> n
[1] 278.5208

Se necesitan 279 pacientes por grupo

2.20 n ≈ [ 2· 8² ·2.58²] / (2.5)² ≈ 136.32 → 137 casos por grupo

2.21 nA ≈ √(cB/cA) · nB = √2 · 20 = 28.28 → 28 casos asignados al tratamiento A

Potencia con equilibrio  1 – β = Φ(√(24·24/48) – 1.96) = Φ(1.50) = 0.933

37
Tamaño muestral

Potencia sin equilibrio  1 – β = Φ(√(20·28/48) – 1.96) = Φ(1.50) = 0.927

Supone una pérdida de potencia del 0.6%

3.1> TwoSampleProportion.Equality(alpha=0.05,beta=0.10,p1=0.55,p2=0.75,
k=1,delta=0.2)
[1] 114.2682
115 casos por grupo

4.1 A) El tamaño ha de ser ligeramente menor, ya que la premisa es más restrictiva. B) λA= 0.797; λB=0.574

C) E = 4·(1.96+1.28)2 / [ln(0.72)]2 = 391.3  N = 391.3/(2-0.55-0.65) = 978.4  n = 440 por grupo

4.2 πA = 0.8 ; πB = 0.85  λA = 0.074 ; λB = 0.054  HRR = 0.728

E = 4·(1.96+0.84)2 / [ln(0.728)]2 = 312.4  E = 312.4/(2 – 0.80 – 0.85) = 892.5  447 casos por grupo

4.3 > TwoSampleSurvival.Equality(alpha=0.05,beta=0.2,lam1=0.4,lam2=0.30, k=1,


ttotal=6, taccrual=5, gamma=0.000001)

[1] 0.2252889
[1] 0.1460279
[1] 291.4421

Se requieren 292 pacientes por grupo

38
Tema 13:

Diseños que afectan a la


varianza
Clúster, análisis del cambio y cross-over

Laura Riba, Hector Rufino y Marta Vilaró


Angel Ruiz, Erik Cobo y José Antonio González

2014
Diseños que afectan a la varianza

Diseños que afectan a la varianza

Presentación ...................................................................................................................... 3

1. Asignación en grupo (cluster) ....................................................................................... 4

1.1. Variación entre grupos ........................................................................................... 4

1.2. Unidad de inferencia .............................................................................................. 5

1.3. Correlación intraclase ............................................................................................ 6

1.4. Efecto del diseño .................................................................................................... 7

1.5. Riesgos de sesgo .................................................................................................... 8

1.6. Extensión de la guía consort .................................................................................. 8

2. Análisis del cambio ....................................................................................................... 8

2.1. Correlación entre Z e Y ........................................................................................ 10

2.2. Varianza de la variable definida como respuesta ................................................. 10

2.3. Ancova ................................................................................................................. 11

2.4. Diseño con determinación repetida de la respuesta ............................................. 12

3. Diseños con intercambio (“Cross-over”) .................................................................... 13

3.1. Ventajas e inconvenientes .................................................................................... 14

3.2. Diseño 2X2 .......................................................................................................... 14

3.2.1. Inferencia para el efecto directo del tratamiento .................................... 15

3.2.2. Inferencia para el efecto período ............................................................ 17

3.2.3. Inferencia para el efecto residual del tratamiento anterior (carry-over) . 18

3.3. Tamaño muestral .................................................................................................. 20

Soluciones a los ejercicios .............................................................................................. 22

2
Bioestadística para no estadísticos

Presentación
En este tema abordamos 3 diseños específicos en los que el cálculo de la incertidumbre asociada al
proceso aleatorio necesita refinarse.

En ocasiones la intervención no puede asignarse de forma individual, o bien porque se administra


de forma comunitaria, global (como podría ser una intervención sobre los abastecimientos de, por
ejemplo, agua) o bien porque el profesional que la administra sólo puede ser experto en una de las
intervenciones en comparación. Así, la asignación en grupo a una misma intervención (cluster)
quiebra la independencia entre unidades —de la misma forma que lo haría una contaminación del
efecto, como podría ser el caso de intervenciones que afectan el nivel de transmisión de
enfermedades. En ambos casos, esta correlación entre los resultados de las unidades de un mismo
grupo resulta en una oscilación de los estimadores mayor que la proporcionada por el análisis
clásico, que debe ser corregido para que los IC reflejen la precisión real.

Por otro lado, el análisis del cambio, ya introducido en el tema 12, y el diseño con intercambio del
tratamiento o cross-over pretenden aumentar la precisión de la estimación, por lo que un correcto
análisis conduce a IC más estrechos, que conviene aprovechar.

Contribuciones: Basado en transparencias de Erik Cobo y José Antonio González; Laura Riba y
Hector Rufino prepararon una primera versión de análisis del cambio y crossover; y Marta Vilaró
de clúster; que han sido revisadas por Ángel Ruiz y Erik Cobo.

3
Diseños que afectan a la varianza

1. Asignación en grupo (cluster)

1.1. Variación entre grupos

Definición

En un EC aleatorizado en grupo, los pacientes de un mismo grupo se asignan a la


misma intervención.

El diseño habitual considera al paciente como la única unidad (estadística) con variabilidad: dispone
de una muestra de pacientes y desea estimar el efecto en una población objetivo que engloba a todos
los que comparten aquellos criterios de elegibilidad. Y quizás, en el análisis o en el diseño, controla
como influyen en esta variabilidad ciertas características, como el centro.

Ejemplo 1.1: Un estudio multi-céntrico aleatorizado por bloques persigue comparar los 2
tratamientos “dentro” de cada centro. Y combina los resultados en un único estimador del
efecto bajo la premisa de que el efecto es el mismo en todos los centros. Luego, el análisis
de subgrupos suele ‘ojear’ esta proposición. Si se sostiene que el efecto no varía entre
centros, aplicarlo o “transportarlo” a otros es un reto más cualitativo que cuantitativo.

En cambio, si (1) todos los pacientes de un mismo centro se asignan a la misma intervención; y (2)
el centro es variable, en el sentido de que los resultados de los pacientes pueden diferir por centros;
entonces la información que aporta cada paciente no es independiente de los otros pacientes del
mismo centro, lo que impide usar la metodología habitual.

Recuerde

Un EC randomizado en grupo implica más de una unidad aleatoria

Nota: Otros términos similares serían: cluster-randomized trials, group-randomized trials, multi-
level trials, hierarquical trials, o ensayos comunitarios.

Ejemplo 1.2: En una situación extrema e irreal, la variable importante sería el centro y
dentro de un mismo centro todos los pacientes responderían igual. Así, la no independencia
de los pacientes de un mismo centro sería extrema: conocida la respuesta de un paciente,
sabríamos la de los otros de su centro.

4
Bioestadística para no estadísticos

Ejemplo 1.3: La otra situación extrema podría ser más real. Ahora, todos los centros serían
similares entre sí, pero dentro de un mismo centro todos los pacientes responderían de forma
muy distinta. Así, conocer la respuesta de un paciente no aporta ninguna información sobre
los otros de su centro.

1.2. Unidad de inferencia


Igual que las hojas penden de las ramas, estas unidades guardan relación jerárquica entre sí.

Ejemplo 1.4: Sea un diseño con 3 unidades estadísticas con variabilidad: paciente,
profesional y centro: los pacientes son la unidad jerárquica inferior, anidados en el
profesional que, a su vez, está anidado en el centro, unidad jerárquica superior.

Recuerde

Un diseño en grupo (clúster) contempla tantas fuentes de variación como niveles.


En general, serán sólo 2: centro y paciente.

Nota: El individuo que está anidado en el grupo g anidado al tratamiento t, será un individuo que
pertenece al grupo g al que se la ha asignado el tratamiento t.

Un diseño en grupo desea estimar el efecto de la intervención en las unidades inferiores, pero la
intervención se asigna a una unidad de nivel superior.

Ejemplo 1.5: Un estudio de prevención del embarazo adolescente aleatoriza y administra la


intervención a nivel escolar, pero los datos se recogen a nivel individual y se desea valorar
el efecto a nivel de las micro-unidades (“inferiores”), en este caso, cada joven.

Recuerde

Un ensayo en grupo (clúster) asigna las intervenciones al grupo, pero desea


estimar el efecto en los individuos.

Contra- ejemplo 1.6: El estudio ‘2on Opinion Trial’ se designó para bajar las tasas de
cesáreas. El objetivo de la intervención es disminuir la tasa hospitalaria de cesárea valorada
a nivel del hospital. Eso implica que puede tratarse como un estudio habitual, con la
particularidad de que su unidad es el centro.

5
Diseños que afectan a la varianza

En el diseño en clúster no hay independencia entre las unidades. Los miembros de un grupo pueden
compartir características comunes o tener un nivel de exposición similar o interactuar entre ellos
(‘contaminación’). Todo ello hace más similares 2 casos del mismo grupo que 2 casos de grupos
diferentes.

Recuerde

Un diseño cluster tiene grupos homogéneos internamente y heterogéneos entre sí.

1.3. Correlación intraclase


La correlación Intraclase (ICC= Intraclass Correlation Coefficient) cuantifica el nivel de relación
entre las unidades de un mismo grupo.

El apartado 5.1 del capítulo 8 de Intervalos de confianza definió el coeficiente de correlación


intraclase para 2 grupos, que ahora extendemos a k grupos.

Recuerde

Un diseño en cluster con 2 niveles contempla 2 variabilidades: la que diferencia


los individuos (variabilidad intra-grupo, ); y la que diferencia los grupos
(variabilidad entra-grupos, ).

Definición

CCI es la proporción de variabilidad compartida: .

Ejercicio 1.1

Se desea estudiar si la comida de cátering influye en la salud bucodental de los


niños de entre 4 y 5 años. Se incluyen en el estudio un total de 10 colegios, a
cinco de los cuales se les asigna aleatoriamente ser servidos para la empresa A o
B. Al cabo de seis meses se observa una escala de salud bucodental en cada
alumno. Calcule el CCI si la variabilidad entre centros es 1.7 y la entre casos 6.3.
Interprete.

Nota: Entre las simplificaciones (o premisas) implícitas, cabe resaltar que (1) dentro de cada
grupo todos los pacientes tienen la misma variabilidad; (2) en todos los grupos, los pacientes

6
Bioestadística para no estadísticos

tienen la misma variabilidad (la variabilidad de los pacientes es independiente del grupo); y (3)
todos los grupos aportan la misma variabilidad.

1.4. Efecto del diseño


Como los pacientes de un mismo centro comparten cierta variabilidad, cada uno de ellos no aporta
información “completa”, ya que parte esta repetida. Por ello, la variabilidad del estimador del efecto
es mayor de lo que sería en un diseño en el que las observaciones fueran independientes. El efecto
del diseño (DE = DEFF = Dessign Effect) cuantifica está pérdida de información valorando cuánto
aumenta la variabilidad del estimador (VIF=Variance Inflation Factor).

Fórmula

Ejercicio 1.2

Calcule el efecto del diseño para el ejercicio anterior asumiendo que todos los
colegios tienen 21 niños por clase. Interprete.

Nota: Si los grupos difieren mucho en tamaño, los resultados por centro pueden tener diferente
significado y una inferencia común pierde sentido. Si difieren algo, puede estimarse el DE
tomando n por el promedio del tamaño de los centros.

Una vez conoce el DE, los cálculos habituales se obtienen multiplicando por el DE a la varianza
obtenida como si fuera un diseño simple. Si no se tuviera en cuenta el DE, se subestimaría la
incertidumbre del estudio, resultando en inferencia demasiado optimista: los IC95% contendrían el
parámetro con una confianza menor del 95%; y el riesgo alfa (declarar eficaz una intervención
cuando no lo es) sería mayor del 5% deseado.

Fórmula

Dónde N es el tamaño muestral necesario de un estudio aleatorio simple para que


tenga la misma potencia y precisión que un ensayo de asignación en grupo, n es el
tamaño de los grupos y k es el número de grupos

7
Diseños que afectan a la varianza

Ejemplo 1.7: Se ha diseñado un estudio de asignación en grupo que ha incluido 23


pacientes en cada uno de los 8 centros que han participado; en total, 184. Se ha estimado un
efecto del diseño de 1.34. El número de participantes que podría haber incluido un estudio
de asignación aleatoria simple para obtener la misma potencia y precisión hubiera sido un
total de 138 pacientes.

Ejercicio 1.3
Se ha diseñado un estudio con asignación aleatoria simple y se ha obtenido que
debe incluir 130 pacientes para obtener una potencia del 80%. Manteniendo la
misma potencia en el estudio, se desea plantear un diseño de asignación en grupo.
Suponiendo que habrá un total de 9 clusters y que el efecto del diseño será de 2.6,
calcule el número de participantes a incluir en cada cluster.

1.5. Riesgos de sesgo


Los diseños aleatorizados en grupo tienen riesgos específicos de sesgo originados, en general, por la
dificultad de enmascarar las intervenciones. Conocer que tal centro ha sido asignado a tal
intervención puede provocar un sesgo de selección, tanto de pacientes como de profesionales: por
ejemplo, ciertos pacientes pueden o cambiar de centro o dejar de acudir. Asimismo, el hecho de
conocer la intervención asignada al paciente puede originar un sesgo de actuación (performance):
por ejemplo, algunos de los profesionales pueden aumentar su uso de otras intervenciones para
compensar un hipotético menor rendimiento de la intervención asignada. También podría
provocarse una pérdida de seguimiento diferente entre los grupos, provocando un sesgo por
atrición. Finalmente, la evaluación de los resultados podría alterarse por el conocimiento de la
intervención asignada.

1.6. Extensión de la guía consort


CONSORT publicó una extensión para los estudios de asignación en grupo que aconseja reportar
los resultados diferenciando a nivel individual y de grupos. Repásela y haga el test correspondiente.

2. Análisis del cambio


El análisis del cambio es posible cuando medimos la respuesta, cuantitativa, al inicio (Z: basal
o pre-tratamiento) y al final (Y: post-tratamiento). En el capítulo 12 se vio como calcular el tamaño
muestral para la variable diferencia o cambio entre ambas determinaciones.

8
Bioestadística para no estadísticos

Recuerde

El análisis del cambio se basa en la variable diferencia entre la determinación


final y basal de la variable respuesta.

Vimos que este ajuste pretende bajar la varianza, y, con ello, aumentar la potencia y la precisión.

Nota: El curso de observacionales explica un segundo beneficio (la intención de compensar


desequilibrios para disminuir sesgos potenciales) y sus retos.

Recuerde
El cambio o diferencia final-basal se define como:

Y su varianza es:

Nota: Sean , y

En el análisis del cambio, la variabilidad entre individuos desaparece y la intra-individuo se


dobla.

Ejemplo 2.1: En la población objetivo y con el método de determinación escogido, ambas


variabilidades de la presión arterial sistólica (PAS) son = 36 y = 12 mmHg.

Si se considera como variable la determinación de una única medida después del


tratamiento, la varianza de la respuesta sería:

En cambio, si se considera como variable final la diferencia entre la respuesta final y la


respuesta antes del tratamiento, se obtiene la siguiente variabilidad:

9
Diseños que afectan a la varianza

Recuerde

En el caso que se base el análisis en la respuesta final (Y) se obtiene la siguiente


varianza:

Nota: Las fórmulas anteriores descansan en las siguientes simplificaciones (premisas): (1)
Independencia entre los casos (individuos); (2) Homocedasticidad entre respuesta basal y final; y
(3) Homocedasticidad entre tratamientos.

2.1. Correlación entre Z e Y

Recuerde

Si asumimos que , y son independientes mutuamente,

, pero también:

Observar la correlación entre antes y después con la ayuda del coeficiente de correlación intraclase
permite ver la correlación como la proporción de la variabilidad entre casos respecto a la total.

2.2. Varianza de la variable definida como respuesta


Dado que un procedimiento de medida razonable requiere, por lo menos, que las diferencias
observadas se correspondan más a diferencias reales entre las unidades que a oscilaciones en la
unidad observada, cabe esperar que y, por tanto,

En resumen, si el proceso de medida es razonable y no hay fuentes adicionales de variación (los


pacientes permanecen estables, excepto efectos constantes como el del tratamiento), entonces la
correlación y la variabilidad de la variable cambio (D = Y – Z) será menor que la de la
respuesta Y. Por tanto, será más eficiente el análisis basado en el cambio.

Ejercicio 2.1

La glucosa en sangre se descompone en dos variables ( ) que


representan dos fuentes de variabilidad independientes, entre e intra-pacientes.
Sus desviaciones típicas son y .

10
Bioestadística para no estadísticos

(1) Se define como variable principal de respuesta los valores de Y tras 1 mes de
tratamiento, ¿qué varianza tiene la variable respuesta?

(2) Se define como variable principal de respuesta la diferencia entre la medida


final y basal, ¿qué varianza tiene la variable principal?

(3) ¿Cuál es la correlación entre la variable basal y la variable final?

(4) A la vista de los resultados, ¿qué planteamiento le parece más oportuno


realizar?

Se ha visto que este diseño elimina la varianza entre pacientes pero duplica la intra pacientes —ya
que se toman dos medidas por cada individuo. Veamos otros diseños para disminuir la varianza de
la respuesta.

2.3. Ancova

Nota: El modelo lineal de regresión del curso observacionales estudia con detalle el Ancova.
Aquí comentamos sus implicaciones en el diseño de EC.

El ANCOVA es más eficiente que el análisis de la variable final y que el análisis del cambio.
El efecto del tratamiento se estima por lo general como:

Dónde:

- y son las medias en el grupo control de la respuesta basal y la final, respectivamente.

- y ídem para el grupo tratamiento.

Y dependiendo del valor de b, se obtiene:

- Si b=0, el análisis de la variable final:

- Si b=1, el análisis del cambio:

- Si b= , el ANCOVA: , donde es el coef. de regresión.

Las varianzas en cada caso son:

Variable final: Cambio post – basal: ANCOVA:

11
Diseños que afectan a la varianza

Esto implica que el estimador es más eficiente para cualquier valor de ρ y que es más
eficiente que para ρ> 0,5, pero menos eficiente en la situación opuesta, lo que se resume en el
siguiente gráfico debido a Stephen Senn.

Figura 1. Variancias según el enfoque del análisis

Ejemplo 2.2: Siguiendo el Ejemplo 2.1, la correlación entre Z e Y es:

Por lo tanto, si se opta por el diseño ANCOVA, la varianza de la respuesta es:

Que corresponde a la menor varianza de la respuesta en los tres diseños y conduce, por
tanto, al diseño más eficiente.

2.4. Diseño con determinación repetida de la respuesta


Cambio y ANCOVA pretenden reducir la varianza de la variable respuesta “atacando” a la varianza
entre-pacientes, . La intra-pacientes se puede controlar mediante el uso de medidas repetidas.

Definición

Si se obtienen K medidas repetidas independientes de la respuesta Y, una posible


definición de la respuesta es la media de estas determinaciones:

12
Bioestadística para no estadísticos

La varianza de la respuesta en este caso es:

Ejemplo 2.3: Siguiendo el Ejemplo 2.1, si se opta por la realización de 7 medidas repetidas,
la varianza de la nueva variable respuesta es:

Ejercicio 2.2
Con los mismos datos que en el Ejercicio 2.1, conteste:
(1) Usando el ANCOVA (sin repeticiones), ¿qué varianza tiene la respuesta?
(2) Si se utiliza como respuesta el promedio de la PAS repetida 5 días, ¿qué
varianza tiene la respuesta?
(3) A la vista de los nuevos resultados, ¿qué análisis usaría?

Nota: Estos diseños se pueden combinar, de manera que los beneficios en la reducción de la
varianza de la respuesta se acumulan. Por ejemplo:
- Análisis del cambio post - basal, pero donde la respuesta basal y la final son promedios.
- ANCOVA con promedio de k medidas repetidas.

3. Diseños con intercambio (“Cross-over”)

Definición

En un cross-over cada caso recibe varios tratamientos en diferente orden (o lugar)


y se obtiene una respuesta bajo cada intervención.

Se requiere más de una secuencia para hacer un “cross-over”, es decir, se requiere más de un grupo
de pacientes, cada uno con un orden (o secuencia) de administración de las intervenciones.

Los casos se asignan a secuencias de tratamientos.

13
Diseños que afectan a la varianza

Ejemplo 3.1: Para evaluar el efecto que dos preparados de aspirina tienen en el sangrado
gástrico (evaluado por un método radioactivo), dos grupos de 8 pacientes han recibido
ambos preparados en diferentes secuencias (AB o BA).

3.1. Ventajas e inconvenientes


Entre las ventajas de los cross-over se encuentran que: (1) permite observar la respuesta a A y B en
los mismos sujetos y (2) es muy intuitivo para controlar el efecto individuo.

Por el contrario, mediante un buen diseño: (1) debe balancearse el período (o el lugar de
administración) para controlar diferentes posibles respuestas en diferentes periodos (lugares); y (2)
debe garantizarse que, al administrar un tratamiento, no permanece ningún efecto tardío (residual,
arrastrado o carry-over) del tratamiento anterior.

Recuerde

Carry-over: persistencia de un efecto más allá de su periodo.

3.2. Diseño 2X2

Definición

El modelo que se utiliza para este tipo de estudios es:

Dónde:
es la media general
es el efecto, fijo, inmediato o directo del tratamiento t=A,B
es el efecto, fijo, del periodo
es el efecto, fijo, residual o tardío del tratamiento previo k=A,B
es el efecto, aleatorio, del individuo o caso i=1,2, … , n+m
es el efecto, aleatorio, del individuo i en el periodo j

Notas: (1) Cabe esperar que . (Véase el punto 2.2). (2) En el primer período no hay
efecto residual, al no arrastrar el efecto del tratamiento previo, dado que este no existe. (3) El
efecto residual emplea el subíndice k del orden.

14
Bioestadística para no estadísticos

Recuerde

De existir ‘carry-over’, las diferencias en el segundo período contendrán también


los efectos arrastrados de las intervenciones del primer período.

A continuación se detallan los diferentes contrastes para los efectos expresados en el modelo.

3.2.1. Inferencia para el efecto directo del tratamiento

La pregunta que se quiere contestar es: ¿tienen el mismo efecto los dos tratamientos?

Por tanto, se quiere realizar el siguiente contraste de hipótesis:

Si se define como la diferencia entre el primer período y el segundo:

En el grupo 1, de orden AB:

En el grupo 2, de orden BA:

Entonces, el contraste de hipótesis se puede reescribir como:

Nota: Las esperanzas de las diferencias son:

Por lo tanto, –

Nota: Las premisas para poder realizar este contraste son: efecto residual nulo o igual, es decir,
o ambos nulos; e independencia entre ambos grupos o secuencias.

Como cada caso aporta información sobre ambos tratamientos, la esperanza de la diferencia de las
dobla la diferencia de los efectos directos, para estimar el efecto , los resultados se
dividen por 2.

Nótese, como se ve en la demostración, y considerando los efectos residuales nulos:

15
Diseños que afectan a la varianza

Recuerde

El efecto directo se estudia con una prueba t de Student de datos independientes


sobre la variable diferencia del primer menos el segundo periodo.

Nota: La estimación de esta prueba debe dividirse por 2.

Ejercicio 3.1
Diga si las siguientes afirmaciones son ciertas o no.
Para estimar el efecto (directo) del tratamiento T respecto al control C:
(1) Calculamos la diferencia entre la respuesta a T y a C

(2) Calculamos la diferencia de la respuesta entre primer y segundo periodo

(3) Comparamos las medias de dichas diferencias entre ambos periodos

(4) Comparamos las medias de dichas diferencias entre ambos tratamientos

(5) Comparamos las medias de dichas diferencias entre ambas secuencias

(6) Para conocer el IC95% del efecto, dividimos por 2 los resultados

(7) Para conocer el p valor, dividimos por 2 los resultados

Ejemplo 3.2: Estudio cross-over del efecto de T frente a P en la enuresis en 24


adolescentes. La tabla muestra el número de noches –sobre un total de catorce- sin enuresis
en los dos grupos TP y PT de 12 casos.

Grupo 1 Grupo 2
Trat.1: T Trat.2: P Trat.1: P Trat.2: T
8 5 12 11
14 10 6 8
8 0 13 9
9 7 8 8
11 6 8 9
3 5 4 8
6 0 8 14
10 6 2 4
13 12 8 13
10 2 9 7
7 5 7 10
13 13 7 6

16
Bioestadística para no estadísticos

A continuación se resuelve, con ayuda de R y de la función t.test, el contraste que permitirá


saber si el efecto de los dos tratamientos es el mismo o no.

Ejemplo de R
#Con los datos de la tabla del Ejemplo 3.2
> datos <- read.table(url("http://www-
eio.upc.es/teaching/best/datos-
ejemplos/enuresis.txt"),header=TRUE)
> d1 = datos$T_G1 – datos$P_G1
> d2 = datos$P_G2 – datos$T_G2
> t.test(d1, -d2, var.equal=TRUE)
Two Sample t-test
data: d1 and -d2
t = 3.7802, df = 22, p-value = 0.001029

95 percent confidence interval:
2.106471 7.226863

Y dividimos por 2 el intervalo de confianza obtenido directamente del t-test, para estimar el
efecto directo de

Así, cambiar el tratamiento P por el T bajará el número de noches con enuresis cada 2
semanas entre 1 y 3,6, con una confianza del 95%: valores positivos que permiten establecer
que T tiene efecto (relativo a C). También, como P=0.001, se concluye que existen
diferencias significativas entre los dos tratamientos.

3.2.2. Inferencia para el efecto período

Para contestar si la respuesta Y cambia según el período en el que se recibe el tratamiento se hace el
contraste de hipótesis:

Que se puede resolver mediante las diferencias del anterior apartado (también dividiendo por 2 al
final), cambiando el signo a los resultados de una secuencia:

17
Diseños que afectan a la varianza

Ejemplo 3.3: Siguiendo con el ejemplo anterior, podemos estudiar si el período en el que
reciben el tratamiento influye en los valores de la variable respuesta.

Ejemplo de R
#Con los datos del ejemplo 3.2
> t.test(d1, d2, var.equal=TRUE)
Two Sample t-test
data: d1 and d2
t = 1.7551, df = 22, p-value = 0.09316

95 percent confidence interval:
-0.3935293 4.7268627

Por lo que no hay diferencias significativas entre periodos.

3.2.3. Inferencia para el efecto residual del tratamiento anterior (carry-over)

Estudiamos si son iguales los efectos tardíos mediante el contraste de hipótesis:

Si se define como la suma de los resultados del primer período y del segundo:

En el grupo 1, de orden AB:

En el grupo 2, de orden BA:

Entonces, el contraste de hipótesis se puede reescribir como:

Demostración:

Las esperanzas de las diferencias son:

18
Bioestadística para no estadísticos

Por lo tanto,

Nótese que en este caso no hay que dividir entre 2 para estimar el efecto residual.

Ejemplo 3.4: Con los mismos datos que en el ejemplo anterior, nos puede interesar
contrastas si los dos efectos tardíos son iguales o no.

Ejemplo de R
#Con los datos del ejemplo 3.2
> attach(datos)
> s1 <- datos$frmco_G1 + datos$pcbo_G1
> s2 = datos$pcbo_G2 + datos$frmco_G2
> t.test(s1, s2, var.equal=TRUE)
Two Sample t-test
data: s1 and s2
t = -0.5481, df = 22, p-value = 0.5891

95 percent confidence interval:
-6.378402 3.711735

> detach(datos)

Como el intervalo de confianza incluye el 0, la ausencia de efecto tardío es compatible con


los datos observados.

Ejercicio 3.2

La tabla siguiente contiene los datos de 2 grupos de 10 enfermos reumáticos a los


que se les valoró el dolor mediante una escala convencional para comparar 2
fármacos antirreumáticos A y B, administrados cada uno a lo largo de un mes.

Grupo 1 Grupo 2
A (mes 1) B (mes 2) B (mes 1) A (mes 2)
17 17 21 10
34 41 20 24
26 26 11 32
10 3 26 26

19
Diseños que afectan a la varianza

19 -6 42 52
17 -4 28 28
8 11 3 27
16 16 3 28
13 16 16 21
11 4 -10 42

Con la ayuda de R, conteste a las siguientes preguntas:

1. Determine si el efecto (directo) del tratamiento es o no significativo.

2. Dé el intervalo de confianza del 95% del anterior efecto.

3. ¿Existen diferencias entre los dos períodos?

4. Estime el efecto período mediante un IC del 95%.

5. ¿El efecto residual es el mismo en ambos tratamientos? Justifíquelo.

6. Determine la precisión del efecto tardío mediante un IC del 95%. Compárela


con la del efecto driecto

3.3. Tamaño muestral


Como siempre, es necesario fijar de antemano: un riesgo , la potencia deseada ( ) y la
magnitud del efecto que se desea establecer.

Recuerde

El tamaño muestral en cada grupo para la comparación de 2 medias era

Como en los Cross-over el valor de referencia se obtiene en el mismo individuo:

Definición

El tamaño muestral en un estudio cross-over es:

Demostración: dado que , se demuestra que:

20
Bioestadística para no estadísticos

Observe que la fórmula es idéntica a la de comparación de dos medias, pero (1) el error se refiere a
la variabilidad intrasujeto y (2) ‘N’ ahora es la ‘N’ total (cada observación aporta los dos
valores).

Ejemplo 3.5: ¿Cuántos casos totales se necesitan en un diseño paralelo y en uno con
intercambio si =5u, =(9u)2, =(4u)2, =0.05 bilateral y =0.2.

Diseño paralelo:

Con intercambio: N

21
Diseños que afectan a la varianza

Soluciones a los ejercicios


1.1. Una quinta parte de la variabilidad total entre los casos viene explicada por los centros.

Los casos de un mismo centro comparten una quinta parte de la variabilidad total. El nivel de relación o de
similitud entre los casos de un mismo centro se puede cuantificar en un una quinta parte, aproximadamente. La
respuesta de un niño de un centro no es independiente de la de los otros niños del mismo centro. Conocida la
respuesta de un niño de un centro, ya dispongo de algo de información sobre los otros niños del mismo centro.
1.2.
1.3. pacientes en cada cluster.

2.1. A partir del enunciado, se extrae que y .


a. Si se define como variable respuesta la determinación de una única medida al final del tratamiento:

b. En caso de definir la respuesta como la diferencia entre la medida basal y la final, la varianza de la variable es:

c. La correlación entre la variable final y la basal es:

d. Dado que la varianza en caso de utilizar la puntuación del cambio como respuesta es menor, el análisis del
cambio es el diseño más eficiente de los dos propuestos.
2.2.
a. Usando el diseño ANCOVA y algunos resultados calculados en el anterior ejercicio, la varianza de la variable
principal es:

b. La varianza de la respuesta como promedio de 5 repeticiones es:

c. De todos los análisis efectivos, el más eficiente es el ANCOVA, ya que es con el que se obtiene una variable
respuesta con menor varianza.
3.1. (1) Falsa; (2) Cierta; (3) Falsa; (4) Falsa; (5) Cierta, se comparan las medias de las diferencias de la respuesta entre
el primer y segundo periodo entre ambas secuencias mediante la t-d’Student; (6) Cierta; (7) Falsa.
3.2.
1. Se utiliza la función t.test de R:
> datos = read.table("clipboard", header = T)
> d1 = with(datos, A_m1 - B_m2)
> d2 = with(datos, B_m1 - A_m2)
> # Efecto directo del tratamiento
> t.test(d1, d2, var.equal=TRUE)
Two Sample t-test
data: d1 and d2
t = 2.6792, df = 18, p-value = 0.01531
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.820304 31.579696
sample estimates:

22
Bioestadística para no estadísticos

mean of x mean of y
4.7 -13.0
Se obtiene un p-valor inferior al 5%, por lo que se rechaza la hipótesis nula de efectos iguales. A esta misma
conclusión se llega con el intervalo de confianza.

2. El intervalo de confianza para es:

3. El código de R para resolver el contraste y su solución es:


> # Efecto del período
> t.test(d1, -d2, var.equal=TRUE)
Two Sample t-test
data: d1 and -d2
t = -1.2563, df = 18, p-value = 0.2251
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-22.179696 5.579696
sample estimates:
mean of x mean of y
4.7 13.0
Se obtiene un p-valor superior al 5%, por lo que se no se puede rechazar la hipótesis nula. No hay diferencias entre
los períodos.

4. El intervalo de confianza para es:

5. El código de R así como el resultado del contraste de si hay igualdad en los dos efectos residuales se muestra a
continuación:
> # Efecto residual del tratamiento
> s1 = with(datos, A_m1 + B_m2)
> s2 = with(datos, B_m1 + A_m2)
> t.test(s1, s2, var.equal=TRUE)
Two Sample t-test
data: s1 and s2
t = -1.737, df = 18, p-value = 0.09947
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-34.247451 3.247451
sample estimates:
mean of x mean of y
29.5 45.0
Se obtiene un p-valor superior al 5%, por lo que se no se puede rechazar la hipótesis nula: el efecto residual es el
mismo en ambos tratamientos.

6. La precisión del efecto tardío es:

23
Tema 14

Control del riesgo alfa


Diseños adaptativos

Jordi Cortés y Erik Cobo


Héctor Rufino, Marta Vilaró y José Antonio González

2014
Control del riesgo alfa

Control del riesgo alfa

Presentación ...................................................................................................................... 3
1. Multiplicidad ................................................................................................................ 4
1.1. Objetivo del EC ..................................................................................................... 6
1.2. Hipótesis frente a premisas .................................................................................... 7
1.3. Error global (Family Wise Error o FWE) .............................................................. 8
1.4. Control disminuyendo el riesgo individual ........................................................... 8
1.4.1. Método de Bonferroni .............................................................................. 8
1.4.2. Método de Sidák ....................................................................................... 9
1.5. Grado de nulidad de la hipótesis.......................................................................... 10
1.6. Rechazo secuencial de hipótesis .......................................................................... 10
1.7. Método de pruebas cerradas bajo intersección* .................................................. 13
1.8. Pruebas fisherianas y métodos de remuestreo* ................................................... 13
2. Monitorización. EC adaptativos ................................................................................. 15
2.1. Monitorización..................................................................................................... 16
2.1. Análisis interinos ................................................................................................. 17
2.2. Diseños adaptativos ............................................................................................. 18
2.3. Razones para detener un ensayo .......................................................................... 19
2.1. Pasar de no inferioridad a superioridad ............................................................... 20
3. Ensayos clínicos secuenciales .................................................................................... 21
3.1. Control del riesgo α. Ajuste por multiplicidad .................................................... 23
3.2. Pruebas de Pocock y O'brien-Flemming ............................................................. 24
3.3. Prueba triangular*................................................................................................ 27
3.3.1. Cálculo de los estadísticos B y V ........................................................... 28
3.3.2. Reglas de decisión .................................................................................. 29
3.3.3. Caso de diseño con 2 análisis ................................................................. 29
3.4. Controversia sobre los diseños secuenciales* ..................................................... 31
Soluciones a los ejercicios .............................................................................................. 33

2
Bioestadística para no estadísticos

Presentación
Este capítulo aborda como adaptar el riesgo α a las necesidades del estudio al mismo
tiempo que garantiza que a nivel global no supera el límite deseado –usualmente un 5%.

La primera parte, multiplicidad, expone el problema y diferentes soluciones generales.

La segunda parte explica los diseños que permiten adaptar el reclutamiento, tamaño
muestral, criterios de inclusión, variable principal, o la razón de asignación a los
tratamientos —por ejemplo, pueden ser modificados durante su ejecución dependiendo
de los resultados obtenidos en el análisis. Por supuesto, debe especificarse así en el
protocolo, ya que de lo contrario el diseño no sería adaptativo.

La tercera parte aborda los ensayos clínicos secuenciales, por ser los adaptativos más
frecuentes y mejor aceptados por las agencias reguladoras. En esta clase de diseños, la
adaptabilidad hace referencia al tamaño muestral, ya que éste dependerá de los
resultados obtenidos en análisis intermedios. Los datos son analizados en determinados
instantes pre-establecidos con el fin de demostrar la eficacia del tratamiento o la
futilidad del diseño para establecerlo. De esta forma, se actualiza la información
hipotética usada en el cálculo del tamaño muestral y se puede alcanzar una conclusión
en el momento justo, resultando en tamaños muestrales menores que los diseños
clásicos de muestra fija y, por consiguiente, a un coste humano y económico menor, al
mismo tiempo que se agiliza el acceso de los pacientes a las nuevas intervenciones
(parada por eficacia) o se acorta su innecesaria exposición en estudios previsiblemente
‘negativos’ (parada por futilidad).

Contribuciones: Basados en transparencias de Erik Cobo y José Antonio González;


Jordi Cortés preparó la parte de “diseños adaptativos y secuenciales”; y Hector Rufino y
Erik Cobo la de “Multiplicidad”; que han sido revisadas todas ellas por Marta Vilaró y
Erik Cobo.

3
Control del riesgo alfa

1. Multiplicidad
Los riesgos deben gestionarse con prudencia. Hemos aceptado que un estudio asuma un
pequeño riesgo de autorizar una intervención no eficaz, una vez. Pero si este proceso se
repite indefinidamente, sin duda se cometerá este error.

Nota: Tanto va el cántaro a la fuente que al final se rompe.

Recuerde
No abuse de las pruebas de hipótesis.

Ejercicio 1.1
Los EC pivote pretenden una decisión, sea cambiar la guía clínica
habitual, sea registrar una nueva intervención. ¿Puede tener ‘k’
variables principales y una variable secundaria?

Recuerde
El protocolo de un EC pivote, si aumenta las variables o las pruebas,
debe definir las reglas de decisión.

Ejemplo 1.1: Para estudiar el efecto de T frente a C sobre tres respuestas de


interés Y1, Y2, Y3, se hacen tres contrastes, cada uno con un riesgo . La
regla de decisión podría funcionar por intersección (positivo si las 3 pruebas
fueran positivas) o por unión (positivo si cualquiera fuera positiva). Es decir, en

4
Bioestadística para no estadísticos

el primer caso, se autorizaría el producto sólo si las 3 pruebas resultan


significativas; en el segundo, bastaría con que lo fuera una de ellas. En el primer
caso, el estudio pierde potencia (hay menos opciones de alcanzar el mercado de
las que tendría una sola prueba); en el segundo, sobre-consume  (cada
contraste “gasta” ).

Nota: Asumiendo, por simplicidad, que las 3 pruebas son independientes, se puede calcular
la pérdida de potencia si el proceso exige que las 3 pruebas sean significativas. Tomando una
potencia del 85% para cada prueba i, que equivale a un =0.15, la potencia global es:
( ) ( )
Es decir, que si la intervención tuviera el efecto especificado, las probabilidades de fallar al
intentar demostrarlo serían 0.386, ¡casi un 40%! Ningún promotor querría fallar en 4 de cada
10 intervenciones eficaces.

Recuerde
Perderá potencia si requiere que todas las pruebas sean significativas.

En el segundo caso, en cambio, si el criterio para autorizar la intervención solo requiere


que una de las 3 pruebas fuera significativa, se pierde el control del riesgo  y la
probabilidad de autorizar una intervención no eficaz es mayor del 5%, ya que asumimos
este riesgo en 3 ocasiones.

Nota: Asumiendo otra vez independencia entre los resultados de las 3 pruebas y
considerando un =0.05 para cada una, el error de tipo I global sería también mayor de lo
deseado:
( )
Es decir, que si la intervención no tuviera efecto, un 14% de estudios conducirían a
administrarlas: ninguna agencia de regulación aceptaría que 1 de cada 7 intervenciones no
eficaces terminara siendo aconsejada a los pacientes.

Así, cuando basta que una de las pruebas sea significativa para considerar el estudio
positivo, se pierde el control del riesgo  y se habla de multiplicidad.

Recuerde
Gasta, consume o pierde el control del riesgo  si realiza múltiples
pruebas y se queda con la significativa.

La necesidad de ajustar por multiplicidad ha sido muy discutida.

5
Control del riesgo alfa

Ejemplo 1.2. Shulz imagina un estudio con 2 respuestas relacionadas: 50% de


reducción de fiebre (RR=0.5, IC95% de 0.25 a 0.99, P=0.041) y 52% de
reducción de infección (RR=0.48, IC95% de 0.24 a 0.97, P=0.041). Aquellos
contrarios al ajuste opinarían que ambos resultados positivos se apoyan
mutuamente, mientras que los favorables al ajuste dirían que el consumo global
de supera el 5% y, por haber hecho 2 pruebas, los resultados no son
significativos.

Ejercicio 1.2
¿Resuelve esta ambigüedad especificar en el protocolo el criterio de
decisión?

1.1. Objetivo del EC

Hay que diferenciar si el objetivo es hacer inferencia o tomar una decisión. Si el


propósito de realizar diferentes pruebas de hipótesis es hacer inferencia sobre varias
preguntas de conocimiento, es usual argumentar que son preguntas diferentes y que no
tiene sentido considerar a las diferentes pruebas parte de un objetivo común.

Ejemplo 1.3: Un investigador puede estar interesado en conocer sobre qué


variables de respuesta (presión arterial sistólica, diastólica, media, diferencial, a
la semana, al mes, al trimestre, etc.) hasta un total de 10 se manifiesta el efecto
de una intervención. Como cada prueba contesta una pregunta diferente, se
puede argumentar que no es necesario ajustar por multiplicidad.

Así, las revistas científicas no tienen una postura clara sobre la conveniencia de ajustar
por multiplicidad. En cambio, si la intención es tomar una decisión única en base a
todas las pruebas, el error debe calcularse considerando las diversas opciones que
tiene el estudio de alcanzar su objetivo.

Ejemplo 1.4: Un promotor quiere comparar un nuevo tratamiento con el control


sobre los 10 indicadores anteriores. El objetivo es sacar al mercado el nuevo
tratamiento, si su efecto es significativo en alguno de los diez indicadores. Se
toma un nivel de significación individual =5%, se obtiene un intolerable nivel
de significación global :
( ) !!

6
Bioestadística para no estadísticos

Las agencias de regulación de intervenciones sanitarias tienen una postura muy clara.

Recuerde
La multiplicidad se define bien en el entorno de decisión.

1.2. Hipótesis frente a premisas

En ocasiones, se utilizan pruebas de hipótesis para estudiar premisas. Las guías de


publicación dicen claramente que conviene concentrar los riesgos estadísticos en los
objetivos del estudio. La pregunta de si las premisas son ciertas es secundaria. Más
interesante es un análisis de sensibilidad que permita saber si, bajo otras premisas, se
llega a la misma conclusión

Ejemplo 1.5: Buysé et al muestran que sus conclusiones son las mismas sea
cual sea el punto de corte que escogen para la variable respuesta.

Ejercicio 1.3
STROBE E&E 12e dice:
a) Hay que poner a prueba las premisas en las que descansa el
estudio y su análisis (como la Normalidad de la respuesta)
b) Conviene hacer análisis de sensibilidad para ver hasta qué punto
las conclusiones son consistentes o bien dependen de las premisas.
c) No dice nada.

Ejercicio 1.4
¿Cuáles de los siguientes dice STROBE E&E 12e que puede abarcar
el análisis de sensibilidad?
a) Criterios de inclusion en los análisis
b) Definición de la exposición
c) Definición de las respuestas
d) Tratamiento de los datos ausentes
e) Sesgos introducidos por el proceso de medida
f) Elecciones concretas en el análisis, como el tratamiento de las
variables cuantitativas.

7
Control del riesgo alfa

1.3. Error global (Family Wise Error o FWE)

Para poder distinguir entre error individual y global, lo primero que hay que definir es
qué abarca el término ‘global’. Para ello, se define a la familia de k pruebas de
significación:

{ } { }

como el conjunto de contrastes que, en caso de resultar significativos a nivel individual,


permitirían tomar la decisión de interés.

Definición
El riesgo global es la probabilidad de adoptar la decisión
alternativa por rechazar al menos una hipótesis nula de la familia {H}
siendo todas ellas ciertas.

A diferencia del riesgo individual , que hace referencia a la prueba i, el se


interpreta como el riesgo global, acumulado para las k comparaciones.

1.4. Control disminuyendo el riesgo individual

Para obtener un riesgo global igual o cercano al valor deseado (normalmente del
5%), la primera estrategia es disminuir el riesgo individual.

1.4.1. Método de Bonferroni


La desigualdad de Boole establece que la probabilidad de que ocurra algún evento es
como mucho igual a la suma de las probabilidades de todos los eventos considerados.

Ejemplo 1.6: Si accidente cardiovascular (AVC) incluye infarto de miocardio


(IM), ictus (I) y accidente vascular periférico (AVP), dado que algunos casos
presentan simultáneamente más de uno, la probabilidad de tener algún AVC es
como mucho la suma de las probabilidades de IM, I y AVP: P(AVC) 
P(IM)+P(I)+P(AVP)

Así, la desigualdad de Boole establece que el riesgo global será, como mucho, la
suma de los riesgos asumidos en todos los contrastes. El método de Bonferroni propone
repartir el riesgo global entre todos los contrastes de forma que la suma de los

8
Bioestadística para no estadísticos

riesgos individuales iguale al riesgo global deseado. Si considerar igual a todas


las hipótesis, asigna el mismo riesgo individual a cada contraste.

Definición
Para garantizar = con k contrastes, Bonferroni = /k.

Ejemplo 1.7: Se desea comparar el efecto de 3 nuevos tratamientos para el


cáncer de Mama frente al tratamiento convencional, con el objetivo de sacar al
mercado el tratamiento (de los 3) que resulte significativo. Si quiere tener un
riesgo global=0.05, el individual será:

Nota: Se trata de una desigualdad: por lo general, el riesgo global será inferior a la suma de
los riesgos individuales: se garantiza que no supera el riesgo global deseado (¡bien!), pero
se podría estar perdiendo más potencia de la necesaria (¡mal!).

Ejercicio 1.5
¿Cuál debería ser el riesgo individual si quiere aplicar el método de
Bonferroni en un EC pivote con 10 variables respuesta principales y
se desea mantener el riesgo global =0.05? Interprete.

1.4.2. Método de Sidák


Nota: Al inicio hemos ilustrado el problema con este método.

Igual que el anterior, Sidák desciende el riesgo individual para obtener un riesgo
global deseado, pero ahora asume independencia entre las pruebas realizadas para
poder multiplicar sus probabilidades.

Definición
Para garantizar = con k pruebas, Sidák = ( ) .

Ejemplo 1.8: Siguiendo con el ejemplo anterior, si se deseara utilizar el método


de Sidák para controlar la multiplicidad y garantizar = 0.05:

( )
Valor muy similar al obtenido por Bonferroni (0.0167).

9
Control del riesgo alfa

Ejercicio 1.6
a) Idem ejercicio 1.4 para Sidák.
b) ¿Cree que estas 2 estrategias tienen algún efecto colateral?

Nota: Bonferroni y Sidák dan resultados similares si k y  son pequeños (demostración por
series de Taylor).

Recuerde
Disminuir el riesgo de la prueba iésima disminuye también la
potencia de esta prueba.

1.5. Grado de nulidad de la hipótesis

En una familia de k pruebas de hipótesis conviene valorar si las conclusiones de un


contraste tienen implicaciones sobre los otros.

Definición
En una combinación restringida, el rechazo de un contraste implica
cambios en otros.

Ejemplo 1.9: Sean 3 intervenciones, A, B y C; y 3 hipótesis que se desean


contrastar: H01: μA= μB; H02: μA= μC; y H03: μB= μC. Si rechazamos H01: μA= μB,
entonces H02: μA= μC y H03: μB= μC no pueden ser ambas ciertas.

Como para cometer el riesgo es necesario que H0 sea cierta, sólo hay que controlar la
multiplicidad para el conjunto de Hipótesis que pueden ser simultáneamente ciertas.

1.6. Rechazo secuencial de hipótesis

Una vez se ha rechazado cierta H0i ya no tiene sentido seguir asumiendo que es cierta y,
por tanto, no es necesario protegerla ante multiplicidad.

Definición
Holm ordena los P valores de más a menos significativos y los pone a
prueba sucesivamente ajustando (Bonferroni) cada uno sólo por las
hipótesis aún no rechazadas.

10
Bioestadística para no estadísticos

Ejemplo 1.10: Los 5 valores de P observados han sido: 0.0021, 0.0093, 0.0137,
0.0324 y 0.1188. Al contrastar el primero debe controlar que hasta k=5 hipótesis
nulas podrían ser ciertas, por lo que >P=0.0021, se
rechaza H01. Pero para contrastar la segunda H02, ya no es necesario protegerse
por si H01 fuera cierta, por lo que K=4 y
>P=0.0093 también se rechaza H012.

Ejercicio 1.7
Termine el proceso de Holm para las 3 siguientes pruebas.

Nota: Shaffer perfiló el método de Holm ajustado sólo por las restantes pruebas que podrían
ser simultáneamente ciertas.

Definición
Hockberg ordena los P valores al revés, de menos a más
significativos y los contrasta sucesivamente ajustando (Bonferroni)
cada uno sólo por las hipótesis previamente no rechazadas.

Ejemplo 1.11: con los mismos 5 valores de P anteriores, el primero que se


contrasta ahora es 0.1188, que al ser mayor que 0.05, no se rechaza. Al mirar el
segundo hay que tener en cuenta que 2 podrían ser simultáneamente ciertos, por
lo que 0.0324>0.05/2=0.025, tampoco se rechaza.

Ejercicio 1.8
Termine el proceso de Hockberg para las otras 3 pruebas.

Con el paquete de R multtest se pueden realizar pruebas de hipótesis múltiples


utilizando los diferentes métodos de ajuste vistos en este tema. En concreto, la función
mt.rawp2adjp devuelve los P valores ajustados para los diferentes métodos.

Ejemplo de R

# Instalación y carga de ‘multtest’


> source("http://bioconductor.org/biocLite.R")
> biocLite("multtest")
> library(multtest)

11
Control del riesgo alfa

# Aplicación al Ejemplo 1.10


#Creamos un vector que contenga los P valores obtenidos
> P <- c(0.0021,0.0093,0.0137,0.0324,0.1188)
#Indicamos los prodecimientos que queremos utilizar
> procs <- c("Bonferroni", "Holm", "Hochberg","SidakSS")
#Utilizamos la función mt.rawp2adjp
> res <- mt.rawp2adjp(P, procs)
> adjp <- res$adjp[order(res$index), ]
> round(adjp,3)
rawp Bonferroni Holm Hochberg SidakSS
[1,] 0.002 0.010 0.010 0.010 0.010
[2,] 0.009 0.046 0.037 0.037 0.046
[3,] 0.014 0.068 0.041 0.041 0.067
[4,] 0.032 0.162 0.065 0.065 0.152
[5,] 0.119 0.594 0.119 0.119 0.469
#Ahora, se pueden comparar los p valores ajustados de
cada método con el 5%, para ver si se acepta o se
rechaza la hipótesis nula.
#R hace el cálculo con toda la precisión, por lo que los
valores redondeados que proporciona pueden no cuadrar.
P.e.: 0.002*5=0.010, pero 0.009*5=0.045≈0.046.

Ejercicio 1.9
¿Por qué cambia la conclusión para la prueba “[3,] 0.014” de los 4
métodos anteriores?. ¿Por qué coinciden 2 a 2?

Ejercicio 1.10
Se ha realizado un ECA para estudiar el efecto de los hábitos
higiénicos (ejercicio, dieta, siesta,...) en 7 variables de constantes
vitales y lipemias obteniendo: PAS P= 0.012; PAD P= 0.011; FC
P=0.467; HDL P=0.006; LDL P=0.314; CT P=0.123; y T P=0.08.
Realice un ajuste por multiplicidad para un global de 0.05, según
los métodos de (a) Bonferroni, (b) Sidak, (c) Holm (+Bonferroni) y
(d) Hochberg (+Bonferroni).

Nota: los métodos de Newman-Keuls y de Duncan son aplicaciones del método secuencial a
las comparaciones entre k grupos.

12
Bioestadística para no estadísticos

1.7. Método de pruebas cerradas bajo intersección*

El principio de pruebas cerradas bajo intersección establece que no es necesario ajustar


una hipótesis por multiplicidad si está contenida en la hipótesis previamente rechazada.

Ejemplo 1.12: Bajo la premisa de efecto no decreciente dentro del rango de


dosis estudiado, afirmar que la dosis de 3 g iguala a la dosis 0 g (H03), implica
que también las dosis 2 g y 1 g igualan a la dosis 0 g (H02 y H01). Así, se pone
primero a prueba H03 y sólo si se rechaza se sigue con H02 y, si también se
rechaza, con H01. Como bajo la premisa de efecto no decreciente, si 3 g, no tiene
efecto, tampoco lo tiene 2 g, H02 está contenida en H03. Poner H02 a prueba sólo
si H03 ha sido rechazada implica que el riesgo de H02 está dentro del de H03 y no
es necesario realizar ajustes: todas ellas se ponen a prueba con =0.05.

Ejercicio reto
Un fármaco ha sido probado a dosis de 0, 1, 2, 3, 4, 5 y 6 mg/Kg en 7
subgrupos de 3 casos cada uno, habiéndose obtenido las respuestas
medias 12.88, 12.86, 12.82, 14.12, 14.08, 13.99 y 14.00, con una
desviación típica común intragrupo (pooled: SP) de 0,617. El límite de
significación de tablas es t14,0.975=2.145 (ya que SP está estimada con
14 gdl). Calcule el estadístico t (señal/ruido) para todas la
comparaciones respecto a la dosis de 0 mgr y responda qué dosis son
distintas de la de 0mg/Kg bajo el principio de pruebas cerradas bajo
intersección.

1.8. Pruebas fisherianas y métodos de remuestreo*

Fisher dijo que, si la hipótesis nula fuera cierta, cualquier asignación posible bajo el
esquema de aleatorización tenía una probabilidad cuantificable de ser observada.

Ejemplo 1.13: Si asignamos al azar a los pacientes 1, 2, 3 y 4 a dos


intervenciones T y C de forma que 2 sean asignados a cada una, las 6 posibles
combinaciones TTCC, TCCT, TCTC, CTTC, CTCT y CCTT tienen todas ellas
la misma probabilidad de ser observadas. Como hay 6 combinaciones de 4

elementos tomados de 2 en 2 ( ) entonces cada una tiene

una probabilidad igual a 1/6.

13
Control del riesgo alfa

Ejemplo de R

# La función choose devuelve el número de combinaciones


posibles.
> choose(4,2)
[1] 6

Ejercicio 1.11
¿Cuántas asignaciones posibles hay si queremos repartir 8 pacientes
en dos grupos de forma equilibrada? ¿Qué probabilidad hay de que la
asignación observada haya sido TTTTCCCC?

Ejemplo 1.14: La PAS de los 4 pacientes asignados a C ha sido 150, 147, 143 y
140; y la de los 4 asignados a T 130, 127, 123 y 120. Las medias respectivas son
145 y 125, con una estimación del efecto de 20 mmHg. Bajo la H0 de T=C, este
reparto tiene la misma probabilidad que cualquier otro, es decir, 1/70≈0.01428.
Es decir, la probabilidad de que, por azar, los 4 pacientes asignados a la
intervención T fueran los 4 de presión más baja es sólo de 0.01428. Cualquier
otra asignación resultaría en una estimación menor del efecto. Por ello, si
ordenamos todas las posibles asignaciones según la magnitud del efecto
observado, vemos que cualquier otra asignación obtendría una estimación del
efecto menor, por lo que el valor de P o “probabilidad de observar un valor
como el observado o más extremo si asumimos cierta H0” es, precisamente,
0.01428. Como es menor que 0.05, se rechaza H0.

Las pruebas fisherianas obtienen (1) todas las posibles asignaciones; (2) el valor de un
estadístico (como el efecto del ejemplo) en todas ellas; y (3) la probabilidad de obtener
un valor igual o más extremo al observado bajo H0.

Nota: En el ejemplo hemos usado la diferencia de medias (efecto) para ordenar las posibles
muestras, pero cualquier estadístico puede ser usado: efecto tipificado o valor del test t de
Student. En lugar de ordenar las diferencias de medias, podríamos ordenar su cociente
señal/ruido (estadístico t); o, incluso, el p valor obtenido en tablas correspondiente a t.

La aplicación del principio fisheriano al reto de multiplicidad consiste en extender el


recuento a todos los valores de p posibles: el p valor fisheriano estima la probabilidad
de que cualquiera de los p valores calculados tenga un valor más extremo que el
observado –asumiendo que son ciertas todas las hipótesis nulas puestas a prueba.

14
Bioestadística para no estadísticos

Recuerde
El p valor ajustado por el método de Fisher proporciona la
probabilidad de obtener un valor más extremo asumiendo que todas
las H0 son ciertas.

Ejercicio 1.12
¿Cuántas asignaciones posibles hay si queremos repartir 30 pacientes
en dos grupos de forma equilibrada? ¿Y si fueran 200? ¿Y 5000?

Si el número de casos crece, los cálculos pueden hacerse pesados, incluso para un
ordenador. Una solución es obtener un número finito de sub-muestras, método conocido
como ‘remuestreo por Bootstrap’.

Nota: Los métodos de remuestreo se basan en los datos originales observados e incluyen, de
forma natural, las relaciones entre las pruebas consideradas, por lo que obvian la necesidad
de simplificar y asumir independencia.

Los métodos combinatorios fisherianos, al cambiar la asignación de los pacientes a las


intervenciones, pero conservar las relaciones entre las variables, evitan la premisa de
independencia entre las variables. Por eso no incurren en sobre ajustes y conservan al
máximo la potencia del estudio. Sin embargo, la imposibilidad de recorrer todas las
posibles asignaciones obliga a recurrir al remuestreo, por lo que diferentes ejecuciones
pueden conducir a diferentes resultados, lo que obliga a especificar con detalle el
método. Aquí no queda más remedio que aconsejar la consulta al estadístico
profesional.

2. Monitorización. EC adaptativos
A diferencia de un estudio ‘de laboratorio’, en un EC la información llega de forma
progresiva, lo que debe permitir mejoras. La Tabla 2.1 muestra algunas de ellas.

Según conozcamos o no la intervención asignada a los participantes, distinguiremos


entre monitorización y análisis interinos.

15
Control del riesgo alfa

2.1. Monitorización

El seguimiento y monitorización de un EC requiere siempre una gestión de calidad que


puede hacerse de forma enmascarada al grupo de tratamiento asignado. Se trata de
observar especialmente: el ritmo de reclutamiento, el nivel de adhesión al protocolo y la
calidad de los datos recogidos. Esta información que llega de forma progresiva invita a
hacer modificaciones al estudio.

Los criterios de inclusión pueden modificarse si: el ritmo de reclutamiento


es bajo (para aumentarlo) o si la muestra es muy heterogénea (para
Criterio de
restringir). En un caso extremo, el tratamiento sería eficaz en un único
elegibilidad
subgrupo, y se podría querer decidir continuar reclutando únicamente en
ese subgrupo

La razón de asignación puede oscilar en función de los beneficios


mostrados por las diversas intervenciones de manera que se asigne con
Aleatorización
mayor probabilidad el tratamiento con más beneficios hasta el momento.
Es más común en ensayos de Fase II donde compiten varios tratamientos.

Cambiar las pautas o las dosis de administración de un fármaco o


Tratamientos
tratamiento en función de los beneficios o eventos adversos.

En los diseños secuenciales se para o continua sin cambiar los objetivos,


Tamaño
pero en otros diseños se puede desear un nuevo tamaño muestral según el
muestral
efecto observado para mantener la potencia nominal.

Otros Para potenciar sinergias o evitar antagonismos.


tratamientos

Si no se alcanza el número de eventos o el de participantes en el tiempo


Tiempos
previsto, puede aumentarse el seguimiento para conservar la potencia.

Eventos Cambios en algunas de las variables respuesta en función de los


principales y resultados. Lo más habitual es pasar de un evento simple (p.ej. muerte) a
secundarios un evento compuesto (p.ej, muerte o accidente cardiovascular grave).

Análisis de Pueden aparecer nuevos métodos que permitan mejorar la información


datos recogida o su análisis.

Objetivos se- En los estudios de no-inferioridad, una vez logrado el objetivo, se puede
gún resultados intentar demostrar la superioridad
Tabla 2.1. Adaptaciones deseables en un estudio

16
Bioestadística para no estadísticos

Nota: El soporte de empresas de investigación por contrato suele ser imprescindible. Las
hay muy buenas y conviene seguir fielmente sus protocolos, pero también ser comedido y
decidir recoger solo aquellas variables esenciales para el éxito del estudio, ya que incluir
variables secundarias puede encarecer innecesariamente el estudio o, lo que es peor,
dificultar o el cumplimiento del protocolo o la recogida de la información esencial.

Ejercicio 2.1
¿Cuáles de las adaptaciones de la tabla 2.1. son el resultado de una
planificación optimista (irreal) y deberían haber sido previstas en el
protocolo?

Ejercicio 2.2
¿Cuáles de las anteriores necesitan desvelar el tratamiento asignado y
cuáles pueden hacerse de forma enmascarada?

Ejercicio 2.3
¿Qué consecuencias no deseadas puede tener romper el
enmascaramiento de los datos pasados?

2.1. Análisis interinos

Se trata de analizar los resultados parciales del estudio para valorar si conviene tomar
decisiones que alteren aspectos esenciales del mismo. Los diseños adaptativos definen
en el protocolo el proceso para tomar estas decisiones. Para evitar que el conocimiento
de estos resultados parciales pueda condicionar el comportamiento futuro de los
investigadores y dificultar la interpretación conjunta de los resultados, conviene crear un
grupo externo de expertos independientes que asesoren al comité ejecutivo.

Ejemplo 2.1: NIH creó un grupo de trabajo que publicó sus guías para la
investigación cráneo-facial y dentista.

La misión del comité externo será analizar la información intermedia de eficacia y


seguridad. Este apartado aborda el análisis formal de eficacia necesario para soportar
estas decisiones.

Ejemplo 2.2: (Extraído de Yun-Fan, 2004) The data and safety monitoring board consisted
of three independent hepatologists, who were not members of the end-points committee, and
an independent statistician. The board protected the ethical interests and safety of the
patients by reviewing interim analyses. The board was empowered to recommend termination

17
Control del riesgo alfa

of the study on the basis of safety concerns or as soon as sufficient evidence indicated that
lamivudine was statistically superior to placebo or that lamivudine did not provide a
significant advantage over placebo. (,,,) the study was terminated at the second interim
analysis, because results had crossed the predefined boundary for showing efficacy .

Recuerde
Un comité independiente del equipo investigador, conocedor del
grupo de intervención asignado, analiza eficacia y seguridad; y decide
sobre la continuidad o no del estudio.

Nota: Este análisis suele centrarse en eficacia, ya que el estudio de seguridad abarca efectos
generalmente imprevistos, lo que impide diseñar el estudio con control de los riesgos
estadísticos. El análisis de seguridad será, por lo general, descriptivo: la simple observación
de eventos no esperados ni deseados puede ser determinante para parar el estudio.

Ejercicio 2.4
¿Cuáles de las siguientes son ciertas? (1) el análisis de la calidad de
los datos y del ritmo de reclutamiento no necesita desvelar el grupo de
intervención; (2) el estudio de la adhesión al protocolo de intervención
suele no necesitar desvelar el grupo de intervención; (3) para poder
ser considerado como adaptativo, el proceso de decisión debe estar
especificado en el protocolo; (4) el análisis intermedio de seguridad
incluye inferencia estadística; (5) un buen protocolo recogerá el
máximo posible de variables con la máxima calidad; (6) Conviene que
las pequeñas oscilaciones aleatorias de eficacia y seguridad
observadas en los análisis intermedios formales no alteren el
comportamiento futuro de los investigadores.

2.2. Diseños adaptativos

Un ensayo clínico adaptativo es aquél que antes de iniciar el estudio planea la


posibilidad de modificar, basándose en análisis intermedios formales, uno o varios
aspectos del diseño –incluso sus hipótesis.

No se consideran diseños adaptativos las enmiendas al protocolo o revisiones no


previstas, sea por hallazgos inesperados o por informaciones de fuentes externas.

18
Bioestadística para no estadísticos

Recuerde
Un diseño adaptativo está previsto: no requiere enmiendas.

Estos análisis deben ser realizados por un comité externo para que las evaluaciones
enmascaradas no puedan introducir sesgo. Los análisis no enmascarados y no planeados
de los datos, que pueden conllevar modificaciones, voluntarias o no, en la conducción
del estudio, añaden incerteza a la interpretación de los resultados.

2.3. Razones para detener un ensayo

La Tabla 2.2 muestra una lista de motivos para detener un ensayo según la información
proceda de monitorización enmascarada, análisis formales interinos o de fuera del
estudio

Información del propio estudio


Información externa
Relacionadas con los
Relacionadas con la ejecución resultados (análisis al estudio
(monitorización enmascarada) interinos)
1. Reclutamiento inadecuado de 1. Evidencia de diferencia 1. Resultados de otros
pacientes. en la eficacia estudios o meta-análisis
2. Insuficiente número de eventos 2. Número o gravedad sobre eficacia o seguridad
que conlleven a baja potencia inaceptable de eventos 2. Información proveniente
3. Seguimiento inadecuado (muchas adversos en uno de los de la práctica clínica
pérdidas, desenmascaramiento grupos 3. Cambios en la práctica
elevado, graves desviaciones, 3. Falta de diferencias que clínica que hacen el
poca adherencia a las haga improbable estudio innecesario
intervenciones,…) demostrar eficacia. 4. Nuevos avances en los
4. Errores en la gestión de datos o tratamientos
pérdida en su calidad 5. Retiro del mercado del
5. Falta de financiación tratamiento en estudio
Tabla 2.2. Posibles motivos para detener un ensayo. Adaptada de Muñoz et al.

Un ensayo clínico, en general, continúa hasta que haya una ventaja significativa de una
de las intervenciones o bien sea poco probable que el estudio pueda demostrar
diferencias. Sin embargo, también existen otras razones basadas en argumentos no
estadísticos, por ejemplo, que el patrocinador vea inviable fabricar el fármaco de
manera adecuada para su producción comercial; o por motivos económicos: falta de
financiación, ausencia de mercado potencial, que la competencia saque al mercado un
fármaco con efectos similares al pretendido…

19
Control del riesgo alfa

Recuerde
Distinga entre parada temprana inesperada e interrupción programada.

Los diseños adaptativos son relativamente recientes y como tales, generan cierto
escepticismo. La Tabla 2.3 resume sus ventajas e inconvenientes conocidos en su corta
historia.

Ventajas Inconvenientes
1. Eficiencia en la obtención de 1. Riesgo de aumento del error tipo I (multiplicidad de
información. análisis). Debe tenerse en cuenta el análisis y discusión.
2. Reducen el tamaño y duración de 2. Estimaciones del efecto sesgadas.
los estudios. 3. Resultados difíciles de evaluar.
3. Permiten incorporar estadios 4. Mayor dificultad de interpretación.
exploratorios en estudios 5. Posibilidad de introducir decisiones subjetivas durante el
confirmatorios. estudio (called operational bias), sobretodo en análisis
4. Mayor probabilidad de alcanzar no enmascarados conllevando sobreestimación de los
los objetivos del estudio. resultados más favorables. El conocimiento de los
5. Mejor comprensión de los efectos grupos de tratamiento o de las diferentes adaptaciones
del tratamiento. del diseño puede influir a los investigadores.
6. La flexibilidad de los estudios 6. Menor tiempo entre estudios para examinar
adaptativos permite la evaluación detenidamente los datos entre fases y poder mejorar el
inicial de un mayor rango de diseño siguiente.
opciones. 7. Las agencias reguladoras del medicamento son todavía
7. Eficiente descarte de opciones reacias a considerar algunos de estos tipos de diseños.
sub-óptimas. 8. En los diseños secuenciales, la interrupción programada
por eficacia podría no aportar suficiente información
sobre seguridad.
Tabla 2.3. Pros y contras de los diseños adaptativos. Adaptada de Muñoz et al.

2.1. Pasar de no inferioridad a superioridad

El objetivo de un estudio es previo a su inicio. Pero podría ser que, una vez
terminado, nos demos cuenta de que podía haber sido más ambicioso.

Ejemplo 2.3: se sospecha que la pauta de la intervención es más larga de lo


necesario. Diseñamos un estudio para demostrar que una intervención más corta
supera a la larga en beneficios, pero al terminar el estudio, vemos que empatan.

20
Bioestadística para no estadísticos

Y decimos: qué lástima, si un empate es suficiente para adoptar una intervención


más breve, deberíamos haber iniciado un estudio de no inferioridad.

Ejercicio 2.5
Las guías desaconsejan cambiar el objetivo de superioridad a no
inferioridad. Repase el punto de sensibilidad en el capítulo 13 y
busque argumentos para este consejo.

Ahora bien, un estudio diseñado para establecer no inferioridad garantiza, por


diseño, su sensibilidad para detectar diferencias. Si luego resulta que la intervención
en estudio no sólo iguala la referencia sino que incluso la mejora, el estudio
demuestra 2 cosas: primero que tenía sensibilidad y segundo, que el tratamiento en
estudio es superior.

Ejercicio 2.6
¿Cuál es la principal conclusión de la discusión de la agencia europea
del medicamento sobre el intercambio de objetivos de no inferioridad
y superioridad

Recuerde
A inicios de 2014, hay 2 ensayos adaptativos bien aceptados: diseños
secuenciales y pasar de no inferioridad a uno más ambicioso de
superioridad.

3. Ensayos clínicos secuenciales


El capítulo 12 mostró que el tamaño muestral de un estudio con tamaño fijo descansa en
parámetros que pueden no ser bien conocidos al inicio del estudio.

Ejemplo 3.1: el efecto  de la intervención o la dispersión  pueden ser


distintos de los asumidos durante el cálculo de la ‘n’.

Historieta: determinar el tamaño muestral es un ejemplo de ciencia-ficción.

21
Control del riesgo alfa

Ejercicio 3.1
El efecto  de la intervención y la dispersión  de la variable
respuesta ¿forman parte de la definición del objetivo y de las hipótesis
o de las premisas? ¿Qué parece más atrevido: actualizar los objetivos
o las premisas?

La información contenida en un ensayo clínico se acumula a lo largo del periodo de


reclutamiento –que puede ser de meses o años. Pero, en algunos casos, con cierto
subgrupo inicial de participantes se podría detener el estudio si el análisis intermedio
evidenciase o bien la eficacia de la intervención o bien la futilidad del estudio.

Definición
El análisis secuencial realiza pruebas de hipótesis por etapas.

Recuerde
Los momentos de los análisis intermedios dependen de la cantidad de
información acumulada (número de pacientes o eventos).

Recuerde
Los criterios de parada están en el protocolo y son estadísticos.

En un punto anterior, se habían visto los posibles motivos para la detención de un


ensayo. En el caso de los secuenciales, no podemos decir que finalicen tempranamente
(aunque a veces se nos escape el uso del término), ya que las posibles paradas están
protocoladas y no son debidas a imprevistos durante el estudio. De hecho, en este tipo
de estudios, el tamaño muestral es un resultado, ya que depende de los análisis
intermedios. Los ensayos secuenciales serán más cortos cuando la eficacia real de la
intervención en las condiciones del estudio más se aleje de lo esperado.

Los motivos formales para detener el estudio en un análisis intermedio pueden ser:
 Por seguridad. Si una de las intervenciones conlleva muchos eventos adversos.
 Por eficacia. Si demuestra eficacia de una de las intervenciones.
 Por futilidad. Si los objetivos no son alcanzables.

22
Bioestadística para no estadísticos

Ejercicio 3.2
Vaya a la página principal del NEJM y busque a través de su buscador
la palabra "interim". Escoja uno de los ensayos clínicos que le retorne
el motor de búsqueda que tenga una antigüedad mayor de seis meses
[libre acceso]

Encuentre en el artículo:
a) ¿Quién se encarga de llevar a cabo los análisis intermedios?
b) ¿Se detuvo el ensayo en un análisis intermedio?
c) Si fue así, ¿cuál fue el motivo de la detección? ¿Cuántos pacientes
habían entrado hasta la fecha y cuál era el número máximo de
pacientes previstos para el ensayo?

3.1. Control del riesgo α. Ajuste por multiplicidad

El principal reto de estos estudios es mantener la probabilidad α de error de tipo I


deseada. Debido a los múltiples análisis intermedios, se debe ajustar. En el control de
multiplicidad visto antes (p. e. Bonferroni), se hacen todas la pruebas sea cual sea el
resultado de las otras, pero ahora sólo pasaremos al análisis siguiente si no se ha parado
el estudio antes.

Ejemplo 3.2: Supóngase un estudio secuencial con 2 análisis (intermedio, I, y


final, F), ambos con un α=0.05. Representamos por el símbolo + a "estudio con
resultado positivo" y por E a "el tratamiento es realmente Efectivo".

Para obtener un resultado positivo + en el final F se tiene que (1) haber pasado
el inicial I sin detectar eficacia (probabilidad de 0.95 bajo H0); y (2) obtener +
en el F (0.05 bajo H0). Entonces el riesgo global αG bajo H0 es:
=P(+|noE) = P(+ en I| noE) + P[+ en F| (- en InoE)]= 0.05 + 0.05·0.95 = 0.0975
Nótese que el riesgo global es de casi el 10%, el doble de lo deseado.

Ejercicio 3.3
Calcule el riesgo global αG suponiendo 3 análisis (2 intermedios, I1 e
I2 y uno final, F), cada uno de ellos con un riesgo α = 0.05

23
Control del riesgo alfa

Existen varias formas para repartir este riesgo. En los ensayos secuenciales, los métodos
más habituales son el de Pocock (asignación de riesgo algo mayor al inicio) ó el de
O'Brien-Flemming (asignación mayor al final). Este último es más recomendable ya que
concentra el riesgo cuando se dispone de mayor información, lo que preserva la
potencia final del estudio.

Además de este enfoque que reparte el riesgo según la función de gasto de α, está la
definición de puntos fronteras (Prueba Triangular) que además pretende poder parar el
estudio si disminuyen las posibilidades de éxito.

3.2. Pruebas de Pocock y O'brien-Flemming

La función de gasto de α proporciona la probabilidad acumulada de error de Tipo I en


función del tamaño muestral recolectado y permite fijar la cantidad de error que se
desea gastar en cada análisis. La característica principal de esta función es que al
finalizar el último análisis, esta función debe valer exactamente α (la significación
deseada).

Su uso es simple, porque permite la realización de los análisis intermedios sin tener en
cuenta las múltiples pruebas, únicamente considerando que habrá unos valores críticos
variables en cada análisis.

Ejemplo 3.3: Supóngase un ensayo clínico con 5 análisis intermedios donde el


análisis principal es una comparación bilateral Z de proporciones. Los puntos
críticos para determinar la eficacia se muestran en la siguiente tabla para las
metodologías de Pocock y O'Brien-Flemming.

Pocock O’Brien-Fleming
Valor Gasto de α α Valor Gasto de α α
crítico acumulado crítico acumulado
1r Análisis 2.41 0.016 0.016 4.23 0.000 0.000
2º análisis 2.41 0.012 0.028 2.89 0.001 0.001
r
3 análisis 2.41 0.009 0.037 2.30 0.007 0.008
4º análisis 2.41 0.007 0.044 1.96 0.017 0.024
5º análisis 2.41 0.006 0.050 1.74 0.026 0.050

24
Bioestadística para no estadísticos

Se rechazará la hipótesis nula en cualquiera de los análisis intermedios si el


valor absoluto del estadístico de la prueba Z, (|Z|), es mayor que el valor de la
tabla anterior.

Nota: En la tabla del ejemplo anterior se asume que el reparto de los participantes es
equitativo entre análisis, es decir, si se han reclutado X pacientes después del primer análisis,
después del segundo se habrán reclutado 2X, después del 3º, 3X y así sucesivamente.

Nota técnica: La función de gasto de Pocock viene dada por la expresión ( ( (


( )
) ) mientras que para O'brien-Flemming, la función es ( ( )) donde t

es el tiempo de realización del análisis estandarizado entre 0 y 1 y Φ es la función de


distribución de la normal estándar.

Ejercicio 3.4
Un médico de familia desea comparar dos tipos de tratamientos para
dejar de fumar: parches de nicotina y Vareniclina. Diseña un estudio
donde el primer análisis intermedio lo realiza con los primeros 20
voluntarios (por grupo) que desean dejar de fumar. Al terminar el
seguimiento, en el grupo de los parches siguen sin fumar 8 de los 20,
por 16 de 20 en el de Vareniclina. Basándose en el estadístico de más
abajo, y según el criterio de Pocock, ¿debe finalizar el estudio?¿Y
según O'Brien-Flemming?

√ ( ) ( )

En R, la función groupseq del paquete GroupSeq permite calcular los límites para un
número determinado de análisis intermedios con una interfaz muy amigable.

Ejemplo de R

# Cálculo de los límites con ‘groupseq’


> install.packages(' GroupSeq')
> library(GroupSeq)
# Se abrirá una interfaz nueva (en caso contrario,
escriba
# groupseq() en la consola)

25
Control del riesgo alfa

# Paso 1: Escoger la opción "Compute Bounds" (Calcular


# Límites) y clicar en "Perform selected Task"

# Paso 2: Escoger el número (k) de análisis intermedios


# deseados sleccionandolos en la parte superior
izquierda.

# Paso 3: Escoger el resto de parámetros: (1) Análisis


equiespaciados; (2) Uni o bilateral; (3) α global; y(4)
Método.

# Paso 4: Obtengan los límites mediante "CALCULATE"

26
Bioestadística para no estadísticos

-1- K=5
Function:O'Brien-Fleming Type, alpha=0.05

4
Standardized Z-Value
3
2
1
0

0.2 0.4 0.6 0.8 1.0


Times

Ejercicio 3.5
Con el paquete GroupSeq, calcule los valores de los límites para un
ensayo con cuatro análisis intermedios equidistantes y con pruebas
unilaterales (α = 0.025) para Pocock y O'Brien-Flemming

3.3. Prueba triangular*

Suponga que sólo desea demostrar que el tratamiento en estudio es superior y no tiene
interés en demostrar que es inferior. A cambio, quiere poder parar el estudio pronto si
disminuyen las posibilidades de alcanzar el objetivo de demostrar eficacia.

La prueba triangular descansa en la razón de verosimilitudes secuencial y calcula en


cada análisis los estadísticos B y V —funciones, respectivamente, de la magnitud del
efecto y de la cantidad de información.

Estos estadísticos se dibujan en un plano junto con los puntos frontera: límites que
indican la finalización del estudio. Estos estadísticos están definidos de forma que sean
independientes entre sí.

Ejemplo 3.4: La Figura 3.1 muestra un estudio secuencial basado en la prueba


triangular con 3 análisis intermedios y uno final.

27
Control del riesgo alfa

Figura 3.1. Estudio secuencial basado en la prueba triangular

Los límites para los estadísticos están representados por dos líneas (roja y lila
punteada) que conjuntamente con el eje de ordenadas forman un triángulo (de
ahí el nombre). Los puntos azules denotan los valores de los estadísticos B y V
en los 3 primeros análisis (ver tabla siguiente).

B V
r
1 análisis 10 40
2º análisis 20 80
r
3 análisis 30 120
El estudio finalizó después del 3r análisis ya que los estadísticos rebasaron la
frontera. Al sobrepasarla por encima, el estudio demostró el beneficio del
tratamiento C respecto a P.

3.3.1. Cálculo de los estadísticos B y V


El cálculo de los estadísticos B y V del test triangular dependen del tipo de respuesta:
1) continua con distribución Normal (p.ej., la PAS);
2) dicotómica (p.ej., presencia de infección después de una intervención quirúrgica); ó
3) tiempo hasta un evento (p.ej., tiempo hasta la muerte en un estudio de supervivencia
al cáncer).

La Tabla 3.1 muestra el cálculo de los estadísticos según la respuesta.

28
Bioestadística para no estadísticos

Tipo de respuesta

Tiempo hasta
Normal Dicotómica un evento

C E Total C E Total

Media Éxito SiC SiE Si


Datos HR: Hazard Rate
Variancia Fracaso FiC FiE Fi
necesarios Ratio
Tamaño niC niE ni

PC= SiC / niC PE= SiE / niE

( )
Efecto (θ) { } θ = Ln(HR)
( )

⁄ Bi = estadístico
Bi { } { ( )}
LogRank

Vi ≈ #events / 4

Tabla 3.1. Calculo de los estadísticos en el test triangular

3.3.2. Reglas de decisión


Cada análisis intermedio valora si el estadístico supera la frontera para tomar la
decisión.

En el primer análisis intermedio, por ejemplo…


- Se concluye que E es más eficaz que C si B1 U1√V1
- Se concluye que no se podría demostrar que E sea más eficaz que C si B1 L1√V1
- Se continua el estudio si B1  (L1√V1, U1√V1)

En el último análisis (K-ésimo), sólo existen dos opciones:


- Se concluye que E es más eficaz que C si BkUk√Vk
- No hay evidencia que E sea más eficaz que C si BkUk√Vk

El diseño de ensayos secuenciales debe calcular V (que determinará en qué momento se


“mira” el ensayo) y los límites Li, Ui de Bi para cada parada.

3.3.3. Caso de diseño con 2 análisis


Para poder definir los criterios de parada, se tienen 5 parámetros desconocidos: L1, U1,
U2, V1, V2. Para hallar el valor de estos 5 parámetros se necesitan 5 ecuaciones o, dicho
de otra manera, 5 restricciones. Sin embargo sólo hay 2; las correspondientes a la
imposición de los riesgos α y β. Se deben añadir 3 restricciones adicionales para poder
hallar el valor de todos los parámetros. Algunas restricciones razonables son:

29
Control del riesgo alfa

1) V2 = r·V1. Siendo r = 2 si el tamaño del análisis final es el doble del análisis


intermedio
2) L1 =c·U1. Siendo c = -1 si se utiliza una regla simétrica (misma probabilidad de
demostrar eficacia de un tratamiento u otro) o c = 0 si se para por futilidad – es
improbable encontrar evidencia de que E > C en análisis posteriores.
3) U2=d·U1. Siendo d = 1 ó d = min(V2) ó d = min(E[V*|θ0]) ó d = min(E[V*|θA])

En diseños con más paradas hay que ampliar el número de restricciones adicionales.

Ejercicio 3.6
Ojee el artículo de Bolland et al. sobre el análisis de un diseño
secuencial aplicado al estudio ICTUS y conteste las siguientes
cuestiones:

a) [Primer párrafo en pág. 140]. ¿Cuál era la potencia y el valor de α


para este estudio?

b) [Primer párrafo en pág. 141]. ¿Cuál hubiese sido el tamaño


muestral del estudio si se hubiese realizado con un tamaño fijo?

c) [Penúltimo párrafo, pág. 141]. ¿Cuántos análisis intermedios se


planearon? ¿Con cuántos pacientes?

d) [Penúltimo párrafo, pág. 141]. ¿Cuáles fueron los límites críticos


superiores e inferiores en estos análisis?

e) [Primer párrafo, pág. 142]. ¿Cuál era el riesgo α acumulado en


cada análisis?

f) Compare los anteriores riesgos con los asumidos con el método de


O'brien-Flemming en las mismas características usando la función
groupseq. [Nota dado que los tiempos no son equidistantes,
contando que en el primer análisis hay más pacientes, estos se han
de especificar como proporcionales al tamaño pero en escala de 0
a 1: 0.385 (1000), 0.590 (1533), 0.795 (2067), 1 (2600)]

30
Bioestadística para no estadísticos

g) [Penúltimo párrafo, pág. 142] ¿Cuál seria la probabilidad de llegar


al último análisis (n = 2600) si no hubiera efecto del tratamiento?

3.4. Controversia sobre los diseños secuenciales*

Se ha afirmado que un interés de los estudios secuenciales es parar el estudio


tempranamente para que el promotor pueda ahorrarse los costes de introducir más
pacientes. Sin discutir si este objetivo es o no lícito, hay que resaltar que parar en el
momento adecuado permitirá emplear la mejor opción terapéutica en un mayor número
de pacientes. Así, si aceptamos este último objetivo, la discusión técnica debe ser si el
diseño secuencial (1) controla adecuadamente los riesgos de decisiones erróneas; y (2)
la estimación del efecto que proporciona es insesgada.

La estimación del efecto del tratamiento en los ensayos que finalizan de forma temprana
mostrando beneficio de alguna de las intervenciones, está sesgada en el sentido de que
magnifica el efecto de la intervención.

Lectura: Bassler et al comparan las estimaciones de estudios que han finalizado


tempranamente con estudios similares de muestra fija o que hubiesen completado todos los
análisis posibles:
"Study Selection: Selected studies were RCTs reported as having stopped early for benefit
and matching nontruncated RCTs from systematic reviews" (…) "Truncated RCTs were
associated with greater effect sizes than RCTs not stopped early".
Nótese que el diseño es muy discutible ya que comparan estudios significativos finalizados
tempranamente con todos los estudios (significativos o no) que hicieron un único análisis
final.

La Figura 3.2 proporciona una explicación no formal de este sesgo. El gráfico de la


izquierda parte de la hipótesis de ausencia de efecto del tratamiento representado por un
punto azul. Los puntos negros representan una simulación de los efectos de 100 estudios
que se hubiesen hallado en los 2 análisis intermedios y en el final. Las líneas rojas
discontinuas marcan el límite a partir del cual se pararía el estudio y las líneas verdes
representan el efecto esperado para los estudios que finalizan en un determinado
instante.

31
Control del riesgo alfa

Sin efecto del tratamiento Con efecto del tratamiento

^
1U ^
1U
^ ^
2U 2U
^

^
^
2L
^ ^
2L 1L
^
1L

Valor real 1º 2º Final Valor real 1º 2º Final

Análisis Análisis

Figura 3.2. Sesgo en función del tamaño del estudio

Obsérvese, por ejemplo, que para el primer análisis, el promedio de los 100 efectos
coincide con el valor real, pero si nos centramos únicamente en los resultados
significativos de la parte superior, su promedio es muy superior al valor real. Esta es la
explicación del sesgo. El valor esperado del efecto en el primer análisis intermedio
coincide con el valor real del efecto, pero el valor esperado del efecto en el primer
análisis condicionado a que se ha parado por eficacia, no coincide en absoluto.

Desgraciadamente, Stephen Senn explica que este sesgo aplica de forma más genérica a
todo tipo de ensayos. Un diseño insesgado es aquel en el que el promedio de todos los
resultados posibles coincide con el valor del auténtico parámetro de interés. Pero eso no
implica que el promedio de todos los parámetros coincida con la estimación obtenida.
Posiblemente, se trata de una versión moderna del problema de regresión a la media.

32
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1 Desgraciadamente, en muchos EC la respuesta es que sí, que puede pasar. Pero si es un pivote del
que dependen acciones posteriores, el criterio para tomar la decisión debe estar perfectamente
definido en el protocolo, así como los métodos para controlar los riesgos estadísticos.

1.2 Sí. Por ejemplo, una variable podría ser principal, concentrando los riesgos, y la otra secundaria, con
valor para ratificar que, si los resultados se solapan razonablemente, un análisis de sensibilidad de las
conclusiones a las elecciones del diseño confirma que otras elecciones llevan a conclusiones
similares. También, haber especificado ambas como principales y que era preciso que ambas debían
ser significativas. Pero si hubieran dicho que el resultado sería positivo si cualquiera fuera positiva,
entonces, habría que ajustar –y perder la significación.

1.3 La correcta es la b: “Sensitivity analyses are useful to investigate whether or not the main results are
consistent with those obtained with alternative analysis strategies or assumptions”. Si encuentra en
las guías algo que apoye la afirmación ‘a’, les rogamos que nos informe.

1.4 Menciona todas ellas como premisas en las que descansa un estudio observacional. Un buen análisis
de sensibilidad debería descartar que las conclusiones dependan de alguna de ellas.

1.5 0.05/10=0.005. Al menos una prueba debería ser significativa al 0.5% para que el estudio fuera
positivo.

1.6 1-(1-0,05)0.1 = 0.0051162.

b) Sí, al pedir un riesgo más pequeño, las probabilidades de alcanzar resultados positivos
disminuyen: se pierde potencia.

1.7 Siguiendo el proceso, al poner a prueba H03, debe controlar que hasta k=3 hipótesis nulas podrían ser
ciertas, por lo que , se rechaza H03. Pero al poner a prueba H04
, nada se opone a aceptar H04 y se para el proceso. En resumen,
rechazamos las 3 primeras y aceptamos las 2 últimas.

1.8 Siguiendo el proceso de Hockberg, al poner a prueba el tercero hay que tener en cuenta que 3 podrían
ser simultáneamente ciertos, por lo que , se rechaza y se
para el proceso, llegando a la misma conclusión anterior.

1.9 Las pruebas de Bonferroni y Sidak ajustan por 5 posibles hipótesis nulas siempre, pero los otros 2
solo por las que quedan por rechazar (Holm) o las ya no rechazadas (Hochberg), 3 en ambos casos:
0.014*3≈0.041.

1.10
(a) Ajuste por Bonferroni:
Al poner a prueba las diferentes hipótesis, se considera un :
Observamos que todos los P valores obtenidos, excepto el obtenido para HDL, son mayores que el
nivel de significación individual ajustado, por consiguiente, se rechaza la hipótesis nula de HDL y
se aceptan el resto.

33
Control del riesgo alfa

(b) Ajuste por Sidak:


Al poner a prueba las diferentes hipótesis, se considera un ( ) ( ) .
Mismas conclusiones que con el método de Bonferroni.
(c) Método de Holm (+Bonferoni):
Ponemos a prueba las diferentes pruebas de hipótesis en orden creciente, según el valor de P:
Al poner a prueba la variable HDL, hay que tener en cuenta que hasta k=7 hipótesis nulas podrían
ser ciertas, por lo que , se rechaza.
Al poner a prueba la variable T, hay que tener en cuenta que hasta k=6 hipótesis nulas podrían ser
ciertas, por lo que , se acepta.
Al aceptar la variable T, y teniendo que el resto de variables tienen un P valor superior, se aceptan el
resto de hipótesis nulas.
(d) Método de Hochberg (+ Bonferroni):
Ponemos a prueba las diferentes pruebas de hipótesis en orden descendiente, según el valor del P
valor:
La primera variable que ponemos a prueba es FC, con un P valor claramente superior a 0.05, se
acepta.
Al poner a prueba la variable LDL, se tiene que tener en cuenta que podrían haber 2
simultáneamente ciertas, , se acepta.
La siguiente en ponerse a prueba es CT, con un , se acepta.
La variable PAS es la primera variable en ser rechazada, ya que .
Por consiguiente, también se rechazan las hipótesis nulas referidas a las variables PAD, HDL y T, al
tener un p valor inferior al de la variable PAS.

Ejercicio reto. Como todas las comparaciones son entre el grupo 0 con 3 casos y los 3 casos del otro
grupo, el error típico es: 0.617*raíz(2/3)≈0.504, por lo que los 6 t-test valen -0.040, -0,119, 2.461, 2.382,
2.203 y 2.223. Empezamos por poner a prueba la dosis de 6 g y sólo seguimos si fuera significativa (para
proteger el global): Rechazamos todas excepto las de 1 y 2 g.

1.11 Se quieren asignar 8 pacientes en dos grupos de 4 pacientes cada uno.


> choose(8,4)
[1] 70
Hay 70 combinaciones de 8 pacientes tomados de 4 en 4.
La probabilidad que la combinación elegida haya sido TTTTCCCC es de 1/70=0.01428.
1.12 Si se quieren asignar 30 pacientes en dos grupos de 15 cada uno:
> choose(30,15)
[1] 155117520
Con sólo 30 pacientes, deberíamos calcular el resultados para más de 150 millones de posibles
asignaciones. Un buen reto, accesible sólo para buenos ordenadores bien programados.
Si se quieren asignar 200 pacientes en dos grupos de 100 cada uno:
> choose(200,100)

34
Bioestadística para no estadísticos

[1] 9.054851e+58
Con 200 pacientes, el resultado tiene casi 60 cifras antes del punto decimal. Un reto incluso para el
Mare Nostrum de la UPC.
Y, si se quieren asignar 5000 pacientes en dos grupos de 2500:
> choose(5000,2500)
[1] Inf
Observe como el número de combinaciones posibles es tan alto que R da cómo respuesta infinito.
2.1. Los puntos que deberían de haberse previsto de forma más efectiva en el protocolo son, por lo
menos:
(1) El criterio de elegibilidad. El objetivo de añadir criterios de elegibilidad es definir una muestra
en el que el efecto de la intervención sea homogéneo. A los investigadores les gusta añadir
muchos criterios de entrada y esto provoca que se disponga de pocos pacientes.
(2) El tiempo de recolección de los datos.
(3) Los eventos primarios y secundarios.
2.2. Los procesos en los que es necesario desvelar el tratamiento asignado son:
(1) Proceso de aleatorización
(2) Regímenes de tratamientos
(3) Tamaño muestral
(4) Introducción de tratamientos concomitantes
2.3. El conocimiento de la intervención a realizar puede influir en la actitud del responsable de
administrar el tratamiento, del sujeto experimental que recibe la intervención o del analista que
procesa la información resultante de la intervención. Este fenómeno puede llevar al error sistemático
o sesgo.

2.4. Son ciertas todas excepto la (4) y la (5). La (4) porque el análisis intermedio de seguridad no
requiere realizar inferencia y la (5) porque es una barbaridad.

2.5. Como los estudios de superioridad si salen positivos no necesitan probar la sensibilidad del estudio
(capacidad para demostrar que, caso de que hubieran diferencias, el estudio hubiera podido
establecerlas), al diseñarlos no se deja establecida su sensibilidad. Por tanto, si un estudio no logra
demostrar superioridad, no puede argumentarse que podría establecer equivalencia o no inferioridad
al no poder garantizar su sensibilidad.

2.6. Que la interpretación del IC no conlleva tantas dificultades.

3.1 define la hipótesis alternativa y forma parte, por tanto, de los objetivos del estudio; pero , de las
premisas. Por supuesto, cambiar los objetivos del estudio es mucho más comprometido.

3.2 a) Normalmente el análisis lo realiza un comité independiente


b) El ensayo puede haber finalizado antes o no de lo previsto
c) El motivo para la finalización del ensayo puede ser eficacia, futilidad o seguridad. Observe el
porcentaje de participantes que se ahorraron por hacer un diseño secuencial.

35
Control del riesgo alfa

3.3 αG = P(+|noE) = P(+ en I1| noE) + P(+ en I2| noE) + P(+ en F| noE) = 0.05 + 0.95·0.05 +
0.95·0.95·0.05 = 0.143

3.4 p1 = 8/20 = 0.4 ; p2 = 16/20 = 0.8 ; p = (p1 + p2)/2 = 0.6

Z=(0.4 - 0.8)/√0.6·0.4·(1/20+1/20) = -2.58

Con el criterio de Pocock se pararía el estudio ya que |Z| = |-2.58| = 2.58 > 2.41. Con el criterio de
O'Brien-Flemming no se pararía ya que |Z| = |-2.58| = 2.58 < 4.23

3.5 Pocock: 2.36 en todos los análisis; O'Brien: 4.3326, 2.9631, 2.359 y 2.01.

3.6 a) α = 0.05; potencia = 0.80 ; b) n =2421 ; c) 4 análisis con n's = 1000, 1533, 2067 y 2600; d) UL
=25.28 en todos los análisis y LL = -5.83, 4.54, 14.90 y 25.28; e) αi = 0.0006, 0.0046, 0.0136 y
0.025; f) αi = 0.0001, 0.0023, 0.0101 y 0.025; g) 0.0749

36
Tema 15

Revisión sistemática y
meta-análisis

José Antonio González


Erik Cobo y Marta Vilaró

2014
Revisión sistemática y meta-análisis

Revisión sistemática y meta-análisis

Presentación ...................................................................................................................... 3

1. Introducción .................................................................................................................. 4

1.1. Revisión sistemática ............................................................................................... 5

1.2. ¿Revisión sistemática es lo mismo que meta-análisis? .......................................... 8

1.3. Fuentes de información (*) .................................................................................... 8

2. Heterogeneidad ............................................................................................................. 9

2.1. Heterogeneidad frente a variabilidad estadística ................................................. 10

2.2. Heterogeneidad clínica frente a metodológica .................................................... 11

3. Meta-análisis ............................................................................................................... 13

3.1. Recogida de información. Medidas del efecto ..................................................... 13

3.2. Precisión de las medidas del efecto de los estudios ............................................. 14

3.3. Estimación del efecto común ............................................................................... 14

3.3.1. Meta-análisis con R ............................................................................................... 15

3.3.2. El modelo de efectos fijos ..................................................................................... 15

3.3.3. Medidas de heterogeneidad de estudios ................................................................ 18

3.3.4. El modelo de efectos aleatorios ............................................................................ 20

3.3.5. Otras variables, otros análisis (*) .......................................................................... 25

4. Visualizando el meta-análisis...................................................................................... 26

4.1. Forest Plot ............................................................................................................ 26

4.2. Funnel Plot ........................................................................................................... 30

4.3. L’ABBÉ ............................................................................................................... 32

4.4. Covariantes **...................................................................................................... 33

4.5. Análisis de sensibilidad ** ................................................................................... 35

5. Una visión global ........................................................................................................ 35

5.1. PRISMA ............................................................................................................... 35

2
Bioestadística para no estadísticos

5.2. Crítica a las revisiones sistemáticas ..................................................................... 37

5.3. Colaboración Cochrane ........................................................................................ 38

Soluciones ejercicios ....................................................................................................... 42

Presentación
Este capítulo aborda las complejas circunstancias en las que se mueve una revisión sistemática. El
objetivo es que el lector sea consciente sobre todo de las dificultades que implica su realización,
especialmente si suponen una introducción de sesgos en la estimación del efecto de intervenciones
clínicas. Los autores de revisiones sistemáticas publican sus conclusiones y, como todos los autores,
pueden omitir consciente o inconscientemente limitaciones que tienen consecuencias en los
resultados. Otro objetivo del capítulo es que el lector pueda interpretar correctamente la parte
estadística de la revisión, conocida como meta-análisis. Con ayuda de R, contiene también las bases
que permitan ejecutar análisis básicos con datos propios. Finalmente, el capítulo incluye las
necesarias referencias a la declaración PRISMA, de modo que el lector la pueda utilizar como
fundamento para leer críticamente una publicación basada en una revisión sistemática.

Contribuciones: José Antonio González escribió esta versión que ha sido revisada por Erik Cobo y
editada por Marta Vilaró.

3
Revisión sistemática y meta-análisis

1. Introducción
El progreso científico, observado en detalle, no siempre es un proceso lineal. De hecho, ha
evolucionado para ser así, bajo el paradigma teórico-empírico que le obliga a formularse modelos
plausibles, mientras la realidad no sea tozudamente contradictoria. En ocasiones la ciencia hace un
alto para mirar a su alrededor. De esto vamos a hablar en las páginas que siguen. Quien hace una
revisión sistemática decide en un momento dado detener su avance individual para recapitular,
examinando todo el recorrido anterior, y no solo el suyo sino —mucho más importante— el de sus
compañeros de expedición.

En las ciencias de la salud, en especial, lo que revela este examen del statu quo es principalmente la
cantidad de estudios realizados en torno a cierta cuestión, y la variabilidad de los resultados
obtenidos por los investigadores que antecedieron a nuestro explorador. El origen de esta diversidad
es múltiple: aparte de la incertidumbre propia de los participantes escogidos en cada estudio, estos
fueron realizados en condiciones diferentes. El momento, el lugar o lugares, los criterios de
inclusión de pacientes, las formas de administración de las intervenciones o las variables recogidas
para su análisis, todo esto forma parte de la idiosincrasia de un estudio determinado.

Asumir la variabilidad presente como algo constructivo supone tratar de sintetizar la información
disponible. Las preguntas fundamentales a responder son: 1) ¿Podemos encontrar evidencias de que
una intervención es eficaz? Aún más: ¿Podemos aumentar la precisión disponible, y mejorar la
estimación del efecto de la intervención? 2) ¿La dispersión en sí es informativa? ¿Cuáles son las
fuentes de tal heterogeneidad?

Realmente, el contexto es bastante más complejo de lo que parece. La revisión sistemática no es


solo un instrumento del investigador, sino que también es de interés para clínicos, gestores o
administradores. Una revisión sistemática puede utilizarse para la toma de decisiones en la práctica
clínica, o en la política sanitaria. Podría pensarse que es el máximo exponente de la ciencia y que,
por tanto, sus conclusiones deberían ser las más firmes a las que la ciencia puede llegar. En realidad
no es claramente así. Este capítulo expone las características más relevantes de las revisiones
sistemáticas, sus fortalezas y sus puntos débiles, haciendo hincapié en la parte cuantitativa del
mismo, que usted podrá practicar con R utilizando algunos ejemplos reales.

4
Bioestadística para no estadísticos

1.1. Revisión sistemática


Posiblemente, la primera imagen que le viene a la cabeza a un profesional clínico cuando oye la
palabra “meta-análisis” o el término “revisión sistemática” es una elaborada figura como la
siguiente:

Figura 1.1. Gráfico de los resultados obtenidos en un meta-análisis

Y la mayor parte de ellos sabe que se trata de una recopilación de diferentes estudios, compartiendo
un objetivo común. Por ejemplo, la Figura 1.1 busca la determinación de un efecto protector de la
aspirina (o fármacos similares) contra accidentes vasculares. Nuestro propósito en este capítulo es
que el lector conozca los conceptos más importantes asociados al mundo de las revisiones
sistemáticas y sea capaz de elaborar las suyas propias, o bien de interpretar críticamente una
revisión de otros autores.

Veamos primero una definición presente en el Diccionario de gestión sanitaria para médicos:

Definición

Una revisión sistemática es la búsqueda y evaluación crítica de todos los estudios


de investigación que dan respuesta a una misma pregunta, claramente definida,
que se realiza utilizando una metodología sistemática y explícita para identificar,
seleccionar y evaluar críticamente las investigaciones relevantes y para recolectar
y analizar los datos provenientes de los estudios incluidos en la misma.

5
Revisión sistemática y meta-análisis

Encontramos en la Colaboración Cochrane una interesante mención al riesgo de sesgo:

A systematic review attempts to identify, appraise and synthesize all the empirical evidence that
meets pre-specified eligibility criteria to answer a given research question. Researchers conducting
systematic reviews use explicit methods aimed at minimizing bias, in order to produce more reliable
findings that can be used to inform decision making.

La Colaboración Campbell, para educación y ciencias sociales, menciona, como requisitos para
minimizar sesgos:

A systematic review must have: (1) Clear inclusion/ exclusion criteria, (2) An explicit search
strategy, (3) Systematic coding and analysis of included studies; and (4) Meta-analysis (where
possible)

Ejercicio 1.1

Hemos tomado algunos fragmentos tomados de diversos artículos. ¿Puede


relacionar los mismos con alguno de los elementos que las definiciones previas de
revisión sistemática destacan?

a) We conducted a systematic review of the literature examining the association


between nutrient intake, dietary components, and dietary patterns (hereafter
referred to as dietary exposures) and CHD and its related clinical outcomes.

b) Eligible studies were randomized controlled trials (RCTs) and cohort studies
examining the effects of BMC transplantation on cardiovascular outcomes in
patients with IHD.

c) […] were eligible for inclusion in this study: (i) RCTs, (ii) participants with a
clinical diagnosis of AMI, (iii) the intervention consisted of any autologous
BMSCs freshly isolated without restriction by dose or administration route,
(iv) in the comparator arm participants did not receive BMSC (e.g. control
media or plasma), and (v) co-interventions were allowed provided they were
equally applied to each treatment arm. Trials were excluded on the basis of
BMSCs cultured in vitro for longer than 24 h prior to infusion, as this may
result in enrichment of a particular progenitor cell population.

6
Bioestadística para no estadísticos

d) We searched MEDLINE, EMBASE, and CINAHL from inception through June


2006, and the Cochrane Database through issue 1, 2006, to identify relevant
randomized controlled trials (RCTs). We also searched UMI Proquest Digital
Dissertations, ISI Web of Science, and Cambridge Scientific Abstracts. We
used the following search terms: pressure ulcer, pressure sore, decubitus,
bedsore, prevention, prophylactic, reduction, randomized, and clinical trials.

e) We assessed the quality […] as A, B, or C […]. In brief, a grade of A


indicates a high-quality trial that clearly described the population, setting,
interventions, and comparison groups; randomly allocated patients to
alternative treatments; had low dropout rates; and reported intention-to-treat
analysis of outcomes. A grade of B indicates a randomized trial with
incomplete information about methods that might mask important limitations.
A grade of C indicates that the trial had evident flaws, such as improper
randomization, that could introduce significant bias.

f) 19 RCTs (18 papers) in 1650 patients with IBS were identified. […]. There
were 10 RCTs involving 918 patients providing outcomes as a dichotomous
variable. Probiotics were statistically significantly better than placebo (RR of
IBS not improving=0.71; 95% CI 0.57 to 0.88) with a number needed to treat
(NNT)=4 (95% CI 3 to 12.5). There was significant heterogeneity (χ2=28.3,
p=0.001, I2=68%) and possible funnel plot asymmetry.

En resumen, una revisión sistemática es un enfoque alternativo a la clásica revisión narrativa,


basada en el criterio del “experto”, quien utilizaba un criterio subjetivo para seleccionar los estudios
recopilados.

Recuerde

La revisión sistemática dispone de un protocolo para identificar, y evaluar los


estudios, analizar e interpretar los resultados, lo que facilita la transparencia y
reproducibilidad de sus conclusiones.

7
Revisión sistemática y meta-análisis

1.2. ¿Revisión sistemática es lo mismo que meta-análisis?


Que ambos términos suelan hallarse juntos no significa que sean sinónimos (aunque algunas veces
se utiliza uno en vez del otro).

El meta-análisis es solo una parte de una revisión sistemática. Meta-análisis es la técnica estadística
que combina los resultados de estudios individuales para sintetizar sus resultados y dar una
estimación global. El término fue introducido por Glass en 1976, en el campo de la psicología.

Revisión sistemática incluye también al proceso metodológico de búsqueda y localización


protocolizada de toda la información disponible, publicada o no, con relación a la cuestión
planteada sobre la que queremos investigar, así como al criterio de selección de esta información,
valorando y juzgando la calidad de los trabajos encontrados.

Puede darse el caso de una revisión sistemática sin meta-análisis; sin embargo, lo contrario no tiene
lógica. Podemos aplicar la técnica del meta-análisis a un conjunto arbitrario de estudios (aunque
estén centrados en la misma cuestión clínica), pero si no ha habido intención de realizar una
búsqueda exhaustiva, y se han elegido de forma caprichosa, la estimación resultante pierde su valor.

Recuerde

El término “revisión sistemática” hace referencia a todo el proceso, y engloba a la


parte cuantitativa, conocida como “meta-análisis”.

1.3. Fuentes de información (*)


Una vez la pregunta clínica motivo de la revisión se ha formulado con rigor, y determinado la
población objetivo, la intervención, los resultados medidos y las características de los estudios a
analizar, debe recogerse en un protocolo los medios a utilizar para encontrar y seleccionar los
estudios que entrarán en la revisión.

El principal suministrador de referencias es la base de datos bibliográficas especializadas en


medicina: Medline, Embase, Cochrane Library, Pubmed, o Web of Knowledge.

Por supuesto, pueden usarse bases de datos específicas en un tema concreto. Complementariamente,
puede llevarse a cabo un proceso manual, mediante las referencias presentes en los artículos
hallados previamente, o consultando directamente con expertos en el área. La inclusión de la
llamada “literatura gris” (trabajos no publicados o aparecidos en publicaciones de segundo orden,
que los buscadores no suelen sacar a la luz) es importante, ya que contribuye a reducir el sesgo de
publicación.

8
Bioestadística para no estadísticos

Tengamos en cuenta que el proceso de búsqueda idóneo se enfrenta a varios retos: maximizar la
recuperación de literatura relevante y minimizar la recuperación de la irrelevante. Inevitablemente,
debe hallarse un compromiso entre la cantidad y la calidad del material seleccionado en primera
instancia. Construir una fórmula (utilizando lógica booleana) apropiada que emplee los términos
más significativos para escoger un original es una operación delicada, de la que dependen en gran
medida los resultados obtenidos.

Ejemplo 1.1: La declaración PRISMA contiene un ítem, “Búsqueda”, que pide a los
autores: “Presentar la estrategia completa de búsqueda electrónica en, al menos, una base de
datos, incluyendo los límites utilizados, de tal forma que pueda ser reproducible”. Además
de aportar transparencia al estudio, esta propuesta persigue generar una colección de
ejemplos dignos de ser imitados por otros investigadores.

Habitualmente, dos personas realizan la búsqueda de forma independiente, quienes posteriormente


comparan sus resultados y se ponen de acuerdo sobre las discrepancias. Obviamente, la estrategia
definitiva suele producir de forma automática un número grande (aunque manejable) de originales.
La mayoría suele desecharse tras un proceso de cribado que, basado en título y resumen, puede ser
muy rápido o, por el contrario, puede ser muy laborioso y exigir la lectura atenta del trabajo
completo o incluso consultar a los autores. La información recogida (autores, títulos, fuente,
palabras clave, resumen, etc) se guarda y mantiene con la ayuda de software especializado: por
ejemplo, RevMan o Procite.

Recuerde

Una estrategia exhaustiva, protocolizada y transparente de búsqueda es un punto


fuerte de las revisiones sistemáticas.

2. Heterogeneidad
Desde el momento en que se dispone de un número suficiente de estudios se pone de manifiesto que
existe una enorme variabilidad en los resultados. De hecho, cualquier experto en el tema a
investigar conoce de antemano que hay discrepancias notables en los precedentes, ya antes de
iniciar un proceso sistemático.

9
Revisión sistemática y meta-análisis

Recuerde

Existe la variabilidad de resultados entre los estudios.

2.1. Heterogeneidad frente a variabilidad estadística

La variabilidad es consustancial a los estudios clínicos, por las importantes diferencias biológicas
existentes entre los pacientes y participantes en general. Los ensayos clínicos controlados y
aleatorizados combaten este factor, que impide distinguir el efecto de las intervenciones, mediante
un número suficiente de participantes tal que probabilísticamente sea casi seguro que podremos
detectar una diferencia relevante, si es que esta existe. Sin embargo, en este tipo de estudios, los
participantes son seleccionados con los mismos criterios, de manera que a priori la población que
entra en un brazo del estudio es igual que la de otro brazo (suponiendo que no se introducen sesgos
indeseados). Idealmente, entre grupos de tratamiento no hay heterogeneidad: hablamos de
variabilidad sensible al muestreo. Si por azar se hubieran elegido otros individuos los resultados
habrían cambiado en el detalle, y muy probablemente los números generales no se habrían
modificado sustancialmente.

Por supuesto, en muchos ensayos clínicos hay factores diferenciales entre participantes: por
ejemplo, es habitual que en un estudio intervengan centros diversos, a menudo de distintos países (y
continentes). Sin embargo esta diversidad es intencionada, con el fin de poder alcanzar el mayor
grado de generalidad posible.

En cualquier caso, un estudio multicéntrico o internacional está coordinado y dirigido por un


protocolo central. En una recopilación de estudios separados no ha existido tal coordinación, ni los
objetivos estaban compartidos más que de una forma genérica.

Ejemplo 2.2: Intervenciones para el dolor en la región lumbar. Este trabajo del año 2009
obtuvo material organizado según 8 técnicas distintas: In total 83 randomized controlled
trials met the inclusion criteria: exercise therapy (n = 37), back school (n = 5), TENS (n =
6), low level laser therapy (n = 3), behavioural treatment (n = 21), patient education (n =
1), traction (n = 1), and multidisciplinary treatment (n = 6). En vez de combinar todos los
estudios de una vez, el análisis se ha efectuado por separado según cada una de las técnicas.

De todos modos, aunque mezcláramos todos los estudios hallados y obtuviéramos un resultado
conjunto, ¿sería de alguna utilidad? ¿Cómo se interpretaría? Cuando tenemos intervenciones muy
diferentes, combinarlas no tiene sentido desde el punto de vista clínico.

10
Bioestadística para no estadísticos

En la literatura se diferencia entre heterogeneidad clínica (por ejemplo, diferencias entre pacientes,
intervenciones, respuestas, etc.), y heterogeneidad metodológica (relacionada por ejemplo con el
diseño del estudio, o el origen de determinado sesgo). La heterogeneidad estadística hace referencia
a la variabilidad de las estimaciones de los efectos del tratamiento estimados en los diferentes
estudios, y en gran medida tiene su origen en la heterogeneidad metodológica y clínica. Por
ejemplo: los ensayos clínicos que no realizan de forma adecuada la ocultación de la asignación a los
grupos de tratamiento son propensos a sobreestimar el efecto de la intervención.

La heterogeneidad clínica aparece cuando esta variabilidad del efecto está ligada a un factor,
característica o condición del paciente. Sin embargo, una diversidad de estas condiciones no implica
a la fuerza una variación en el efecto del tratamiento. Tampoco la heterogeneidad metodológica
supone necesariamente que exista un efecto del tratamiento variable.

Recuerde

Heterogeneidad refiere a una variabilidad del efecto observado mayor de lo


esperado si solo contáramos con el azar.

2.2. Heterogeneidad clínica frente a metodológica


Una revisión puede considerar que solo tiene sentido incluir estudios de cierta calidad metodológica
(puede ser más tolerante, con un análisis que estratifique por la calidad de los trabajos). De esta
manera espera controlar la variabilidad que está asociada a las carencias de los estudios. Así,
herramientas como la guía PRISMA son de ayuda para reconocer los puntos fuertes y débiles de los
estudios candidatos. Por otro lado, existen propuestas como el sistema GRADE (del grupo Grading
of Recommendations Assessment, Development and Evaluation). El sistema GRADE propone
varios factores para evaluar la confianza en los resultados, de manera que según ciertos elementos
esta confianza puede disminuir o aumentar.

Numerosas revisiones sistemáticas utilizan un sistema simplificado basado en el examen de ciertos


criterios fundamentales, tales como si el original oculta satisfactoriamente o no la asignación del
tratamiento, si el enmascaramiento es eficaz o no, etc. La escala Jadad de 1996 sistematiza el uso de
criterios como estos, dando lugar a una valoración en una escala validada.

Ejercicio 2.1

Localice información que describa cómo se utiliza la escala Jadad.

11
Revisión sistemática y meta-análisis

Se le ha criticado hacer excesivo énfasis en el enmascaramiento, y ninguno sobre la ocultación de la


asignación, que la Colaboración Cochrane señala como fundamental para evitar el riesgo de sesgo
de selección.

Por otro lado, la posición del investigador o del clínico ante la heterogeneidad clínica es algo
diferente. Cuando él o ella observa “Este trabajo presenta divergencias respecto al grueso del estado
del arte”, respecto a la heterogeneidad metodológica, la pregunta que viene a su cabeza será algo
como: “¿será porque contiene deficiencias metodológicas?”. Mientras que respecto a la
heterogeneidad clínica la pregunta sería: “¿será porque hay en él alguna característica de los
participantes que difiere del resto de los trabajos, y está asociada con la respuesta?”.

Una cosa es cuantificar un efecto estimado, incluida su variabilidad, y otra distinta sería poner el
foco en los motivos por los que el efecto es variable. Por supuesto, una revisión sistemática puede
adoptar cualquiera de las dos posiciones, y las dos son válidas. Pero una postura “exploratoria”
tiene mayor aplicación a la toma de decisiones. Un interesante trabajo de Gagnier et al. pone de
relieve que todavía hay un soporte insuficiente para la investigación en temas de heterogeneidad
clínica, al contrario de la de origen metodológico. En su estudio señalan que existe poco consenso al
respecto, aunque recogen una extensa colección de ideas que pueden servir para guiar un proceso
más formal. Apuntamos una síntesis de esas ideas en la Tabla 2.1:

Planificación a priori
Experiencia clínica
Fundamento de las covariantes
Pensar a través de las categorías de las covariantes
Jerarquía de las covariantes
Identificación de covariantes post-hoc
Métodos estadísticos
Fuentes de datos
Interpretación
Tabla 2.1 Síntesis de ideas. Tabla 5 de Gagnier et al.

12
Bioestadística para no estadísticos

3. Meta-análisis

3.1. Recogida de información. Medidas del efecto


Habitualmente no se dispondrá de la información completa de cada participante en un estudio
seleccionado para una revisión sistemática. Los autores se limitan a publicar en la revista una
cantidad suficiente de estadísticos que resumen el comportamiento de las principales variables
medidas. Solo recientemente están apareciendo algunas publicaciones que acompañan el texto del
artículo con una base de datos.

Por supuesto, el tipo de información depende de qué tipo es la variable respuesta, y del análisis
estadístico realizado. Por ejemplo, si la respuesta es dicotómica (curación/no curación, éxitus/no
éxitus) y el estudio compara dos tratamientos A y B, la información puede venir dada de esta forma:
• núm. pacientes recibiendo tratamiento A/B (𝑛𝐴 /𝑛𝐵 )
• para cada grupo, núm. pacientes que ha tenido respuesta positiva (𝑘𝐴 /𝑘𝐵 )

o también de esta otra:


• núm. pacientes en el grupo A/B y que ha tenido respuesta positiva (a / c)
• núm. pacientes en el grupo A/B y que ha tenido respuesta negativa (b / d)

Claramente, 𝑛𝐴 = 𝑎 + 𝑐 y 𝑛𝐵 = 𝑏 + 𝑑. O en forma de cuadro:


Resp. positiva Resp. negativa

Tratamiento A a = kA b nA
Tratamiento B c = kB d nB
Con estos cuatro números (de cualquiera de las dos formas) se dispone de la información esencial
de un estudio, y se puede hallar tanto la estimación puntual del efecto del tratamiento como el
cálculo de la variabilidad del estimador, que permite calcular intervalos de confianza.

Habitualmente, el parámetro de interés es el odds-ratio, o el riesgo relativo, estimado por:

𝑎𝑑
𝑂𝑅 = 𝑏 𝑐

𝑘 /𝑛
RR = 𝑘𝐴/𝑛𝐴
𝐵 𝐵

Ambos casos tienen el 1 como valor neutro: no existen diferencias entre los tratamientos. Sin
embargo, normalmente se toma el logaritmo natural ya que esta transformación logra una
distribución más próxima a la Normal (recordemos que todo estimador presenta incertidumbre por
el azar de la muestra).

13
Revisión sistemática y meta-análisis

3.2. Precisión de las medidas del efecto de los estudios


Las variancias respectivas son (siempre que los números sean relativamente altos):

1 1 1 1
𝑉(ln(𝑂𝑅)) = + + +
𝑎 𝑏 𝑐 𝑑
𝑘 𝑘
�1 − 𝑛𝐴 � �1 − 𝑛𝐵 �
𝐴 𝐵
𝑉(ln(𝑅𝑅)) = +
𝑘𝐴 𝑘𝐵

Si la variable respuesta es una variable cuantitativa (por ejemplo, cambio en el índice de masa
corporal de pacientes obesos), la información que se requiere de cada estudio sería la siguiente:
• núm. pacientes recibiendo tratamiento A/B (𝑛𝐴 /𝑛𝐵 )
• media muestral de la respuesta en cada grupo (𝑚𝐴 /𝑚𝐵 )
• desviación tipo muestral de la respuesta en cada grupo (𝑠𝐴 /𝑠𝐵 )

En este caso, nótese que la simple diferencia de medias (MD) no representa una medida
estandarizada, de manera que pueda decirse que representa una misma magnitud en cada estudio
recopilado: es habitual que los diferentes estudios definan la variable respuesta con criterios
particulares (por ejemplo, la dosis del tratamiento puede cambiar de un estudio a otro). Por esta
razón, en ocasiones se emplea un efecto estandarizado dado por:
(𝑚𝐴 −𝑚𝐵 )
𝑆𝑀𝐷 = , donde s2 es la variancia pooled de ambas muestras:
𝑠

�(𝑛𝐴 − 1)𝑠𝐴2 + (𝑛𝐵 − 1)𝑠𝐵2 �


2
𝑠 =
(𝑛𝐴 + 𝑛𝐵 − 2)
1 1
Para muestras grandes, la variancia de SMD se aproxima por 𝑛 + 𝑛 .
𝐴 𝐵

De esta manera, para los K estudios incluidos en la revisión sistemática, se dispone finalmente de la
siguiente información:
• d1, …, dK, corresponde al estimador del efecto, estandarizado (ln OR, ln RR, SMD, etc.) o
no (MD, etc.)
• v1, …, vK, corresponde a la variancia del estimador dk.

De manera general, la variancia es inversamente proporcional al número de participantes. Los


estudios más grandes suelen estar asociados a menor variabilidad atribuible al muestreo.

3.3. Estimación del efecto común


Esta propiedad es utilizada para construir un método de meta-análisis muy extendido, que nos
permitirá combinar racionalmente los diferentes resultados de los estudios para obtener una
estimación global

14
Bioestadística para no estadísticos

Ejercicio 3.1

En realidad, los estudios con más participantes no siempre son los que tienen más
peso en el meta-análisis. Invéntese unos datos (basándose en la medida que
quiera, sobre una respuesta dicotómica) en los que se observe está situación.

3.3.1. Meta-análisis con R

Antes de abordar la cuestión anterior, introduciremos unas nociones sobre cómo usar R para realizar
un meta-análisis, incluyendo el ajuste de un modelo y las representaciones gráficas más habituales.
Aunque existen varios paquetes diseñados para ello, nos centramos en el package ‘metafor’, uno de
los más completos de entre los disponibles. Para obtener más información acerca de otros paquetes,
consulte la página que CRAN mantiene en su web.

En primer lugar, debe instalar ‘metafor’. En la versión actual (1.9-1) se requiere una versión de R
superior a la 3.0.0, así que actualice su programa R si todavía utiliza una versión 2.X.

En general, usted va a seguir los siguientes pasos:


1. Dispone de los datos de K estudios, a través de medidas resumen de cada grupo de
intervención (por simplicidad, supondremos que cada estudio solo maneja dos grupos: A y
B);
2. A continuación, se derivan las estimaciones de los efectos (dk) con su variancias
correspondientes (vk);
3. Seguidamente, se estima el modelo que se considere oportuno;
4. Por último, se generan los gráficos que permiten examinar y validar si el modelo explica
adecuadamente los datos.

3.3.2. El modelo de efectos fijos

Una posibilidad que permitiría combinar los K resultados sería promediar todos los efectos
calculados, a costa de considerar todos los estudios de la misma importancia. En la estimación
ponderada se sigue el siguiente procedimiento:
• Se halla un peso 𝑤𝑘 para cada estudio, igual a 1�𝑣𝑘 , k=1...K
∑ 𝑤𝑘 𝑑𝑘
• Se obtiene la estimación global puntual: 𝐷 = �∑ 𝑤
𝑘

• Se calcula la variancia del estimador global: 𝑉(𝐷) = 1�∑ 𝑤


𝑘
• El intervalo 𝐷 ± 1.96�𝑉(𝐷) es un intervalo de confianza al 95% para el efecto de la
intervención A respecto B

Nota: Todos los sumatorios van de k=1…K si no se indica lo contrario.

15
Revisión sistemática y meta-análisis

Nota técnica: �𝑉(𝐷) equivale también al error tipo de la estimación global.

Ejemplo 3.1: La Tabla 3.1 contiene los datos de una revisión sistemática sobre terapias de
rehabilitación en casa para pacientes que han sufrido un ictus. Aparecen solamente seis
estudios asociados con terapias ocupacionales, simplemente a efectos ilustrativos, y para
reducir la heterogeneidad del conjunto (uno de ellos posee el desafortunado nombre de
“Total”, pero solo es un estudio más). Las columnas 'N' se refieren al tamaño de cada grupo
de intervención, y las 'n' a los casos presentados en relación a la variable principal, deterioro
en la capacidad del paciente para llevar a cabo actividades de la vida diaria, o dependencia
para tales actividades, o muerte.

Estudio Tratamiento Control


n N n N OR IC V(d) w
Cardiff 33 55 32 54 1.03 0.48 2.22 0.15 6.56
Nottingham 95 2 42 3 23 0.33 0.05 2.16 0.91 1.10
Nottingham 97 6 53 14 58 0.40 0.14 1.14 0.28 3.54
Nottingham 99 18 90 27 86 0.55 0.27 1.09 0.12 8.10
Glasgow 33 66 41 67 0.63 0.32 1.26 0.12 8.10
Total 106 248 56 123 0.89 0.58 1.38 0.05 20.30
Tabla 3.1 Datos de una revisión sistemática sobre terapias de rehabilitación en casa para pacientes que han sufrido ictus

La suma de los pesos (columna W) es 47.7, y la suma de los productos de W con el


correspondiente logaritmo natural del odds-ratio vale -15.13. El cociente -0.317 es D, una
estimación puntual del logaritmo natural del odds-ratio común, aunque es más comprensible
si tomamos exp(-0.317) = 0.73.

Ejercicio 3.2

Complete el meta-análisis, obteniendo la estimación del efecto (OR) por IC al


95%, e interprete el resultado.

Es muy interesante tener en cuenta que ninguno de los estudios originales había encontrado
evidencias de eficacia de la terapia de rehabilitación.

Veamos qué pasa utilizando R. Primero, habilite el paquete para su uso:

16
Bioestadística para no estadísticos

Ejemplo de R
> library(metafor)
# Este paquete dispone de la función escalc() que permite pasar
de los datos de los estudios (tamaños de cada grupo, medias y
desviaciones tipo, o bien las frecuencias observadas para las
distintas opciones de una respuesta dicotómica) a valores de dk y
vk. Por ejemplo, supongamos que los datos del ejemplo anterior
los cargamos en un data.frame llamado ocupa:
> ocupa = read.table(url("http://www-eio.upc.es/teaching
/best/datos-ejemplos/terapia-ocupa.txt"), header=TRUE)
> dat.ocu <- escalc(measure = "OR", ai = nt, n1i = Nt, ci = nc,
n2i = Nc, data = ocupa, append = TRUE)
# Nótese que se ha especificado que la medida sera un Odds-
Ratio, y que los parámetros ai, n1i, ci y n2i registran las
frecuencias observadas en las correspondientes tablas 2x2. En el
caso del OR y del RR, se adopta la transformación logarítmica.
Otras medidas se explican en detalle en la ayuda de escalc().
Tras esta operación, puede tener lugar el ajuste del modelo:
> res = rma(yi, vi, data = dat.ocu, method='FE')
# yi y vi son las columnas que la función escalc() ha obtenido y
dejado en el data.frame dat.ocu. El parámetro method='FE'indica
que los datos deben ajustarse siguiendo el modelo de efectos
fijos (Fixed Effect).

Ejercicio 3.3

¿Qué obtiene como salida de las funciones escalc() y rma()?

Así, ¿hemos de ver el meta-análisis como una especie de lupa, que permite amplificar efectos
invisibles? Desde luego, en ausencia de heterogeneidad relevante entre los estudios, así funciona.
Tal vez los estudios originales carecían de potencia suficiente para detectar un efecto clínicamente
importante; en este sentido, el meta-análisis ha servido para aglutinar información dispersa y sacarla
a la luz.

Así era considerado el método, cuando aún no se le llamaba por su nombre actual, y era empleado
en los años 30 del siglo XX en investigaciones agrarias. En palabras de Ronald Fisher:

“When a number of quite independent tests of significance have been made, it sometimes
happens that although few or none can be claimed individually significant, the aggregate
gives an impression that the probabilities are, on the whole, lower than would have been
obtained by chance.

17
Revisión sistemática y meta-análisis

It is sometimes desired, taking account only of these probabilities, not of the detailed
composition of the data from which they are derived, which may be of very different kinds,
to obtain a single test of the significance of the aggregate”

Statistical Methods for Research Workers, pp99

Sin embargo, no se deben perder de vista las premisas de las que parte el modelo de efectos fijos,
porque solo si estas se pueden considerar aceptables el resultado es válido. La principal premisa es
que el meta-análisis de efectos fijos realiza una inferencia condicional sobre los K estudios
considerados. Para decirlo de otra forma: no es generalizable a una población diferente de estudios,
es decir, a condiciones diferentes de las contempladas. Desde un punto de vista estadístico
escribiríamos:
• 𝑑𝑘 = 𝜗𝑘 + 𝑒𝑘 , es el efecto estandarizado observado del k-ésimo estudio,
• 𝜗𝑘 es el auténtico (y desconocido) efecto en tal estudio,
• 𝑒𝑘 es una variable aleatoria, con distribución N(0, 𝜎𝑘 ), independiente de otros estudios, que
introduce azar en las observaciones.

Por supuesto, una premisa adicional al obtener el IC es que todos los estudios comparten un mismo
efecto 𝜗. Pero como cualquier otra premisa, esta no es más que una afirmación que se puede poner a
prueba.

3.3.3. Medidas de heterogeneidad de estudios

A continuación se presenta el estadístico Q de Cochran:


𝐾

𝑄 = � 𝑤𝑘 (𝑑𝑘 − 𝐷)2
𝑘=1

En condiciones ideales, es decir, si realmente todos los estudios estiman de forma insesgada un
único efecto 𝜗, Q sigue una distribución de probabilidad 𝜒 2 con K-1 grados de libertad. Esto
significa que las variaciones individuales, ponderadas por la inversa de la variancia de cada estudio,
se pueden atribuir simplemente al azar, mientras no sean muy grandes. Pero si algún o algunos
estudios se separan del valor común de forma notable, esto se traducirá en un valor Q
inaceptablemente grande. Como referencia, pensemos que el valor esperado de una distribución χ2
con K-1 grados de libertad es precisamente K-1.

Conviene prestar atención a este estadístico: como cualquier otro que se utilice para hacer un
contraste de hipótesis, no hay que llevar una conclusión estadística hasta sus últimas consecuencias.
En concreto, suponiendo que la prueba se realiza con un riesgo α que nos permita decidir si

18
Bioestadística para no estadísticos

rechazamos o no la homogeneidad de los efectos, si el valor P es mayor que α ello no supone que el
modelo de efectos fijos es correcto. Esto es especialmente cierto cuando el número de estudios es
escaso: una de las críticas habituales a la prueba de Q es su baja potencia cuando K es pequeño, por
lo que es relativamente fácil no encontrar significación estadística con Q aunque realmente exista
heterogeneidad. De la misma manera, se ha observado que este estadístico posee una potencia
excesiva en presencia de variabilidad negligible cuando estamos frente a un número alto de
estudios. Un inconveniente adicional es que el estadístico Q puede avisarnos de que estamos
enfrente de una situación con heterogeneidad, pero no de informarnos de la magnitud de la misma.

Complementariamente, suele utilizarse el siguiente estadístico:

�𝑄 − (𝐾 − 1)�
𝐼2 = 𝑥100%
𝑄

I2 tomará el valor 0 cuando Q sea menor que K-1. Este estadístico, propuesto por Higgins en 2002,
considera que la heterogeneidad estadística es inevitable, por lo que la prueba pertinente no es ver si
existe heterogeneidad, sino si existe inconsistencia. Al descartar la parte “esperada” de alguna
manera estamos descontando la variabilidad atribuible al muestreo.

Con el valor de I2 no solo tenemos una medida que se puede calificar como “baja”, “media” o
“alta”, sino que es posible disponer de un intervalo de confianza para el grado de heterogeneidad
entre estudios. Una aplicación directa es que si el IC contiene el 0 la homogeneidad no es
descartable.

La mayor ventaja del estadístico I2 es que es fácil de interpretar, pero comparte prácticamente los
mismos problemas de potencia que Q.

Recuerde

Se recomienda no utilizar un procedimiento estadístico para decidir si debe usarse


un modelo de efectos fijos o no: preferiblemente, la elección del modelo debería
hacerse por criterios separados de los propios datos.

19
Revisión sistemática y meta-análisis

Ejemplo 3.2: Utilizando el Ejemplo 3.1 de las terapias ocupacionales, hallaremos el valor
de Q:
Estudio OR w w(d-D)²
Cardiff 1.03 6.56 0.79
Nottingham 95 0.33 1.10 0.67
Nottingham 97 0.40 3.54 1.26
Nottingham 99 0.55 8.10 0.67
Glasgow 0.63 8.10 0.15
Total 0.89 20.30 0.84
Q= 4.396
Tabla 3.2 Datos del Ejemplo 3.1 para ilustrar el cálculo de Q

De este análisis podemos deducir que el grado de heterogeneidad entre los seis estudios ha
de ser escaso, ya que el valor de Q está por debajo de su valor esperado (K-1=5). Con un
poco más de rigor, la probabilidad de que una variable χ2 de 5 grados de libertad sea
observada con un valor superior a 4.3960 es aproximadamente un 50%. Es decir, el nivel de
dispersión entre estudios se corresponde con el esperado para estudios que tratan de estimar
el mismo efecto; las diferencias se pueden atribuir al azar.

En consecuencia, por ser inferior al valor de K-1, el estadístico I2 vale 0%.

Ejemplo de R
# Veamos cómo se puede reconstruir el valor de Q y su valor P,
tal como salen del objeto res.
> names(res)
# Esta instrucción le indica los diversos componentes calculados
por la función rma(): por ejemplo, res$b es la estimación
puntual. Pruebe a hacer lo siguiente:
> W = 1/res$vi
> H = W*(res$yi - res$b)^2
> sum(H)
> 1-pchisq(sum(H), 5)

3.3.4. El modelo de efectos aleatorios

El modelo de efectos fijos, en situaciones reales, es prácticamente una entelequia ya que


difícilmente una recopilación de originales va a hallar solamente estudios que no difieran entre sí de
alguna forma relevante. Con ello no se pretende decir que los meta-análisis que aplican esta técnica
carezcan de fundamento, o mucho menos que no se debería utilizar en ninguna ocasión.

20
Bioestadística para no estadísticos

Sencillamente, se trata de un sensato recordatorio de que no hay que “creerse” a pie juntillas un
modelo, sino utilizarlos porque son útiles. El modelo de efectos fijos puede ser bueno por el
principio de parsimonia: si explica lo que veo y lo hace de forma simple, ¿para qué buscar otro?

Para ilustrar el comentario, veamos el caso de las terapias ocupacionales. Los autores no aprecian
heterogeneidad, pero de hecho había más estudios que investigaban este tipo de terapias en la
revisión sistemática (la tabla de las características de los estudios incluidos hace referencia a dos
más), que no se pudieron utilizar porque no aportaban la información necesaria sobre la respuesta.
No sabemos si el meta-análisis ampliado a todos los estudios hubiera señalado indicios de
heterogeneidad, por no ahondar en la posibilidad de que la búsqueda realizada por los autores
podría haber sido más intensa.

Veamos primero qué es un modelo de efectos aleatorios desde un punto de vista más formal. Esto
puede plantearse con un modelo de las observaciones recogidas. Si el modelo de efectos fijos era:

𝑑𝑘 = 𝜗𝑘 + 𝑒𝑘 ,

ahora supondremos que corresponden a:

𝑑𝑘 = 𝜇 + 𝑢𝑘 + 𝑒𝑘 ,

donde μ es el efecto real promedio y 𝑢𝑘 corresponde a la variación entre-estudios, que sigue una
distribución de probabilidad N(0, τ²).

Recuerde

El objetivo es estimar μ y la variancia τ²; si τ²=0 entonces no hay heterogeneidad.

Un matiz fundamental en el planteamiento del modelo de efectos aleatorios es que proporciona un


marco para realizar inferencia incondicional sobre una población de estudios mayor que el simple
conjunto de K estudios seleccionados, que se entienden como una muestra aleatoria de aquella
población. Tal población hipotética no es solo la de los estudios que se hayan realizado, sino que
contempla además los que se podrían haber hecho y los que se harán en el futuro. La pregunta que
se trata de responder es en realidad: ¿cuánto vale μ? (por supuesto, la pregunta solo se puede
contestar incluyendo un margen de incertidumbre, por ejemplo mediante intervalos de confianza).

Nota: Una tercera posibilidad que aparece a menudo es el modelo con efectos mixtos. Según
este enfoque, el valor observado de los datos de cada estudio depende de un efecto aleatorio y de
una combinación lineal determinista de una o varias covariantes 𝑥𝑘𝑗 :

21
Revisión sistemática y meta-análisis

𝑑𝑘 = 𝛽0 + 𝛽1 𝑥𝑘1 + ⋯ + 𝛽𝑝 𝑥𝑘𝑝 + 𝑒𝑘 ,
La variabilidad 𝑢𝑘 se distribuye como antes, N(0, τ²), pero ahora τ² se interpreta como la
heterogeneidad residual, es decir, la variabilidad entre los verdaderos efectos que no ha quedado
explicada previamente por las covariantes introducidas.

El primer paso en la estimación de los parámetros es estimar la variancia τ². (16) cita varios
métodos, entre ellos uno de los más sencillos de implementar, ya que no requiere un proceso
iterativo ni cálculos complejos. El método de DerSimonian y Laird consiste en hallar:

⎧ ⎫
⎪ Q – (K − 1) ⎪
𝑡 2 = 𝑚𝑎𝑥 0, 2
⎨ ∑ 𝑤 − ∑ 𝑤𝑘� ⎬
⎪ 𝑘 ∑ 𝑤𝑘 ⎪
⎩ ⎭

Una vez tenemos un estimador de τ² se realizará el proceso correspondiente al modelo elegido (de
efectos aleatorios o de efectos mixtos), obteniendo el resto de estimaciones.

En el caso del modelo de efectos aleatorios, el parámetro que falta por estimar es μ, para lo que se
sigue un procedimiento similar al del modelo de efectos fijos:
1
• Se halla un nuevo peso wk* para cada estudio, igual a , k=1...K
(𝑣𝑘 +𝑡 2 )

∑ 𝑤𝑘∗ 𝑑𝑘
• Se obtiene la estimación global puntual: 𝐷 ∗ = �∑ 𝑤 ∗
𝑘

∗ 1
• Se calcula la variancia del estimador global: 𝑉(𝐷 ) = ∑ 𝑤∗
𝑘

• El intervalo 𝐷∗ ± 1.96�𝑉(𝐷∗ ) es un intervalo de confianza al 95% para el efecto


estandarizado promedio de la intervención A respecto B

Ejemplo 3.3: Usaremos una parte de los datos recogidos en un estudio donde se analiza el
efecto de Tacrine, un medicamento para tratar la enfermedad de Alzheimer. La variable
respuesta es el cambio al cabo de doce semanas (ajustando cuando la duración del
tratamiento era distinta) en el componente cognitivo de la escala ADAS. Estos son los
mismos datos que se utilizan en otro estudio para explorar diferentes técnicas basadas en
modelos multinivel o jerárquicos. Los autores justifican que, como medida del efecto, puede
utilizarse en todos los casos la diferencia de medias entre ambos grupos de tratamiento.
Los autores constatan que la diferencia final menos basal da lugar a una variable con
distribución aproximadamente normal, así que la media y la desviación típica son buenos

22
Bioestadística para no estadísticos

descriptores descriptivos. Hacen notar asimismo que la corrección lineal a 12 semanas de


seguimiento es la causa de las notables diferencias de magnitud y dispersión entre estudios
(tal vez no ha sido una premisa acertada).
Utilizamos como medida del efecto a lo largo de los estudios la diferencia de medias, sin
estandarizar (MD). La variancia de esta medida corresponde a la variancia de la diferencia
de dos medias independientes:
𝑣𝑇 𝑣𝑃
𝑉(𝑀𝐷) = +
𝑛𝐴 𝑛𝐵
donde 𝑣𝑇 es la variancia muestral en el grupo de Tacrine, y 𝑣𝑃 en el grupo de placebo. En
primer lugar, se obtienen unos pesos como si fuésemos a ajustar un modelo de efectos fijos:
Estudio Tacrine Placebo
media sd n media sd n MD v w wd w(d-D)²
Davis 2.43 9.94 103 6.47 9.23 111 -4.04
Farlow -0.42 6.20 75 1.71 5.99 76 -2.13
Forette 0.70 8.82 68 3.73 11.40 53 -3.03
Foster -4.50 14.88 40 -3.62 14.69 41 -0.88
Knapp 0.05 2.71 230 1.28 3.08 176 -1.23
13.62 -19.76 5.643
Tabla 3.3 Datos de un estudio real para ilustrar el modelo de efectos aleatorios

Ejercicio 3.4

Complete con R los valores de las columnas que han sido suprimidos de la tabla
del Ejemplo 3.3. El fichero con los datos lo puede leer de este enlace.

La pequeña variabilidad muestral del trabajo de Knapp, junto con su mayor tamaño de muestra,
hacen que este estudio acapare más del 85% del peso total. La primera estimación, por el modelo de
efectos fijos, nos da un cambio promedio global de -1.45 puntos en la escala, con un error estándar
de 0.27. El valor de Q es 5.643, mayor que su promedio de 4, pero no estadísticamente
significativo.

Ejercicio 3.5

¿Cree usted que hay razones que justifican el uso del modelo de efectos
aleatorios?

23
Revisión sistemática y meta-análisis

La Tabla 3.4 muestra algunos cálculos necesarios para la nueva estimación:


Trial
w² w* w* d
Davis 0.34 0.46 -1.84
Farlow 1.03 0.69 -1.47
Forette 0.08 0.25 -0.75
Foster 0.01 0.09 -0.08
Knapp 135.74 1.82 -2.24
137.19 3.30 -6.38
Tabla 3.4 Cálculos necesarios para la nueva estimación

La estimación de la variancia τ² es t²=(5.643 – 4) / (13.62–137.19/13.62) = 0.46. Modificamos las


variancias para cada estudio añadiendo el valor t² y obtenemos los nuevos pesos w*. Obsérvese que
el peso para el estudio de Knapp es ahora aproximadamente del 55%.

Ejercicio 3.6

Complete el ajuste con el modelo de efectos aleatorios: obtenga la nueva


estimación por intervalo de confianza, e interprete el resultado.

Ejemplo de R.
# El ajuste del modelo se efectúa con la función rma() con el
parámetro method=’DL’ (de DerSimonian-Laird; hay varios métodos
alternativos, que pueden consultarse en la ayuda de la función):
> res = rma(yi, vi, data = dat.tac, method='DL')
> summary(res)
Random-Effects Model (k = 5; tau^2 estimator: DL)
logLik deviance AIC BIC
-8.4578 5.9916 20.9157 20.1346
tau^2 (estimated amount of total heterogeneity): 0.4639 (SE =
1.1732)
tau (square root of estimated tau^2 value): 0.6811
I^2 (total heterogeneity / total variability): 29.11%
H^2 (total variability / sampling variability): 1.41
Test for Heterogeneity:
Q(df = 4) = 5.6426, p-val = 0.2275
Model Results:
estimate se zval pval ci.lb ci.ub

24
Bioestadística para no estadísticos

-1.9317 0.5504 -3.5096 0.0004 -3.0105 -0.8529 ***


# Utilizando summary() aparecen algunas estimaciones
adicionales: de algunas no hablaremos ahora, como las medidas de
desajuste del modelo (log-likelihood, etc). El término “tau^2”
designa a la estimación t2, y vemos que además de Q se muestra
también el indicador I2, y el índice H2, otra medida de
heterogeneidad. En la parte inferior, el intervalo de confianza
del efecto de tacrine respecto placebo: un descenso en la media
entre -3.01 y -0.85. Si se hubiera empleado method=’FE’ se
habría ajustado un modelo de efectos fijos, no se habría
considerado la heterogeneidad de los estudios, y el intervalo
sería (-1.98, -0.92).

3.3.5. Otras variables, otros análisis (*)

Hemos ilustrado la técnica con la ayuda del OR y del RR, cuando la respuesta es dicotómica, y con
la diferencia de medias (estandarizada o no) cuando la respuesta es aproximadamente normal, o
simplemente una variable continua (confiemos que el teorema central del límite hará el resto). No
vamos a ser exhaustivos, pero merece la pena mencionar algunas de las otras posibilidades que
pueden darse a la hora de realizar el meta-análisis.

Para respuestas dicotómicas, otro posible indicador es la diferencia de riesgos (RA):

𝑘𝐴 𝑘𝐵
𝑅𝐴 = � � − � �
𝑛𝐴 𝑛𝐵

𝑘 𝑘 𝑘 𝑘
�1 − 𝑛𝐴 � 𝑛𝐴 �1 − 𝑛𝐵 � 𝑛𝐵
𝐴 𝐴 𝐵 𝐵
𝑉(𝑅𝐴) = +
𝑛𝐴 𝑛𝐵

De estas variancias se derivarían los pesos w necesarios para llevar adelante el meta-análisis.
Conviene recordar que una de las ventajas del RA es que de él se deriva inmediatamente el NNT
(número necesario a tratar), uno de los indicadores que refleja mejor la eficiencia de un tratamiento.

Un indicador que recibe mucha atención, en especial en estudios observacionales (muchos de ellos
dentro del ámbito de las ciencias sociales) es el coeficiente de correlación r. Podemos transformar la
correlación r entre dos variables en una variable con distribución aproximadamente Normal:
1 1+𝑟 1
𝑍 = 2 log �1−𝑟�, donde 𝑉(𝑍) = 𝑛−3

En general, si el artículo proporciona para la comparación de grupos un estadístico y el error


estándar de dicho estadístico (que presumiblemente será el estimador de cierto parámetro relevante:
por ejemplo, un HRR en estudios de supervivencia), el estudio puede considerarse para el meta-
análisis. Sin embargo, en muchos casos la información que se da al lector es más pobre, pues lo

25
Revisión sistemática y meta-análisis

único que se aporta es un estadístico y un valor de P. Es verdad que los valores de P contienen
bastante información, y que se pueden agregar entre sí, por ejemplo con el método de Fisher:
𝐾

� −2log(𝑃𝑘 ) → 𝜒𝐾2
𝑘=1

Sin embargo, este método no permite estudiar ni la magnitud ni la dirección de la asociación, y


tampoco es posible analizar la heterogeneidad de los estudios.

4. Visualizando el meta-análisis
Un meta-análisis es un análisis que involucra una cantidad importante de información: K estudios,
cada uno de los cuales supone un cierto número de parámetros relacionados con la respuesta de los
participantes, más las estimaciones que se derivan de estos datos en relación con la medida del
efecto de las intervenciones que, al fin, se agregan para obtener una estimación conjunta. Es normal
que tantos números resulten oscuros para quien desee hacer un estudio y, en cambio, agradezca la
existencia de algunas recomendaciones a la hora de crear representaciones gráficas inteligibles.

4.1. Forest Plot


El gráfico por antonomasia en las revisiones sistemáticas es el llamado Forest Plot. La Figura 4.1
muestra un ejemplo, que aparece en el artículo de Wolfgang Viechtbauer. El autor no ha de
preocuparse por sus derechos de imagen, ya que él mismo ha dejado en el original las instrucciones
necesarias para reproducir el mismo, con la ayuda de R. En este caso, los estudios aportan
información sobre eficacia de la vacuna BCG contra la tuberculosis, mostrando para grupos de
vacunados y no vacunados los casos positivos y negativos.

26
Bioestadística para no estadísticos

Figura 4.1. Forest plot que aparece en el artículo

Ejemplo de R
# La función forest() usa como único argumento el modelo
ajustado por rma(), y dibuja un Forest Plot básico. Como suele
pasar en R, es una función con otros argumentos definibles por
el usuario para adaptar el gráfico a sus necesidades, junto con
otras funciones que añaden otros elementos al área de dibujo,
tales como textos. Este es el código utilizado para generar la
Figura 4.2:
> forest(res, slab = dat.tac$Study, xlim = c(-25, 16), at =
c(-8, -4, 4, 8), ilab = cbind(dat.tac$m1, dat.tac$s1,
dat.tac$m2, dat.tac$s2), ilab.xpos = c(-18,-16,-13,-11), cex =
0.9)
> op <- par(cex = 0.9, font = 2)
> text(c(-18,-16,-13,-11), 7, c("m T", "s T", "m C", "s C"))
> text(c(-17,-12), 8, c("Tacrine", "Control"))
> text(-25, 7, "Study", pos = 4)
> text(16, 7, "Diff. means [95% CI]", pos = 2)
> par(op)

27
Revisión sistemática y meta-análisis

El Forest Plot es propiamente una combinación de tabla y elementos gráficos, y está constituido
generalmente por:
• Una lista de los estudios implicados. A veces están ordenados de alguna forma especial: por
antigüedad, por la magnitud del efecto, o por peso.
• Para cada estudio, y concretamente en cada línea, tenemos datos de identificación, datos
sobre los grupos y la respuesta de los participantes, un segmento que representa el IC del
efecto en ese estudio particular, y valores numéricos del efecto puntual y del mismo IC.
• El IC tiene en el centro un cuadrado lleno de área proporcional al tamaño del estudio. Así
apreciamos mejor los estudios importantes, contrarrestando la impresión que producen los
amplios IC de los estudios pequeños.
• Si el IC sobrepasa los límites establecidos para el eje de la medida del efecto, se dibuja una
punta de flecha para indicar que el IC va más allá.
• En la parte inferior aparece un pequeño rombo lleno, que representa el IC del efecto global
obtenido por el meta-análisis, junto con las estimaciones puntuales y por IC a su derecha.
• Una línea vertical marca la referencia de no-efecto; en este caso, tratándose del riesgo
relativo, sobre el valor 1. Nótese que la escala es una escala logarítmica (1/4 y 4 están a la
misma distancia de 1). La línea facilita la lectura de los IC, para apreciar cuáles son los
estudios significativos.
• A veces también aparece información relativa a la heterogeneidad de los estudios (Q, I2).

La gran ventaja del Forest Plot es por supuesto visual, ya que es inmediato apreciar las tendencias
que puedan existir respecto a la existencia de un cierto efecto y, por otro lado, también se destaca la
posible heterogeneidad entre estudios, ya que los diferentes intervalos de confianza quedarán poco o
nada solapados.

El ejemplo de Tacrine aparece en la Figura 4.2. Aunque no se muestran los tamaños de los grupos,
esta información se deduce del área del cuadro situado en el centro del intervalo de confianza (y
queda claro que el quinto estudio es el más influyente). De todas maneras, con las herramientas de
R, uno puede mostrar en el Forest Plot aquello que considere oportuno.

Otro detalle interesante es que el grado de heterogeneidad (no significativo, pero no despreciable)
de este caso se manifiesta a través de una dispersión notable de las diferentes estimaciones.

28
Bioestadística para no estadísticos

Figura 4.2. Forest plot para el ejemplo de Tacrine

Ejercicio 4.1

La Figura 4.3 muestra el Forest Plot de los datos del estudio sobre terapias
ocupacionales a pacientes con ictus. ¿Qué conclusiones puede extraer de dicho
gráfico? ¿Qué diría de la cuestión de la heterogeneidad de los estudios?

29
Revisión sistemática y meta-análisis

Figura 4.3. Forest plot del estudio sobre terapias ocupacionales a pacientes con ictus

4.2. Funnel Plot


El siguiente gráfico que debería ser tenido en cuenta es el Funnel Plot. Un Funnel Plot representa en
el eje X los efectos observados en los distintos estudios, y en el eje Y alguna medida de precisión de
la variable respuesta, como por ejemplo el error estándar. Si hay un número suficiente de puntos
(estudios), y en ausencia de heterogeneidad y de sesgo de publicación, los puntos deberían adoptar
conjuntamente el aspecto de un embudo, con la parte más ancha correspondiendo a los estudios más
pequeños y menos precisos.

La Figura 4.4 corresponde a un ejemplo que acompaña al paquete metafor, acerca de los riesgos
para la salud de los fumadores pasivos (trabajo de HackShaw publicado en 1998 en Stat Methods
Med Res). Cuando se escudriña un Funnel Plot se intenta determinar visualmente si los estudios se
disponen –en sentido horizontal, ya que la dirección vertical está determinada por el número de
participantes– según la lógica del azar: es decir, ninguna. En ese caso tendremos la expectativa de
tener tantos puntos a la izquierda como a la derecha de la línea central, asociada al efecto común.
Obviamente, no es fácil concluir que esta regla de la simetría se incumple flagrantemente. La
variabilidad inherente a los estudios clínicos perturba la lectura del gráfico, en especial si no hay
demasiados estudios.

30
Bioestadística para no estadísticos

Ejemplo de R
# load ETS data
> data(dat.hackshaw1998)
# fit fixed-effects model
> res <- rma(yi, vi, data=dat.hackshaw1998, measure="OR",
method="FE")
> funnel(res)
0.000
0.184
Standard Error

0.367
0.551
0.735

-1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00

Log Odds Ratio

Figura 4.4. Funnel plot de ejemplo del paquete metafor

¿Qué puede quebrar la lógica del azar? Es decir: ¿qué podría provocar que en ciertas áreas los
estudios tuvieran más tendencia a ir hacia un lado en vez de al otro? Se ha señalado que este efecto
(o sesgo) tiene más propensión a producirse en la parte ancha del gráfico, entre los estudios que
contaron con menos participantes, y que fueron menos costosos. Además, el lado que presenta
carencias no es arbitrario: se trata del lado inesperado, el que está relacionado con efectos
indeseados para el equipo investigador. Por ejemplo, para quienes (para su sorpresa) encuentran que
en su propio estudio el humo de tabaco ambiental no aparece como perjudicial sino que resulta un
factor protector. Un estudio sencillo y con un resultado negativo tiene más posibilidades de ser
publicado solo en revistas de segundo nivel, o de no ser publicado nunca. Este es el denominado
sesgo de publicación.

31
Revisión sistemática y meta-análisis

Recuerde

El sesgo de publicación es consecuencia de una asociación entre la calidad o el


resultado del original y su posterior falta de visibilidad ante la comunidad
científica.

4.3. L’ABBÉ
Para revisiones en las que se comparan dos intervenciones, puede emplearse el gráfico de L’Abbé.
La Figura 4.5 es un ejemplo que utiliza los datos del meta-análisis de la vacuna BCG. En el gráfico
de L’Abbé cada punto es un estudio y se representan los valores de la respuesta en un grupo
respecto al otro. De esta forma, los puntos que se ubican sobre la diagonal representan estudios en
los que el riesgo de infección no difiere entre las dos intervenciones. Cuanto más lejos esté situado
un punto de esta diagonal más marcado es el efecto diferencial (cuando el eje x se utiliza para el
tratamiento experimental y el eje y para la referencia, quedar por debajo de la diagonal significa que
hay ventaja para el nuevo tratamiento). Los estudios se dibujan con un círculo de área proporcional
al tamaño del estudio. La línea punteada paralela a la diagonal indica el efecto global estimado.

Usualmente, los estudios que se dispersan más son los menores, y los reflejados mediante los
círculos más grandes se suelen encontrar más cerca de la línea punteada. En este caso vale la pena
señalar el inmenso estudio MADRAS (el círculo mayor), de 1980: los autores de la revisión
sistemática declaran que los números de las cohortes han sido estimados porque no fueron
divulgados. Esto podría explicar en parte el nulo efecto hallado, aunque se ha visto que otros
factores (por ejemplo, la latitud de la región de estudio) están asociados con la variación del efecto
(ver Figura 4.6).

Ejemplo de R
# load BCG vaccine data
> data(dat.bcg)
# fit random-effects model
> res <- rma(ai=tpos, bi=tneg, ci=cpos, di=cneg, data=dat.bcg,
measure="RR")
> labbe(res, xlim=c(-7,-1),ylim=c(-7,-1))
> pts = c(1/1000,1/200,1/100,1/20,1/10,1/5,0.4)
> axis(3,at=log(pts),lab=pts)
> axis(4,at=log(pts),lab=pts)

32
Bioestadística para no estadísticos

0.001 0.005 0.01 0.05 0.1 0.2 0.4

0.4
-1

0.2
-2

0.1
Log Proportion

0.05
-3
-4

0.005 0.01
-5
-6

0.001
-7

-7 -6 -5 -4 -3 -2 -1

Log Proportion

Figura 4.5. Gráfico de l’Abbé

Precisamente, el siguiente tipo de gráfico que se muestra resulta útil para explorar si determinada
covariante podría influir en el resultado de los diversos estudios. En el eje de la Y se muestra el
efecto para cada estudio, y en el eje de la X la variable que se utiliza como predictor. Los puntos
también son de mayor o menor tamaño en función de la precisión asociada a la estimación del
efecto observado. Adicionalmente, pueden incorporarse otros instrumentos visuales, tales como la
recta de metarregresión o las bandas de confianza.

4.4. Covariantes **
El ejemplo que figura en la Figura 4.6 es de nuevo el de la vacuna de la tuberculosis. La covariante
que se ha utilizado es la latitud absoluta de la región en donde se ha llevado a cabo el estudio. El
resultado que se deduce es que la vacuna parece ser más efectiva a medida que nos separamos del
ecuador. De esta manera se pueden plantear modelos de efectos mixtos, para determinar si la
inclusión de una covariante (también llamadas moderators) puede reducir la heterogeneidad
residual.

33
Revisión sistemática y meta-análisis

Ejemplo de R
> par(mar=c(5,5,1,2))
# predicciones del RR para latitudes absolutas de 0 a 60 grados
> preds <- predict(res, newmods=c(0:60), transf=exp)
# calcular tamaño de puntos según errores tipo
> wi <- 1/sqrt(dat$vi)
> size <- 0.5 + 3.0 * (wi - min(wi))/(max(wi) - min(wi))
> plot(dat$ablat, exp(dat$yi), pch=19, cex=size,
xlab="Absolute Latitude", ylab="Relative Risk",
las=1, bty="l", log="y")
# añadir predicciones y bandas de predicción (IC)
> lines(0:60, preds$pred)
> lines(0:60, preds$ci.lb, lty="dashed")
> lines(0:60, preds$ci.ub, lty="dashed")
# una línea en RR=1 (sin diferencias entre grupos)
> abline(h=1, lty="dotted")

1.6

1.4

1.2

1.0
Relative Risk

0.8

0.6

0.4

0.2

20 30 40 50

Absolute Latitude

Figura 4.6. Asociación de la latitud de la región de estudio con la variación del efecto

34
Bioestadística para no estadísticos

4.5. Análisis de sensibilidad **


La exploración acerca de las fuentes de heterogeneidad entre estudios puede usar varias técnicas.
Un gráfico de la librería metafor genera esta secuencia de 8 medidas diferentes, en donde se
representan en horizontal cada uno de los K estudios. La Figura 4.7 es la aplicación de la función
influence() para los datos de Tacrine. A modo de ejemplo, citaremos el que se titula “QE.del”, que
muestra el estadístico Q resultante del meta-análisis cuando vamos excluyendo de uno en uno cada
estudio. Obsérvese que Q desciende sensiblemente cuando se excluyen el primero (Davis) o el
quinto (Knapp), puesto que son los dos que difieren más entre sí.

Ejemplo de R
> plot(influence(res), layout=c(2,4))

rstudent dffits cook.d cov.r


4

2.0
2

2.0
3
1

1.5

1.0
2

1.0
0

0.5
0.5
-1

0
-1

0.0
-2

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

tau2.del QE.del hat weight


1.2

10 20 30 40 50
5

0.4
0.8

0.2
0.4

3
2
0.0

0.0

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

Figura 4.7. Aplicación de la función influence() para los datos de Tacrine

5. Una visión global


5.1. PRISMA
La declaración PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses)
aparece en 2009, diez años después de otra declaración (QUOROM, QUality Of Reporting Of
Metaanalyses), y con clara vocación de reflejar una realidad que en este periodo de tiempo había
cambiado considerablemente, como se describe en la introducción de este artículo.

35
Revisión sistemática y meta-análisis

Como otras declaraciones, PRISMA se orienta a mejorar la claridad y la transparencia de los


informes publicados como trabajos científicos, cuando se ha seguido la metodología de las
revisiones sistemáticas. La declaración de 2009 incluye 27 recomendaciones (frente a las 18 de
QUOROM), y un diagrama en cuatro fases para describir los registros identificados, filtrados
(screening), elegibles e incluidos. Los autores (clínicos, metodólogos, pero también editores
médicos) manifiestan su voluntad de que las recomendaciones puedan ser aplicables a revisiones
sistemáticas más generales que las que solo emplean ensayos clínicos aleatorizados; aunque
advierten que la inclusión de estudios observacionales o con propósito ligado a prognosis, diagnosis
o etiología (por ejemplo) pueden requerir algunas variaciones.

La lista de 27 recomendaciones está estructurada en siete apartados, de los cuales los más
importantes son el de Métodos y el de Resultados. A lo largo de la lista aparece recurrentemente la
mención a un acrónimo derivado de las palabras Población, Intervenciones, Comparaciones,
Outcomes (respuesta) y Study design (diseño del estudio): PICOS. Estos términos recuerdan a los
investigadores (y también a los lectores) que han de prestar especial atención a lo que se refiera a:
• Los pacientes, es decir, una definición precisa de qué tipo de participantes entran en los
estudios.
• Las intervenciones a las que los participantes son expuestos, en los distintos estudios
incluidos.
• El comparador, o la intervención de referencia para el nuevo tratamiento.
• La variable de respuesta utilizada en cada estudio para medir el cumplimiento del objetivo.
• El tipo de estudio, que no siempre ha de ser un ensayo aleatorizado, sino que dependiendo
de la finalidad de la revisión puede considerar varios tipos de estudios observacionales.

A partir de PRISMA, el término “riesgo de sesgo” se emplea con generalidad para diferenciarse del
más ambiguo “calidad” del estudio, que se venía utilizando anteriormente, dado que el término
“calidad” no necesariamente implica haber puesto todos los medios al alcance para evitar la
posibilidad de un sesgo. Recordemos que en un ensayo clínico aleatorizado hay unos elementos,
tales como la ocultación de la asignación aleatoria o la forma de enmascarar a los agentes de la
intervención, que se consideran esenciales para garantizar la validez interna del estudio: de lo
contrario la posibilidad de un error sistemático destruye la credibilidad del resultado.

Una evaluación rigurosa del riesgo de sesgo también necesita una evaluación a nivel de resultados
(outcome-level), y no solo a nivel de estudios (study-level). Por ejemplo, considerando la fiabilidad
y validez de los datos a partir de los métodos utilizados para su medición en cada estudio particular.
Por supuesto, la declaración PRISMA insiste también en la importancia de los sesgos relacionados

36
Bioestadística para no estadísticos

con la publicación, y se anima a los autores a incorporar estrategias que permitan detectar sesgos de
esta especie, así como investigar su posible relación con el efecto de la intervención y la precisión
de la estimación.

No vamos a repetir aquí la lista de los ítems presentes en la declaración, ni a repetir los argumentos
con que se justifican, ya que aparecen perfectamente expuestos en el trabajo de Liberati, Moher y
colaboradores.

5.2. Crítica a las revisiones sistemáticas


Meta-analyst: One who thinks that if manure is piled high enough it will smell like roses.

(Stephen Senn)

Los meta-análisis han recibido críticas desde bien pronto. Ha sido y es frecuente acusar al meta-
análisis de combinar resultados más o menos homogéneos para producir un efecto “promedio” que
al clínico le resulta de poca utilidad, ya que su interés está más cerca del paciente concreto, para el
cual desea saber cuál es el tratamiento más adecuado. Más allá incluso: como la selección de los
trabajos relacionados con determinado objetivo ni puede ser exhaustiva ni tampoco al azar, entonces
tal “promedio” está expuesto a riesgos de sesgo que pueden llevar a conclusiones dispares.

Las revisiones sistemáticas (vamos a dar por supuesto que se incluye el meta-análisis) son de hecho
estudios observacionales, sujetos a las limitaciones y sesgos potenciales propios de tales métodos.
Aunque el material del que se nutran sean ensayos clínicos aleatorizados, no tienen por qué tener las
mismas virtudes que estos: depende de qué estudios estemos poniendo juntos, de la definición de
“tratamiento” en todos ellos, o los métodos para sintetizar los resultados de variables respuesta
coherentes. En situación ideal, si los estudios de base son perfectamente coherentes entre sí, el
meta-análisis revelará información que tal vez ninguno de los trabajos originales había demostrado.
En la práctica, difícilmente se puede sortear la dificultad de tener que mezclar trabajos de diferente
naturaleza, en distintos contextos, o calidad diversa.

Cuando un método es calificado como “alquimia estadística” (25) hay que suponer que más bien
despierta poca confianza. Un artículo publicado en 2012 sugiere que todavía se considera las
revisiones sistemáticas como investigación secundaria o “no original”. Por lo menos, eso podría
deducirse de su encuesta, que solo el 55% de los editores de revistas médicas de primer nivel
contestaron, aunque el 71% de los que respondieron sí la calificaron como “original”, y la mayoría
de esas revistas publicaron (en 2009) alguna revisión sistemática.

Pero en general se puede ver que la mayor parte de las críticas que se han levantado son
posiblemente atribuibles a las resistencias iniciales, y actualmente no es fácil encontrar nuevos

37
Revisión sistemática y meta-análisis

argumentos en su contra. El libro “Introduction to Meta-Analysis” de Borenstein et al. repasa lo


fundamental de estas críticas. El lector encontrará que, en general, los defectos que se atribuyen a
los meta-análisis y, por extensión, a las revisiones sistemáticas, son más bien fallos en la aplicación
del método, más que problemas inherentes al método en sí. Por ejemplo:
• Un número no puede resumir un campo de investigación (sabemos que hay investigadores
que se centran en la estimación del efecto de la intervención, pero no debe ignorarse la
cuestión de la dispersión presente, especialmente sensible en casos heterogéneos);
• Muchos estudios no salen a la luz, y se produce un sesgo inevitable (en efecto, aunque el
sesgo de publicación no es exclusivo de las revisiones sistemáticas: también se puede dar en
revisiones narrativas e incluso en estudios individuales. Solamente añadir que debe
propiciarse el análisis del posible impacto de este efecto);
• Se ignoran ciertos estudios importantes (suelen repetirlo quienes opinan lo contrario de lo
que el meta-análisis obtiene. Hay que recordar que los criterios para decidir qué estudios son
considerados y cuáles no deben establecerse previamente, y son transparentes);
• Un meta-análisis puede no coincidir con un gran ensayo clínico (se dice que esto ocurre 1 de
cada 3 veces. También podríamos preguntarnos cuántas veces un ensayo clínico discrepa del
siguiente ensayo que aborda la misma cuestión clínica. Pero la argumentación falla
principalmente en torno a lo que se considera “coincidir”, especialmente si se refiere a
conseguir un valor p menor que 0.05. Si hay conflicto, solo puede resolverse con un examen
atento sobre las diferencias que se han presentado).

Recuerde

Algunos de los problemas que se han apuntado en el uso de revisiones


sistemáticas tienen una base real; otros provienen de cierta dificultad
metodológica y de la ligereza de uso de algunos investigadores que aplican
técnicas sin conocerlas suficientemente, algo que puede y debe combatirse con
más didáctica.

5.3. Colaboración Cochrane


No se puede tratar el tema de las revisiones sistemáticas sin mencionar la existencia de la
Colaboración Cochrane (CC). Existe una página en internet que alberga el Centro Cochrane
Iberoamericano (físicamente ubicada en el Hospital de la Santa Creu i Sant Pau de Barcelona), con
amplia información sobre la Colaboración Cochrane y, en concreto, sobre la Red Iberoamericana,
unos 20 países en total. La declaración PRISMA ha adoptado las definiciones CC y,

38
Bioestadística para no estadísticos

recíprocamente, muchos cambios incorporados en PRISMA también se reflejan en el Manual del


revisor Cochrane.

Como menciona en su introducción, “La Colaboración Cochrane es una organización internacional,


independiente y sin ánimo de lucro, establecida en el Reino Unido.”, orientada a promover y
producir la información de alta calidad dedicada a orientar la toma de decisiones en el ámbito de la
salud, una toma de decisiones obviamente basada en la evidencia. Dicha información debe ser
rigurosa, periódicamente actualizada y fácilmente disponible. El instrumento principal para estudiar
los efectos de las intervenciones sanitarias son las revisiones sistemáticas de ensayos clínicos “y
otros estudios confiables”.

El acceso a las revisiones sistemáticas que mantiene la CC es abierto. Puede accederse desde
http://www.bibliotecacochrane.com, o desde http://summaries.cochrane.org para acceder a los
resúmenes gratuitos de un número mayor de estudios. El acceso al estudio completo por esta vía
puede estar limitado a suscriptores.

La política de la CC propone a los autores un modelo muy concreto recogido en un documento


oficial que se revisa frecuentemente: Cochrane Handbook for Systematic Reviews of Interventions.
En él se establece, por ejemplo, que “Cochrane reviews, and protocols for reviews, are prepared in
the Cochrane Collaboration’s Review Manager (RevMan) software and have a uniform format”.

Acerca de RevMan, se trata de un programa de libre distribución, pensado para que los autores de
revisiones según el estilo Cochrane puedan preparar más sencillamente el texto, las tablas, los
gráficos y el propio meta-análisis. Para usuarios registrados, se proporciona también ayuda en su
uso.

RevMan puede funcionar aisladamente, o puede interaccionar con Archie (curiosidad: Archie es el
nombre de pila del médico e investigador Archie Cochrane, que dio un impulso definitivo a la
epidemiología como ciencia). Archie es el repositorio en internet de la CC, que contiene los datos
de las personas involucradas con la Colaboración, y la documentación y revisiones producidas.
Junto con RevMan, componen el IMS (Information Management System, sistema de gestión de la
información) de Cochrane, con el fin de dar soporte a los colaboradores en la tarea de producir
revisiones sistemáticas de calidad que puedan ser diseminadas en la Cochrane Library o en otra
parte.

Un punto muy importante, y que probablemente distingue a estas revisiones de otras destinadas a
ser publicadas en una revista científica, es el interés de la CC por el mantenimiento de las
revisiones. Dentro del Manual Cochrane existe un capítulo dedicado a este aspecto, y dice “La

39
Revisión sistemática y meta-análisis

política de la Colaboración Cochrane es que las revisiones Cochrane de Intervenciones se deben


actualizar a los dos años, o incluir un comentario que explique por qué no se ha hecho;”. Una
actualización puede consistir en la inclusión de nuevos estudios, o cualquier otro cambio (llamados
entonces enmiendas), como por ejemplo (1) un cambio en la metodología; (2) la corrección de un
error de ortografía; (3) volver a escribir la sección de Antecedentes; (4) la inclusión completa de un
estudio que figuraba como “pendiente de clasificación”; o (5) el cambio de conclusiones al
descubrir un error importante de codificación de los datos. Por supuesto, al ser posible que
coexistan varias versiones de una revisión, debe procederse con cuidado para citar la versión
correcta a la que se haga referencia.

Las revisiones Cochrane tienen un formato muy estructurado, tanto para protocolos como para las
revisiones propiamente dichas. A continuación aparece la lista de secciones que definen una
revisión Cochrane (hemos omitido los elementos no obligatorios, la lista completa aparece en el
Manual):
Título*
Información de la revisión:
Autores*
Persona de contacto*
Fechas*
Resumen:
Antecedentes*
Objetivos*
Estrategia de búsqueda*
Extracción y análisis de los datos*
Resultados*
Conclusiones de los autores*
Resumen en términos sencillos:
Título en términos sencillos*
Texto resumido*
La revisión:
Antecedentes*
Objetivos*
Métodos:
Criterios de selección de estudios para esta revisión:
Tipos de estudios*
Tipos de participantes*
Tipos de intervenciones*
Tipos de medidas de desenlace*
Métodos de búsqueda para la identificación de estudios*
Extracción y análisis de los datos*
Resultados:
Descripción de los estudios*
Riesgo de sesgo de los estudios incluidos*
Efecto de las intervenciones*
Discusión*

40
Bioestadística para no estadísticos

Conclusiones de los autores:


Implicaciones para la práctica*
Implicaciones para la investigación*
Sobre el artículo:
Declaraciones de interés *
Tabla 5.1 Recuadro 2.2.b del manual Cochrane de revisiones sistemáticas

41
Revisión sistemática y meta-análisis

Soluciones ejercicios
1.1. Hemos tomado algunos fragmentos tomados de diversos artículos. ¿Puede relacionar los mismos con alguno de los
elementos que todas las definiciones de revisión sistemática destacan?
a) La cuestión clínica
b) Criterios de eligibilidad
c) Otra vez criterios de eligibilidad
d) Estrategia de búsqueda
e) Evaluación de calidad
f) Combinación de resultados (o meta-análisis); suele explicarse extensamente en el cuerpo del artículo, pero el
abstract suele proporcionar un resumen compacto.
2.1. Según Wikipedia, un original se valora según tres preguntas:
1. ¿Se describe el estudio como aleatorizado?
2. ¿Se describe el estudio como doble-ciego?
3. ¿Hay una descripción sobre las retiradas y las pérdidas de participantes?
Por supuesto, cada punto debe estar correctamente justificado en el artículo. Según ello, se consideran premios o
penalizaciones que dan lugar a una valoración entre 0 y 5.

3.1.
Estudio 1 Estudio 2
posit negat posit negat
Trat. 10 200 210 Trat. 40 80 120
Control 5 90 95 Control 30 75 105
El primer estudio incluye 305 participantes, y el segundo 225. Si la medida es el ln(OR), hallamos las variancias de
sendos estimadores, y obtenemos para la tabla del estudio 1 v1 = 0.316 (w1 = 3.16), y para el estudio 2 v2 = 0.0842 (w1 =
11.88). En este caso observamos que la prevalencia en el primer estudio es mucho menor que en el segundo
(independientemente del brazo tratado), algo que clínicamente puede significar que ambos estudios son
consustancialmente heterogéneos, no porque los OR sean muy diferentes (0.9 y 1.25 respectivamente), sino porque hay
motivos para creer que la pregunta o las condiciones clínicas son distintas.

3.2. La estimación por IC al 95% se obtiene según:


1.96 1.96
�−0.317− � �−0.317+ �
�𝑒 √47.7 , 𝑒 √47.7 � = [0.55, 0.97]

Observamos que, de acuerdo con esta estimación, el efecto de la intervención es estadísticamente significativo: la
terapia ocupacional reduce el número de eventos respecto a la terapia control con un odds-ratio de entre 0.55 a 0.97.

3.3.
> dat.ocu
Study nt Nt nc Nc yi vi
1 Cardiff 33 55 32 54 0.0308 0.1525
2 Nottingham-95 2 42 3 23 -1.0986 0.9083
3 Nottingham-97 6 53 14 58 -0.9133 0.2821
4 Nottingham-99 18 90 27 86 -0.6046 0.1234
5 Glasgow 33 66 41 67 -0.4555 0.1235
6 Total 106 248 56 123 -0.1130 0.0493
Lo más importante que se debe resaltar son las dos últimas columnas: yi representa el ln(OR) para cada estudio, lo que
hemos denominado el efecto dk; vi es la variancia de dicha estimación. Por ejemplo, el estudio “Total” puede
describirse con esta tabla:

42
Bioestadística para no estadísticos

positivos negativos
Tratados 106 142 248
Controles 56 67 123
El OR vale 106 67 /(56 142) = 0.8931 (cuyo logaritmo es -0.113047), y la variancia resultante se deriva de:

1/106 + 1/67 + 1/56 + 1/142 = 0.049259


> res
Fixed-Effects Model (k = 6)
Test for Heterogeneity:
Q(df = 5) = 4.3960, p-val = 0.4939
Model Results:
estimate se zval pval ci.lb ci.ub
-0.3171 0.1448 -2.1902 0.0285 -0.6009 -0.0333 *
Podemos identificar los elementos de la última línea: el valor de la estimación puntual D (-0.3171): obsérvese que
corresponde a una estimación del logaritmo del Odds-ratio; “se” equivale a V(D)1/2 (0.1448); “zval” representa la
estimación reducida, es decir, dividiendo por el error tipo (-0.3171/0.1448); “pval” es el valor P de la prueba que
contrasta si el parámetro efecto podría ser 0; y a continuación tenemos los límites del intervalo de confianza al 95% que,
si deshacemos la transformación, se convierten en exp(-0.6)=0.5483 y exp(-0.03)=0.9672.
3.4.
> tacr = read.table(url("http://www-eio.upc.es/teaching/best/datos-
ejemplos/tacrine.txt"), col.names=c('Study','m1','s1','n1','m2','s2','n2'),
header=FALSE)
> dat.tac <- escalc(measure = "MD", m1i = m1, sd1i = s1, n1i = n1, m2i = m2,
sd2i = s2, n2i = n2, data = tacr, append = TRUE)
> W = 1/dat.tac$vi
> w.d = W*dat.tac$yi
> D = sum(w.d)/sum(W)
> H = W*(dat.tac$yi-D)^2
> cbind(dat.tac$vi, W, w.d, H)
W w.d H
[1,] 1.72676186 0.57911865 -2.33963936 3.88171800
[2,] 0.98463991 1.01559970 -2.16322736 0.46820156
[3,] 3.59608135 0.27808047 -0.84258383 0.69330155
[4,] 10.79867951 0.09260392 -0.08149145 0.03019509
[5,] 0.08583087 11.65081986 -14.33050843 0.56915548

Recuerde que R ha calculado las variancias vi, de acuerdo con la medida MD: como suma de variancias de las
respectivas medias: por ejemplo, para el primer estudio:

9.942 9.232
+ = 1.726762
103 111

3.5. Hay buenas razones para adoptar el modelo de efectos aleatorios. Primero, la mención anterior de que se ha
introducido un factor distorsionante en los estudios adaptando las diferentes variables respuesta a un horizonte de
tiempo fijo, como si la progresión fuese lineal. Segundo, no parece prudente que un solo estudio, aunque tenga el 42%
de los participantes, tenga un peso del 85%, y esta desproporción afecta necesariamente a la estimación de Q. Un
modelo de efectos aleatorios redistribuirá los pesos para cada estudio de manera más ecuánime.

43
Revisión sistemática y meta-análisis

3.6. La segunda estimación puntual del efecto de Tacrine es -6.376/3.30 = -1.93, con un error estándar de 0.55 (por
tanto, continua teniendo un efecto significativamente diferente de 0). Un intervalo de confianza al 95% para medir el
posible efecto promedio en el descenso sobre el valor basal de la escala empleada se sitúa entre 0.85 y 3.01 puntos.
4.1. Se ve claramente que, aunque ninguno de los estudios individuales muestra significación estadística (que se
demuestra porque los IC cortan la línea vertical), la compilación final obtenida con el modelo de efectos fijos (FE
Model) no incluye el valor de 1. También es visible que las diferentes estimaciones no difieren mucho entre sí, lo que
justifica que no haya evidencias de heterogeneidad. Si bien otra opinión podría objetar que los IC en realidad se solapan
porque hay mucha variabilidad intra-estudio y, por ello, los intervalos son amplios.

44
MÓDULO 6:
Apartado I

Lectura crítica con CONSORT

Presentada por Alexandre González.


Tutores: Marta Vilaró, Laura Riba y
Héctor Rufino
Artículo: The International Stroke Trial (IST): a randomised trial of aspirin,
subcutaneous heparin, both, or neither among 19 435 patients with acute ischaemic
stroke.

1. Introducción

“The International Stroke Trial” es un ensayo abierto randomizado hasta 14 días del inicio de la
terapia antitrombótica tras la aparición de un accidente vascular cerebral.
El objetivo del ensayo fue proveer de nuevos datos sobre la evidencia y seguridad de la aspirina y la
heparina subcutánea, y las variables resultado primarias fueron la muerte en los primeros 14 días del
accidente vascular cerebral y la dependencia de terceras personas a los 6 meses del evento.
Se incluyeron 19.435 pacientes procedentes de 467 hospitales de 36 países, que fueron randomizados
en las primeras 48 horas del inicio de los síntomas.

El objetivo del presente informe es realizar una breve crítica del contenido del artículo en base a la
normativa y recomendaciones de la guía CONSORT10 de publicación de ensayos clínicos.
En un primer paso, especificamos 3 puntos del estudio que resaltamos por su calidad en la aportación
de la información y su adecuación a la guía CONSORT. Posteriormente, realizamos un apartado
donde especificamos puntos débiles o puntos a mejorar en base a los ítems de la guía antes
mencionada, así como propuestas de mejora de estos puntos en la redacción del contenido del
ensayo.

Finalmente, en una tabla anexa, se presentan de forma detallada los diferentes ítems de la guía
CONSORT10 en base al contenido del artículo a estudio, con la finalidad de detectar su correcta
implementación e identificar los puntos débiles o información a mejorar en la redacción del artículo.

Contribuciones: Basado en la presentación de Alexandre González con LR, MV y HR como tutores,


fue después revisado y mejorado por HR, JAG y EC.

2
2. Puntos fuertes del artículo

Seguidamente comentamos 3 puntos fuertes del artículo en relación a los ítems contenidos en la guía
CONSORT10 de publicación de ensayos clínicos.

1. Ítem 4a. Especifica de forma clara y precisa tanto los criterios de selección como los criterios
de exclusión de los participantes en el ensayo.
Criterios de selección: Paciente con evidencias de haber padecido un accidente
cerebrovascular (independientemente de su severidad) que haya tenido inicio en un tiempo
inferior a las 48 horas previas, que no haya evidencia de hemorragia intracraneal y que no
tenga indicaciones claras o contraindicaciones que no le permitan subministrar heparina
subcutánea o aspirina oral.
Además, en el artículo se especifica que en todos los pacientes se realizará un Scanner
Cerebral con la finalidad de descartar la presencia de hemorragia intracraneal, y por tanto,
comprobar si los pacientes cumplen criterios de inclusión (no evidencia de hemorragia
intracraneal).
Criterios de no inclusión: No se incluyen los pacientes que sólo tienen una pequeña
probabilidad de beneficio o que tienen un alto riesgo de mostrar efectos adversos como la
hipersensibilidad a la aspirina, ulceración péptica activa, sangrado gastrointestinal reciente,
etc.
En conclusión, permite seguir y reproducir de forma bastante precisa la selección de los
pacientes elegidos en el estudio.

2. Ítem 5. El informe presenta con suficiente detalle las intervenciones planeadas y los tiempos
de administración de los fármacos a los diferentes grupos, así como la forma de
administración de estas intervenciones. Por ejemplo, en cuanto a la heparina, se especifica
que la mitad de los pacientes fueron randomizados a recibir heparina subcutáneo no
fraccionada, y se indica la administración /tiempo de las dosis.
Por lo tanto, la información contenida en el artículo permite la replicación de las diferentes
intervenciones.

3. Ítem 6a. En el apartado Events and outcomes se describen y se detallan las dos variables
primarias y las seis variables secundarias. Destacamos las dos variables primarias: mortalidad
de los pacientes a los 14 días del evento, y la dependencia/mortalidad e incompleta
recuperación de los pacientes a los 6 meses del evento.
Todas las variables respuesta son variables dicotómicas (0 o 1) y se especifican los detalles
suficientes para conocer los casos que se incluyen y excluyen para cada una de las variables
(sobre todo las variables secundarias) y cuando se recogen estas variables.
3
3. Puntos débiles

A continuación se especifican 3 puntos débiles a mejorar en el contenido del artículo en relación a


los ítems contenidos en la guía CONSORT10 de publicación de ensayos clínicos. Además, se
realizan recomendaciones para mejorar estos puntos.

1. Ítem 8a. El artículo no menciona el método utilizado para la aleatorización de las


intervenciones a los pacientes. Únicamente se especifica el número de pacientes asignados a
cada grupo. Por ello, consideramos que es un punto débil, puesto que al comentar el diseño
del estudio se debe incluir el tipo de randomización.
Para futuras reproducciones o aplicaciones del estudio, debería de incluir con detalle la
manera de asignar a los diferentes pacientes de forma aleatoria a los diferentes grupos,
además de incluir que se sirvió de un sistema telefónico de aleatorización (Clinical Trial
Service Unit, CTSU).

2. Ítem 19. No se menciona en ningún punto del artículo si ha habido eventos adversos para
cada grupo. Además de mencionarlos, deberían indicarse el tipo de eventos adversos, el
número de pacientes que los presentaron, y el porcentaje respecto a la muestra total.
En futuros artículos relacionados con el ensayo, deberían de especificarse todos los daños o
efectos no intencionados que han aparecido a lo largo del estudio en los diferentes grupos con
el objetivo de poder considerar efectos secundarios o de conocer con más detalle los daños
que se pueden producir.

3. Ítem 24. No se especifica dónde se puede encontrar el protocolo del estudio. Disponer del
protocolo es importante porque pre-especifica los métodos que se querían utilizar en el
ensayo, así como la variable principal, y permite un mejor conocimiento del estudio y una
mayor comprensión en la lectura del artículo del ensayo. Además, no se especifica si hubo
modificaciones del diseño a lo largo del estudio.
De esta manera se puede conocer si ha habido cambios en los métodos o en las variables
respuesta (principales o secundarias) durante el estudio.

4
CONSORT: Checklist of Items To Include When Reporting a Randomized Clinical Trial
Artículo: The
International Stroke Trial (IST): a randomised trial of aspirin,
subcutaneous heparin, both, or neither among 19 435 patients with acute
ischaemic stroke
ESCALA (1) No lo dice o lo dice mal, sospecha de fraude,… (3) regular,… (5) impecable

Aparece que es un estudio aleatorizado en el título


1a 12345 “The International Stroke Trial (IST): a RANDOMISED trial of aspirin, subcutaneous heparin,
both, or neither among 19 435 patients with acute ischaemic stroke”
Title and abstract
Es un abstract bien estructurado y contiene toda la información relevante del estudio
1b 12345
(Background, Methods, Results y Conclusions).

Introducción detallada donde aparece una breve descripción de la enfermedad,


Background 2a 12345
estudios previos y la justificación del estudio.
Introduction

Objetivo principal claramente especificado. Objetivos secundarios también aparecen.


Pero no se mencionan las hipótesis al inicio del estudio.
“The IST was designed to assess the separate and combined effects of subcutaneous heparin
Objectives 2b 1234 5 (in twice daily doses of 5000 IU or 12 500 IU) and of aspirin (300 mg daily). Large numbers of
patients were included in order to provide a reliable estimate of their effects on death and
other major clinical events during the first 14 days after acute ischaemic stroke, and on death
and dependency in activities of daily living at 6 months, as well as any adverse effects on
intracranial haemorrhage and on transfused (or fatal) extracranial bleeds.”

No dedica un espacio al detalle del diseño del ensayo pero se sobreentiende que se
trata de un diseño de estudio prospectivo, aleatorizado, de tratamiento abierto y
respuesta emmascarada. (PROBE). El diseño sí está detallado en el artículo
“International Stroke Trial Database”. Sí se menciona la razón de asignación, tanto
3a 1 2 3 45 para el grupo Heparin como para el grupo Aspirin.
Trial design “Heparin Half of the patients were randomly allocated to receive subcutaneous unfractionated
heparin (one-quarter 5000 IU twice daily [low-dose] and one-quarter 12 500 IU twice daily
[medium-dose]); and half were allocated to “avoid heparin”. Aspirin Using a factorial design,
half of all patients were allocated to 300 mg aspirin daily and half to “avoid aspirin”.”

No se producen cambios importantes en los métodos especificados en el protocolo


3b 12345
después de iniciar el ensayo.

Se detallan bien los criterios de elegibilidad, tanto los criterios de selección como de
no inclusión de los pacientes.
“Eligibility: A patient was eligible if, in the view of the responsible physician, there was
4a 12345 evidence of an acute stroke (irrespective of severity) with onset less than 48 h previously, no
evidence of intracranial haemorrhage, and no clear indications for, or contraindications to,
. Methods

heparin or aspirin. […]


Participants “Exclusions: Possible reasons not to include a patient were either only a small likelihood of
worthwhile benefit […] or a high risk of adverse effects […].

Faltaría información sobre los centros de reclutamiento (localización y naturaleza de


los mismos). Sabemos que son 467 hospitales de 36 países distintos pero no
4b 12345
especifica la procedencia de los pacientes según los grupos de tratamiento
aleatorizados.

En el apartado Planned interventions and their timing especifica las intervenciones


realizadas para cada grupo con suficientes detalles como para su replicación.
“Timing: Patients allocated active treatment (heparin, or aspirin, or both) were to receive the
Interventions 5 12345
first dose(s) immediately after randomization, and treatment was to continue for 14 days or
until prior discharge. At discharge, clinicians were to consider giving all patients long-term
aspirin. All other aspects of treatment were determined by the responsible clinician.”

En el apartado Events and outcomes se definen dos variables principales y 6


variables secundarias, por lo que tanto la variable principal como las secundarias
Outcomes 6a 12345 están claramente identificadas, y se define el tipo de variable (categórica, 0 o 1)
“Protocol-specified primary outcomes: These were: (a) death from any cause within 14 days
and (b) death or dependency (ie, needing help from another person with daily activities) at 6
months.”
6b 1234 5 No se especifican cambios en las variables una vez que el ensayo haya empezado.
Hace referencia a cómo se calculó del tamaño muestral en el protocolo, e incluye
elementos como el número de pacientes mínimo para garantizar que el riesgo de
“such a false negative trial” sea insignificante. Pero no hay referencia a otros
elementos del cálculo del tamaño muestral, como por ejemplo el error de tipo I o la
potencia estadística.
“The protocol considered, as an example, the situation where 10% would die without
treatment and where 15% of those deaths could be avoided by treatment. Even if treatment
7a 12345 really did reduce the risk by 15%, chance could make the observed difference in a trial of 10
Sample size 000 patients not conventionally significant (eg, 440 vs 490 deaths). This chance of failing to
recognise a treatment that really does reduce mortality by 15% did not seem a reasonable risk
to take so the protocol specified that the aim in the IST was “at least 20 000 patients to ensure
that the risk of such a false negative trial is negligible”. A secondary aim of the IST was a
reliable assessment of the safety of early antithrombotic therapy. Since the most important
complication is fatal or disabling haemorrhagic transformation, the study “must have sufficient
statistical power to detect even moderate increases in this rare but often serious event”.”

7b 12345 No se presentan análisis intermedios.

Sequence
8a 1 2 3 4 5 No menciona el método utilizado para generar la secuencia de asignación aleatoria.
generation
8b 1 2 3 4 5 No se indica el tipo de aleatorización.
El mecanismo utilizado para implementar la secuencia de asignación aleatoria ha
Allocation sido vía central telefónica. No se mencionan pasos realizados para ocultar la
concealment 9 1 2 3 4 5 secuencia hasta que se asignan las intervenciones.
mechanism “Patients were entered by telephoning the central randomisation service at the Clinical Trial
Service Unit (CTSU), Oxford, UK.”

La secuencia de asignación aleatoria fue generada y asignada por el servicio de


Implementation 10 12 345
aleatorización de la Unidad de Servicio de los Ensayos Clínicos de Oxford.
“Patients were entered by telephoning the central randomisation service at the Clinical Trial
Service Unit (CTSU), Oxford, UK.”

Menciona que investigadores de la mayoría de los centros participantes fueron


enmascarados a la intervención. Aunque la intervención es conocida por los
pacientes al inicio del estudio, la mayoría no consiguen acordarse al final de los seis
meses de seguimiento, por lo que se consideran blind los pacientes para justificar la
11a 1 2 3 4 5 minimización del sesgo de selección.
Blinding To minimise bias in the assessment of the 6 month outcome the assessors in most countries
were “blind” to treatment allocation. Moreover, the pilot phase of the study indicated that most
patients could not recall their treatment allocation at 6 months, so they too were effectively
“blinded”.

Queda claro implícitamente que se procede de igual manera para todas las
11b 12345
intervenciones.

Se especifican los análisis principales con detalle. En el apartado Statistical methods


se describen los métodos utilizados para comparar los grupos.
12a 12345 “Most comparisons involved simple analyses of total numbers of patients affected.
Proportional reductions were expressed as odds reductions (with 95% CI for main analyses
and 99% CI for subgroup analyses). Absolute differences were calculated as benefits per
1000 patients treated, and were generally given together with their SD.”
Statistical
methods Se especifican los análisis secundarios con detalle. Se menciona como se calculó el
efecto ajustado del tratamiento.
“Estimates of treatment effects adjusted for severity of initial stroke were calculated as follows.
12b 12345 The prognosis was estimated using a model which predicted the probability of death or
dependency at 6 months from data recorded at randomisation. For each stratum of severity
the observed (O) minus expected (E) value and its variance (V) were calculated and these
were summed to give the overall (O_E) and V. The statistic k was defined as 1000(T +
C)/(TC), where T and C are the total numbers of treated and control patients[…].
Results

Bien detallado en la figura 1 del diagrama de flujo de participantes, en la cual se


Participants flow 13a 12 345
muestran los pacientes asignados a cada grupo.

6
13b 1 2 3 4 5 No se especifica de forma clara separando por grupo pérdidas y exclusiones.

En el apartado recruitment and follow-up Se especifica claramente las fechas de


reclutamiento tanto de la fase piloto (Enero 1991-Febrero 1993) como del estudio
14a 12345 principal (Marzo 1993-Mayo 1996). No menciona las fechas de seguimiento.
“In the pilot phase 984 patients were recruited between January, 1991, and February, 1993,3
Recruitment with 18 456 recruited between March, 1993, and May, 1996, in the main trial. 5 were entered
in error, so no data were collected on these patients.”

14b 12345 No se menciona ningún criterio para una finalización imprevista del estudio.

Se presentan de forma correcta en la tabla 1, que indica variables como la edad, el


Baseline data 15 1234 5 sexo, la presión diastólica, etc.

Numbers
analysed
16 12345 Aparecen tablas con el número de participantes analizados (Tablas 2 y 3).

Para las variables principales y las secundarias se dispone de resultados para cada
grupo, la magnitud del efecto y la precisión en gráficos. En la figura 2 se muestran
17a 1 2 34 5 los intervalos de confianza para la reducción en los odds de morir o sufrir
Outcomes and
estimation dependencia a los 6 meses. En el pie se especifica que se construyen con un nivel
de confianza del 99%.

17b 1234 5 Se muestran los tamaños del efecto absoluto y relativo.


Ancillary
analyses
18 12345 Se especifican los resultados de los análisis secundarios realizados.

Harms 19 1 2 3 4 5 No menciona eventos adversos para cada grupo.


Aborda sus posibles fuentes de sesgo e imprecisiones llevadas a cabo durante el
estudio.
Limitations 20 12345 “The chief strengths of this study are the strict randomisation of large numbers with good
compliance and minimal loss to follow-up. Lack of placebo control and the unblinded
assessment of in-hospital events could, at least in principle, allow some bias to be introduced.”

Expone pros y contras sobre la posibilidad de generalización. En el apartado


generalisability dentro de discussion menciona en que casos se puede generalizar el
estudio y en cuáles no.
Discussion

“The IST was done in a wide variety of specialist and non-specialist hospitals in 36 countries,
but the average frequency of different outcomes, overall and in specific subgroups, was
Generalisability 21 12345 similar to that seen in Oxfordshire, UK, and the frequency of early recurrent stroke was
similar to that in a review of epidemiological studies and randomised trials in acute stroke.34
However, pulmonary embolism was reported much less frequently (0·7%) than in a recent
review (3-39%),35 so the generalizability of the IST result may be reduced by the likely
underascertainment of this secondary event. On the other hand the IST was very large so that
even in subgroups of patients the results are based on substantial numbers, and this helps in
the interpretation.”

Interpreta los resultados obtenidos con balance de beneficios y daños (en el


Interpretation 22 12345
apartado de Clinical implications)

Registration 23 12345 Aparece el número de registro (Lancet 1997; 349: 1569–81)


Other information

Protocol 24 1 2 3 4 5 No se especifica dónde hallar el protocolo del estudio.

Se identifican las fuentes de financiación.


“The study was principally funded by the UK Medical Research Council (who also fund P
Funding 25 12345
Sandercock, J Slattery and B Farrell), the UK Stroke Association, and the European Union
BIOMED-1 programme.”

7
MÓDULO 6:
Apartado 2

Ejemplos

Héctor Rufino
José Antonio González
1. Generación de los datos basales

Generar una tabla sobre los datos basales para, al menos, una variable categórica, una
ordinal, una numérica simétrica y una numérica asimétrica.

 Datos: IST (International Stroke Trial).

A la hora de mostrar el resumen de las diferentes variables para los datos basales se
siguen las indicaciones de la guía CONSORT, que en el ítem 15 especifica cómo resumir
una variable en función de cómo sea la misma. Entre las opciones disponibles,
mostramos:

 Variable simétrica: aportar media y desviación estándar.


 Variable asimétrica: mostrar la mediana y el primer y tercer cuartil.
 Variable categórica y variable ordinal: resumir a través del número de
observaciones en cada categoría y el porcentaje que representa.

Para comprobar si una variable numérica es simétrica o asimétrica se pueden utilizar


diferentes herramientas. Por ejemplo, para hacerlo de forma visual, se puede utilizar
un histograma o Box-Plot.

Para este estudio, The International Stroke Trial, mostramos las siguientes variables
que se resumirán en una tabla sobre datos basales:

 Variable (razonablemente) simétrica: presión sanguínea (BP)

Histograma de la variable BP
Boxplot de la variable
300
5000

250
4000
Frecuencia

200
3000

150
2000

100
1000
0

100 150 200 250 300


BP
BP
 Variable continua asimétrica: edad (AGE)

Histograma de la variable AGE


Boxplot de la variable

100
3500
3000

80
2500
Frecuencia

2000

60
1500

40
1000
500

20
0

20 40 60 80 100
AGE
AGE

 Variable categórica: género (SEX) y nivel de conciencia (RCONS)


 Variable ordinal: categorización de la variable numérica tiempo entre el AVC y
la asignación al grupo (RDELAY)

La tabla resumen de los datos basales es:

VARIABLE RESUMEN
BASAL
Systolic BP (mm Hg) 160.16 (27.61)
Age (yr) 73 (65 / 80)
Gender
Female 9028 (46.45%)
Male 10407 (53.55%)
Conscious level
Unconscious 260 (1.33%)
Drowsy 4254 (21.89%)
Alert 14921 (76.77%)
Delay (h)
0-3 843 (4.34%)
4-6 2322 (11.95%)
7-12 4114 (21.17%)
13-24 3180 (20.48%)
25-48 8176 (42.07%)
Se aporta, para cada variable, media (sd) o mediana (1r cuartil /
3r cuartil) o número (porcentaje)
2. Generación de los resultados principales

2.1. Respuesta dicotómica

 Datos: IST (International Stroke Trial)

 Respuesta: presencia (1) o ausencia (0) de evento en los primeros 14 días.

 Intervenciones estudiadas: (a) Heparina frente a No Heparina; y b) Aspirina frente a


No Aspirina.

Para estudiar estas diferencias se puede utilizar la Diferencia de proporciones (RA), el Riesgo
relativo (RR), o el Odds Ratio (OR). En este informe se realizará el análisis para las tres. Repase
su definición y cálculo en el capítulo 8 del módulo 3.

 Diferencia de proporciones (RA)

A continuación se muestra una tabla con el cálculo de la estimación del RA para los dos
análisis que se quieren realizar y del intervalo de confianza del RA(95%).

Heparin vs. No Heparin Aspirin vs. No aspirin


Heparin No Heparin Aspirin No Aspirin
Events 876 (0.0901) 905 (0.0931)
0.00298
872 (0.0897) 909 (0.0935)
0.00386
(-0.00514, 0.01109) (-0.00426, 0.01197)

Y gráficamente, se puede representar de la siguiente forma:

A la vista de los resultados, como el intervalo de confianza del 95% de a diferencia de


riesgos incluye el 0 en los dos análisis, no hay diferencias significativas en la proporción
de pacientes con eventos durante los primeros 14 días ni para el tratamiento de
Heparina, ni para el de Aspirina.

 Riesgo relativo (RR)

En este caso, al ser una medida basada en cocientes, se obtiene la asimetría en la


escala logarítmica, por lo que el intervalo de confianza se calcula sobre el logaritmo del
RR, con el objetivo de proporcionar un intervalo simétrico alrededor de la estimación
puntual. Si no hay diferencias entre los dos grupos, el RR valdrá 1 y su logaritmo, 0 (log
1 = 0).

En la siguiente tabla se muestran los resultados obtenidos para el RR:

Heparin vs. No Heparin Aspirin vs. No aspirin


Heparin No Aspirin No
Heparin Aspirin
Events 876 905 -0.0325 0.968 872 909 -0.0421 0.9588
(0.0901) (0.0931) (-0.121, 0.056) (0.886, 1.057) (0.0897) (0.0935) (-0.131, 0.046) (0.877, 1.047)

Gráficamente:

Como los intervalos de confianza del logaritmo del RR incluyen el valor 0 (y el intervalo
de confianza del RR incluye el valor 1), tampoco con el RR hay diferencias significativas
ni para Heparina, ni para Aspirina.
 Odds ratio (OR)

También ahora recurrimos a los logaritmos.

Para los datos que se están tratando se tienen los siguientes resultados:

Heparin vs. No Heparin Aspirin vs. No aspirin


Heparin No Aspirin No
Heparin Aspirin
Events -0.0357 0.9649 -0.0463 0.9548
876 905 872 909
(-0.133, (0.875, (-0.144, (0.866,
(0.0901) (0.0931) (0.0897) (0.0935)
0.062) 1.064) 0.051) 1.052)

Y, gráficamente:

Y se llega a la misma conclusión que con las medidas de riesgo anteriores ya que
ambos IC95% cubren los valores de no efecto.

2.2. Respuesta numérica

 Datos: Study of acupuncture for chronic headache.

 Respuesta: diferencia en el grado de dolor de cabeza, según un indicador que toma


valores del 0 (ausencia) al 100 (máximo dolor), entre el valor inicial y la respuesta
después del tratamiento.

 Intervenciones estudiadas: acupuntura frente a control.


Para estudiar si existen o no diferencias entre los pacientes asignados a la acupuntura y los
pacientes asignados al grupo control, utiliza la diferencia entre medias para la variable cambio
o diferencia entre la respuesta final y el valor inicial (valores negativos indican menor dolor
final). Valore repasar los apartados 2 del capítulo 13 y 4 del 8, para el cálculo de intervalos de
confianza para la diferencia de medias.

En la siguiente tabla se muestra, para ambos grupos, la media y la desviación estándar entre
paréntesis. Además, se incluye la estimación puntual y por intervalo de la diferencia entre
medias que estima la magnitud del efecto:

Diferencia medias
Acupuntura Control
(desviación típica)
3.92 (63.08) 8.68 (53.13) 4.76 (58.58) (-7.91, 17.42)

Los resultados anteriores se pueden representar con un Forest Plot:

A partir de las estimaciones puntuales de la media de la diferencia en el dolor de cabeza antes


y después del tratamiento, se observa que, en media, el dolor de cabeza aumenta en ambos
grupos.

También se observa que el grupo que ha recibido acupuntura aumenta menos el dolor, pero
esta diferencia no es significativa, ya que su IC95% incluye el valor 0. En resumen, no se ha
logrado establecer un efecto significativo de la acupuntura.
2.3. Respuesta tiempo de supervivencia

 Datos: Anderson

 Respuesta: tiempo (en semanas) hasta la recaída en pacientes con Leucemia.

 Intervenciones estudiadas: Tratamiento vs. placebo.

Se quiere analizar si el tratamiento (respecto a su ausencia, placebo) cambia el tiempo hasta la


recaída.

Una de las vías para ello es comparar la función de supervivencia de ambos grupos. El método
de Kaplan-Meier, para comparar la frecuencia de eventos a lo largo del tiempo, estima una
única razón de tasas común para todos los tiempos de seguimiento.

Repase el apartado 3 del capítulo 11 sobre Análisis de Supervivencia.

El primer paso consiste en representar las funciones del tiempo hasta la recaída en ambos
grupos en un mismo gráfico.

Funciones de Supervive
1.0

Tratamiento
Supervivencia
0.8

Placebo
0.6
0.4
0.2
0.0

0 5 10 15 20 25 30 35
Tiempo en semanas

El gráfico muestra un mayor tiempo hasta la recaída. Un paciente prototípico, representado


por la mediana, alargaría su tiempo hasta la recaída de unos 8 a 23 semanas; mientras que uno
grave, representado por el percentil 75% de supervivencia (0,25 del tiempo hasta la recaída),
lo alargaría de unos 4 a 11 semanas. Esta recaída alcanza al 75% de los pacientes con placebo a
las 12 semanas, pero la longitud del seguimiento no permite conocer este tiempo en los
tratados, que sería, por tanto, superior a 36 semanas.
Para analizar si existen diferencias estadísticamente significativas entre ambos tratamientos,
se puede utilizar el modelo de Cox, que supone riesgos proporcionales.

La salida que proporciona el R de la regresión de Cox es la siguiente:

Call:
coxph(formula = leuk ~ g)

n= 42, number of events= 30

coef exp(coef ) se(coef) z Pr(>|z|)


gtest -1.5721 0.2076 0.4124 -3.812 0.000138 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

exp(coef) exp(-coef) lower .95 upper .95


gtest 0.2076 4 .817 0.09251 0.4659

De la salida de R se observa que el HRR del tratamiento respecto al placebo vale 0.2076, con
un Intervalo de confianza del 95%= (0.09251, 0.4659), de dónde se desprende que el
tratamiento reduce la frecuencia de eventos en un 79,2% (53.4 a 90.7%).

El intervalo de confianza del HRR no incluye el valor 1, por lo que el tratamiento reduce el
riesgo de recaída de forma significativa.

Parece razonable representar la reducción del riesgo con un HRR constante ya que la
inspección visual apoya la premisa de proporcionalidad de los riesgos entre estas 2
intervenciones: a lo largo de todo el periodo de seguimiento considerado, administrar el
tratamiento reduce a una quinta parte la frecuencia de eventos.

Nota: El curso de observacionales enseña a reproducir estos resultados ajustando por terceras
variables.

Nota técnica: la aleatorización hace que este ajuste no sea necesario en los ensayos clínicos
bien ejecutados (p.e., sin pérdidas). Pero como puede tener otras ventajas (p.e., en eficiencia),
algunos autores especifican como análisis principales o análisis ajustado.
3. Scripts R

3.1. Generación de los datos basales

#Lectura de los datos


datos <- read.csv('1745-6215-12-101-s1.csv',dec=".",sep=",",
header=TRUE)

##VARIABLE CONTINUA
###Simétrica: BP
#Histograma de la variable
hist(datos$RSBP,col="steelblue",xlab="BP",ylab="Frecuencia",
main="Histograma de la variable BP")
#Media
mediaBP<-mean(datos$RSBP)
#Desviación estándar
sdBP<-sd(datos$RSBP)

###Asimétrica: AGE
#Histograma de la variable
hist(datos$AGE,col="steelblue",xlab="AGE",ylab="Frecuencia",
main="Histograma de la variable AGE")
#Mediana
medianaAGE<-median(datos$AGE)
#Primer y tercer cuartil
pencentilesaAGE<-quantile(datos$AGE,probs=c(0.25,0.75))

#VARIABLE CATEGÓRICA
#Conscious level
##Recuentos
tablaCL <- table(datos$RCONS)
tablaCL
##Porcentajes
prop.table(tablaCL)*100

#Sex
##Recuentos
tablaSEX <- table(datos$SEX)
tablaSEX
#Porcentajes
prop.table(tablaSEX)*100

#VARIABLE ORDINAL
#Categorización la variable continua: Delay
datos$Delay_cat <- cut(datos$RDELAY,breaks=c(0,4,7,13,24,49),
right=FALSE)
#La función cut permite categorizar una variable numérica.
#El parámetro breaks especifica los cortes que quieres
#realizar. El parámetro right=FALSE indica que el intervalo
#lo coge cerrado por la izquierda y abierto por la derecha
#Construimos la tabla con los recuentos de las categorías
tabla <- table(datos$Delay_cat)
tabla
#Construimos la tabla con los porcentajes de las categorías
prop.table(tabla)*100
3.2. Generación de los resultados principales

3.2.1. Respuesta dicotómica

####Análisis para la variable que mide el número de eventos en los


primeros 14 días

##HERAPIN vs. NO HERAPIN


###Grupo Herapin
#Recuentos
THEP <- sum(datos$ID[datos$RXHEP!="N"])
#Proporciones
PTHEP <- THEP/length(datos$RXHEP[datos$RXHEP!="N"])

###Grupo No Herapin
#Recuentos
TNHEP <- sum(datos$ID[datos$RXHEP=="N"])
#Proporciones
PTNHEP <- TNHEP/length(datos$RXHEP[datos$RXHEP=="N"])

###Análisis

##A continuación se muestran los cálculos para obtener las


estimaciones puntuales y por intervalo de las medidas de riesgo RA,
RR, OR. Si usted dispone de una base de datos no muy grande, puede
utilizar la función epi2x2 (de la librería ‘epibasix’) explicada en la
página 35 del capítulo 8.

# Estimación puntual e IC para el RA


nNHEP<-length(datos$RXHEP[datos$RXHEP=="N"])
nHEP<-length(datos$RXHEP[datos$RXHEP!="N"])
RAhep<-PTNHEP-PTHEP
IC.LRAhep<- RAhep-
(1.96 * sqrt((PTHEP*(1-PTHEP))/nHEP+
(PTNHEP*(1-PTNHEP))/nNHEP))
IC.URAhep<- RAhep +
(1.96 * sqrt((PTHEP*(1-PTHEP))/nHEP+
(PTNHEP*(1-PTNHEP))/nNHEP))

# Estimación puntual e IC para el RR


logRRhep<-log(PTHEP/PTNHEP)
IC.LRRhep<- logRRhep-
1.96 * sqrt((1-PTHEP)/(nHEP*PTHEP)+
(1-PTNHEP)/(PTNHEP*nNHEP))
IC.URRhep<-logRRhep +
1.96 * sqrt((1-PTHEP)/(nHEP*PTHEP)+
(1-PTNHEP)/(PTNHEP*nNHEP))

# Estimación puntual e IC para el OR


logORhep<-log(((THEP)/(nHEP-THEP))/((TNHEP)/(nNHEP-TNHEP)))
IC.LORhep<- logORhep-
1.96 * sqrt((1/THEP)+(1/(nHEP-THEP))+
(1/TNHEP)+(1/(nNHEP-TNHEP)))
IC.UORhep<-logORhep +
1.96 * sqrt((1/THEP)+(1/(nHEP-THEP))+
(1/TNHEP)+(1/(nNHEP-TNHEP)))

##ASPIRIN vs. NO ASPIRIN


###Grupo Aspirin
#Recuentos
TASP<-sum(datos$ID[datos$RXASP!="N"])
#Proporciones
PTASP<-TASP/length(datos$RXASP[datos$RXASP!="N"])

###Grupo No Aspirin
#Recuentos
TNASP<-sum(datos$ID[datos$RXASP=="N"])
#Proporciones
PTNASP<-TNASP/length(datos$RXASP[datos$RXASP=="N"])

###Análisis
# Estimación puntual e IC para el RA
nNASP<-length(datos$RXASP[datos$RXASP=="N"])
nASP<-length(datos$RXASP[datos$RXASP!="N"])
RAasp<-PTNASP-PTASP
IC.Lasp<- RAasp-
(1.96 * sqrt((PTASP*(1-PTASP))/nASP+
(PTNASP*(1-PTNASP))/nNASP))
IC.Uasp<- RAasp +
(1.96 * sqrt((PTASP*(1-PTASP))/nASP+
(PTNASP*(1-PTNASP))/nNASP))

# Estimación puntual e IC para el RR


logRRasp<-log(PTASP/PTNASP)
IC.LRRasp<- logRRasp-
1.96 * sqrt((1-PTASP)/(nASP*PTASP)+
(1-PTNASP)/(PTNASP*nNASP))
IC.URRasp<-logRRasp +
1.96 * sqrt((1-PTASP)/(nASP*PTASP)+
(1-PTNASP)/(PTNASP*nNASP))

# Estimación puntual e IC para el OR


logORasp<-log(((TASP)/(nASP-TASP))/((TNASP)/(nNASP-TNASP)))
IC.LORasp<- logORasp-
1.96 * sqrt((1/TASP)+
(1/(nASP-TASP))+(1/TNASP)+(1/(nNASP-TNASP)))
IC.UORasp<-logORasp +
1.96 * sqrt((1/TASP)+(1/(nASP-TASP))+
(1/TNASP)+(1/(nNASP-TNASP)))

#Obtención de los forest plots


##Paquete necesario
install.packages("Gmisc")
library(Gmisc)

##RA
forestplot2(mean=c(RAhep, RAasp),
lower=c(IC.LRAhep,IC.Lasp),
upper=c(IC.URAhep,IC.Uasp),
labeltext=c("Heparina vs. No Heparina", "Aspirina vs.No
Aspirina"),
clip=c(-1,1.5),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=-0.02,to=0.02,by=0.01),
boxsize=0.1,
col=fpColors(box=c("blue", "darkred")),
xlab="Diferencia de proporciones (RA)",
main="Forest Plot (RA)",
new_page=TRUE)

##RR
forestplot2(mean=c(exp(logRRhep), exp(logRRasp)),
lower=c(exp(IC.LRRhep),exp(IC.LRRasp)),
upper=c(exp(IC.URRhep),exp(IC.URRasp)),
labeltext=c("Heparina vs. No Heparina", "Aspirina vs. No
Aspirina"),
clip=c(-1,1.5),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=0.5,to=1.5,by=0.25),
boxsize=0.1,
col=fpColors(box="red"),
xlab="Riesgo Relativo (RR)",
main="Forest Plot (RR)",
new_page=TRUE,zero=1)
##OR
forestplot2(mean=c(exp(logORhep), exp(logORasp)),
lower=c(exp(IC.LORhep),exp(IC.LORasp)),
upper=c(exp(IC.UORhep),exp(IC.UORasp)),
labeltext=c("Heparina vs. No Heparina", "Aspirina vs. No
Aspirina"),
#clip=c(-1,1.5),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=0.5,to=1.5,by=0.25),
boxsize=0.1,
col=fpColors(box="green"),
xlab="Odd ratio (OR)",
main="Forest Plot (OR)",
new_page=TRUE,zero = 1)

3.2.2. Respuesta numérica

#Leemos los datos


datos<- read.table("clipboard",header=T,na.strings=999)

#Calculamos la diferencia de la variable respuesta antes y después del


tratamiento
datos$diff<- as.integer(datos$pk2)-as.integer(datos$pk1)

#Group=0 -> grupo control


#Group=1 -> grupo acupuntura

#Media y desviación típica para cada grupo


m0 <- mean(datos$diff[datos$group==0],na.rm=T)
sd0 <- sd(datos$diff[datos$group==0],na.rm=T)
m1 <- mean(datos$diff[datos$group==1],na.rm=T)
sd1 <- sd(datos$diff[datos$group==1],na.rm=T)

#diferencia de medias y desviación típica


dm <- mean(datos$diff[datos$group==1],na.rm=T)-
mean(datos$diff[datos$group==0],na.rm=T)
sd(datos$diff,na.rm=T)

#Calculamos el intervalo de confianza de la diferencia de medias


test <- t.test(datos$diff~datos$group)
#Obtención de los forest plots
##Paquete necesario
install.packages("Gmisc")

##Diferencia de medias
forestplot2(mean=-dm,
lower=test$conf.int[1],
upper=test$conf.int[2],
labeltext=c("Acupuntura vs. control"),
clip=c(-10,20),
# Getting the ticks auto-generate is
# a nightmare - it is usually better to
# specify them on your own
xticks=seq(from=-10,to=20,by=2),
boxsize=0.1,
col=fpColors(box="blue"),
xlab="Diferencia de medias",
main="Forest Plot",
new_page=TRUE)

3.2.3. Respuesta tiempo de supervivencia

##Cargamos el paquete necesario


library(survival)

#Leemos la base de datos


anderson<-read.table("anderson.txt",head=TRUE)
attach(anderson)

#Calculamos la variable tiempo con los tiempos censurados indicados


leuk<-Surv(t,d)

#Gráfico de las funciones de supervivencia


leuk.grup<-survfit(leuk~g)
plot(leuk.grup,xlab="Tiempo en
semanas",ylab="Supervivencia",lty=c(1,4))
legend(20,1.05,c("Tratamiento","Placebo"),lty=c(1,4),bty="n")
title("Funciones de Supervivencia por tratamiento")
abline(h=c(0.25,0.5,0.75),lty=3)

#Modelo de Cox
mod.cox <- coxph(leuk ~ g)
summary(mod.cox)
MÓDULO 6:
Apartado 3

Resumen de un protocolo con


SPIRIT

Alexandre González
RESUMEN DEL PROTOCOLO

*Protocolo de ensayo clínico de paliperidona frente a risperidona inyectable de larga


duración en psicosis de nuevo diagnóstico.

*Sujetos: pacientes con primer episodio psicótico de entre 18 y 35 años que inicien su
primer contacto en un Centro de Salud Mental.

*Método: ensayo clínico aleatorizado enmascarado en pacientes con primer episodio


psicótico.

*La variable resultado sería la puntuación de la escala PANSS a los 3 meses del inicio
del tratamiento.

*Estrategia de análisis:

Se hará todo lo posible por recoger la puntuación de la PANSS. Se asignará


valor de forma enmascarada a todos los pacientes cuyo seguimiento se interrumpa según
un protocolo específico.

La variable respuesta es la diferencia de la PANSS entre su valor inicial


pretratamiento y su valor final.

*Cálculo del tamaño muestral:

El tamaño muestral necesario para detectar una diferencia de 5 puntos entre la


puntación en la escala PANSS final respecto inicial, sea la correlación ρ=0.7,
σ=15.4919, α=0.05 y una potencia del 80%, será de 151 pacientes para cada rama.

El tamaño muestral necesario para detectar una diferencia de 5 puntos entre la


puntación en la escala PANSS final respecto inicial, sea la correlación ρ=0.5, σ=20,
α=0.05 y una potencia del 80%, será de 252 pacientes para cada rama.

El tamaño muestral necesario para detectar una diferencia de 5 puntos entre la


puntación en la escala PANSS final respecto inicial, sea la correlación ρ=0.3,
σ=23.6643, α=0.05 y una potencia del 80%, será de 352 pacientes para cada rama.

Se realizará análisis del cambio entre la puntuación PANSS final y basal.


TABLA RESUMEN PROTOCOLO SEGÚN SPIRIT

[1-5] Información administrativa


1: Título Protocolo de ensayo clínico de paliperidona frente a risperidona
inyectable de larga duración en psicosis de nuevo diagnóstico.
2: Registro del ensayo
2a: Registro Se registrará en ClinicalTrials.gov:

2b: Serie de datos Acorde a tabla 2 SPIRIT (Ver Tabla 2)


3: Versión del protocolo Fecha: 04-02-2014
No procede
Revisión cronológica: 04-02-2014
4: Financiación Janssen Cilag Pharmaceutics, Alemania
5: Roles y
responsabilidades
5a: Contribuciones AGR, OM, RC, RP, y MB iniciaron el diseño del estudio y ES
y CR ayudaron a su implementación. JMV, CR recibieron
financiación de Janssen Cilag. ES y CR realizaron el diseño
estadístico del ensayo y CG realizará el análisis estadístico
principal. Todos los autores han contribuido substancialmente
en el protocolo del estudio y han aprobado el protocolo final.
5b: Información de “Sponsor del Ensayo: Hospital Clínic Barcelona
contacto sponsor Referencia del Sponsor: RIS 4487
Nombre de contacto: Sr. E.V.
Dirección: Villarroel 170, 08036 Barcelona
Teléfono: +34 93 227 54 00
Email: ALGONZAL@clinic.ub.es
5c: Sponsor y financiador La empresa financiadora no ha realizado el diseño del estudio y
no tendrá ningún papel en el análisis, interpretación de los
datos, ni decidirá acerca del envío de resultados.
Investigador Principal y Médico de Investigación: AGR
5d: Comités Comité directivo: OM, RC, RP
Comité de Gestión de Ensayos (TMC): MB
Data Manager: EP.
Los investigadores principales: ES, CR
[6-8]: Introducción
6: Background y bases de Risperidona inyectable de larga duración ha demostrado su
razonamiento eficacia en el tratamiento de pacientes con primer episodio
psicótico. No existen ensayos clínicos que evalúan la eficacia
de palmitato de paliperidona inyectable de larga duración
versus risperidona inyectable de larga duración en pacientes
con primer episodio psicótico.
7: Objetivos Estudiar la eficacia de paliperidona inyectable de larga
duración versus risperidona inyectable de larga duración en
pacientes con primer episodio psicótico.
8: Diseño del ensayo Ensayo clínico aleatorizado enmascarado con 2 ramas:
paliperidona inyectable de larga duración versus risperidona
inyectable de larga duración, con seguimiento a 3 meses en
pacientes con primer episodio psicótico que no hayan recibido
tratamiento antipsicótico previo. Se utilizará la escala PANSS
para evaluar síntomas psicóticos a nivel basal y a los 3 meses.
[9-15] Método: participantes, intervenciones, variables resultado
9: Lugar del estudio Centros de Salud Mental del Eixample de Barcelona
10: Criterios de eligibilidad Pacientes entre 18 y 35 años que presenten un primer episodio
psicótico con predominio de síntomas positivos frente a
negativos (delirios, alucinaciones, conducta desorganizada),
que se visiten por primera vez en Centros de Salud Mental del
Eixample, que no hayan tomado medicación antipsicótica
previamente y sin diagnóstico previo de toxicomanía.
11: Intervenciones
11a: Intervenciones Los pacientes recibirán una dosis inicial de 150 mg de
paliperidona inyectable de larga duración, una dosis de 100 mg
a los 8 días, y tres inyecciones posteriores cada 28 días.
11b:Modificaciones Las dosis de risperidona inyectable de larga duración serán
dosis equivalentes a paliperidona inyectable de larga duración:
50 mg /14 días desde el inicio, durante el periodo del estudio.
Todos los pacientes recibirán un inyectable cada 14 días, ya sea
del fármaco activo, como de suero fisiológico en aquellos que
reciban paliperidona inyectable de larga duración, fármaco que
se administra cada 28 días.
Se discontinuará el tratamiento en aquellos pacientes que
presenten eventos adversos.
Todos los eventos serán clasificados en esperados o
inesperados y en leves, moderados o graves según la tabla X
(no es necesario añadirla, pero puede hacerse). Todos los
eventos potencialmente clasificados como inesperados o como
moderados o graves serán revisados por un comité de eventos
adversos enmascarado al tratamiento que realizará la
clasificación final y las recomendaciones pertinentes."
Todo paciente que abandone la intervención en estudio será
invitado a seguir siendo observado hasta el final del estudio --
para su protección y para completar su información. Todos los
incentivos permitidos por el comité de éticas serán utilizados
para retenerlo en el estudio."
11c:Adherencia Para mejorar la adherencia, los pacientes recibirán el
tratamiento inyectable administrado por una enfermera y se
realizarán analíticas seriadas cada 14 días.
11d:Cuidado concomitante Se monitorizarán eventos adversos cada 14 días por un médico
especialista.
12: Resultados La variable principal de evolución será las puntuaciones en la
escala PANSS de síntomas psicóticos.
13: Cronograma de los Se realizará una evaluación clínica de los pacientes cada 14
participantes días coincidiendo con las administraciones de los inyectables.
Se contactará telefónicamente con los pacientes, y en caso de
que no acudan a la evaluación, se administrará la versión
telefónica de la escala.
14: Tamaño muestral El tamaño muestral necesario para detectar una diferencia de 5
puntos entre la puntación en la escala PANSS final respecto
inicial, sea sigma=20, alfa=0.05 y una potencia del 80%, será
de 252 pacientes para cada rama.
15: Reclutamiento En los 2 Centros de Salud Mental del Eixample de Barcelona
se atiende entre 80-100 pacientes con primer episodio
psicótico/año. Por ello, y dado el tamaño muestral, el período
de reclutamiento durará 24 meses con un seguimiento de 3
meses.
[16-17]: Métodos: asignación de las intervenciones (para ensayos controlados)
16: Asignación Una vez obtenido y registrado el consentimiento informado
(del paciente o de su representante), se solicitará al
departamento de farmacia el lote de medicación
correspondiente, aportando el número de registro del paciente.
Los pacientes de los 2 Centros de Salud Mental del Eixample
de Barcelona serán asignados de forma aleatorizada a los 2
grupos de tratamiento: paliperidona inyectable de larga
duración o risperidona inyectable de larga duración.
El investigador no conocerá la asignación, así como tampoco la
enfermera encargada de administrar el tratamiento inyectable
que recibirá la medicación codificada con un número de
registro.
17: Enmascaramiento El investigador principal y médico de investigación AGR, los 2
psiquiatras evaluadores, ES y CR no conocerán la asignación
inicial del tratamiento, en ningún momento del estudio. Los 2
fármacos inyectables serán indistinguibles, del mismo color
(oscuro), de manera que no podrán ser reconocidos, y serán
administrados por una enfermera especializada que tampoco
conocerá la asignación.
[18-20] Métodos: recogida de datos, administración de datos, análisis.
18: Recogida de datos Se recogerán datos sociodemográficos y clínicos, tales como:
edad, situación laboral, estado civil, nivel de estudios, número
de hijos y de convivientes, edad de inicio del trastorno,
presencia/ausencia de alucinaciones, predominio de delirios
frente a alucinaciones, presencia/ausencia de clínica depresiva
comórbida (según criterios DSM-V).
Además se recogerá las puntuaciones en la escala PANSS y
análisis de laboratorio al inicio del estudio y en cada evaluación
cada 14 días, hasta los 3 meses.
19: Administración de Los datos clínicos, sociodemográficos, las puntuaciones en la
datos escala PANSS y los resultados de laboratorio serán
digitalizados en una base de datos tipo Access, previamente
diseñada.
Los formularios originales del estudio serán guardados en un
fichero seguro y accesible, y ordenados numéricamente. Los
ficheros serán guardados por un período de al menos 3 años
posterior a la finalización del estudio.
Un subconjunto de datos será requerido posteriormente para
control de la calidad. Cuando un formulario sea seleccionado
para control, será copiado y enviado al Centro Coordinador de
Datos.
20: Método estadístico
[21-23] Métodos: Monitorización
21: Monitorización de Los clínicos evaluadores introducirán los datos directamente en
datos la base de datos.
La inspección periódica de los datos será llevada a cabo por el
Comité de Monitorización de Datos, que es independiente de
los organizadores del estudio. Los objetivos principales del
Centro de Monitorización de Datos serán: identificar, dar
soporte y resolver problemas. Comprobará en submuestras que
los fármacos de los lotes se corresponden con los teóricos.
Realizará por lo menos una visita de garantía de calidad por
año y centro en el transcurso del estudio. No se realizarán
análisis intermedios.
22: Perjuicios Los eventos adversos y perjuicios serán evaluados mediante la
escala UKU de eventos adversos, que se administrará en visitas
períodicas cada 14 días.
23: Auditoría Los datos del estudio podrán ser revisados y confirmados
adecuadamente en las auditorías correspondientes.
El encargado de la monitorización de los documentos será el
Centro de Monitorización de Datos que auditará la calidad y el
grado de cumplimentación de los datos, así como examinarán
los documentos y se entrevistarán con investigadores y
coordinadores.
En caso de que se identifiquen problemas tales como una
escasa comunicación con el Comité, un reclutamiento
insuficiente, un número inadecuado o insuficiente de
colaboradores en el estudio o pérdida de documentos del
estudio, el monitor asistirá estos asuntos y planteará soluciones
a estas cuestiones.
[24-31]: Ética y divulgación
24: Aprobación de ética en El Comité Ético del Hospital Clínic deberá aprobar la
la investigación realización del ensayo clínico.
25: Modificaciones del No se realizarán modificaciones del protocolo.
protocolo
26: Consentimiento o Los pacientes o sus representantes legales serán informados de
asentimiento los beneficios, riesgos y objetivos del estudio y deberán firmar
26a: Consentimiento o el consentimiento informado.
asentimiento Con los datos obtenidos en el presente ensayo clínico se
26b: Estudios auxiliares realizarán otros estudios posteriores. Se informará y facilitará
el consentimiento informado correspondiente a los
participantes del estudio.
27: Confidencialidad Se mantendrá la confidencialidad de los datos, etiquetando y
anonimizando la base de datos.
28: Declaración de Janssen Cilag financiará el estudio.
intereses
29: Acceso a los datos Los datos serán accesibles a toda la comunidad científica. La
base de datos tendrá máxima disponibilidad.
30: Cuidado post-ensayo y En caso de presentar algún evento adverso derivado del ensayo
auxiliares clínico, los pacientes recibirán atención médica y seguimiento
en nuestro centro.
31: Política de difusión
31a: Resultados del ensayo El subcomité de publicaciones revisará los resultados y los
manuscritos derivados del ensayo clínico, realizando
recomendaciones al Comité Directivo del ensayo. Los datos,
independientemente de sus resultados serán publicados y
accesibles a toda la comunidad científica.
31b: Autoría El investigador principal y los otros investigadores podrán
realizar comunicaciones de los resultados en congresos
nacionales e internacionales.
31c: Investigación Los datos obtenidos del ensayo clínico serán públicos desde su
reproducible inicio y adecuadamente anonimizados.
El financiador del estudio no tomará parte en la decisión de
publicación de los datos del estudio.
[32-33] Apéndices
32: Material de La recogida de muestras de suero irá acompañada de un
consentimiento informado consentimiento informado específico.
33: Muestras biológicas Se conservarán las muestras de suero.
Tabla X de eventos adversos.

Eventos adversos

Leves Cansancio

Déficit de concentración

Sedación

Inquietud

Embotamiento

Náuseas

Moderados Vómitos

Parestesias

Rigidez

Temblor

Insomnio

Hipersomnia

Alteraciones amnésicas

Graves Distonía

Rigidez grave

Otros efectos autonómicos

Rash cutáneo

Anafilaxis

Script R para el cálculo del tamaño muestral

#Tamaño muestral

n1<-TwoSampleMean.Equality(alpha=0.05,beta=0.20,sigma=15.49193338,margin=5,k=1)

n2<-TwoSampleMean.Equality(alpha=0.05,beta=0.20,sigma=20,margin=5,k=1)

n3<-TwoSampleMean.Equality(alpha=0.05,beta=0.20,sigma=23.664319132,margin=5,k=1)
MÓDULO 6:
Apartado 3

Simulación del cálculo de n

Preparado por Laura Riba


Simulación realizada a partir del “Protocolo de ensayo clínico de paliperidona frente a
risperidona inyectable de larga duración en psicosis de nuevo diagnóstico” expuesto en el
informe del Módulo 6, “Resumen de un protocolo con SPIRIT”.

SIMULACIÓN de un ECA

Nota: La simulación propuesta utiliza distribuciones normales, ya que permiten determinar la


correlación desde el principio. Sin embargo, somos conscientes de que las distribuciones
normales multivariantes no son un componente del curso de BNE. Para poder generar este tipo
de distribuciones, hay que definir la matriz Σ de varianzas y covarianzas, y usar un paquete
especial de R (mvtnorm).

Para el caso en que la correlación basal – final es 0.5, el tamaño muestral es de 252 pacientes
por rama si se quiere obtener una potencia del 80%. Simularemos para cada paciente el valor
basal y final de la escala PANSS, teniendo en cuenta que siguen una distribución normal
multivariante. Sin considerar aún el efecto del tratamiento, si ‘0’ representa el valor inicial, ‘f’
el final, y (0,f) su covarianza:

Los valores de los parámetros fijados son:

-
-
-
-

Así pues, la varianza es 400 y la covarianza es:

Por lo tanto, la matriz de varianzas y covarianzas es:

Para cada simulación, los datos se guardarán en una matriz Y de N = 504 filas (cada fila será un
paciente) y dos columnas, donde la columna 1 será la PANSS basal y la columna 2 será la
PANSS final.

Un vector adicional g contendrá el grupo de asignación, determinado al azar. Creamos los dos
grupos de pacientes, según el tratamiento recibido:
- En el grupo 1, suponemos que la media de la escala PANSS al inicio y al final es la
misma.

- En el grupo 2, suponemos que la media de la escala PANSS al final es delta unidades


mayor que al principio.

Por lo tanto, para uno de los tratamientos no hay cambio en la escala PANNS y para el otro
tratamiento sí. Queremos ver si podemos detectar esa diferencia de 5 unidades.

Dado que la escala PANSS se mueve en un rango de valores entre 30 y 210, al escoger una
, es posible que simulemos algún valor por debajo de 30, por lo que truncamos a 30 y
ponemos los valores inferiores iguales a 30. También redondeamos las variables, para que den
valores enteros (ello da a los valores simulados un aspecto más realista, pero no es un paso
necesario, en verdad).

Este proceso lo repetiremos M veces (5000, en nuestra simulación). En cada ejecución, una vez
generados los datos, calcularemos el cambio C = Y[,2] –Y[,1] entre la respuesta final y la inicial.
Y luego miraremos si hay diferencias entre la media del cambio del grupo 1 y la media del
cambio del grupo 2 mediante el test de la t de Student (sin suponer igualdad de varianzas
entre los dos grupos).

Así pues, haremos la comparación M, y obtendremos M p-valores. Contaremos cuántos de


estos no son significativos y qué proporción del total son, por lo que estamos estimando el
valor de (en cuantos casos no rechazamos la hipótesis nula de que hay diferencias cuando en
realidad sí que las hay). O, si lo que contamos es la proporción de p-valores significativos
(menores del 5%, en este caso), estaremos estimando la potencia, que debería de ser del 80%.

Aquí partimos de que conocemos el tamaño muestral que da una potencia del 80%. Pero en
caso de que la distribución de la variable sea más compleja y no sepamos calcular el tamaño
muestral con una fórmula, habría que probar con varios tamaños muestrales (cambiar la N del
código) hasta dar con aquella que proporcione una potencia similar a la deseada. Esta es la
gran ventaja de la simulación.

Nuestro problema tiene la dificultad añadida de que la variable simulada no es normal, ni


sabemos cómo se distribuye. Realmente podríamos llegar a generar valores aleatorios de
alguna forma posiblemente más realista que la empleada (tal vez, dando un carácter más
asimétrico a la variable PANSS), pero la mayor dificultad estaría en lograr generar pares de
valores con cierta correlación. Este punto no es trivial, y se ha obviado.

A continuación se muestra el código de R comentado:


### SIMULACIÓN

N = 504 # Nº de pacientes
X = matrix(NA, nrow=N, ncol=2) # Matriz donde se guardaran los datos
M = 5000 # Nº de simulaciones
F = 0 # Contador de p-valores, inicialmente a 0

# Parámetros
delta = 5
mu = 60
sigma = 20
var = sigma^2
rho = 0.5
# Covariancia
u = rho*sigma*sigma
# Matriz de varianzas y covarianzas
var_covar = matrix(c(var, u, u, var), nrow=2)

# Simulación
for (i in 1:M)
{
# Asignamos cada paciente (cada fila) a un grupo de tratamiento
g = sample(c(rep(1,N/2), rep(2, N/2)))
# Generamos los valores
X[g==1,] = rmvnorm(n = N/2, mean = c(mu, mu), sigma = var_covar)
X[g==2,] = rmvnorm(n = N/2, mean = c(mu, mu + delta), sigma =
var_covar)

# Truncamos y redondeamos
X[X[,1]<30,1]=30
X[X[,2]<30,2]=30
X = round(X)

# Calculamos el cambio y realizamos el contraste


C = X[,2]-X[,1]
T=t.test(C~g) # unequal vars
if (T$p.value > 0.05) F=F+1
}

# β
F/M

# Potencia
(M-F)/M

Si, por ejemplo, la correlación fuera 0.3, esta es una posible salida (la potencia sería
insuficiente):

> F/M
[1] 0.5594
> (M-F)/M
[1] 0.4406
-

Capítulo 16:

Estudios observacionales.
Objetivos, diseños y retos

Erik Cobo
José Antonio González, Jordi Cortés y Nerea Bielsa

Septiembre 2014
Estudios observacionales

Estudios observacionales. Objetivos, diseños y retos


Presentación ....................................................................................................................... 3
1. Introducción ................................................................................................................ 4
1.1. Investigación, Ciencia y Técnica ........................................................................... 4
1.2. Objetivos, hipótesis y premisas .............................................................................. 4
1.3. Variabilidad, estadística y azar .............................................................................. 5
1.4. Principales tipos de estudios .................................................................................. 5
1.5. Diferentes objetivos, diferentes diseños................................................................. 5
1.6. ‘Prospectivo y retrospectivo’ son ambiguos .......................................................... 6
1.7. Asignación y nivel de evidencia ............................................................................ 6
2. Tipos de estudios observacionales...................................................................... 7
2.1. Estudios Etiológicos (EE) ...................................................................................... 7
2.2. El reto de la asignación .......................................................................................... 8
2.3. Estudios pronósticos y diagnósticos ...................................................................... 9
2.4. Tipos de estudios y guías de publicación. ............................................................ 10
3. Retos de los estudios observacionales .............................................................. 11
3.1. Ausencia de azar .................................................................................................. 11
3.2. Causas relacionadas ............................................................................................. 12
3.3. Respuestas condicionadas .................................................................................... 12
4. Retos comunes a todo tipo de estudios ............................................................ 13
4.1 . Regresión a la media .......................................................................................... 13
4.2. Informe selectivo................................................................................................. 13
4.3. Valoración sesgada de las variables .................................................................... 14
4.4. Homogeneidad del efecto.................................................................................... 14
5. Diagramas causales ........................................................................................... 15
5.1. Causas relacionadas implica efectos confundidos ............................................... 15
5.2. Respuestas condicionadas implica sesgo de selección ........................................ 18
6. Repaso de variables categóricas con R ............................................................ 20
Soluciones a los ejercicios ............................................................................................. 24
Apéndice I: Funciones ....................................................................................................... 26

2
Bioestadística para no estadísticos

Presentación

Los quince capítulos precedentes han expuesto las técnicas estadísticas aplicadas a la pregunta más
importante en salud: ¿cómo mejorar el futuro de los pacientes? Por ejemplo, el capítulo 4 expuso
cómo el IC95% cuantifica la influencia de la asignación al azar y el capítulo 11 definió el efecto de
una nueva intervención.

Los estudios observacionales también podrían querer estimar el efecto de una intervención, pero son
especialmente adecuados en aquellas preguntas que no implican asignación, como lo son las
diagnósticas, pronosticas o etiológicas. Veremos que cada una de ellas tiene sus propios retos.
Mientras diagnóstico y pronóstico se centran en la capacidad de una buena clasificación (que
requiere una buena asociación estadística); la búsqueda de causas de la etiología, como la
estimación de efectos de los ensayos clínicos, requiere relación causa-efecto. Al no disponer de las
ventajas del diseño de experimentos, la interpretación etiológica de un estudio observacional debe
afrontar retos adicionales: sesgo impredecible, sesgo de confusión y sesgo de selección; que son el
resultado, respectivamente, de ausencia de azar en el diseño, causas relacionadas, y respuestas
condicionadas. También amenazan otros peligros comunes con los ensayos clínicos, como la
regresión a la media, vista en el tema 10. A lo largo de este curso veremos qué técnicas estadísticas
y lógicas pueden ayudar a afrontarlos.

Este capítulo repasa los conceptos generales vistos en el capítulo 1, los diferentes tipos de objetivos
médicos, los retos de los estudios observacionales y el análisis con R de variables categóricas.

Contribuciones: Basado en el material previo habitual, Erik Cobo redactó un primer borrador que
fue revisado por José Antonio González, Jordi Cortés y Nerea Bielsa, quienes, además, han
diseñado los ejercicios adicionales implementados en e-status.

3
Estudios observacionales

1. Introducción

El primer capítulo definió el entorno de la investigación. A continuación encontrará, reordenados,


los principales mensajes que Vd. debería recordar. Repáselos, compruebe que (1) los entiende; y (2)
los retiene. Si no es así, vuelva a estudiar el primer capítulo.

1.1. Investigación, Ciencia y Técnica


• El conocimiento en sí mismo no tiene implicaciones, pero las acciones y las decisiones que
se toman en base al mismo, sí.
• El conocimiento aspira a ser universal, las decisiones pueden ser locales.
• Las reglas formales de la Ciencia para adquirir conocimiento (inferencia) son diferentes de
las de la Técnica para adoptar medidas (decisión).
• La Ciencia quiere ser contrastable; y la Técnica, documentable.
• Un estudio exploratorio aporta ideas nuevas; uno confirmatorio ratifica o descarta ideas
previas.
• I+D: I = Explora, busca nuevas ideas; D = Confirma y documenta ideas previas
• Distinga entre almacenes de conocimiento (revistas, bibliotecas, colaboraciones Cochrane o
Campbell, departamentos científicos de epidemiología); y órganos de decisión (agencias
reguladoras, servicios de salud pública, departamentos de farmacia).

1.2. Objetivos, hipótesis y premisas


• Un objetivo es una motivación subjetiva. Una
hipótesis es contrastable (rechazable).
• Una premisa es una suposición necesaria para
poder contrastar una hipótesis (PH) o estimar un
parámetro (IC95%).
• Vigile si las conclusiones cambian con otras
premisas.
• Más relevante que saber si las premisas son
ciertas, es comprobar si se llega a la misma
conclusión partiendo de otras premisas.

Figura 1.1

4
Bioestadística para no estadísticos

1.3. Variabilidad, estadística y azar


• Asociación NO es causalidad.
• Si NO hay variabilidad, puede olvidar la Estadística. Si hay variabilidad, la Estadística, la
cuantifica (p.e., desviación típica).
• La estadística proporciona instrumentos para cuantificar la incertidumbre originada por un
proceso aleatorio.
• Una muestra aleatoria es representativa (p.e., permite acotar los riesgos de estimación).
• Los estudios sin proceso aleatorio adolecen de un “sesgo impredecible” que debe ser
resaltado en la discusión.
• Anteponga el IC al valor de p.

1.4. Principales tipos de estudios


• Los 4 principales diseños son: transversal, casos-controles (CC), cohortes y ensayo clínico
(EC).
• Transversal: observa en el mismo tiempo a las variables en estudio.
• CC: selecciona unidades con/sin la respuesta (casos/controles) y estudia su pasado para
evaluar diferencias en sus exposiciones (causas).
• Cohorte: observa al inicio los determinantes de salud (exposiciones, condiciones, causas) y,
al final del seguimiento, su evolución.
• EC: asigna voluntarios al azar a las intervenciones en comparación y les sigue en el tiempo
para estimar efectos.
• En un EC, ‘control’ aplica al grupo sin el tratamiento en estudio (variable inicial); mientras
en un CC aplica al grupo sin la enfermedad en estudio (variable final).

1.5. Diferentes objetivos, diferentes diseños.


• Los 4 principales objetivos médicos son diagnóstico, etiología, pronóstico e intervención.
• Un estudio diagnóstico relaciona variables simultáneas, pero los de pronóstico y los de
intervención precisan un lapso de tiempo entre ellas.
• Un estudio de cohorte estudia un pronóstico y lanza interpretaciones causales.
• Un CC explora causas (Epid.); un EC confirma efectos (Farmac.).

5
Estudios observacionales

1.6. ‘Prospectivo y retrospectivo’ son ambiguos


• Strobe aconseja usar cohorte, caso-control y transversal. Y dice que ‘prospectivo y
retrospectivo’ son ambiguos. En su lugar, conviene especificar:
 la variable o criterio que desencadena la inclusión de un caso;
 el momento de obtención de las demás variables;
 si había hipótesis previa (confirmatorio frente a exploratorio); y,
 en caso de pregunta causal, si es sobre causas o sobre efectos
• La variable que determina la inclusión del individuo puede ser inicial (cohortes y ensayos
clínicos) o final (casos/controles).

1.7. Asignación y nivel de evidencia


• Éticamente, sólo las causas positivas son asignables.
• La asignación permite distinguir entre experimentos y observaciones.
• La asignación es crucial para valorar una intervención ya que permite: (1) el azar, con lo que
justifica las técnicas estadísticas; (2) el control mediante el diseño de experimentos; y (3)
observar si los asignados siguen las recomendaciones.
• Revisión sistemática (RS) = búsqueda + meta-análisis —ambos protocolizados.
• La gradación de la evidencia para una intervención es: RS > EC > cohorte > CC.
• El diseño para valorar un diagnóstico es el transversal; y un pronóstico, el de cohortes.
• En todo tipo de estudio, enmascarar dará más credibilidad a sus resultados.

Un EC estudia los efectos de una intervención bien definida. En el fondo, un EC bien diseñado,
ejecutado y analizado es fácil de interpretar: en el futuro, al cambiar la intervención de referencia
por la experimental, la evolución de los pacientes con los mismos criterios de elección cambiará tal
y como cuantifica el efecto observado (y su intervalo de incertidumbre).

Historieta: un artículo de un buen EC termina con los resultados, porque no precisa discusión.

6
Bioestadística para no estadísticos

2. Tipos de estudios observacionales


2.1. Estudios Etiológicos (EE)

La pregunta etiológica aparece cuando se observa una respuesta no deseada.

Recuerde
Un EE busca las posibles causas de un efecto determinado

El camino para definir con precisión una intervención y documentar sus efectos es arduo y largo. El
paso final, documentar sus efectos, lo dará el EC. Pero el primer paso es descifrar cuáles son las
causas, los “determinantes” de la respuesta. Este es el objetivo de los estudios etiológicos (EE).

Recuerde
En el EC lo bien definido es la causa (intervención); pero en el EE es el efecto (la
enfermedad).

Ejemplo 2.1: Recuerde el ejemplo del asma y la soja. Todo empezó porque existían
epidemias de asma en Barcelona de causa desconocida. Joan Clos, responsable municipal de
salud, pidió a Jordi Sunyer y Josep Maria Antó que buscaran sus posibles causas y ellos
estudiaron “¿cuándo y dónde ocurrían los episodios de asma y qué pasaba esos días en
Barcelona? Sus conocimientos previos les llevaron a mirar las descargas de soja en el puerto
y si las condiciones meteorológicas explicaban los barrios en los que ésta aparecía. En datos
pasados vieron que “soja más viento” era una posible explicación. Luego, al reparar los silos
y proteger la descarga con lona protectora, vieron bajar el asma. Está confirmación requirió
proponer una intervención y esperar para observar sus efectos.

Recuerde
Los EE buscan causas de efectos; y los EC estiman efectos de causas.

Como la investigación etiológica es preliminar, descansará en diseños observacionales y no puede


aprovechar las ventajas del diseño de experimentos, por lo que afronta retos adicionales. Por tanto,
los resultados de un EE deben ser confirmados en un estudio de intervención.

Recuerde
En la I+D, los EE son I; y los EC, D.

7
Estudios observacionales

2.2. El reto de la asignación


Una vez terminado un estudio etiológico e identificada una posible causa, el reto final es cómo
asignar esta causa a las unidades.

Ejemplo 2.1 (cont): En el ejemplo de asma y soja, Suñer y Antó no propusieron parar el
viento que llevaba los alérgenos porque no les “pertenecía”: no podían decidir la dirección
ni la intensidad del viento. Y tampoco propusieron (o quizás consiguieron) terminar con la
descarga de soja en el puerto de Barcelona. En sus manos sí que estaba sellar bien los silos y
añadir una lona protectora para evitar el escape del alérgeno.

Ejemplo 2.2: El estudio Framingham propuso un pronóstico de eventos cardiovasculares.


Su interpretación etiológica sugirió intervenir sobre la presión arterial. Pero la propuesta no
fue decirle al paciente: “quiero que cuando se levante mañana Vd. regule sus arterias a una
presión con 30mmHg menos”. En cambio, sí que investigaron fármacos que pudieran
aconsejar a los hipertensos para lograr descensos de PA.

Si una condición no es asignable, ¿para qué sirve


dilucidar si la relación es o no es causal? La edad
no es asignable, pero una molécula que
hipotéticamente retrase el envejecimiento celular,
sí lo sería. El género no es asignable, pero sí una
foto y un nombre, femenino o masculino, que se
añaden al currículo que se muestra a quien deba
seleccionar un candidato. Una vez la causa
potencial es asignable, aparece la pregunta del
diseño experimental, por ejemplo, la pregunta
‘ciertas empresas, ¿cuánto más están dispuestas a

Figura 2.1 pagar a un hombre que a una mujer?’ requiere


una causa potencial asignable, para el diseño experimental. El género no es asignable, pero sí una
foto y un nombre ficticios (masculinos o femeninos) que se añaden al currículo que se muestra a
quien deba seleccionar un candidato”.

Dudo que este caso sea el mejor ejemplo. Yo no diría muy alto que la pregunta es posterior a la
detección de la causa asignable. Y cambiaría ese trozo del párrafo:

8
Bioestadística para no estadísticos

Recuerde
Pasar de la etiología a la intervención requiere una causa asignable.

Además, esta intervención tiene que estar descrita con suficiente detalle para permitir su replicación
posterior por quienes deban ejecutarla. La nueva guía de publicación TIDIER, especifica qué
detalles deben permitir su replicación.

2.3. Estudios pronósticos y diagnósticos


Los DO también pueden estar diseñados para responder a preguntas sobre el diagnóstico o sobre el
pronóstico. Como los EC no pretenden contestar estas preguntas, los DO, no tienen competencia
para contestarlas.

Ejemplo 2.3: una reciente RS del BMJ estudia la sensibilidad y especificidad de la


detección en orina del cáncer cervical por virus del papiloma humano (VPH). Pregunta si
hay asociación, si el análisis de orina es un buen marcador (un “chivato”) de este cáncer.
Pero no tiene la pregunta causal de si dar VPH provoca cáncer; y éste, alteraciones en orina.
Por tanto, no requiere asignar al azar a ninguna variable: todas son observadas.

Como la pregunta diagnóstica implica a dos variables en el mismo momento del tiempo, basta un
estudio transversal para contestar cuáles son los valores de sensibilidad, especificidad, etc.

Ejemplo 2.4: el estudio Framingham encontró una relación positiva entre los valores de
presión arterial y la aparición posterior de eventos cardiovasculares.

Ahora, el pronóstico sí necesita que pase el tiempo (estudios longitudinales); pero, igual que en el
diagnóstico, el indicador es una característica del paciente, una condición, no una causa que el
investigador pueda asignar al paciente.

Recuerde
Los estudios diagnósticos y pronósticos no requieren asignación al azar.

Contra-ejemplo 2.5: Desea comparar los efectos en salud de 2 estrategias diagnósticas


alternativas, sean mamografía sistemática bienal, o bien mamografía a demanda tras la
aparición de ciertos signos o síntomas. Ahora, el objetivo no es cuantificar la capacidad
diagnóstica para detectar enfermos y excluir sanos; ahora el objetivo es estimar el efecto de

9
Estudios observacionales

cambiar una estrategia diagnóstica por otra. Mediante un ensayo en grupos (cluster),
diferentes zonas de salud se asignan al azar a ambas “intervenciones” y se comparan los
resultados en salud años después.

Contra-ejemplo 2.6: Para ver si cierta intervención desciende los eventos cardiovasculares
en pacientes hipertensos, hay que estimar estos efectos mediante un EC con asignación al
azar de la intervención en estudio.

Incluir una pauta diagnostica o una pronóstica en una guía de práctica clínica es una intervención de
salud, cuyos efectos pueden ser valorados en EC. Estas intervenciones, como implican a más
colectivos, suelen denominarse intervenciones complejas y suelen valorarse mediante EC en grupo
(“cluster”).

Recuerde
Incluir una pauta diagnóstica o una pronóstica en el protocolo es una intervención
compleja, cuyos efectos suelen estimarse con EC en cluster.

Los estudios diagnósticos y pronósticos usan un indicador para predecir (“adivinar”) el valor de otra
variable. En ambos, lo importante es la capacidad para clasificar bien a los pacientes, sea en el
presente, diagnóstico; o sea en el futuro, pronóstico. Así, conviene que la relación sea intensa, pero
no es preciso que sea causal.

Los ensayos clínicos estiman efectos y los estudios ecológicos exploran causas. En ambos, la
relación de causa-efecto es crucial. Por supuesto, cuanto más intensa sea la relación, mejor. Pero el
requisito fundamental es que la relación sea de tipo causa-efecto.

Recuerde
Los estudios diagnósticos y pronósticos requieren relaciones intensas; los
etiológicos y de intervención, primero que sean causales; y luego, si son intensas
mejor.

2.4. Tipos de estudios y guías de publicación.


Cada tipo de estudio tiene sus guías de publicación. Consort para EC, Prisma para RS, Stard para
los diagnósticos, y Strobe para los transversales, de cohortes y CC. Todas ellas tienen cosas en
común: p.e., todas anteponen el IC al valor de P. Pero las diferencias son tan grandes que los

10
Bioestadística para no estadísticos

editores y metodólogos que las desarrollaron prefirieron hacer una guía diferente para cada tipo de
estudio.

Lectura: Vd. ya ha estudiado algunos de los documentos adicionales “Explanation and Elaboration, E&E”.
Y Vd. ya sabe que son magníficos medios de aprendizaje.

Recuerde
Diferentes objetivos, diferentes diseños y diferentes guías de publicación.

3. Retos de los estudios observacionales


Los 3 grandes sesgos de los estudios observacionales proceden de (1) ausencia de azar en el diseño
(impredecible); (2) causas relacionadas (confusión) y (3) respuestas condicionadas (selección).

3.1. Ausencia de azar


El primer reto, sesgo impredecible, procede de la ausencia de azar en el diseño.

Ejemplo 3.1: Controles concurrentes. Si la intervención de referencia se ha obtenido en otro


centro, las medidas que consideran el azar, como IC95% o error típico, no pueden abarcar las
diferencias entre centros. Quizás los pacientes del centro que aplica la intervención
experimental tienden a evolucionar mejor. O peor. Como es imposible saberlo, es
impredecible. Y lo que es más importante, como no ha habido asignación al azar de centros
o de pacientes, no puede ser cuantificado por las medidas que consideran las fluctuaciones
aleatorias del muestreo.

Si una variable ha quedado fuera del proceso aleatorio, éste no la puede tener en cuenta. No queda
incluida dentro de las oscilaciones posibles.

Lectura: valore repasar la exposición en el capítulo 10 del sesgo impredecible.

Recuerde
El error típico y medidas similares sólo cuantifican la oscilación aleatoria.

Un EC no está libre de este reto. Aparecerá sesgo impredecible si rompe el equilibrio de la


aleatorización eliminando casos durante el seguimiento. La ventaja del EC es que Vd. puede
proteger este reto con un seguimiento completo.

11
Estudios observacionales

3.2. Causas relacionadas


El segundo reto, la confusión, se debe a que, en la vida real, las posibles causas pueden venir juntas,
estar relacionadas.

Ejemplo 3.2: La copa y el puro. Si los que beben también fuman, ¿cómo elucidar si las
respuestas observadas son debidas al alcohol o al tabaco?

Historieta: Un profesor sesentón se casa con una treintañera, que lamenta no encontrar satisfacción, por
lo que acuden al médico. Tras varias recomendaciones infructuosas, éste les aconseja que un treintañero
les abanique para evitar el sudor. Como esto tampoco funciona, el médico pide al profesor que
intercambie su rol con el joven. Entonces, cuando la esposa grita “ahora sí, ahora sí”, el profesor reprocha
al joven: “¿lo ves cómo hay que abanicar?”

Nota: adaptado (el rabino original es ahora el profesor) del libro de Cathcart y Klein.

En un EC, en cambio, la causa en estudio se asigna de forma que sea independiente de todas las
otras variables iniciales. Unas, porque quedan eliminadas con las restricciones de los criterios de
elegibilidad; y otras, porque la estratificación o la minimización garantizan su equilibrio. Incluso,
las variables desconocidas y las imposibles de medir quedan equilibradas por la aleatorización.
Estas garantías son probabilísticas, mayores para muestras más grandes. Pero esto es precisamente
lo que cuantifica el análisis estadístico: “hasta qué punto el azar puede explicar los resultados”.

Tampoco el EC no está libre de este reto, que puede aparecer, por ejemplo, cuando un investigador
no enmascarado aplica intervenciones adicionales a uno de los grupos. Una vez más, un buen
enmascaramiento le protegerá de este reto.
Lectura: el capítulo 17 aborda este reto.

3.3. Respuestas condicionadas


El tercer reto, sesgo de selección, ocurre cuando la evolución condiciona la inclusión en el estudio.

Ejemplo 3.3: Flebitis y anovulatorios. Si por saber que toma la pastilla, estudia más a la
respuesta flebitis, generará asociación entre ambas.

Un EC se protege con un registro completo de los pacientes incluidos y la imposibilidad de eliminar


ningún caso del estudio. Y con una aleatorización oculta durante el reclutamiento. Se trata de
garantizar que no se han seleccionado a los pacientes más enfermos para el grupo tratado y los más
sanos para la referencia (por ejemplo). La presumible relación entre el estado inicial y el final del
paciente provoca que esta selección diferencial de pacientes esté condicionando por el valor futuro

12
Bioestadística para no estadísticos

de la respuesta. También puede aparecer sesgo de selección cuando elimina del estudio a los que no
quieren seguir con el tratamiento porque ya se han curado.

Recuerde
No confunda quitar el tratamiento con quitar del estudio.

Lectura: el capítulo 18 aborda este reto.

Estos 3 retos resaltan la importancia de diseñar, ejecutar y analizar de forma impecable el EC.
Veremos porqué un diseño observacional lo tiene más difícil. En el ejemplo 3.2, Vd. observa los
casos tal y como son. Por tanto, si las 2 causas en competición, alcohol y tabaco, van juntas en esa
población, el reto existe.

4. Retos comunes a todo tipo de estudios


Hay muchos retos compartidos. De hecho, cualquier cosa que pueda hacer mal en un EC, también la
puede hacer mal en un estudio de observación.

Nota: a la variable Z se le denomina de varias maneras: covariante, confusora, regresora o moderadora.

4.1 . Regresión a la media


El tema 10 mostró que, si la evolución tiene cierto componente aleatorio, que oscila a lo largo del
tiempo; si la enfermedad es estacionaria, es decir, crónica; y si los pacientes tienen tendencia a ir a
la consulta cuando peor están, cabe esperar que en una visita futura estén mejor. Por eso, los EC
incluyen un grupo de referencia —que estará afectado en la misma magnitud por este fenómeno.
Los de observación también lo requieren.

Lectura: Al estudiar la regresión lineal, se ve otra vez este fenómeno.

Nota: Los EC no incluían en su inicio histórico a un tratamiento de referencia: todos los pacientes eran
tratados con el experimental. Al añadirla, se les denominó EC controlados. Luego quedó claro que debía
asignarse al azar, y se les llamó EC controlados aleatorizados. Ahora estas etiquetas no son necesarias
porque EC bien hecho debe tener referencia y asignación al azar.

4.2. Informe selectivo


Por ejemplo, escoger aquel análisis estadístico o aquella variable o aquel subgrupo que más
conviene —porque son los que apoyan su idea de salida. O cambiar la hipótesis para “salvar” el
estudio. Aunque ambos, observacionales y experimentales, afrontan este reto, la obligación de
registrar un protocolo protege más a los EC. Por otro lado, al ser los observacionales más iniciales

13
Estudios observacionales

en el I+D; y los EC, más finales, es coherente que los primeros propongan nuevas hipótesis de
forma exploratoria. Pero si desea confirmar o refutar una hipótesis, recuerde que debe ser previa y
estar documentada.

Lectura de STROBE E&E, item 17: “We advise authors to report which analyses were planned, and
which were not. This will allow readers to judge the implications of multiplicity, taking into account the
study’s position on the continuum from discovery to verification or refutation.

Por supuesto, los datos pueden traer sorpresas y siempre es lícito sugerir nuevas ideas o hipótesis,
tanto en DO como EC, pero debe quedar muy claro que son una sugerencia, una interpretación, pero
no un resultado que confirma una
hipótesis previa.

También los EC pueden tener un


carácter exploratorio. Los EC piloto o
de factibilidad pretenden ayudar a
diseñar el EC confirmatorio final
observando temas cruciales como la
adherencia a la intervención, la firma
del consentimiento o el ritmo de
reclutamiento.

Cita de Montgomery: el mejor momento Figura 4.1


para diseñar un estudio es cuando termina.

4.3. Valoración sesgada de las variables


Para estar seguros de que un evaluador no se ha visto afectado por otros conocimientos, el
enmascaramiento también es necesario en los estudios observacionales.

Ejercicio 4.1
Busque en STROBE y STARD las palabras ‘blind’ y ‘mask’ ¿Qué encuentra?

4.4. Homogeneidad del efecto


Un reto común a todo tipo de estudios, incluso los bien diseñados, es la homogeneidad del efecto a
lo largo de la población estudiada. Es decir, que (1) el efecto no cambie de paciente a paciente; y (2)

14
Bioestadística para no estadísticos

que no exista una tercera variable que modifique el efecto. El primero exige que el efecto sea el
mismo en todos los casos, es decir que sea constante, fijo. Y se puede relajar con los modelos de
efectos aleatorios. El segundo es la interacción con otras variables.

Ejemplo 4.1: comer puede modificar el efecto de ciertas intervenciones.

Ejemplo 4.2: ciertas intervenciones pueden ser sinérgicas y ciertas antagónicas.

Ejemplo 4.3: un enzima modifica una reacción biológica; y un catalizador, una química.

5. Diagramas causales

Nota: Los diagramas causales representan esquemáticamente relaciones causales entre variables conectadas
por flechas. En un Directed Acyclic Graph (DAG), las flechas tienen inicio y final (“directed”); y una
variable no puede causarse a sí misma (“acyclic”).

Ejemplo 5.1: Z podría representar la PA


inicial, que condiciona la PA final Y y
provoca, si supera cierta cifra, la
administración de un tratamiento X que, a
su vez, influye en la PA Y (Figura 5.1). Figura 5.1

5.1. Causas relacionadas implica efectos confundidos

Ejemplo 5.2 (prestado de Miguel Hernán): El tabaco Z provoca los “dedos amarillos” Z2
y el cáncer Y. Aunque Z2 no causa Y, la colinealidad entre Z2 y Z, provocará que tengan
ambas sus efectos en Y confundidos, mezclados,
por lo que observaríamos asociación entre Z2 e Y
(Figura 5.2).
Figura 5.2

Diremos que: (1) Z tiene efecto causal en Y; (2) Z2 no tiene efecto causal en Y; pero (3) Z2 e Y
están asociados.

Recuerde
Distinguiremos entre expresiones “causales” y expresiones “relacionales”.

15
Estudios observacionales

En el DAG representa el bloqueo por un cuadrado alrededor de la variable controlada (Figura 5.3).

Definición
Condicionaremos (“blocking”) por una variable cuando, mediante el ajuste, la
dejemos “fija”, constante y, así, anulemos su relación con otras variables.

Ahora diremos que, condicionado por Z, Z2 e Y no


están asociados (Figura 5.3).
Figura 5.3

Ejemplo 5.3: Partimos (premisas) de que (1)


el gen X provoca hipercolesterolemia (Z); y
(2) esta misma Z causa los eventos adversos
Y (Figura 5.4). Figura 5.4

Nos preguntamos (hipótesis), si el gen X tiene algún efecto directo, que no pase por Z, en
los eventos adversos Y. Es decir, como clínicos, queremos saber si, controlando la
hipercolesterolemia Z, eliminaremos todos
los efectos de X en Y o bien aún quedarán
otros (Figura 5.5).
Figura 5.5

Ejercicio 5.1
Sean los datos inventados de la siguiente tabla. Conteste si el gen tiene algún
efecto directo en AVC o más bien todos sus efectos pasan por el camino de los
lípidos altos.

Notación
ORXY representa el OR entre X e Y sin ajustar

16
Bioestadística para no estadísticos

ORXY|Z representa la relación XY ajustando por Z

En la figura 5.6 puede ver un ejemplo completo de confusión que muestra las relaciones de Z con Y
(verde), de Z con Z2 (azul); y cómo Z2 es independiente de Y condicionada por Z (lila), pero está
relacionada con Y, al dejar libre a Z (rojo).

Ejemplo 5.4: La figura 5.6 muestra unos datos inventados desde todas las perspectivas. La
primera fila de subtablas muestra que la variable Z está relacionada con la respuesta Y (sea
porque tiene relación causal, sea porque es predictora). La segunda fila reordena los mismos
datos para mostrar que Z también está relacionada con Z2. Nótese que la más relevante de
las 3 subtablas de esta fila es la última: como la variable Y es posterior en el tiempo a las
otras dos, es difícil interpretar qué significan las dos primeras columnas. Finalmente, la
última fila muestra la relación entre Z2 e Y: condicionado por Z, son independientes (dos
primeras columnas), pero al dejar a Z libre, aparece relación (tercera columna).

Figura 5.6

Recuerde
Causas relacionadas implica efectos confundidos (sesgo de confusión)

17
Estudios observacionales

Ejercicio 5.2
¿Cualés de estos 4 DAGs representan confusión?

Ejercicio 5.3
1) ¿Y cuáles representan la siguiente situación? Sólo los pacientes que tienen
ciertas condiciones iniciales buenas son candidatos para una cierta intervención.
Por supuesto, esas condiciones iniciales buenas son un buen predictor de la
evolución. Sin embargo, acabamos de saber que la intervención que
administramos, con tanta ilusión, no tiene ningún efecto. 2) ¿Hay confusión?

Ejercicio 5.4
1) ¿Y cuáles la siguiente? La cirugía es un remedio útil para ciertas enfermedades
que están en su fase más inicial. [Use sus propios conocimientos sobre el tema
para completar el enunciado.] 2) ¿Hay confusión?

5.2. Respuestas condicionadas implica sesgo de selección

Ejemplo 5.5: Suponga (premisa 1) que las mujeres que toman anovulatorios Z van más al
centro sanitario Y que las que no toman. Representamos a los anovulatorios por Z para
remarcar el carácter observacional del estudio: el investigador no decide o aconseja los
anovulatorios, sino que la paciente ya llega con valor en esta variable. Suponga también
(premisa 2) que las mujeres que tienen cierta enfermedad Z2 (flebitis, por ejemplo) van más
al centro sanitario que las que no. Y Vd. se pregunta (hipótesis) si los anovulatorios Z están
relacionados con esta enfermedad Z2. En la representación de este DAG, diríamos, en
términos relacionales, que Z y Z2 son
independientes; y, en términos causales, que Z
no tiene efecto en Z2 (Figura 5.7).
Figura 5.7

18
Bioestadística para no estadísticos

En cambio, si se estudian los casos que van al hospital, aparecerá relación entre ambas
variables: al condicionar por la respuesta Y,
aparece una relación no causal entre Z y Z2
(Figura 5.8).
Figura 5.8
Ejemplo 5.5 (cont): La tabla 5.1, en la tercera columna muestra que anovulatorios Z y
enfermedad Z2 son independientes en la población. Pongamos que en esta población, las
pacientes que o no toman anovulatorios Z o no tienen la enfermedad Z2 un 20% van al
centro sanitario. En cambio, las que cumplen ambos van un 80%. Así, en el centro sanitario
Y+, primera columna aparece una relación positiva entre Z y Z2.

Y+ Z2+ Z2- Y- Z2+ Z2- Z2+ Z2- Y+ Y- Y+ Y-

Z+ 70 30 Z+ 30 70 Z+ 100 100 Z+ 100 100 Z2+ 100 100


Z- 30 30 Z- 70 70 Z- 100 100 Z- 60 140 Z2- 60 140
OR = 21/9 OR = 9/21 OR = 1 OR=7/3 OR=7/3

Tabla 5.1: a nivel global, tercera columna, Z y Z2 son independientes; pero si la probabilidad de ir al centro
es menor en las que no son o Z i Z2, la primera columna muestra relación entre Z y Z2. Las 2 últimas
columnas muestran que ambas Z predicen la respuesta.

Ejercicio 5.5
Suponga que cierto gen Z provoca eventos adversos Y. A la vez, lípidos altos Z2
también provocan Y. La tabla siguiente muestra la situación. Suponga también
que su centro solo atiende los Y+: ¿Qué observa?

Y+ Z2+ Z2- Y- Z2+ Z2- Z2+ Z2-

Z+ 80 45 Z+ 10 45 Z+ 90 90
Z- 45 10 Z- 45 80 Z- 90 90
OR=0.4 OR=0.4 OR=1
IC95%=0.18 to 0.86 IC95%=0.18 to 0.86 IC95%=2/3 to 3/2

19
Estudios observacionales

Ejercicio 5.6
Una chica acepta citas si sus pretendientes son o guapos o simpáticos; y observa,
desolada, que los que son una cosa suelen no ser la otra. Explique porqué eso no
implica que, en la población general, ambas variables tengan una relación
negativa (pista: los que no cumplen ninguna condición tienen una probabilidad
menor de ser seleccionados).

Recuerde
Respuestas condicionadas implica causas relacionadas (sesgo de selección)

6. Repaso de variables categóricas con R


Repaso de algunos conceptos clave:

Diferencia de riesgos: se define como la diferencia entre la probabilidad de que un caso expuesto al
factor desarrolle la enfermedad y la misma probabilidad en un caso no expuesto al factor (diferencia
de riesgo entre expuestos y no expuestos).

Riesgo relativo: se define como el cociente entre las probabilidades de desarrollar la enfermedad;
los expuestos dividida por la de los no expuestos (razón entre riesgo en expuestos y riesgo en no
expuestos).

Odds ratio: se define como el cociente entre las odds (o razones sí/no) de desarrollar la enfermedad
entre los expuestos y los no-expuestos.

Ejemplo 6.1: Repasemos el cálculo de estas medidas en R tomando la siguiente tabla como
ejemplo:
Y+ Y- Total
X+ 7 125 132
X- 8 860 868
Total 15 985 1000

Tabla 6.1 Presencia de la enfermedad Y y el factor de riesgo X en 1000 casos.

20
Bioestadística para no estadísticos

Ejemplo R

# IC95% mediante la funcion epi2x2 del package epibasix


>install.packages('epibasix')
>library(epibasix)
>tabla <- matrix(c(7,125,8,860),2,2,byrow=T) # Tabla 6.1
>results <- epi2x2(tabla)
>attach(results)
# Estimación puntual e IC para el OR
>OR;OR.CIL;OR.CIU
[1] 6.02
[1] 2.145785
[1] 16.88911
# De forma similar para la DR y el RR
>rdCo;rdCo.CIL;rdCo.CIU
>RR;RR.CIL;RR.CIU
>detach(results)

Repasemos ahora la representación de los OR:

Ejemplo 6.2 : Después de cargar las funciones del curso que se encuentran en el Apéndice,
creamos una tabla mediante con array; los datos son los siguientes (Tabla 6.2):

Z+ Z-
Y+ Y- Y+ Y-
X+ 3 176 17 197
X- 4 293 2 23
Tabla 6.2

Ejemplo R
>tabla<- array(c( 3, 4, 176, 293, 17, 2, 197, 23), dim=c(2, 2, 2),
dimnames=list(c("X+","X-"),c("Y+","Y-"),c("Z+","Z-")))

En segundo lugar calculamos los OR con ORlogit:

Ejemplo R
>OR <- ORlogit(tabla)
>OR
LI OR LS

21
Estudios observacionales

OR1 0.2762103 1.2485795 5.644072


OR2 0.2154215 0.9923858 4.571640
OR Global 1.1202828 2.8239500 7.118465
OR Logit 0.3810770 1.1147301 3.260819

Por ultimo lo representamos gráficamente con ORforest.

Ejemplo R

>ORforest(OR)

OR Logit

OR G

OR2

OR1

0.2 0.5 1.0 2.0 5.0

OR

Ejercicio 6.1.
Obtenga la mediana de peso de los niños según si el período de gestación fue
inferior a 37 semanas o no lo fue.

Ejercicio 6.2
Obtenga con R el OR, el RR y el RA de la siguiente tabla a) ¿Porqué se asemejan
tanto el OR y el RR? b) ¿En qué tipo de tablas se diferencian más estas dos
medidas?
Y+ Y- Total
X+ 200 250 450
X- 100 150 250
Total 300 400 700

22
Bioestadística para no estadísticos

Ejercicio 6.3

Practique estas instrucciones con datos propios.

Obtenga OR, RR y DR con epi2x2(...) del paquete 'epibasix' .

Ejercicio 6.4
Diga cuáles de las siguientes son ciertas y corrija la expresión en caso contrario.

a) OR, DR y RR son medidas de asociación entre 2 variables numéricas V

b) OR y DR son cocientes, pero RR una diferencia F

c) En ensayos clínicos, OR, DR y RR reciben el nombre de medidas del efecto

d) En estudios observacionales, OR, DR y RR suelen llamarse medidas de


asociación, o también, medidas del riesgo F

23
Estudios observacionales

Soluciones a los ejercicios

4.1 STARD: Las definiciones que aparecen son las siguientes:

item 11. describe whether or not the readers of the index tests and reference standard were blind (masked) to the results
of the other test and describe any other clinical information available to the readers.

Withholding information from the readers of the test is known as blinding or masking.

Observe que considera que las palabras blind y mask son sinonimos, y en este contexto significan ocultar información
(de asignación???) a los lectores.

STROBE: Sólo aparece el término “blinded”. Hace referencia a la utilidad de ‘‘cegar’’ a los participantes del estudio y
a los investigadores para evitar sesgo información y, en concreto, el sesgo del entrevistador.

5.1 A nivel global, sin controlar por lípidos (Z), la estimación puntual del ORXY es 2.7, con un IC95% razonablemente
preciso: los valores mínimos y máximos de esta relación, compatibles con los datos, serían 2.2 y 3.3. Controlando por
lípidos (Z), las estimaciones puntuales de los ORXY|Z son muy próximas a 1 (ORXY|Z1=1.01 y ORXY|Z2=0.99), con IC95%
razonablemente precisos: la máxima relación compatible con estos datos sería de 1.4 y 1.5. En estos datos, los lípidos Z
“vehiculizan” todos los efectos que el gen X tiene en los eventos adversos Y.

5.2 A y C cumplen con ‘variables relacionadas’ y que la tercera variable Z prediga la respuesta.

5.3 1) C: Z son las condiciones iniciales que determinan tanto la evolución Y como la posibilidad de recibir el trat X.
Pero X no tiene efecto en Y. 2) Esta situación podría provocar que, si no ajustamos por Z, observaramos una falsa
relación entre X e Y: Sí, hay confusión.

5.4 1) A: El enunciado dice que X->Y. Nosotros sabemos que la cirugía suele exigir que las condiciones iniciales sean
buenas (ZX) y también que estas condiciones suelen predecir la respuesta (ZY). 2) Igual que el anterior, pero ahora sí
que hay efecto XY, pero el que observáramos añadiría el otro camino, por lo que el efecto observado juntaría ambas
vías y mostraría un efecto diferente del real.

5.5 Se observa que Z y Z2 son independientes. Además en los pacientes con Y+ existe una relación negativa entre Z y
Z2 debido a que la probabilidad de no Z y no Z2 es menor que el resto de probabilidades de los pacientes con Y+.

5.6 Si hubiera independencia en la población general y clasificaramos según la mediana, la mitad de los casos serían
positivos en cada categoría y, en la población general habría una tabla “plana” con el mismo número de casos en cada
celda (como la de la derecha), mostrando independencia entre ambas variables.

Y+ Z2+ Z2- Y- Z2+ Z2- Z2+ Z2-

Z+ 80 80 Z+ 20 20 Z+ 100 100
Z- 80 20 Z- 20 80 Z- 100 100

OR = 1/4 OR = 4 OR = 1

Si la chica dice que sí a un 80% de los casos que cumplen alguna de las condiciones y un 20% a los que no cumplen
ninguna, observaría la tabla de la izquierda, con un OR de ¼ mostrando relación negativa que no es real. La versión
inglesa de Wikipedia, en paradoja de Berkson, explica este mismo ejemplo, de Ellemberg de manera más formal.

24
Bioestadística para no estadísticos

6.1 >tapply(bweight,preterm , median)


0 1
3282 2404

6.2 install.packages('epibasix')

library(epibasix)

tabla <- matrix(c(200,250,100,150),2,2,byrow=T)

results <- epi2x2(tabla)

attach(results)

# Estimación puntual e IC para la DR

rdCo;rdCo.CIL;rdCo.CIU

# Estimación puntual e IC para el RR

RR;RR.CIL;RR.CIU

# Estimación puntual e IC para el OR

OR;OR.CIL;OR.CIU

a) La lejanía del OR y el RR se debe a que las probabilidades de la respuesta Y+ son altas (la más baja es
150/700=0.14)
b) Cuando el evento es raro y su probabilidad es pequeña, ya que OR=p/(1-p) y si la p es pequeña (1-p) tiende a 1.
6.3 >install.packages('Epi')
>library(Epi)
>data(births)
>births
>attach(births)
#b) Estimación puntual (e IC) para el RA
>rdCo;rdCo.CIL;rdCo.CIU
#c) Estimación puntual (e IC) para el RR
> RR;RR.CIL;RR.CIU
#d) Estimación puntual e IC para el OR
> OR;OR.CIL;OR.CIU

6.4 a) Verdadera

b) Falsa. OR y RR son cocientes, pero DR una diferencia

c) Cierta.

d) Cierta.

25
Estudios observacionales

Apéndice I: Funciones
#Cálculo del OR y su IC95% a partir de una tabla 2x2
> OddsRatio <- function(t){
or <- t[1,1]*t[2,2]/t[2,1]/t[1,2]
var <- sum(1/t)
LI <- exp(log(or)-1.96*sqrt(var))
LS <- exp(log(or)+1.96*sqrt(var))
return (c(LI,or,LS))
}

#Cálculo del OR de las tablas marginales, el OR global y el ORLOGIT a partir de


un array (o tabla) de 3 dimensiones
> ORlogit <- function (tabla){

OR <- matrix(NA,nrow=4,ncol=3) # Matriz de los OR y sus IC


colnames(OR) <- c("LI","OR","LS") # Nombre columnas
rownames(OR) <- c("OR1","OR2","OR Global","OR Logit") # Nombre filas

OR[1,] <- OddsRatio(tabla[,,1]) # OR 1a tabla parcial


OR[2,] <- OddsRatio(tabla[,,2]) # OR 2a tabla parcial
OR[3,] <- OddsRatio(tabla[,,1]+tabla[,,2]) # OR tabla global

w <- function(t){return(1/sum(1/t))} # Función pesos


w1 <- w(tabla[,,1]); w2 <- w(tabla[,,2]) # Peso de cada tabla

LnORlogit <- (w1*log(OR[1,2])+ w2*log(OR[2,2]))/(w1+w2)# Ln (ORlogit)


var <- 1/(w1+w2) # y su variancia
LIORlogit <- exp(LnORlogit-1.96*sqrt(var)) # LI del IC
LSORlogit <- exp(LnORlogit+1.96*sqrt(var)) # LS del IC
OR[4,] <- c(LIORlogit,exp(LnORlogit),LSORlogit)

return(OR)
}

#Gráfico “forest plot” a partir de la salida de la anterior función.


> ORforest <- function(OR){
n <- dim(OR)[1] # Número de OR's a dibujar
xmin <- min(OR); xmax <- max(OR) # Límites eje x

plot(NULL, xlim=c(xmin,xmax+1),ylim=c(0,n+1),
xlab="OR",ylab="",yaxt="n",log="x") # Marco del gráfico

abline(v=1,lty=2) # Línea vertical en x=1


for (i in 1:n){ # Gráfico Forest-plot
segments(OR[i,1],i,OR[i,3],i)
points(OR[i,2],i)
text(OR[i,3]+0.1,i,rownames(OR)[i],adj=0)
}
}

26
Capítulo 17:

Confusión:
Causas relacionadas implica efectos confundidos

Erik Cobo
José Antonio González, Jordi Cortés y Nerea Bielsa

Septiembre 2014
Confusión

Confusión
Presentación ..................................................................................................................... 3
1. Causas relacionadas implica efectos confundidos ............................................ 4
1.1. X representa causas; Z, condiciones ...................................................................... 4
1.2. Z y X deben estar relacionadas (ser “colineales”) ................................................. 4
1.2. Premio al diseño en EC: ausencia de confusión .................................................... 8
1.3. La tercera variable debe estar relacionada con la respuesta ................................. 11
1.4. Definición epidemiológica de variable confusora ............................................... 12
1.5. Generando confusión ........................................................................................... 15
1.6. No confusión como premisa para la inferencia causal ......................................... 16
2. Ajuste por terceras variables ........................................................................... 19
2.1. Estimador ajustado Mantel-Haenszel (MH) ........................................................ 19
2.2. Extensión a un mayor número de subtablas ......................................................... 23
2.3. Ajuste por ponderación ........................................................................................ 26
ANEXO .............................................................................................................................. 29
3. Pruebas de hipótesis para tablas de frecuencias ............................................ 29
3.1. Prueba χ2 de Pearson ............................................................................................ 29
3.2. Prueba χ2 de Pearson con corrección de Yates* .................................................. 33
3.3. Prueba exacta de Fisher........................................................................................ 34
3.4. PH ajustada de MH .............................................................................................. 36
Soluciones a los ejercicios.................................................................................................. 39

2
Bioestadística para no estadísticos

Presentación

Este capítulo está dedicado en exclusiva al tema estrella de los diseños observacionales: la
confusión, usando tanto la definición estadística, como la epidemiológica. Luego expone tanto las
condiciones que originan la confusión, como aquellas que deben darse para que no aparezca.

La segunda parte expone las herramientas estadísticas para abordar la confusión en el caso de
variables dicotómicas. El objetivo es estimar el efecto de X en Y controlando por las terceras
variables conocidas Z.

Existen 3 grandes estrategias para controlar numéricamente la influencia de Z’s.

La informática ha facilitado el uso de modelos matemáticos para descontar la influencia de las Z en


Y. Son los conocidos métodos de regresión, como por ejemplo, lineal, logística o de Cox, a los que
dedicaremos capítulos enteros.

En éste veremos dos métodos alternativos. El primero hace estratos de las terceras variables Z para
estimar, dentro de cada uno, el efecto de X en Y. El estimador de Mantel-Haenszel pondera los
efectos XY observados en estos estratos para obtener un estimador único del efecto de X en Y
común para todos los estratos definidos con las Z.

El método de ponderación por el inverso de la probabilidad intenta construir una tabla en la que los
grupos sean comparables y en la que calcular directamente el efecto de X en Y.

Contribuciones: Basado en el material previo habitual, Erik Cobo redactó un primer borrador que
fue revisado por José Antonio González, Jordi Cortés y Nerea Bielsa, quienes, además, han
diseñado los ejercicios adicionales implementados en e-status.

3
Confusión

1. Causas relacionadas implica efectos confundidos


Ya vimos algún ejemplo de este reto. Entremos ahora más a fondo.

1.1. X representa causas; Z, condiciones


Ya vimos que una causa debe ser asignable. Si una condición no puede convertirse en una
intervención, hablar de causa o de efecto es irrelevante.

Recordemos que X representa a las variables cuyo valor puede depender, al menos potencialmente,
del individuo. Son intervenciones, por tanto. Desde consejos de vida saludable (“higiénico-
dietéticos”) hasta las empleadas por las diferentes disciplinas (farmacología, cirugía,
fisioterapia,…). En cambio, Z representa las condiciones del paciente cuyo valor no puede ser
decidido ni por el paciente ni por el investigador. Las más habituales son el género y la edad, pero
toda la historia pasada forma parte de estas condiciones. Como no tienen el protagonismo de la
respuesta Y ni de la intervención X, suelen llamarse “terceras variables”.

Ejemplo 1.1: Lo fumado en el pasado es Z; lo del futuro, X.

Historieta: El pasado me esclaviza, el futuro me libera.

Esta distinción entre las variables iniciales es clave para interpretar correctamente los resultados. En
un EC, el tratamiento en comparación es X; pero los criterios de elegibilidad y las variables de
estratificación, Z. En un diseño observacional todas las variables iniciales son Z: el buen
investigador especulará sobre cuál convertir en X.

Nota: Estas variables iniciales, sean Z o X, suelen etiquetarse con un mismo nombre: covariantes y
regresoras son frecuentes.

Recuerde
Es más correcto “variables relacionadas implica respuestas confundidas”.

1.2. Z y X deben estar relacionadas (ser “colineales”)


Si una causa X en estudio está relacionada con una tercera variable Z, los posibles efectos de ambas
no podrán diferenciarse y se dice que están confundidos. Por lo tanto, para que exista confusión es
preciso que las variables X y Z estén relacionadas.

4
Bioestadística para no estadísticos

Ejemplo 1.2: Dos tratamientos se utilizan en dos centros diferentes, si bien en Primaria
prefieren A, de forma que se administra 5 veces por cada una que se ofrece B (5/1): la odd o
momio está “5 a 1” o bien 5/1. En cambio, en el centro de referencia es justo al revés, ya que
A sólo se administra 1 vez por cada 5 de B: la odd ahora vale “1 a 5”. Todo ello conduce a
un desequilibrio que el OR cuantifica en 25 (Tabla 1.1).

X=A X=B Odd


Primario 150 30 5a1
Terciario 30 150 1a5

OR = (5/1) / (1/5) = 25

Tabla 1.1

Existe, por tanto, una fuerte relación entre el tratamiento en estudio X y la tercera variable
centro Z.

Se dice, en esta situación, que X y Z son colineales y que sus posibles efectos estarán confundidos,
como se muestra a continuación.

Ejemplo 1.2 (cont.): Suponga que, en el primer centro, los pacientes que evolucionan bien
doblan a los que no lo hacen: odd = 2 a 1. Mientras en segundo centro, los que evolucionan
bien son la mitad de los que no lo hacen: odd = 1 a 2, es decir, “½”. El OR vale 4, indicando
que la evolución favorable es 4 veces más frecuente en el primer centro (Tabla 1.2):

Y+ Y- Razón

Primario 120 60 2a1


Terciario 60 120 1a2

OR = (2/1) / (1/2) = 4

Tabla 1.2

Dicho de otra manera, en primaria van bien, por el motivo que sea, 4 veces más. No es
preciso ni se pretende afirmar que primaria sea mejor (relación causal): quizás los pacientes
estén en un estado más inicial de su enfermedad o tengan menos comorbilidades. Por la

5
Confusión

razón que sea (“las cosas de la vida”), los de primaria tienen mejor pronóstico: el centro es
un predictor de la respuesta.

Imaginemos que los 2 tratamientos A y B tienen idéntica eficacia, como muestran las tablas
siguientes, una para cada centro (Tabla 1.3):

Primario Terciario

Y+ Y- Odd Y+ Y- Odd
X=A 100 50 2a1 10 20 1a2
X=B 20 10 2a1 50 100 1a2

OR 1 1

IC95% 0.42.3 0.42.3

Tabla 1.3

En cada centro, cambiar de A a B no modifica la respuesta, OR=1. Pero si, por brevedad o
descuido, no tiene en cuenta el centro y estudia únicamente la tabla conjunta, obtendrá un
OR=2,5 (IC95% de 1,6 a 3,8), indicando asociación entre tratamiento y evolución (Tabla
1.4):

Y+ Y- Odd
X=A 110 70 11 a 7
X=B 70 110 7 a 11

OR  2,5 IC95%=1,63,8

Tabla 1.4

Figura 1.1

6
Bioestadística para no estadísticos

Al estudiar ambos centros en conjunto, el tratamiento parece tener un efecto (OR=2,5) que
en realidad no tiene (OR=1). ¿Qué sucede? Observe los 180 casos asignados a A (Tabla 1.4)
y mírelos en la tabla 1.1: la mayoría, 150, vienen de primaria, justa al revés que lo que pasa
con los asignados a B. La comparación no es “justa”, ya que los asignados a A parten con
ventaja. En resumen, como Intervención y Centro están relacionados se confunden sus
efectos. Aquí no engaña la intuición: si el tratamiento A se estudia más en el centro 1, que
tiene mejores resultados, y el tratamiento B en el centro 2, que tiene peores resultados, esta
comparación estará sesgada a favor del tratamiento A.

Recuerde
Variables relacionadas implica efectos confundidos.

Ejercicio 1.1
Represente en un DAG este ejemplo.

El problema es que ahora los datos no conducen a una única interpretación, pues puede
argumentarse que la diferencia entre los resultados viene por cualquiera de las dos diferencias entre
los dos grupos.

Ejemplo 1.3: en la historieta del capítulo anterior que cambia a la vez quién abanica y quién
yace, la interpretación del profesor es lícita, en el sentido de ser compatible con los
resultados. Es la información externa sobre los nulos efectos del abanico la que desaconseja
esa interpretación —pero no la información de los datos.

Si las variables (sean Z o X) están relacionadas, los resultados del estudio no tienen una única
interpretación. La atribución de los efectos a una u otra variable debe ser discutida de acuerdo con
los conocimientos teóricos y las características del estudio.

Recuerde
Si hay colinealidad, más de una interpretación es compatible con los datos.

Historieta: Un EC termina con una conclusión. Un DO, con una discusión.

7
Confusión

1.2. Premio al diseño en EC: ausencia de confusión


Por supuesto, un buen investigador no hubiera cometido el error anterior, ya que habría balanceado
a la variable Z en el diseño del estudio y habría evitado el desequilibrio. Veamos las ventajas.

Ejemplo 1.4: un buen diseño implicaría idéntica razón entre tratados y controles para
ambos centros, lo que se traduce por un OR = 1 (Tabla 1.5):

X=A X=B Odd

Primario 90 90 1a1
Terciario 90 90 1a1

OR = (90/90) / (90/90) = 1

Tabla 1.5

Es decir, ahora el tratamiento está balanceado entre centros, ya que la razón tratados con A
versus tratados con B (1 a 1) es idéntica en ambos. Ahora, la comparación será justa (“fair”)
porque los grupos de las intervenciones son comparables: los pacientes proceden, con la
misma razón, de ambos centros.

Recuerde
En una comparación “justa”, todas las terceras variables están igualmente
distribuidas en los grupos

Si igual que antes no existieran diferencias entre los tratamientos, se podría observar, en
cada centro, una situación idéntica a la anterior, como la que muestra la tabla 1.6.

C1 C2
Tabla 1.6
Y+ Y- Odd Y+ Y- Odd
X=A 60 30 2a1 30 60 1a2
X=B 60 30 2a1 30 60 1a2

OR 1 1

IC95% 0,51,9 0,51,9

8
Bioestadística para no estadísticos

En los dos centros, estudiados por separado, el tratamiento no tiene efecto: en ambos OR=1.
Si, por parsimonia o por claridad, este investigador quisiera presentar los resultados
comparativos de los tratamientos sin distinguir por centro, obtendría los siguientes datos,
concluyendo también que no existe relación entre tratamiento y evolución (Tabla 1.7):

Y+ Y- Razón
X=A 90 90 1a1
X=B 90 90 1a1

OR = 1 IC95%=0,71,5

Tabla 1.7

Es decir, estudiando ambos centros a la vez, el tratamiento tampoco muestra efecto alguno,
como era deseable.

Figura 1.2: Independencia de X con Z conduce a idéntica estimación global y por grupos

En resumen, un diseño balanceado permite los mismos resultados al considerar la tercera


variable Z (Tabla 1.6) que cuando no la tiene en cuenta (Tabla 1.7). Y ello a pesar de que,
igual que antes, la evolución es mejor en el primer centro.

Recuerde
Si la tercera variable Z no está relacionada con la intervención X, no cambiará la
estimación del efecto de X en Y – aunque Z prediga la respuesta Y.

Ejercicio 1.2
Dibuje el DAG de este ejemplo y compárelo con el del ejemplo anterior.

9
Confusión

Ejercicio 1.3
En la tabla figuran 4 estudios que han asignado la intervención Experimental E y
la de referencia R, tanto a hombres como a mujeres. Explique la razón de las
diferencias de los números observados, cuáles tienen confundidos los efectos del
género y la intervención; y porqué.

A B C D

E R E R E R E R

Hombres 100 100 200 100 300 600 200 100

Mujeres 200 200 200 100 100 200 100 200

Así, mediante un buen diseño, el EC, puede garantizar que las variables Z balanceadas están
equilibradas en ambos grupos, por lo que no podrán provocar confusión.
Figura 1.3: Control de las variables conocidas Z mediante el
ajuste
Pero, ¿qué pasa con las variables no balanceadas? Suponga
que en unos años se descubre cierta medida Z de la “paz
interior” que tiene una gran capacidad pronóstica en la
evolución de los pacientes. ¿Deberemos repetir todos los
estudios que emplearon respuestas Y relacionadas con esta Z
—ahora balanceando con ella?

Figura 1.4: Control de las variables desconocidas W


mediante el azar.
La gran ventaja del EC es que no es necesario: ya vimos
que la aleatorización garantiza que las sub-muestras vienen
de la misma población, por lo que, a nivel poblacional,
ambas muestras son idénticas: tienen exactamente la misma
composición a nivel poblacional en todas las variables
desconocidas W. La magnitud de las oscilaciones
muestrales es precisamente lo que cuantifican las medidas
estadísticas de incertidumbre.

10
Bioestadística para no estadísticos

Recuerde
Un EC controla las variables conocidas Z mediante el ajuste y las desconocidas W
mediante el azar.

Por supuesto, hay que evitar los riesgos de sesgo que vimos en el capítulo 10.

Recuerde
Un EC bien diseñado, ejecutado y analizado está protegido contra la confusión.

1.3. La tercera variable debe estar relacionada con la respuesta


Hemos visto que dos variables, X y Z, colineales tienen sus efectos en Y confundidos. Pero para
que Z cambie la estimación del efecto de X en Y, Z debe también estar relacionada con Y: Z debe
ser “un predictor de la respuesta Y”.

La tercera variable Z puede predecir la respuesta Y por cualquier razón. No importa que sea causal.

Definición
Decimos que Z es predictor de Y si ambas están relacionadas —causalmente o no.

La solución de un buen diseño no “rompe” la relación ZY; sino ZX, con un diseño balanceado.

Ejercicio 1.4
Dibuje el DAG de un buen EC y explique porqué no puede haber confusión, ni
siquiera para variables desconocidas W que estén relacionadas con la respuesta Y.

Ejercicio 3.5
En la tabla figura un ejemplo de Bishop (32) –analizado también por Freeman
(43)- sobre la evolución de un recién nacido (vive, muere) en función de la
duración de la preparación materna al parto (cuidados ><1 mes) y del hospital
(A,B) . Clasifique las variables en respuesta, intervención y condición. ¿Qué
opina sobre la influencia de los cuidados en la evolución?

11
Confusión

Clínica A Clínica B Todos

Muere Vive Muere Vive Muere Vive

Cuidados <1 3 176 17 197 20 373

Cuidados >1 4 293 2 23 6 316

OR 1’25 0’99 2’88

IC95%OR 0’28, 5’64 0’22, 4’57 1’12, 7’12

1.4. Definición epidemiológica de variable confusora

Definición
Una variable Z confunde la relación entre X e Y cuando la estimación del efecto
de X en Y cambia si se ajusta o no se ajusta por Z.

Recuerde
Para que Z confunda, debe (1) ser colineal con X; y, (2) predecir Y.

Ejercicio 1.6
Dibuje un DAG que represente confusión

Ejemplo 1.5: La tabla 1.8 muestra: (a) un efecto ajustado ORXY|Z1= ORXY|Z2=2; (b) un
efecto sin ajustar ORXY=3.36; una colinealidad ORXZ=5.76; y (c) un capacidad predictiva
ORZY=5.76.

Z1 Z2 Todos

Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2

X1 450 150 100 150 550 300 X1 600 250 Z1 600 250

X2 150 100 150 450 300 550 X2 250 600 Z2 250 600

OR 2 2 ≈3.36 ≈5.76 ≈5.76

Tabla 1.8

12
Bioestadística para no estadísticos

La DAG izquierdo de la figura 1.5 muestra el diagrama completo con todos los efectos
“directos” entre estas variables. Pero la figura derecha muestra lo que pasaría si
erróneamente se obviara la tercera variable Z: el efecto sin ajustar combina los 2 caminos, el
mediado por Z (ORXZ y ORZY); y el directo (ORXY|Z) para dar una estimación
combinada (ORXY=3.36).

Figura 1.5: Consecuencias de olvidar una variable Z relacionada con X y con Y

El ejemplo anterior muestra que cuando X y Z tienen sus efectos confundidos, el cambio en la
relación XY observada puede ir en cualquier dirección: (1) en el ejemplo habitual, al ajustar por Z
disminuye (o hasta desaparece) la relación XY; pero (2) también podría aumentar (o incluso
aparecer).

Recuerde
La relación XY sin ajustar mezcla el camino directo y el que pasa por Z.

Ejercicio 1.7
En cierta Facultad muy masificada, la mitad de los alumnos faltan a clase. El
profesor estudia las notas finales y observa que los que van a clase: (1) sacan, en
promedio 2 puntos más (IC95% de 1.5 a 2.5); y (2) aprueban un 30% más (IC95% de
15 a 45%). Diga cuáles de las siguientes son falsas y porqué:
a) Al hacer la diferencia de sus medias, ha observado 2; y al hacer el cociente de
las proporciones de aprobados ha observado 1.3
b) Al hacer las medias, conviene incluir en el análisis a aquellos que no se
presentaron al examen final (por ejemplo, con un 0).
c) El efecto de las clases de este profesor en las notas de los alumnos es de 2
puntos (IC95% de 1.5 a 2.5).
d) Faltar a clase es un indicador (‘chivato’) de que las notas pueden terminar
mal: todo apunta a 2 puntos por debajo (IC95% de 1.5 a 2.5).

13
Confusión

e) Si un padre se entera de que su hijo no va a clase, hará muy bien en


preocuparse.
f) Al ser un diseño observacional, pueden existir muchas diferencias entre los
que van y los que no van a clase. Todas estas variables no controladas podrían
ser una explicación alternativa al efecto del profesor de las diferencias
observadas.
g) El riesgo de suspender es un 30% mayor en los que no van a clase.
h) Aunque la relación no sea causal, sí puede tener valor predictivo.
i) El profesor diseña una intervención docente para mejorar el rendimiento y
decide aplicarla a los que no van a clase, porque, argumenta, “tienen mayor
margen de mejora y, por tanto, se beneficiarán más de la intervención”

Ejercicio 1.8
Invéntese un ejemplo en el que una variable tenga valor predictivo pero no se
pueda hablar de efecto causal. Puede ser un ejemplo de salud o de la vida
cotidiana. Si es de una revista científica, perfecto.

Ejercicio 1.9
En la tabla siguiente:
a) ¿Son X y Z colineales?
b) ¿Predice Z la respuesta Y?
c) Ajustando por Z1, ¿hay relación XY?
d) Ajustando por Z2, ¿hay relación XY?
e) Sin ajustar por Z, ¿hay relación XY?
f) ¿Tienen X y Z sus efectos confundidos?
g) Confunde Z al estudiar la relación XY?

Z1 Z2 Todos

Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2

X1 200 40 200 360 400 400 X1 240 560 Z1 560 240

X2 360 200 40 200 400 400 X2 560 240 Z2 240 560

OR ≈2.78 ≈2.78 1 ≈0.184≈1/5.44 ≈5.44

14
Bioestadística para no estadísticos

Recuerde
Si una tercera variable inicial Z está relacionada con las dos variables en estudio
(es colineal con X y es predictora de la respuesta Y), debe estudiar el efecto de X
en Y ajustado por Z.

1.5. Generando confusión

Ejercicio 1.10
Si quisiera inventar unos datos en los que haya confusión, ¿qué tendría que vigilar
que pasara?

Recuerde
Para que Z sea confusora debe estar relacionada con las dos variables en estudio.

Si queremos inventar unos datos en los que haya confusión, deberemos provocar que tengan las dos
relaciones XZ y ZY.

Ejemplo 1.6: Partimos de una tabla lo más simple posible (“plana”), por ejemplo la tabla
1.9:

Z1 Z2 Todos

Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2

X1 100 100 100 100 200 200 X1 200 200 Z1 200 200

X2 100 100 100 100 200 200 X2 200 200 Z2 200 200

OR 1 1 1 1 1

Tabla 1.9

Primero creamos la colinealidad ZX haciendo que en Z1 haya el doble de X1, pero en Z2, de
X2. Su ORZX vale (2/1) / (1/2) = 4 (Tabla 1.10).

15
Confusión

Z1 Z2 Todos

Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2

X1 200 200 100 100 300 300 X1 400 200 Z1 300 300

X2 100 100 200 200 300 300 X2 200 400 Z2 300 300

OR 1 1 1 4 1

Tabla 1.10

Luego hacemos que Z prediga Y haciendo que en Z1 haya el triple de Y1; pero en Z2, de Y2.
Su ORZY vale (3/1) / (1/3) = 9 (Tabla 1.11).

Z1 Z2 Todos

Y1 Y2 Y1 Y2 Y1 Y2 Z1 Z2 Y1 Y2

X1 600 200 100 300 700 500 X1 800 400 Z1 900 300

X2 300 100 200 600 500 700 X2 400 800 Z2 300 900

OR 1 1 ≈2 4 9

Tabla 1.11

El resultado es que ORXY = 49/25 ≈2, mientras que ORXY|Z1 = ORXY|Z2 =1.

Ejercicio 1.11
Invente unos datos en los que haya confusión

1.6. No confusión como premisa para la inferencia causal


Richard Stone describió las condiciones bajo las que “correlación implica causalidad”. Para ello,
distinguió a las terceras variables iniciales en 2 grupos: las observables Z y las no observables W.

La primera, “suficiencia del modelo” dice que no quedan variables no observables W que predigan
la respuesta. Por tanto, requiere conocer y medir sin error a todas las variables que influyen en la
respuesta. De esta forma, es posible tener ‘controladas a todas las terceras variables relevantes: sea
por diseño, sea por ajuste en el análisis, el efecto observado de X en Y coincidirá con el efecto real.
Es una premisa habitual de las ciencias más deterministas, donde la gran capacidad de predicción de

16
Bioestadística para no estadísticos

la respuesta puede hacerla razonable. Pero es poco verosímil en Ciencias de la Vida y de la Salud
donde se acepta que queda mucho camino por recorrer.

La segunda, “aleatorización”, establece que todas las terceras variables son independientes del
tratamiento X: las observables Z porque el diseño permite balancearlas; y las no observables W
porque el reparto al azar garantiza que vienen de una misma población. Dada esta independencia,
también ahora el efecto observado de X en Y coincidirá con el efecto real.

La tercera, “ausencia de variables confusoras”, requiere independencia con el tratamiento para las
posibles terceras variables W que influyan en la respuesta. Es decir, supone que las terceras
variables W son independientes, o bien de la respuesta (ORWY=1), o bien de la intervención
(ORWX=1). Así, ninguna W abre un camino entre X e Y por lo que, también ahora, “correlación
implica causalidad”.

Observe que estas 3 condiciones hacen referencia a variables no observables W, por lo que no son
refutables (contrastables).

Observe también que cada una de las dos primeras implica a la tercera. Suficiencia del modelo
implica no confusión porque, si no quedan terceras variables no observables W, ninguna de ellas
(que no existen) puede ser colineal con la intervención. También asignación al azar implica no
confusión porque, si todas las variables no observables W son independientes de la intervención,
también lo serán aquellas W relacionadas con la respuesta.

Recuerde
Aleatorización implica no confusión.

Es muy importante resaltar que, de estas 3 condiciones, sólo una de ellas puede ser garantizada con
un buen diseño: aleatorización. Las otras dos condiciones establecen premisas sobre variables
desconocidas y no pueden por tanto estudiarse: se quedan en el campo etéreo de las premisas no
contrastables.

Contra-ejemplo 1.7: algunos análisis descansan en la premisa de una distribución Normal


que, recordemos, es el resultado de la influencia de mero “ruido” (infinitos factores
independientes con pesos similares). Por tanto, observar esta distribución Normal apoya la
premisa de que no quedan terceras variables importantes por conocer (W). Sin embargo,
aunque los análisis de normalidad son sensibles a la asimetría, no suelen serlo tanto a la
existencia de factores ocultos, por lo que no permiten garantizar que éstos no existen.

17
Confusión

Repitamos, para terminar, que la asignación al azar genera grupos que vienen de la misma
población y, por tanto, a nivel poblacional, tienen la misma distribución en todas las variables,
observadas y no observadas. Las posibilidades de que el azar genere grupos desequilibrados es
precisamente lo que cuantifica el análisis estadístico.

Recuerde
De las condiciones que permiten la inferencia causal, la única que puede ser
garantizada es la asignación al azar.

Una premisa menos exigente que las anteriores es la intercambiabilidad, según la cual se hubiera
obtenido el mismo resultado, si la asignación hubiera sido justo al revés. Es algo menos dura porque
todas las anteriores implican intercambiabilidad.

Nota técnica: Como suficiencia del modelo y aleatorización implican no confusión, basta con ver que no
confusión implica intercambiabilidad. Y para ello, basta con ver que, en ausencia de efecto de la
intervención, si no hay confusión, la respuesta Y tiene el mismo valor esperado en los que reciben una u otra
intervención (ya que las terceras variables que influyen en la respuesta son independientes del tratamiento).
Por tanto, la única diferencia entre los grupos será el efecto del tratamiento y se observaría lo mismo si la
asignación hubiera sido la contraria.

Ejercicio 1.12
Diga si son ciertas y, caso contrario, escriba la frase correctamente:

(1) La diferencia esencial entre estudios observacionales y experimentales es que


en los primeros la causa en estudio es asignada por el investigador, pero en los
segundos es un atributo de los pacientes en estudio, ya que llegan con su valor.

(2) La premisa de asignación al azar asume que no quedan variables no


observables que influyan en la respuesta.

(3) La premisa de no confusión asume que todas las variables no observables son
independientes del tratamiento.

(4) La premisa de suficiencia del modelo dice que las variables no observables
relacionadas con la respuesta son independientes del tratamiento.

(5) la gran ventaja de los estudios observacionales es que pueden garantizar, por
diseño, que las terceras variables son independientes de la intervención.

18
Bioestadística para no estadísticos

(6) En las ciencias de la salud, donde la predictibilidad de la respuesta es


moderada o baja, hay que tener muchas tragaderas para dar por buena la premisa
de suficiencia del modelo.

(7) La premisa de intercambiabilidad dice que se hubiera observado lo mismo si


la asignación hubiera sido al revés.

2. Ajuste por terceras variables


La presentación habló de 3 grandes estrategias para controlar numéricamente la influencia de
terceras variables. Y dejó para otros capítulos cómo modelar la relación entre las variables para
descontar su influencia. Este punto estudia dos métodos, uno basado en estratos y otro basado en
ponderaciones.

2.1. Estimador ajustado Mantel-Haenszel (MH)


Para calcular el estimador MH primero hay que dividir los casos en estudio en diferentes estratos
según las terceras variables Z por las que se desea ajustar. Usaremos el subíndice “i” para referirnos
a estos estratos. Luego, el estimador MH combina la información de todos los estratos mediante la
fórmula:

ai  d i
 ni
OR MH  i
b c
i in i
i

Para entenderla, recuerde que un OR hace el cociente entre la magnitud de las dos diagonales de la
tabla: la de los casos “coincidentes” (‘a’ y ‘d’) y la de los casos discordantes (‘b’ y ‘c’). MH
primero combina los casos de todas las diagonales y luego hace el cociente final. Para compensar
las subtablas mayores, antes de sumar las diagonales, MH divide por el número total de casos en ese
estrato.

Ejemplo 2.1: El ORMH para los datos de la tabla 1.3 da 1.

ai  d i

i ni
OR MH  = =1
b c
 i i
i ni

19
Confusión

Nota: Ayúdese de la tabla 2.1 para facilitar la comprensión de la fórmula.


Primario Y+ Y- Total Terciario Y+ Y- Total

X=A a1 b1 a1+ b1 X=A a2 b2 a2+ b2


X=B c1 d1 c1+ d1 X=B c2 d2 c2+ d2

Total a1+ c1 b1+d1 n1 Total a2+ c2 b2+d2 n2

Tabla 2.1

Ejercicio 2.1
Calcule el ORMH del ejercicio 1.9. Aquí tiene la tabla por estratos.

Z1 Z2

Y1 Y2 Y1 Y2

X1 200 40 200 360

X2 360 200 40 200

Esta estimación común tiene sentido si los OR de todas las subtablas son iguales; es decir, si el
efecto de X en Y es el mismo en todos los estratos de las terceras variables. Es la premisa habitual
de homogeneidad del efecto en diferentes condiciones que veremos a fondo en el próximo capítulo.

La varianza del estimador MH tiene una expresión muy larga, imposible de calcular a mano, por lo
que hay que usar R.

Nota técnica:

2

 wi  vi  bi  ci ai  ci bi  d i
V ln( OR MH )  i
donde wi  y vi  
 
2
ni a i  ci bi  d i
  wi 
i 

Ejemplo 2.2: Cálculo del ORMH. Use el comando mantelhaen.test

Ejemplo R

# Cargue las funciones de R clickando en el siguiente enlace:

> source(url("http://www-eio.upc.es/teaching/best/funciones/cap17.R"))

tabla1.3<- array(c( 100, 20, 50, 10, 10, 50, 20, 100), dim=c(2, 2, 2),

20
Bioestadística para no estadísticos

dimnames=list(c("X+","X-"),c("Y+","Y-"),c("Z+","Z-")))

# Se realiza el test

TMH <- mantelhaen.test(tabla1.3)

Mantel-Haenszel chi-squared test without continuity correction

data: tabla1.3

Mantel-Haenszel X-squared = 0, df = 1, p-value = 1

alternative hypothesis: true common odds ratio is not equal to 1

95 percent confidence interval:

0.5554431 1.8003646

sample estimates:

common odds ratio

Nota: La primera de línea de código permite cargar las funciones desde la página web del curso. Si ejecuta
esta primera línea tendrá cargadas las funciones necesarias para realizar los ejercicios de este capítulo.

Ejemplo R

> OR1.3 <- OR(tabla1.3,"MH")

> OR1.3

LI OR LS

OR1 0.4353706 1.000000 2.296894

OR2 0.4353706 1.000000 2.296894

OR Global 1.6163480 2.469388 3.772626

OR MH 0.5554431 1.000000 1.800365

> ORforest(OR1.3)

21
Confusión

OR MH

OR Global

OR2

OR1

0.2 0.5 1.0 2.0 5.0

OR

Nota técnica: Alternativas en R a la función mantelhaen.test: son mh(Epi), meta.MH(rmeta) y


mhor(epicalc) (que utilizará más adelante pare realizar pruebas de interacción y gráficos).

Ejercicio 2.2
Interprete los resultados del ejemplo de R anterior:

a) ¿Con que estimaciones coincide el MH?

b) ¿Ha corregido el sesgo originado por la diferente composición (en cuanto a


centro de origen) de los casos tratados y no tratados?

c) ¿Tenía sentido hacer una estimación común de los efectos observados en los 2
grupos por separado?

d) Gráficamente, ¿qué estimadores tienen mayor incertidumbre (amplitud del


IC95%)?

e) ¿Es coherente esta magnitud relativa de la incertidumbre?

f) ¿Qué pasaría si en lugar de mirarla gráficamente usara los valores del OR y


comparara la diferencia entre los límites superior e inferior del IC?

22
Bioestadística para no estadísticos

Ejercicio 2.3
Calcule con R los IC95% de los ORMH de la tabla 1.6 y de la tabla estratificada del
ejercicio 1.5.

2.2. Extensión a un mayor número de subtablas


El mismo ajuste puede aplicarse a condiciones Z con más de 2 categorías o niveles.

Ejemplo 2.3: (Extraído del artículo ‘Ignoring a Covariate: An Example of Simpson's


Paradox’). En 1972-74 el censo de Whickham (UK) incluyó una pregunta sobre el tabaco
en 1314 mujeres. Un seguimiento a los 20 años determinó cuáles habían fallecido (Tabla
2.2).
Tabla Global
Muerta Viva
Fuma 139 443
No fuma 230 502
OR 0.68
IC95% 0.54 a 0.88
Tabla 2.2

El resultado mostró que fumar protegía: OR < 1 indica que las fumadoras tenían menor
probabilidad de morir. Pero al ajustar por edad, OR > 1 (no significativos) en todas las
categorías (Tabla 2.3):

Edad 18-24 Edad 25-44 Edad 45-64 Edad 65+

Muerta Viva Muerta Viva Muerta Viva Muerta Viva


Fuma 2 53 17 216 78 167 42 7
No Fuma 1 61 12 266 52 147 165 28

OR 2.30 1.74 1.32 1.02

IC 95% 0.20-26.11 0.82-3.73 0.87-2.00 0.42-2.49

Tabla 2.3

23
Confusión

Las variables tabaco y edad tienen sus efectos confundidos ya que la franja de edad de más años,
con mayor probabilidad de morir a los 20 años, estaba formada mayoritariamente por no
fumadoras.

Ejemplo R

> Tabaco <-array(c(2, 1, 53, 61, 17, 12, 216, 266,78, 52, 167, 147,

42, 165, 7, 28), dim = c(2, 2, 4),

dimnames = list(c("Fumadoras", "No fumadoras"),c("Muertas",

"Vivas"),c("18-24", "25-44", "45-64", "65+")))

> mantelhaen.test(Tabaco)

Mantel-Haenszel chi-squared test with continuity correction

data: Tabaco

Mantel-Haenszel X-squared = 2.9688, df = 1, p-value = 0.08489

alternative hypothesis: true common odds ratio is not equal to 1

95 percent confidence interval:

0.9722833 1.8995900

sample estimates:

common odds ratio

1.359022

#Utilice la función OR (ya nombrada en el ejemplo 2.2), para hacer un


forest plot

> ORTabaco<-OR(Tabaco,"MH")

> ORTabaco

LI OR LS

OR1 0.2029447 2.301887 26.109002

OR2 0.8154948 1.744599 3.732243

OR Global 0.8616114 1.776666 3.663532

OR MH 0.9722833 1.359022 1.899590

> ORforest(ORTabaco)

24
Bioestadística para no estadísticos

OR MH

OR Global

OR2

OR1

0.1 0.2 0.5 1.0 2.0 5.0 10.0 20.0 50.0

OR

La salida muestra ORMH = 1.36 [0.97 a 1.90], no significativo, pero con la mayor parte de
sus IC95% más coherente con lo que se sabe sobre el tema.

Ejercicio 2.4
La confusión también puede ofuscar las revisiones sistemáticas. En 2001, el meta-
análisis “Nursing interventions for smoking cessation” mostró los siguientes
resultados en 4 de los estudios, a partir de ellos, conteste las siguientes preguntas:
1) Estime el efecto global sin ajustar, ¿a qué conclusión llega?
2) Estime el efecto ajustado
3) ¿Cree que el estudio actua como variable confusora?
4) ¿Cómo presentaría los resultados?
, , Hollis 1993
Dejaron de Fumar No dejaron de fumar
Intervención 79 1918
Control 15 695
, , Miller 1997
Dejaron de Fumar No dejaron de fumar
Intervención 245 755
Control 191 751

25
Confusión

, , Taylor 1990
Dejaron de Fumar No dejaron de fumar
Intervención 47 37
Control 20 62
, , Debusk 1994
Dejaron de Fumar No dejaron de fumar
Intervención 92 39
Control 64 57

2.3. Ajuste por ponderación


El reto de las causas relacionadas es que la composición de los grupos es diferente en cuanto a las
terceras variables. La solución de MH recurre a combinar el efecto estimado dentro de los estratos.

El método de ponderación por el inverso de probabilidad (IPW: Inverse Probability Weighting)


reconstruye artificialmente los grupos para hacerlos iguales en su distribución de la tercera variable.
Veamos un ejemplo.

Ejemplo 2.4: el protocolo de intervención de una neoplasia aconseja que los casos de nivel
I (ZI) reciban Cirugía (XC), mientras que los de nivel II (ZII), Quimioterapia (XQ). Cierto
centro, tiene 45 casos en cada fase; y, en ambas, una tercera parte no siguen las
recomendaciones y son finalmente tratados con la otra opción. En este ejemplo hipotético,
XC y XQ no tienen diferencia en sus efectos, pero en ZI la evolución tiene una razón Y+/Y—
de 4 a 1, mientras que en ZII es 1 a 4. La tabla 2.4 muestra estos resultados.

ZI ZII Global

Y+ Y— Y+ Y— Y+ Y—

XC 24 6 3 12 27 18

XQ 12 3 6 24 18 27

OR 1 1 9/4

Tabla 2.4

La figura 2.1 representa estos mismos datos en forma de árbol de probabilidades, siguiendo el orden
natural de estas variables, primero la condición Z, luego la intervención X y finalmente, la
evolución Y. Ello permite imaginar qué hubiera pasado con los casos ZI si en lugar de 30, los 45

26
Bioestadística para no estadísticos

hubieran sido tratados con XC: para convertir 30 casos en 45, basta por multiplicar por 45 y dividir
por 30, es decir, 45/30=3/2. Así, para imaginar que habría pasado si todos los casos hubieran sido
tratados con una opción, basta con multiplicar por el inverso de la probabilidad (IPW) de ser tratado
con esa opción, lo que muestra la parte derecha de la figura 2.1. En el nivel ZI, para convertir esos
2/3 tratados con XC en todos, multiplicamos por 3/2. Para convertir el 1/3 tratado con XQ en todos,
por 3/1. Y así sucesivamente.

Figura 2.1

Recuerde
IPW pondera por el inverso de la probabilidad de ser tratado.

Así, tenemos que la nueva comparación dentro de ZI es, qué habría pasado si tratamos todos los
casos con XC frente a qué habría pasado si los hubiéramos tratado todos con XQ. Que es
precisamente la pregunta sobre el efecto causal en una población.

Lectura: valore repasar la definición de efecto causal en el capítulo 10.

Y lo mismo para el nivel ZII. Ahora, cada intervención ha tratado a todos los pacientes de cada
condición Z. Por tanto, los grupos en comparación tienen idéntica composición por Z y ya se
pueden comparar a nivel global: el efecto de X en Y que se habría observado si toda la población
hubiera sido tratada con ambas opciones reproduce el observado en cada nivel de Z (Tabla 2.5).

27
Confusión

ZI ZII Global

Y+ Y— Y+ Y— Y+ Y—

XC 36 9 9 36 45 45

XQ 36 9 9 36 45 45

OR 1 1 1

Tabla 2.5

Recuerde
IPW reconstruye los datos como si cada opción X en comparación hubiera sido
aplicada a todos los casos en estudio.

Ejercicio 2.5
Tras sufrir un Ictus, los pacientes tardan un tiempo variable en llegar al hospital,
que condiciona tanto la evolución como las intervenciones disponibles y que
depende del Entorno Z, sea Rural, P(ZR)=1/3, o Urbano, P(ZU)=2/3. En cierto tipo
de AVC se añaden tromBolíticos (XB) al protocolo (XP) en los pacientes que
llegan pronto. En ZR, la proporción de casos tratados con XB es 1/5, mientras que
en ZU es de 4/5. El siguiente árbol muestra la evolución de todos los casos.

28
Bioestadística para no estadísticos

1) Construya la tabla XYZ de los datos observados y calcule ORXY, ORXY|ZR y


ORXY|ZU. Interprete.

2) Aplique el IPW al árbol para reproducir qué se habría observado si todos los
casos de cada nivel Z hubieran sido tratados con cada opción X.

3) Reconstruya la tabla XYZ con los nuevos casos y vuelva a calcular ORXY,
ORXY|ZR y ORXY|ZU.

4) Interprete.

ANEXO

3. Pruebas de hipótesis para tablas de frecuencias


El capítulo 8 mostró la comparación de 2 proporciones mediante IC de DR, OR y RR. El capítulo 9
mostró cómo obtener el p valor de DR, que aplica a una tabla 2x2 (ambas variables dicotómicas).
En este punto se extiende este cálculo a tablas de cualquier dimensión. Para ello, es preciso definir
una nueva distribución de referencia.

3.1. Prueba χ2 de Pearson


Karl Pearson propuso una prueba entre 2 variables de cualquier número de categóricas. Veamos su
cálculo con un ejemplo.

Como el OR, puede aplicarse sea cual sea el plan de muestreo, si las 2 variables proceden de 1
muestra, hablaremos de la prueba de independencia.

Ejemplo 3.1: En un estudio de cohortes, se ha recogido información del tabaco al inicio del
periodo de seguimiento y de la HTA (si/no) al final del mismo. Puede obtener el p valor de
la H0 de independencia entre tabaco y HTA con esta prueba.

Si recogemos 1 misma variable en 2 muestras diferentes, hablaremos de la prueba de


homogeneidad.

Ejemplo 3.2: En un estudio de casos y controles cohortes, se han seleccionado una muestra
de hipertensos y otra de normotensos. Puede obtener el p valor de la H0 de Homogeneidad
de hábito tabáquico en hipertensos y normotensos con esta prueba.

29
Confusión

Ambas pruebas, (independencia y homogeneidad) contestan la misma pregunta ¿Tabaco y HTA van
juntos? Además, ambas tienen la misma mecánica.

Nota técnica: Recuperando los conceptos del capítulo 4 sobre independencia y probabilidad
condicionada, la prueba de homogeneidad es H0: P(Tabaco|hipertenso) = P(Tabaco|normotenso). Y la de
independencia, H0: P(Tabaco ∩ hipertenso) = P(Tabaco)*P(hipertenso). Ya se vio que ambas son
equivalentes.

Ejemplo 3.3: Siguiendo con el estudio casos-controles, con 2 variables dicotómicas la tabla
de frecuencias (o de contingencia) tiene 4 posibles combinaciones, cada una con su recuento
de casos o frecuencias observadas fij (Tabla 3.1).

fij Fumador Otros Totales


Hipertensos 73 27 100
Normotensos 64 36 100
Totales 137 63 200

Tabla 3.1

En esta tabla, la frecuencia f observada en la fila 1, columna 2, es f12 = 27. Las proporciones
observadas de fumadores son 73% y 64% entre los hipertensos y los normotensos. Si ambas
filas pudieran combinarse porque este hábito fuera homogéneo en ambas poblaciones, la
proporción global de fumadores sería 137/200=68.5%. La H0 dice que, a nivel poblacional
las 3 probabilidades que habrían generado estas 3 proporciones muestrales son iguales:

H0 : Fumador|hipertenso = Fumador|normotenso = Fumador

El primer paso calcula las frecuencias esperadas eij si: (1) fuera cierta H0; y (2) los valores
de los márgenes (137, 63, 100 y 100) permanecieran iguales. Es decir, si la proporción
general observada de fumadores (137/200=0.685) se hubiera reproducido en cada
submuestra, ambas, como tienen 100 casos, “deberían” haber observado 68.5 casos. Como
son un valor esperado bajo H0 no debe preocupar el decimal.

Nota técnica: recuerde que en el caso de variables discretas, la esperanza no tiene porqué ser un valor
posible de la variable.

A partir del valor esperado de fumadores, por diferencia puede obtenerse el de no fumadores
y completar así la tabla (Tabla 3.2) de frecuencias esperadas eij:

30
Bioestadística para no estadísticos

eij Fumador Otros Totales


Hipertensos 68.5 31.5 100
Normotensos 68.5 31.5 100
Totales 137 63 200

Tabla 3.2

Estos efectivos esperados eij son el resultado de multiplicar el total de fila (fi·) por el total de
columna (f·j) y dividirlo por el total de totales (f··):

f i.  f j .
eij 
f ..

Es decir, se han obtenido como:

e11 = f1· · f·1 / f·· = 100 · 137 / 200 = 68.5

e21 = f2· · f·1 / f·· = 100 · 137 / 200 = 68.5

e12 = f1· · f·2 / f·· = 100 · 63 / 200 = 31.5

e22 = f2· · f·2 / f·· = 100 · 63 / 200 = 31.5

Recuerde
Los efectivos esperados eij son total de fila (fi·) por total de columna (f·j) dividido
f i.  f j .
eij 
por total de totales (f··):
f ..

Así, los efectivos esperados representan H0. Cuanto más diferentes sean de los observados, más
evidencia en contra de H0 tendremos.

Definición
( f ij  eij ) 2
2
Estadístico X de Pearson: X  2
i, j eij

31
Confusión

Como la posibilidad de observar diferencias aumenta con el tamaño muestral, este estadístico divide
por los efectivos esperados.

Nota técnica: Si asumimos una distribución de Poisson para cada fij con el valore esperado eij , la
variancia sería también eij , por lo que podríamos ver cada sumando de la fórmula como el cuadrado de
una variable centrada y reducida.

Se demuestra que este estadístico sigue una distribución de Ji Cuadrado (2) con tantos grados de
libertad (gdl) como el número de filas (I) menos uno por el número de columnas (J) menos uno:

gdl = (I-1)·(J-1)  X 2 ~  (2I 1)( J 1)

En el caso de esta tabla 2x2, se tiene un grado de libertad: X 2  21

Ejemplo 3.3 (cont.): El valor del estadístico se muestra en la tabla 3.3:

Sumando X 2: (fij-eij)2/eij Fumador Otros Total


Hipertensos 0.296 0.643
Normotensos 0.296 0.643
Total 1.88

Tabla 3.3

Dado que X 2 =1.88 < 3.84 = 12,0.95 , (p-valor = 0.171) no hay evidencia para rechazar H0 y

por tanto, no se puede establecer que existan diferencias de hábito tabáquico previo entre
hipertensos y normotensos.

La diferencia absoluta entre los efectivos observados y esperados ha sido siempre la misma:
4.5, cambiando únicamente el signo.

Nota: Dado que tanto los efectivos observados como los esperados deben sumar exactamente la
frecuencia del marginal, se debe compensar en la segunda fila (o columna) la diferencia de la primera fila
(o columna). En realidad, el hecho de que esta diferencia tenga un valor absoluto único es un reflejo de la
existencia de un único grado de libertad: una vez calculado el valor esperado de la primera casilla, los
otros tres se pueden obtener por diferencia.

El cálculo del nivel de significación ha sido unilateral.

Nota: Cuanto mejor reproduzcan los datos H0, más se parecerán fij y eij en cada sumando. En el extremo,
si coincidieran, su valor sería cero: El hecho de elevar al cuadrado provoca que todas las diferencias se
manifiesten en valores positivos del estadístico, por lo que el área en contra de H0 debe ser unilateral —a
pesar de que el planteamiento de hipótesis es bilateral.

32
Bioestadística para no estadísticos

3.2. Prueba χ2 de Pearson con corrección de Yates*


Esta variante, que mejora el ajuste en muestras pequeñas, resta 0.5 antes de elevar cuadrado.

| f ij  eij | 0.52
X2 
i, j eij

Nota: Se basa en que los recuentos son discretos pero la distribución ji-cuadrado continua.

Muchos textos la aconsejan si alguna de las frecuencias esperadas (eij) es inferior a 5.

Ejemplo 3.4: Use el comando chisq.test(...) con la tabla como parámetro.

Ejemplo R

> M <- matrix(c(73,64,27,36),ncol=2)

> chisq.test(M)

Pearson's Chi-squared test with Yates' continuity correction

data: M

X-squared = 1.483, df = 1, p-value = 0.2233

Nota: Prescinda de la corrección de Yates, con correct=FALSE

Ejercicio 3.1
La siguiente tabla estudia la gravedad de un tumor cerebral (maligno/benigno)
frente a su localización (lóbulo frontal o temporal). Calcule el p-valor de la prueba
de Pearson con y sin corrección de Yates.

Maligno Benigno Total

Frontal 9 23 32

Temporal 4 21 25

Total 13 44 57

33
Confusión

3.3. Prueba exacta de Fisher


Las pruebas anteriores descansan en la aproximación a una distribución teórica de referencia,
mientras que la prueba exacta de Fisher calcula la probabilidad a partir de la distribución
hipergeométrica, pero únicamente asume que los margi nales de la tabla son constantes. Sirve, por
tanto, para cualquier tamaño muestral.

Nota técnica: La prueba consta de 2 pasos. Primero calcula la probabilidad de obtener cada una de las
posibles tablas 2x2 con la hipergeométrica:

f1.! f 2.! f .1! f .2 !


p
f ..! f11! f12 ! f 21! f 22 !

Obtiene el p-valor como la suma de las probabilidades de todas aquellas tablas con un resultado
igual o más en contra de H0 que la tabla observada. Cuanto menor sea esta probabilidad, mayor
evidencia de no independencia.

Ejemplo 3.5: Una madre preocupada por los catarros de su hijo pregunta a sus vecinos si
llevan sus hijos a la guardería y si han padecido algún catarro los últimos 3 meses. Los
resultados se muestran en la tabla 3.4:

Catarro No Total
Guardería 3 3 6
Casa 1 5 6
Total 4 8 12

Tabla 3.4

Dado que la primera columna debe sumar 4, sólo hay 5 tablas posibles (todas incluidas en la
tabla 3.5):

Tabla 1 Tabla 2 Tabla 3 Tabla 4 Tabla 5


SI NO SI NO SI NO SI NO SI NO Total
Guardería 0 6 1 5 2 4 3 3 4 2 6
Casa 4 2 3 3 2 4 1 5 0 6 6
Total 4 8 4 8 4 8 4 8 4 8 12
p = 0.0303 p = 0.2424 p = 0.4545 p = 0.2424 p = 0.0303 Suma(p)=1
Tabla 3.5

34
Bioestadística para no estadísticos

Las tablas 2 y 4 son idénticas, pero apuntando en direcciones opuestas: la 2ª a favor de más
catarros en casa; y la 4ª a favor de más en la guardería. Así, en un planteamiento bilateral,
tablas iguales o más extremas son 1, 2, 4 y 5, por lo que:

P = 0.0303 + 0.2424 + 0.2424 + 0.0303 = 0.5455

No se puede descartar la independencia.

Ejemplo 3.6: Use la instrucción fisher.test(...) con la tabla como parámetro:

Ejemplo R

> M <- matrix(c(1,5,3,3),ncol=2)

> fisher.test(M)

Fisher's Exact Test for Count Data

data: M

p-value = 0.5455

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

0.003194460 4.500423531

sample estimates:

odds ratio

0.230358

Nota: Puede usar esta prueba en tablas más grandes, pero la fórmula incluye factoriales (!), por lo que el
coste computacional podría ser no asumible por un ordenador habitual.

Ejercicio 3.2
Compare la seguridad de 2 tipos de estimulación cardiaca según si el paciente
padece o no un síncope. Calcule con R el p-valor de la prueba de Fisher:

35
Confusión

Síncope No síncope Total

Estimulación A 2 28 30

Estimulación B 4 17 21

Total 6 45 51

3.4. PH ajustada de MH
Además de proporcionar estimaciones ajustadas del efecto, con su IC95%, MH también da el p valor
del efecto de una causa X en una respuesta Y ajustado por una condición Z.

La PH de MH cuantifica la distancia entre la suma de los casos observados en las celdas principales
de cada subtabla (ai, por ejemplo, fumadores con cáncer) y la suma de los casos esperados en dichas
celdas si fuera cierta la hipótesis de independencia. Luego, divide esta distancia por la suma de las
varianzas respectivas. El resultado sigue una distribución de Ji cuadrado con 1 grado de libertad.
2
 
 a i   E ( a i )  (ai  bi )(ci  d i )
MH :  i i   2 donde E (ai ) 
 V (ai )
1
ni
i

Nota técnica: La esperanza es como los valores esperados de la prueba de Pearson. La varianza usa la
distribución hipergeométrica en cada subtabla. Efectivamente, esta distribución se aplica al caso en que se
tiene una población de N elementos de los cuales, M pertenecen a la categoría A y N-M a la B. La
distribución hipergeométrica mide la probabilidad de obtener x (0≤ x ≤ M) elementos de la categoría A en
una muestra de K elementos de la población original. Aplicándolo al caso de una tabla 2x2 con los
marginales fijos:

x M

K-x N-M

K N-K N

Se obtiene una varianza:

KM ( N  M )( N  K ) (a  c)(a  b)(c  d )(b  d )


V (X )  
N N ( N  1) n 2 (n  1)

36
Bioestadística para no estadísticos

Ejemplo 3.7: Ejemplo genérico con Y, X y Z, todas ellas 0, 1. La misma instrucción da el p valor:

Z=0 Z=1

Y=0 Y=1 Y=0 Y=1

X=0 5 10 7 5

X=1 7 5 7 4

Ejemplo R

> table(X,Y,Z)

, , Z = 0 , , Z = 1

Y Y

X 0 1 X 0 1

0 5 10 0 7 5

1 7 5 1 7 4

> mantelhaen.test(table(X,Y,Z), correct=FALSE)

Mantel-Haenszel chi-squared test without continuity correction

data: table(X, Y, Z)

Mantel-Haenszel X-squared = 1.2378, df = 1, p-value = 0.2659

alternative hypothesis: true common odds ratio is not equal to 1

95 percent confidence interval:

0.1669340 1.6256596

sample estimates:

common odds ratio

0.5209393

Si guarda este análisis en un símbolo, podrá ver su estructura y contenido: un array de 9


componentes, con su identificador, descripción y valor numérico:

37
Confusión

Ejemplo R

> TMH=mantelhaen.test(table(X,Y,Z), correct=FALSE)

> names(TMH)

[1] "statistic" "parameter" "p.value" "conf.int" "estimate"


"null.value"

[7] "alternative" "method" "data.name"

# puede acceder a un elemento por índice…

> TMH[1]

$statistic

Mantel-Haenszel X-squared

1.237815

#o por el identificador, más fiable.

> TMH$estimate common odds ratio

0.5209393

#p valor de la relación XY ajustada por Z.

> TMH$p.value

[1] 0.2659

Ejercicio 3.3
Calcule el valor de p en el ejemplo 2.3

Ejercicio 3.4
Obtenga e interprete, conjuntamente con todos los resultados previos, el valor de
p del ejercicio 2.4: ¿Qué puede decir sobre el efecto de la intervención educativa
en el hecho de dejar de fumar?

38
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1 Al no ajustar por Z, los efectos de X y de Z están confundidos.

1.2. Z no está relacionada con la intervención X, por lo tanto, aunque Z pueda predecir la respuesta, no cambiará la
estimación del efecto de X en Y.

1.3. Sólo en el estudio D hay relación entre genero e intervención, con un OR=4. En los 3 primeros el OR vale 1. Sólo
el estudio 4 tendrá confundidos los efectos de ambas variables.

El estudio A ha incluido al doble de mujeres, pero el OR=1, ya que la asignación ha sido “1 a 1” tanto en mujeres como
en hombres.

El estudio B ha incluido al mismo número de mujeres que de hombres, pera la asignación ha sido “2 a 1” en los dos
géneros, resultando otra vez en un OR=1. Aunque hay el doble de casos tratados con E que con R, los dos grupos de
tratamiento tienen la misma distribución de géneros, cada uno “mitad y mitad”.

En el estudio C se combina (1) que hay el triple de hombres; y (2) que se han asignado más casos a R. Como la razón de
asignación siempre ha sido de “1 a 3”, OR=1 y no hay confusión: ambos grupos de tratamiento tienen el mismo “case-
mix”: “3 hombres por cada mujer”.

En cambio, en el estudio D, aunque hay el mismo (1) número de hombres y de mujeres; y (2) de tratados con E y con R,
la razón de asignación ha sido “2 a 1” en los hombres y de “1 a 2” en las mujeres, resultado en OR=4, que refleja la
diferente composición de los grupos que se quieren comparar, mientras en los tratados con E dominan los hombres, en
R lo hacen las mujeres: los efectos, potenciales, del género y la intervención, estarán confundidos..

1.4. Al no existir flecha entre W y X, no pueden abrir un camino alternativo a la relación XY (aunque exista relación
WY)”; esto se debe a que la aleatorización garantiza que las sub-muestras vienen de la misma población, por lo que, a
nivel poblacional, ambas muestras son idénticas: tienen exactamente la misma composición a nivel poblacional en todas
las variables desconocidas W.

39
Confusión

1.5. Y=evolución, X=cuidados, Z=clínica, porque nos situamos en la pregunta del clínico que debe decidir si aconseja o
no los cuidados. Si nos situáramos en la pregunta de la madre que desea decidir a dónde acude, su opción sería el centro
A. Es fácil ver que el diseño es no balanceado: en la clínica A predominan los cuidados superiores a 1 mes, y en la B lo
contrario, por lo tanto cabe esperar que los efectos de X y Z estén confundidos; en efecto, si la clínica (o cualquier
factor relacionado con ella, como que los embarazos más problemáticos se derivan preferentemente a B) puede predecir
la evolución, en este diseño el posible efecto de los cuidados no se puede separar del de Z. Lo que sí se observa es que,
ajustando por la clínica, no hay un efecto significativo de los cuidados, en contra de lo estimado si no se considera Z.
Para saber si los cuidados afectan o no habría que repetir el estudio con un diseño balanceado, es decir, estratificando
por la clínica.

1.6

1.7. a) Cierto que haya hecho una diferencia de medias, pero no un cociente de proporciones: también su diferencia (DR
en tema 4). Si no lo tiene claro, repase el tema 4.

b) Efectivamente, los casos que no se presentan al final no son una muestra a azar de todos los casos, eliminarlos
sesgaría los resultados. Asignarles un 0 cara a este análisis es coherente y transparente, ya que queda claro qué se ha
hecho y en qué se basa.

c) Falso, asistir a clase es Z (observacional), no X (experimental). Por si hay confusoras, evite interpretar causalmente
de forma automática.

d) Cierta, faltar a clase tiene capacidad predictiva. Quizás la solución no sea volver a clase, quizás sí, pero no hay duda
de que pinta mal. Es un predictor de la respuesta, un “chivato”.

e) Cierta, por lo anterior.

f) Cierta.

g) Cierta, el riesgo de suspender es mayor en los que no van a clase.

h) Cierta. Vea respuesta D.

i) Lo que dice podría ser correcto, aunque tiene muchas premisas adicionales, como por ejemplo, que su intervención
tendrá efecto en ese grupo; o que estos alumnos, al menos potencialmente, pueden alcanzar el mismo nivel de éxito que
los restantes.

1.8. Muchos ejemplos son posibles. Si quiere comprobar su respuesta, cuélguela en el foro o discútala con su tutor o
con los directores del curso.

40
Bioestadística para no estadísticos

1.9. a) Sí, no se ha hecho un buen ajuste por Z. Puede ver que hay confusión porque ajustar o no por Z cambia las
estimaciones del efecto.

b) Sí

c) Sí

d) Sí

e) No

f) Sí (vea respuesta A)

g) Sí , el efecto es diferente según si bloqueamos o no por Z.

1.10. Que existiera relación entre X y Z, y también entre Z e Y.

1.11. Muchos ejemplos son posibles. Si quiere comprobar su respuesta, cuélguela en el foro o discútala con su tutor o
con los directores del curso.

1.12. (1) Falsa. Intercambie observacionales con experimentales en la primera línea, o léalo así: la diferencia esencial
entre estudios es que en los EC la causa en estudio es asignada por el investigador, pero en los observacionales es un
atributo de los pacientes en estudio, ya que ellos llegan con su valor.

(2) Falsa: la asignación al azar sabe que las variables no observables que influyen en la respuesta serán independientes
de X y, por tanto, no confundirán.
(3) Verdadera. La premisa de no confusión incluye suficiencia del modelo, aleatorización y ausencia de variables
confusoras
(4) Falsa. La premisa de aleatorización del modelo dice que las variables no observables relacionadas con la respuesta
son independientes del tratamiento, y la de suficiencia que las W no observables no están relacionadas con la respuesta..

(5) Falsa, precisamente esto es lo que pueden garantizar los EC, por el hecho de que la intervención se asigna al azar (y
será independiente de terceras variables).

(6) Verdadero

(7) Verdadero

ai  d i

i ni
2.1 OR MH  = = 2.777778
bi  ci

i ni

41
Confusión

2.2 a)Si ejecuta la función en vez de con el parámetro MH, con Logit obtendrá lo siguiente:
LI OR LS
OR1 0.4353706 1.000000 2.296894
OR2 0.4353706 1.000000 2.296894
OR Global 1.6163480 2.469388 3.772626
OR Logit 0.5554370 1.000000 1.800384
Fíjese que OR Logit y OR MH coinciden hasta el cuarto decimal.
b) Puede ver que el sesgo por composición ha sido corregido al estratificar por centro.
c) No tenía sentido hacer una estimación común de los efectos observados, ya que, al estar X y Z relacionadas, la
variable Y tenía sus efectos confundidos.
d) Gráficamente puede ver que loes estimadores con mayor incertidumbre son OR1 y OR2, es decir, los OR calculados
a partir de la estratificación por centro.
e) Los IC de las subtablas tienen mayor amplitud que MH, una razón para proporcionar un estimador único, bien el
ajustado, bien el global o marginal, si la ausencia de interacción lo justifica.
f) Si no utiliza el gráfico para medir la incertidumbre, si no los valores numéricos, verá que los OR’s coinciden y los LI
se asemejan; la diferencia de amplitud radica (mayoritariamente) en el LS de los OR1 y OR2, que es 0.5 unidades
superior al ORMH.

2.3
Ejemplo 1.6
> tabla1.6<- array(c( 60, 60, 30, 30, 30, 30, 60, 60), dim=c(2, 2, 2),
+ dimnames=list(c("X+","X-"),c("+","Y-"),c("Z+","Z-")))
> TMH <- mantelhaen.test(tabla1.6)
> TMH
Mantel-Haenszel chi-squared test without continuity correction
data: tabla1.6
Mantel-Haenszel X-squared = 0, df = 1, p-value = 1
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.6451572 1.5500098
sample estimates:
common odds ratio
1
Ejercicio 1.5
> tabla1.4<- array(c( 3, 4, 176, 293, 17, 2, 197, 23), dim=c(2, 2, 2),
+ dimnames=list(c("X+","X-"),c("+","Y-"),c("Z+","Z-")))
> TMH <- mantelhaen.test(tabla1.4)
> TMH

Mantel-Haenszel chi-squared test without continuity correction


data: tabla1.4

42
Bioestadística para no estadísticos

Mantel-Haenszel X-squared = 0.0386, df = 1, p-value = 0.8442


alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.3759998 3.2977887
sample estimates:
common odds ratio
1.113539

2.4 1) El efecto sin ajustar se obtiene con el siguiente código en R:


> Tabaco2 <-array(c(79, 15, 1918, 695, 245, 191, 755, 751, 47, 20, 37, 62, 92,
64, 39, 57),dim = c(2, 2, 4), dimnames = list(c("Intervención",
"Control"),c("Dejaron de Fumar", "No dejaron de fumar"),c("Hollis 1993", "Miller
1997", "Taylor 1990", "Debusk 1994")))
> OddsRatio(apply(Tabaco2,c(1,2),sum)) # Efecto sin ajustar
[1] 0.775 0.909 1.066

Si suponemos que no existe variable confusora, se concluiría que no existe ningún efecto de la intervención (el intervalo
contiene el 1)

2) Para el cálculo del efecto ajustado se usa la función mantelhaen.test:

> mantelhaen.test(Tabaco2)
Mantel-Haenszel chi-squared test with continuity correction
data: Tabaco2
Mantel-Haenszel X-squared = 22.7, df = 1, p-value = 1.934e-06
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
1.29 1.85
sample estimates:
common odds ratio
1.55

El efecto ajustado muestra un efecto positivo de la intervención sobre el abandono del hábito de fumar.

3) El estudio es una variable confusora ya que el efecto ajustado es distinto al que se obtiene sin ajustar.

4) Presentaría los resultados con uno de los OR’s ajustados (ORMH o ORLOGIT) ya que existe confusión.

> M <- matrix(c(9,4,23,21),ncol=2)


> chisq.test(M)
Pearson's Chi-squared test with Yates' continuity correction
data: M
X-squared = 0.5845, df = 1, p-value = 0.4446

43
Confusión

2.5 1) El efecto estimado de la intervención dentro de cada ZR Y+ Y— ZU Y+ Y— Y+ Y—


estrato es 3, pero a nivel global sería mucho mayor, 5.2, ya
que los tratados con XB vienen sobre todo del nivel ZU, en XB 4 4 XB 48 16 XB 54 20
el que los pacientes llegan antes al hospital. Es decir, la
XP 8 24 XP 8 8 XP 16 32
tabla global mezcla los efectos de la intervención y del
entorno urbano, por tener pacientes que llegan más pronto OR = 3 OR = 3 OR = 5.2
(“causas relacionadas, efectos confundidos”).

2) 3)

ZR Y+ Y— ZU Y+ Y— Y+ Y—

XB 20 20 XB 60 20 XB 80 40

XR 10 30 XR 40 40 XR 50 70

OR = 3 OR = 3 OR = 2.8

4) [El efecto estimado del tratamiento vale 3 en cada estrato y aproximadamente 3 (2.8) en la tabla global: el método de
ponderación por el inverso de la probabilidad ha conseguido reducir el sesgo originado por la diferente evolución de los
pacientes de ambos entornos.]

Hemos explicado cómo usar el método IPW para corregir las estimaciones puntuales de los ORXY, pero dejamos para su
colaborador estadístico el cálculo de la incertidumbre de su estimador. Tenga en cuenta: (1) que las tablas resultantes
están “infladas” y, por tanto, los errores típicos estudiados previamente no sirven; (2) que los factores de ponderación
IPW generan incertidumbre adicional; y (3) que, en el fondo, se trata de un análisis de sensibilidad de las conclusiones a
las premisas, ya que se trata de aportar a la discusión si un posible factor de confusión puede explicar los resultados
observados.

3.1 > M <- matrix(c(9,23,4,21),ncol=2)


Con corrección de Yates
> chisq.test(M)
Pearson's Chi-squared test with Yates' continuity correction
data: M
X-squared = 0.5845, df = 1, p-value = 0.4446

Sin corrección de Yates


> chisq.test(M, correct=FALSE)

Pearson's Chi-squared test

44
Bioestadística para no estadísticos

data: M
X-squared = 1.172, df = 1, p-value = 0.279

Según esta prueba (ya sea con corrección o sin) no se puede afirmar que exista relación entre la gravedad de tumor y la
localización.

3.2 > M <- matrix(c(2,28,4,17),ncol=2)


> fisher.test(M)
Fisher's Exact Test for Count Data
data: M
p-value = 0.2144
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.02554216 2.43752947
sample estimates:
odds ratio
0.311004

No se han hallado evidencias que permitan relacionar el tipo de estimulación aplicada al paciente con la ocurrencia de
síncope. El resultado es compatible con la posibilidad de que sean independientes.

3.3 > Tabaco <-array(c(2, 1, 53, 61, 17, 12, 216, 266,78, 52, 167, 147, 42, 165,
7, 28), dim = c(2, 2, 4), dimnames = list(c("Fumadoras", "No
fumadoras"),c("Muertas",
"Vivas"),c("18-24", "25-44", "45-64", "65+")))
> mantelhaen.test(Tabaco)$p.value
[1] 0.08488535

Por tanto, teniendo en cuenta la franja de edad, la relación entre fumar y la supervivencia a los 20 años no alcanza la
significación estadística.

3.4 > Tabaco2 <-array(c(79, 15, 1918, 695, 245, 191, 755, 751, 47, 20, 37, 62,
92, 64, 39, 57),dim = c(2, 2, 4), dimnames = list(c("Intervención",
"Control"),c("Dejaron de Fumar", "No dejaron de fumar"),c("Hollis 1993", "Miller
1997", "Taylor 1990", "Debusk 1994")))
> mantelhaen.test(Tabaco2)$p.value
[1] 1.933991e-06
Existe un efecto positivo de la intervención sobre el abandono del hábito de fumar, por lo tanto diría que sí que existe
relación entre la intervención y el hábito tabáquico.

45
Capítulo 18:
Interacción. Sesgo de selección
Efectos condicionados implica sesgo de selección

Erik Cobo
José Antonio González, Jordi Cortés y Nerea Bielsa

Septiembre 2014
Interacción. Sesgo de selección

Interacción y Sesgo de selección


Presentación ....................................................................................................................... 3
1. El reto de la interacción ...................................................................................... 4
1.1. La interacción puede depender del análisis escogido ............................................ 6
1.2. Interacción frente a sinergismo y antagonismo...................................................... 7
1.3 Interacción frente a confusión. ................................................................................ 9
1.4. Análisis de la interacción. ................................................................................... 11
1.5. Análisis erróneo de la interacción. ...................................................................... 13
1.6. Premisa de homogeneidad frente a hipótesis de heterogeneidad. ....................... 15
1.7. Guías sobre informe de la interacción en las revistas. ........................................ 16
2. Respuesta condicionada implica sesgo de selección ....................................... 17
2.1. Definición según las probabilidades de selección................................................ 17
2.2. Respuesta común condicionada implica sesgo de selección ................................ 19
2.3. Corrección ponderando por el inverso de la probabilidad (IPW) ........................ 20
2.4. Sesgo de selección por variables intermedias ...................................................... 22
2.5. El EC y los estudios de cohortes están más protegidos ....................................... 24
2.6. Sesgo de selección con variables numéricas ........................................................ 25
2.7. Sobreajuste ........................................................................................................... 26
Soluciones a los ejercicios ............................................................................................. 28

2
Bioestadística para no estadísticos

Presentación

La interacción y el sesgo de selección fueron introducidos, junto con todos los retos, en el tema 16.
En el 17 vimos a fondo las amenazas que plantea la confusión de efectos y algunas herramientas
estadísticas para abordarlo: los DAGs para representar el papel de las diferentes variables en el
modelo, y el ajuste tanto mediante estratificación (Mantel Haenszel) como por ponderación (IPW).
Ahora aplicamos este tipo de herramientas a la interacción y el sesgo de selección.

Una vez más, será importante distinguir entre hipótesis y premisas. Por ejemplo, la homogeneidad
de la relación (ausencia de interacción) será una premisa necesaria para obtener un único estimador
de la relación ajustando por terceras variables para controlar la confusión.

Contribuciones: Basado en el material previo habitual, Erik Cobo redactó un primer borrador que
fue revisado por José Antonio González, Jordi Cortés y Nerea Bielsa, quienes, además, han
diseñado los ejercicios adicionales implementados en e-status.

3
Interacción. Sesgo de selección

1. El reto de la interacción

El lector ya conoce que terceras variables (Z observables, o W no observables) podrían modificar el


efecto de la exposición E en la respuesta Y.

Recuerde
A diferencia del EC, nos interesamos por exposiciones E, no intervenciones X

Lectura: Valore repasar “Estudio de subgrupos” en el capítulo 10 y “Premisas de efecto constante:


Homoscedasticidad” en el 11.

Ejemplo 1.1: la ingesta de una misma cantidad de alcohol (E) tiene un efecto negativo en
las habilidades motoras (Y). Este efecto es mayor en las mujeres que en los hombres (Z).

Esta modificación del efecto se conoce, en términos estadísticos, como interacción entre las
variables E y Z en la respuesta Y. Esta situación es muy diferente de la provocada por la confusión.
La primera diferencia es que un diseño balanceado no protege contra la interacción.

Ejemplo 1.2: suponga que, para estudiar el efecto del tratamiento T frente a tratamiento C,
tanto en hombres como en mujeres, ha realizado la siguiente asignación equilibrada (misma
razón tratados T/C en ambos géneros) (Tabla 1.1).

X=T X=C Razón

Z=Hombres 60 60 1a1
Z=Mujeres 60 60 1a1
OR 1
Tabla 1.1: ausencia de colinealidad entre Z y X

Si la variable género fuera modificadora del efecto, podrían observarse, por ejemplo, los
resultados de la tabla siguiente (Tabla 1.2) en las que se observa que en los hombres el
tratamiento C proporciona mejores resultados; pero en las mujeres es T.

4
Bioestadística para no estadísticos

Hombres Mujeres
Y+ Y- Odds Y+ Y- Odds
T 20 40 1a2 40 20 2a1
C 40 20 2a1 20 40 1a2
OR 1/4 4

Tabla 1.2: diferentes efectos de X en Y para hombres y mujeres

Recuerde
La interacción puede aparecer aunque no exista colinealidad.

Ejemplo 1.2 (cont): La Tabla 1.3 muestra la información agregada de todos los casos.
Nótese que no tiene ningún sentido, ya que no informa ni del efecto en los hombres ni del
efecto en las mujeres. Una vez más, si un investigador no considera a la tercera variable
género, los resultados carecen de validez, ya que hablarían de dos tratamientos que tienen la
misma eficacia, cuando se ha visto que sí es eficaz, aunque de forma diferente (y contraria,
en este ejemplo) según la tercera variable.
Y+ Y- Razón
X=T 60 60 1a1
X=C 60 60 1a1
OR 1
Tabla 1.3: La tabla global no muestra efecto de X en Y

Si hay interacción, explique la relación entre X e Y para cada nivel de la tercera variable Z. En el
caso de la confusión, era necesario considerar la tercera variable en el análisis y analizar los
resultados condicionando o ajustando por ella, pero se podía presentar un único valor de la relación,
ya que era el mismo en los diferentes niveles de la variable Z.

Recuerde
Si E y Z tienen sus efectos en Y confundidos, la relación parcial (condicionando
por Z) difiere de la marginal (sin ajustar por Z): OREY|Z ≠ OREY

Si Z modifica el efecto de E en Y, las relaciones parciales (para los niveles de Z)


difieren entre sí: OREY|Z+ ≠ OREY|Z-

5
Interacción. Sesgo de selección

Ejemplo 1.3: en este último ejemplo, la relación entre el tratamiento y la respuesta es


diferente para cada género y para explicar el efecto es necesario aclarar de qué género se
está hablando. En el ejemplo 1.2 (cont.) capítulo 17 el efecto era el mismo en ambos centros
y se podía hablar de un único efecto del tratamiento, también los OR parciales de cada
subgrupo valían 1, mientras que el OR marginal juntando ambos centros valía 2’5.

En el Ejemplo (cont) (Tabla 1.2) de modificación del efecto, el OR para los hombres vale ¼
mientras que el de las mujeres es de 4.

Recuerde
La interacción, a diferencia de la confusión, obliga a especificar los resultados
para cada nivel de Z.

1.1. La interacción puede depender del análisis escogido


La interacción o modificación del efecto es un concepto íntimamente ligado a la medida del efecto
empleada. Puede aparecer con una medida y no aparecer con otra, como muestra el ejemplo
siguiente.

Ejemplo 1.4: La Tabla 1.4 muestra idéntico cociente de riesgo (RR) en ambos sub-grupos
(1.5); unos OR algo diferentes (2.25 y 1.59); y unas diferencias de proporciones muy
distintas (20% y 5%). Usando el riesgo relativo puede decir que el tabaco multiplica por 1.5
la probabilidad de que suceda el evento, sea cual sea el valor inicial del alcohol; mientras
que si usa la diferencia de riesgos, deberá especificar que, cuando se consume alcohol, la
proporción de sucesos de evento aumenta un 20% mientras que si no se consume alcohol,
sólo lo hace un 5%.

Alcohol (E2+) No Alcohol (E2-)


Evento (Y+) No evento (Y-) P(Evento) Evento (Y+) No evento (Y-) P(Evento)
Tabaco (E1+) 60 40 0.60 15 85 0.15
No Tabaco (E1-) 40 60 0.40 10 90 0.10
OR (60*60)/(40*40)=2.25 (15*90)/(85*10)=1.59
RR 0.6/0.4=1.50 0.15/0.10=1.50
DR 0.6-0.4=0.20 0.6-0.4=0.05
Tabla 1.4: No interacción con RR, pero sí con DR

6
Bioestadística para no estadísticos

Recuerde
La interacción puede depender del análisis escogido.

Las medidas basadas en cocientes, cono el RR o el OR suelen ser más estables que las medidas
aditivas, como la DR. Por ello, el objetivo científico de parsimonia, que aconseja utilizar el número
mínimo de parámetros para explicar un fenómeno, puede llevar a escogerlas. En cambio, cara al
beneficio observado en una comunidad es más fácil interpretar la diferencia de riesgos.

Nota: la vida sería más fácil si no existiera interacción. Pero demostrar o negar su existencia no es un
objetivo tan importante como estudiar la relación de E con Y. Si no puede asumirse que no haya
interacción, posiblemente el primer paso puede ser establecer el efecto en un subgrupo homogéneo.

El objetivo principal de un estudio observacional suele ser dilucidar si la exposición E1 puede ser
una causa de la respuesta Y observada. La cuestión sobre si la exposición E2 confunde o modifica
es, en el fondo, secundaria y sirve para decidir el tipo de análisis, la presentación de resultados o la
población objetivo. En un estudio confirmatorio, debería ser conocido previamente y formar parte
de sus premisas. En cambio, en uno exploratorio puede ser más interesante observar si
planteamientos alternativos conducen a la misma conclusión.

1.2. Interacción frente a sinergismo y antagonismo.


Sinergismo y antagonismo son términos usuales en farmacología que tienen mucho que ver con la
definición anterior de interacción.

Definición estadística
Dos intervenciones son sinérgicas cuando el efecto al administrarlas
conjuntamente es mayor que la suma de sus efectos por separado.

Ejemplo 1.5: Supongamos que valoramos la PAS a las 12 semanas de una intervención
conjunta de monitores deportivos (Ejercicio, XE+) y dietistas (XD+) comparada con tres
referencias, consejo sólo dietético, sólo deportivo, y ausencia de consejo (XD- y XE-). Estos
4 brazos de tratamiento pueden situarse en una tabla 2x2 (Tabla 1.5). Este ejemplo, al habla
de intervenciones puede ser balanceado, sin colinealidad: todas las combinaciones de XE
con XD tienen 10 casos. Por simplicidad, una única la desviación típica, de 10mmHg, aplica
a todos los grupos (homoscedasticidad).

7
Interacción. Sesgo de selección

XE+ XE- Total


XD+ 110 (10) 120 (10) 115 (20)
XD- 130 (10) 140 (10) 135 (20)
Total 120 (20) 130 (20) 125 (40), SD=10

Tabla 1.5: Los efectos de E y D en PAS no interactúan (son aditivos)

XE baja la PAS 10 mmHg, mientras que XD la baja 20 mmHg. La suma de sus efectos es 30
mmHg, que es justamente la diferencia entre la media del grupo que no recibe nada (140
mmHg) y la del grupo tratado con ambas intervenciones (110 mmHg). Desde un punto de
vista estadístico, diríamos que no hay interacción —ni sinergismo.

Ejemplo 1.6: En cambio, si la media del grupo tratado con las 2 intervenciones hubiera sido
100 mmHg en lugar de 110, el efecto combinado hubiera sido mayor (40 mmHg) que la
suma de los efectos por separado en ausencia de la otra intervención (10 + 20 =30 mmHg) y
hablaríamos de sinergismo o interacción positiva.

Definición estadística
Dos intervenciones son sinérgicas si el efecto conjunto es mayor que la suma de
sus efectos aislados.

Ejemplo 1.7: En el ejemplo anterior, si la media del grupo XE+XD+ hubiera sido 115
mmHg, el efecto combinado hubiera sido menor (25 mmHg) que la suma de los efectos
aislados (10 + 20 =30 mmHg) y hablaríamos de antagonismo o interacción negativa.

Definición estadística
Dos intervenciones son antagónicas si el efecto conjunto es menor que la suma de
sus efectos aislados.

Ahora bien, en este ejemplo 1.7, el grupo que más baja la PA es precisamente el que recibe
ambas intervenciones, dieta y ejercicio. A pesar de que hay una interacción estadística
negativa (moderada), el mejor consejo podría incluir ambas intervenciones.

Recuerde
Dos intervenciones son clínicamente combinables si el efecto conjunto es mayor
que el mejor efecto aislado.

8
Bioestadística para no estadísticos

1.3 Interacción frente a confusión.


En la interacción, el efecto de E en Y difiere bajo las condiciones Z: . Su origen
puede estar en que el mecanismo biológico subyacente es realmente distinto en los subgrupos de Z,
pero también podría venir provocado por una pobre estrategia de análisis. Requiere la presentación
de resultados por separado y, quizás, diferentes actitudes y consejos terapéuticos en los grupos de Z.

En cambio, la confusión viene originada por la colinealidad entre E y Z ( ), combinado


con un papel predictivo de Z en Y ( ), lo que conduce a distintas estimaciones del efecto
de E en Y al ajustar y no ajustar por Z ( ). Esta contradicción impide una
“conclusión” y requiere una “discusión”. Note que esta colinealidad, origen de la confusión, es
típica de los estudios observacionales, ya que un diseño experimental puede evitarla, p. e., mediante
un diseño de bloques balanceados, que hace independientes a E e Y, los permite cuantificar “el
efecto de E en Y, independientemente de Z”. Una de las cuestiones que deja pendientes un estudio
observacional es si se podrá hacer el experimental, es decir, si E1 será asignable independientemente
de E2: p.e., ¿podemos intervenir sobre el tabaco sin modificar el alcohol? O mejor, si al modificar el
tabaco, cambiamos también el alcohol, ¿tiene sentido preguntarse por el efecto del tabaco a nivel
fijo de alcohol?

La Tabla 1.6 resume las diferencias entre confusión e interacción.


RECUERDE Confusión Interacción
Diagnóstico Estadístico: y
Epidemiológico:
Etiología Colinealidad (variables relacionadas) en Mecanismo biológico
un estudio observacional Estrategia de análisis
Tratamiento Análisis: ajuste por E2 Si ningún análisis permite homoge-
neidad, presente resultados separados
Pronóstico Impide conclusión y requiere discusión. Quizás requiera nuevos estudios con
“Pide” nuevos estudios en los que, por criterios de selección que permitan
diseño, homogeneidad del efecto

Tabla 1.6
Lectura: Jockin de Irala y colaboradores.

9
Interacción. Sesgo de selección

Ejercicio 1.1

Según el punto 12a del documento E&E de STROBE, ¿cuáles son ciertas?
a) En general, hay un único análisis estadístico correcto
b) En general, hay varios análisis correctos que difieren en sus premisas
c) El protocolo debe predeterminar el análisis del objetivo principal

Ejercicio 1.2

Según 12a de E&E STROBE, ¿cuáles son ciertas del análisis post-hoc o ad-hoc?
a) No deben realizarse
b) Si se realizan, debe informarse al lector que los análisis han sido sugeridos por
los datos.
c) Los análisis en estudios observacionales siempre son post-hoc.

Ejercicio 1.3

12a de E&E STROBE recomienda, sobre comparar grupos que difieran en


determinadas características basales:
a) No tener en cuenta los resultados del estudio, pues pueden tener sesgo.
b) Ajustar por las características que difieren basalmente.
c) Ajustar por las potenciales variables confusoras.

Ejercicio 1.4
A) Mire la siguiente tabla y diga de qué caso se trata: ¿Qué papel juega el
alcohol?
No Alcohol (E2-) Alcohol (E2+) Todos
Evento No evento Evento No evento Evento No evento
(Y+) (Y-) (Y+) (Y-) (Y+) (Y-)
Tabaco
3 176 19 197
(E1+) 22 373
No Tabaco
4 257 2 23
(E1-) 6 280
OR 1.095 1.109 2.752
IC95% OR [0.241 , 4.953] [0.243 , 5.070] [1.101 , 6.878]

10
Bioestadística para no estadísticos

Ejercicio 1.5
Basandose solo en los OR que aparecen en la tabla siguiente diga qué papel juega
el alcohol.
No Alcohol (E2-) Alcohol (E2+) Todos
Evento No evento Evento No evento Evento No evento
(Y+) (Y-) (Y+) (Y-) (Y+) (Y-)

No Tabaco (E1-)
Tabaco (E1+)
OR 1.89 19.871 9.796
IC95% OR [0.304 , 11.750] [4.461 , 88.504] [3.258 , 29.454]

Ejercicio 1.6

Según el punto 12e de E&E de STROBE, los análisis de sensibilidad pueden


ayudar a detectar sesgos de:
a) Selección
b) Publicación
c) Información
d) Sesgo de procedimiento

Ejercicio 1.7

Según el punto 12e de E&E de STROBE, los análisis de sensibilidad pueden


estudiar la posible influencia en las conclusiones de cuáles de los siguientes:
a) Los criterios de elegibilidad
b) Las definiciones de las exposiciones y de la respuesta
c) El tratamiento de los datos ausentes
d) La elección de los análisis estadísticos

1.4. Análisis de la interacción.


Existen numerosas pruebas para contrastar si la magnitud de la relación es diferente en las distintas
categorías de la condición Z. La más popular es la de Breslow-Day (BD).

Este estadístico suma, para las K categorías de la condición, la diferencia al cuadrado entre los
casos observados y los esperados dividida por su varianza, pero únicamente en la primera celda,
p.e., fumadores (E=+) con cáncer (Y=+):

11
Interacción. Sesgo de selección

Estrato “i” Y+ Y-
E+ ai bi
E- ci di

Tabla 1.7

E(ai) es el valor esperado si todas la subtablas reflejaran la misma magnitud de la relación estimada
por el ORMH. Por tanto, BD se construye sumando las desviaciones del patrón de una asociación
idéntica en cada subtabla. De esta forma, valores grandes del estadístico representarán relaciones
heterogéneas ya que las frecuencias observadas discreparán sensiblemente de las esperadas en caso
de no interacción.

El valor del estadístico a partir del cual consideraremos que existe interacción dependerá del
número de categorías que definen los estratos y las subtablas. Por ejemplo, para un nivel de
significación del 5%, con 2 categorías será 3.84 y para 3, 5.99.

Con R se puede obtener de la instrucción epi.2by2 del paquete epiR.

Ejemplo 1.8: Recupere los datos de la Tabla 1.4. Con R, evalúe la interacción en la escala
del OR usando la prueba de Breslow-Day.

Alcohol (E2+) No Alcohol (E2-)


Evento (Y+) No evento (Y-) P(Evento) Evento (Y+) No evento (Y-) P(Evento)
Tabaco (E1+) 60 40 0.60 15 85 0.15
No Tabaco (E1-) 40 60 0.40 10 90 0.10
Tabla 1.8

Ejemplo R
# Instale (si no lo ha hecho previamente) y cargue el paquete epiR
> install.packages('epiR')
> library('epiR')
# Se realiza el test construyendo la tabla 2x2x2 previamente
> tabla <- array(c(60,40,40,60,15,10,85,90),dim=c(2,2,2))
> test <- epi.2by2(dat = tabla, homogeneity = "breslow.day",
outcome = "as.columns")
> test$rval$OR.homog
test.statistic df p.value
1 0.4456871 1 0.5043902

12
Bioestadística para no estadísticos

BD vale 0.45 que, con 1 grado de libertad (2 estratos menos 1), da p=0.50 no significativa.
Por tanto, no hay evidencia para afirmar que haya interacción con el dolor basal.

Nota técnica: La instrucción array construye una tabla con las dimensiones que le pongamos en el
argumento dim (en este caso tiene 2 tratamientos, 2 posibles respuestas y 2 estratos). Los datos se han de
introducir por columnas (es decir, empezando por la 1ª columna del 1r estrato, luego la 2ª columna del 1r
estrato,…, 1ª columna del último estrato, 2ª columna del último estrato)

Nota: La función epi.2by2, además de la prueba de homogeneidad, también calcula las medidas del
efecto ajustadas por estrato que usaremos en caso de efecto homogéneo.

Ejercicio 1.8
Evalue con R si existe interacción en este caso. Primero mire los ORs y sus IC95%
e intente adivinar que resultado dará BD.

Alcohol (E2+) No Alcohol (E2-)


Evento (Y+) No evento (Y-) Evento (Y+) No evento (Y-)
Tabaco (E1+) 100 150 120 100
No Tabaco (E1-) 50 250 20 150
OR 3.33 9.00
IC95% OR 2.25, 4.95 5.26, 15.39

1.5. Análisis erróneo de la interacción.


Una fórmula popular para “salvar un estudio” es repetir el análisis en todos los subgrupos
imaginables hasta encontrar algún resultado significativo.

Historieta.

Recuerde
El capítulo 14 expuso que escoger la prueba significativa entre las muchas
realizadas implica perder el control del riesgo e incurrir en multiplicidad.

Lectura: valore repasar multiplicidad en el capítulo 14.

La aberración última de este método consiste en concluir que existe interacción porque “en unos
subgrupos la relación es significativa y en otros no”. Esto sucede porque el p valor combina la

13
Interacción. Sesgo de selección

magnitud de la relación observada con la información disponible sobre la misma. Por eso, una
relación puede ser no significativa porque realmente la relación sea inexistente, o bien porque
poseemos poca información (p.e., muestra insuficiente) para determinar significación. En el caso
extremo, podría darse que subgrupos con idéntica magnitud de la relación (homogeneidad absoluta
del efecto) tuvieran valores de p a ambos lados del umbral de significación.

Ejemplo 1.9: Las 3 tablas siguientes muestran el mismo valor del OR, pero sólo la central
tiene información suficiente para alcanzar resultados significativos. La primera columna
resulta poco informativa porque hay muy pocos casos con el evento, y comparar 1 con 3
difícilmente será significativo. Y en la última columna, el tamaño total es casi 10 veces
inferior, por lo que resulta insuficiente para alcanzar la significación con esta magnitud del
efecto. Una burda y errónea comparación de los niveles de p llevaría a decir: “el tabaco sólo
provoca eventos en el grupo de alcohol moderado, por lo que hemos demostrado interacción
entre tabaco y alcohol”.

Alcohol No: E2- Moderado: E2+ Alto: E2++


Evento Sí: Y+ No: Y- Sí: Y+ No: Y- Sí: Y+ No: Y-
Tabaco: E1+ 3 84 80 50 6 5
No Tabaco: E1- 1 112 20 50 3 10
n 200 200 21
OR 4 4 4
p valor 0.439 <0,0001 0.245
IC95% OR [0.409 , 39.137] [2.136 , 7.492] [0.693 , 23.089]
Tabla 1.9

Recuerde
No compare valores de p.

En cambio, sí que tiene sentido comparar la magnitud del efecto observado.

Ejemplo 1.9 (cont): Las 3 condiciones de alcohol (E2) muestran un OR=4, perfectamente
compatible con una idéntica magnitud del efecto a nivel poblacional en los 3 estratos. El
Forest Plot (Figura 1.1) permite ver al mismo tiempo la estimación puntual y por intervalo
de esta magnitud del efecto, facilitando su comparación.

14
Bioestadística para no estadísticos

Figura 1.1

Recuerde
Compare las medidas de la magnitud del efecto.

1.6. Premisa de homogeneidad frente a hipótesis de heterogeneidad.


La información previa del estudio puede empujarnos en ambas direcciones. Si todo apunta a la
ausencia de interacción, es decir, si parece razonable asumir que la relación entre E e Y será la
misma para los diferentes niveles de Z, tiene sentido plantear el estudio de E con Y en todos los
casos de Z bajo la premisa de homogeneidad del efecto.

Ejemplo 1.10: ninguna evidencia previa ni ningún argumento lógico parecen apuntar a que
el color de los ojos (Z) modifique el efecto del tabaco (E) en los eventos cardiovasculares
(Y). Tiene sentido tratar conjuntamente a todos los casos, sin distinguir según el color de los
ojos. También puede ser razonable mirar luego si, a la luz de los nuevos datos, esta premisa
de homogeneidad entre los subgrupos continua siendo razonable.

Ya vio que “ausencia de pruebas no es prueba de ausencia”. H no se puede demostrar, sólo


rechazar. Por tanto, un p valor alto no implica “demostrar H”. Por ello, las premisas no se
contrastan: se estudian nivel descriptivo y gráfico.

Recuerde
La premisa de homogeneidad del efecto se estudia a nivel descriptivo y gráfico.

15
Interacción. Sesgo de selección

Ahora bien, la información previa, sea deducción lógica o evidencia empírica, podría apuntar en
dirección contraria, a que sí exista interacción y la relación entre E e Y cambie según los niveles de
Z. En este caso, tiene sentido poner formalmente a prueba la hipótesis de interacción.

Ejemplo 1.11: Sospechamos (H) que el efecto en enfermedades degenerativas (Y) de la


exposición a rayos solares (E) podría cambiar con cierto biotipo que valoramos por el color
de los ojos (Z). Ahora procede testar formalmente la interacción (H) entre E y Z en Y.

Recuerde
La hipótesis de interacción puede ponerse a prueba formalmente.

Historieta: Vd. ha estudiado “pruebas de hipótesis”; no “pruebas de premisas”.

1.7. Guías sobre informe de la interacción en las revistas.


En ensayos clínicos, los puntos 12 y 18 de Consort desaconsejan la repetición de p valores en
subgrupos. NEJM publicó una guía específica sobre el análisis de subgrupos.

Ejercicio 1.9

Lea la tabla de la guía del NEJM y diga cuál de las siguientes es necesaria para
poder resaltar en el resumen un resultado de un subgrupo:
a) Que se base en una respuesta principal
b) Que estuviera pre-especificado
c) Que se interprete considerando la totalidad de análisis de subgrupos realizados
d) Que se base en una prueba significativa de interacción.

En las revisiones sistemáticas, tanto Prisma como el manual Cochrane, reconocen las fuentes
anteriores de heterogeneidad biológica y clínica. Además, añaden una fuente adicional: la diferente
calidad metodológica de los estudios. Prisma y Consort no la consideran ya que asumen la misma
calidad dentro de un mismo estudio.

En estudios observacionales, el punto 12b de Strobe, pide detallar los métodos usados para estudiar
subgrupos e interacciones y aconseja presentar tanto el efecto conjunto como el observado a niveles
de la tercera variable. El punto 16c aconseja presentar los resultados con medidas absolutas del
riesgo, como la diferencia de proporciones.

16
Bioestadística para no estadísticos

Ejercicio 1.10

Lea la caja 8 de Strobe y diga cuál es correcta:


a) La elección del modelo multiplicativo (RR, OR) o aditivo (DR) es crucial, ya
que sólo uno de ellos tiene interpretación biológica.
b) El objetivo principal del estudio de la interacción es entender cómo el efecto
conjunto a dos exposiciones difiere de sus efectos separados.
c) La ventaja del diseño casos-controles y del análisis de Cox es que sólo
permiten el modelo multiplicativo, por lo que no pueden aparecer
divergencias con el modelo aditivo —que no puede aplicarse.

Ejercicio 1.11

Lea l chiste de Randan Mulrow sobre el análisis de subgrupos y conteste:


a) ¿De qué se rie? (¿Cuál es su principal crítica?)
b) ¿Cómo debería ser el planteamiento y análisis correcto?

2. Respuesta condicionada implica sesgo de selección


El sesgo de selección aparece cuando la relación observada en los casos finalmente estudiados
difiere de la relación existente en la población objetivo.

Veamos 2 formas diferentes de definirlo. La primera, más operativa, compara las probabilidades de
incluir en el estudio para las 4 combinaciones de las 2 variables que se relacionan. La segunda, más
conceptual, recurre a los DAGs.

2.1. Definición según las probabilidades de selección


El sesgo de selección aparece cuando las probabilidades de incluir en el estudio difieren para
distintos casos. Y lo hacen de tal manera que introducen relación.

Kleimbaum, Kupper y Morgenstein estudian las probabilidades de ser incluido en el estudio para
cada combinación de la causa potencial E con el efecto estudiado Y. La Figura 2.1representa los
casos que existen en la población (a, b, c, y d) y los incluidos en el estudio (a’, b’, c’, y d’). La
proporción incluida en cada celda es diferente. Llamemos a estas proporciones α, β, γ, y δ.

Por ejemplo, α=a’/a. Según estos autores, aparece sesgo de selección cuando estas probabilidades
de incluir en el estudio guarden entre sí relación. En concreto, su OR sea diferente de 1: αδ/βγ ≠1.

17
Interacción. Sesgo de selección

Figura 2.1: diferentes probabilidades de


inclusión en el estudio para diferentes
combinaciones de Z con Y

Ejemplo 2.1: (Continuación ejemplo 5.5 capítulo 16). Recuerde el ejemplo de los
anovulatorios E y la flebitis Y: la probabilidad de acudir al centro sanitario y ser
Seleccionado para el estudio (S+) puede ser razonablemente baja para todas las mujeres que,
o no toman anovulatorios o no tienen flebitis; pero, por la alerta existente, ser alta en las que
sí cumplen con ambas características (Tabla 2.1)
S+ S- Global P(S+)
Y+ Y− Y+ Y− Y+ Y− Y+ Y−
E+ a’=70 b’=30 30 70 a=100 b=100 α=0.7 β=0.3
E− c’=30 d’=30 70 70 c=100 d=100 γ=0.3 δ=0.3
OR 21/9 9/21 1 21/9
Tabla 2.1: Sesgo de selección según probabilidades de inclusión en el estudio

Ejercicio 2.1
Recuerde la chica que seleccionaba para sus citas, o guapos (Z1) o simpáticos
(Z2). Las 3 columnas de la izquierda de la tabla muestran aquellos datos. Calcule
en la última columna las probabilidades de que un pretendiente sea seleccionado.

S+ S- Global P(S+)

Z2+ Z2− Z2+ Z2− Z2+ Z2− Z2+ Z2−

Z1+ a’=80 b’=80 20 20 a=100 b=100


Z1− c’=80 d’=20 20 80 c=100 d=100

OR ¼ 4 1

18
Bioestadística para no estadísticos

Recuerde
Para que el sesgo de selección distorsione la relación entre dos variables, las
probabilidades de selección de sus combinaciones deben tener un OR≠1.

2.2. Respuesta común condicionada implica sesgo de selección


En el capítulo 16 y en el título de este subpunto, siguiendo a Hernán, atribuimos el sesgo de
selección al hecho de condicionar por una variable respuesta, que depende de las anteriores.

Ejemplo 2.2: Siguiendo con el ejemplo de los anovulatorios (E) y la flebitis (Y), observe
que ambas están relacionadas con la selección (S), por lo que aparecerá una relación falsa
entre las dos variables por sesgo de selección. La Tabla 2.2 muestra esta relación:

S+ S- S+ S-
E+ 100 100 Y+ 100 100
E- 60 140 Y- 60 140
OR=7/3 OR=7/3
Tabla 2.2

Recuerde
Aparece relación falsa entre 2 variables por sesgo de selección si condicionamos
por una respuesta común.

Ejercicio 2.2
Recupere los datos del ejemplo 2.2 de la chica y muestre que ambas
características están asociadas con la selección completando la tabla siguiente y
calculando los OR respectivos.

S+ S- S+ S-

E1 + E2 +
E1 - E2 -
OR = OR =

19
Interacción. Sesgo de selección

Ejercicio 2.3
a. Represente el DAG para el ejemplo de las parejas de la chica.
b. Intente explicar con sus propias palabras qué está pasando.

2.3. Corrección ponderando por el inverso de la probabilidad (IPW)


Si se conocen las probabilidades de incluir un caso, se puede eliminar el sesgo introducido: se trata
de anular dichas probabilidades multiplicando por su inverso.

Ejemplo 2.3: Cierta empresa procesa un producto tóxico (T) del que se sospecha que
provoca varias enfermedades (E) que son, por otro lado, frecuentes en el entorno. Vd.
estudia sus 157 trabajadores actuales para ver si tienen o no la enfermedad E y si estuvieron
o no expuestos a T. Obtiene la primera columna de la Tabla 2.3, por lo que concluye que no
puede decir que haya relación: los resultados son compatibles con que en la población
origen la exposición tenga un OR tanto de 0.41 (protector) como de 2.97 (nocivo).

n Observadas P(Cambiar) P(Seguir) IPW n·IPW

E No E E No E E No E E No E E No E

T 12 84 5/6 1/2 1/6 1/2 6 2 72 168

No T 7 54 1/2 1/2 1/2 1/2 2 2 14 108


54/49 (IC95% de 5/3 1/3 3 27/7≈4
OR
0.41 a 2.97)
Tabla 2.3: Corrección por IPW

Algo decepcionados por los resultados, Vds. buscan en los archivos de la empresa los
trabajadores previos y el empresario confirma que los expuestos a T habían sido muy
vigilados y por ello, aquellos que resultaban afectados por la enfermedad tenían gran
tendencia a cambiar de entorno, por lo que, desde sus inicios, aproximadamente 5 de cada 6
de los enfermos (E) expuestos (T) cambiaron de trabajo, mientras que en el resto de grupos,
lo hicieron 1 de cada 2. La tabla muestra las probabilidades de cambiar y de quedarse. Así,
para el grupo ET las probabilidades de ser incluido eran de 1/6, por lo que su inverso sería:
IPW(ET)=6/1. La subtabla IPW muestra las ponderaciones para cada celda.

20
Bioestadística para no estadísticos

La tabla Final “reconstruida” muestra los casos que se habrían observado si no se hubieran perdido
casos —asumiendo que éstos últimos eran idénticos a los de su mismo grupo.

Recuerde
Si se conocen las probabilidades de selección, el IPW permite reconstruir la tabla.

Ejemplo 2.3 (cont): Ahora, sí parece existir relación: un OR de 4 podría ser importante.

Esta reconstrucción artificial no puede “demostrar” que la relación exista, pero sí puede cuestionar
los resultados observados.

Ejemplo 2.3 (cont): La no relación observada (OR=54/49, con IC95% de 0.41 a 2.97) podría
ser explicada por un posible sesgo de selección.

Recuerde
La tabla reconstruida permite cuestionar los resultados observados.

IPW infla artificialmente la tabla, por lo que no puede calcular su IC por los métodos vistos, ya que
su incertidumbre es mayor que la que indica su ‘n’.

Nota: El cálculo de este IC debería incluir también la incertidumbre en la estimación de los IPW.

Recuerde
No haga IC con la tabla reconstruida por el IPW.

El ejemplo anterior muestra cómo usar el IPW para comprobar si los resultados observados resisten
un análisis que incorpore información externa o incluso hipotética. En el ejemplo, no hay
conclusiones estables: la información externa a los datos hace tambalear el argumento.

Recuerde
El IPW mira si los resultados son consistentes ante posibles sesgos de selección.

21
Interacción. Sesgo de selección

2.4. Sesgo de selección por variables intermedias


Hasta ahora la variable que ha condicionado la probabilidad de ser estudiado es posterior (

Figura 2.2).
Figura 2.2: E1 (tabaco) y E2 (alcohol) influyen
negativamente en el rendimiento deportivo Y:
aunque sean independientes en la población, entre
los que paricipan en pruebas deportivas,habrá
relación entre E1 y E2

Pero el sesgo de selección también puede aparecer si esta variable es intermedia (Figura 2.3).

Figura 2.3: E (tabaco) influye negativamente en


las pruebas deportivas preliminares de selección
S. Aunque E influya en el rendimiento final Y, si
sólo estudia los que pasan la prueba S, verá
independencia de E con Y —siempre que E no
tenga otros efectos en Y.

Ejercicio 2.4
Para mejorar el rendimiento, cierta universidad ofrece unos cursos voluntarios de
nivelación iniciales a una cohorte de 900 alumnos que empiezan sus estudios.
Como los créditos son bajos, sólo 1/3 de alumnos los hacen (C=S vs C=N).
Deseamos estudiar si hacerlos ayuda a encontrar trabajo en menos de 3 meses
desde la titulación (Y=S vs Y=N). Ahora bien, terminan su titulación en los años
previstos (Seg=OK), 2/3 de los que hicieron el curso y 1/3 de los que no lo
hicieron.

Así, el orden temporal de estas 2 variables es: C, Seg, Y. El árbol muestra las
siguientes probabilidades de Y para las 4 combinaciones de C y Seg.

Entre los alumnos que han hecho el curso, (1) el 50% de los que terminan en el
plazo encuentran trabajo; pero (2) los que no terminan en el plazo suele ser

22
Bioestadística para no estadísticos

porque ya antes de terminar han encontrado trabajo y van más lentos, por lo que
un 90% tienen trabajo relacionado al terminar.

Entre los que no hicieron el curso, (3) los que terminan en el plazo son muy
espabilados, de forma que el 90% encuentra ese trabajo; por (4) un 50% de los
que no han terminado en el plazo.

Para estudiar si encuentran más trabajo los que hicieron el curso inicial, se puede
(A) no esperar o (B) esperar a que terminen todos.

a. Complete las ‘n’ que llegarían al final de cada rama del árbol y reconstruya
las tablas que se observarían en ambas situaciones y calcule sus OR.

b. Explique por qué llega a esos resultados y qué nombre técnico recibe.

c. A partir de las dos tablas anteriores, calcule las probabilidades de ser incluido
en el estudio A (Seg=OK) para cada combinación de C con Y. Calcule los
IPW correspondientes. Aplique este IPW para reconstruir la tabla de todos los
alumnos [Compruebe que recupera la tabla con todos.]

d. Calcule los OR de estas nuevas tablas. Vuelva a intentar explicar por qué
aparece sesgo de selección y por qué IPW lo corrige.

23
Interacción. Sesgo de selección

Recuerde
El IPW pretende corregir el sesgo de selección.

Ejercicio 2.5
a. Recuerde el orden cronológico de estas 3 variables y observe que la variable
que provoca el sesgo de selección es intermedia. Dibuje su DAG.

b. ¿Qué tiene en común y en qué se diferencia esta situación de la confusión?

Ejercicio 2.6

Los organismos ‘oportunistas’ pueden ser responsables de las infecciones


nosocomiales (IN) que aparecen durante la estancia en el hospital. Los
responsables de calidad de su centro comparan entre servicios la proporción IN
para todos los pacientes que están ingresados más de 1 semana. Vd. sospecha que
eso podría provocar sesgo de selección y quiere convencerles de que deben
estudiar a todos los pacientes ingresados.
a. A partir de las variables servicio (S=A o B), longitud estancia (E=Corta o
Larga) e IN (No o Sí), dibuje el DAG y explique porqué seleccionar sólo a los
que tienen estancia larga puede provocar sesgo de selección.

b. De hecho, ambos servicios atienden sólo 2 enfermedades (Códigos C=23, 24),


en distinta proporción, que explican la relación entre S y E, por lo que
ajustando por C, no existirá relación SE. Dibuje un nuevo DAG y proponga
un (conjunto de) análisis que permita comparar la calidad de los servicios en
cuanto a IN.

2.5. El EC y los estudios de cohortes están más protegidos


Observe la gran diferencia entre el ejercicio de la universidad sobre los cursos de nivelación y el
ejemplo de la empresa y la exposición al tóxico. La Universidad dispone de una cohorte con todos
los casos que inician los estudios en ella. En cambio, el de la empresa ha seleccionado a los casos al
final de su seguimiento y ha averiguado su exposición previa. La universidad puede disponer de un
registro de la evolución de todos los casos y, por tanto, si informa sobre todos los casos, puede
documentar la ausencia de sesgo de selección.

24
Bioestadística para no estadísticos

Recuerde
Seleccionar a los casos por una variable inicial en el momento en que acaece
permite detectar posibles pérdidas y, si no las hay, documentar la ausencia de
sesgo de selección.

Ejercicio 2.7
Explique las razones por las que, en un EC, la asignación oculta protege contra el
sesgo de selección.

Ejercicio 2.8
El buen seguimiento de un EC documenta la existencia de pérdidas de
seguimiento. Diga de las siguientes posibles razones, cuáles podrían conducir a un
posible sesgo de selección y cuáles no. [Recuerde que, para que el sesgo de
selección afecte la relación XY, el OR de las probabilidades de ser excluido para
la tabla XY debe diferir de 1.]

Eliminado del estudio durante el seguimiento por defunción

Eliminado del estudio durante el seguimiento por curación

Eliminado del estudio durante el seguimiento por eventos adversos

Eliminado del estudio durante el reclutamiento por renuncia a participar

2.6. Sesgo de selección con variables numéricas


El sesgo de selección también amenaza a las variables numéricas.

Ejemplo 2.4: Cierto servicio sanitario (o departamento universitario, empresa….) emplea


un baremo que suma dos tipos de capacidades que resumimos en (A) atención al paciente y
(B) investigación e innovación. Pongamos que, en la población candidata, ambas variables
tienen valores entre 0 y 10, centrado en el 5. Y que el criterio es que su suma sea mayor que
10. Es decir, Y=A+B>10.

25
Interacción. Sesgo de selección

Supongamos un primer escenario en el que


10

ambos criterios sean independientes entre sí, es


decir, que su correlación sea nula: rA,B=
8

0.009≈0. El Gráfico 2.1 muestra la nube de


6

puntos para todos los posibles candidatos y la


Y

línea que divide a los que superan el criterio de


4

los que no: si limitamos el estudio de la


correlación a los puntos rojos que pasan el
2

criterio de selección, aparece una correlación


0 2 4 6 8 10 negativa, rA,B= − 0.474<0, que no existe en toda
X
la población.
Gráfico 2.1

En el segundo escenario asumimos que los


que son buenos en A tienen mayor
8

tendencia a ser también buenos en B. Por


ejemplo, que su correlación vale 0.5: rA,B=
6

0.503≈0.5. Otra vez, el GGráfico 2.2


Y

muestra todos los posibles candidatos y la


4

línea que los divide. En los seleccionados, la


correlación, casi nula, rA,B=0.023, contrasta
2

con la real de toda la población.


2 4 6 8
GX
Gráfico 2.2

Recuerde
El sesgo de selección también afecta a variables numéricas.

2.7. Sobreajuste
En resumen, el sesgo de selección aparece cuando se condiciona por respuestas comunes. Es un
sobre-ajuste que debe evitar.

Recuerde
Evite ajustar por respuestas comunes.

26
Bioestadística para no estadísticos

Ajustar la relación entre E e Y por la variable intermedia I permite observar la parte de la relación
EY que no “pasa” por I, lo que en algunas disciplinas (p.e., sociología) denominan efecto “directo”
para diferenciarlo de los efectos globales de E en Y que no pasan por I.

Recuerde
Ajustar por variables intermedias para estudiar los efectos directos.

27
Interacción. Sesgo de selección

Soluciones a los ejercicios

1.1. a) FALSO (En general no hay único análisis estadístico correcto, sino que más bien existen varias posibilidades
que pueden atender a la misma cuestión haciendo diferentes suposiciones).

b) VERDADERO

c) VERDADERO (en el protocolo de investigación los investigadores deben determinar por anticipado al menos los
análisis para los objetivos principales del estudio.)

1.2. La respuesta correcta es la b)

1.3. La respuesta correcta es la c) Ajustar por las potenciales variables confusoras a través de regresión multivariante.
(Si los grupos de comparación no son similares respecto a algunas características, el ajuste se debe hacer para las
posibles variables confusoras mediante estratificación o regresión multivariada)

1.4. a) En este caso, existe confusión. Como no hay interacción y

podemos pasar a estudiar si hay confusión según el criterio epidemiológico y vemos que

. Si miramos el criterio estadístico vemos que hay colinealidad entre tabaco y alcohol porque los que

no bebedores (primera subtabla) son más no fumadores (segunda fila), mientras que los bebedores (segunda subtabla)
son más fumadores (primera fila), por lo que . Además, la tercera variable alcohol E2 predice la respuesta:

en los no bebedores (primera subtabla) hay 7 eventos en 440 casos, mientras que en lo bebedores (segunda subtabla)
hay 21 eventos en 241 casos, por lo que .

1.5. Ahora hay interacción ya que los OR si se condiciona por E2+ o por E2- son diferentes ya que sólo en presencia de
alcohol, el tabaco tiene relación con los eventos: . Como un estimador

único de la relación tabaco-eventos no tiene sentido, no procede preguntar si hay interacción.

28
Bioestadística para no estadísticos

1.6. Los sesgos que detectan los análisis de sensibilidad son: a) Selección, c) Información y d) Sesgo de procedimiento.
Porque interpretamos que el procedimiento incluye también a las decisiones sobre el tratamiento estadístico de los datos
(elección de puntos de corte, método de análisis, etc.).

1.7. Los análisis se sensibilidad pueden estudiar: a) Los criterios de elegibilidad, b) Las definiciones de las exposiciones
y de la respuesta, c) El tratamiento de los datos ausentes y d) La elección de los análisis estadísticos. Por lo tanto, todas
son correctas.

1.8. Se observa que los IC95% de los ORs no se solapan. Por tanto, cabe esperar que la prueba de Breslow-Day saldrá
muy significativa a pesar de que el efecto sea positivo (>1) en ambos casos.

Con R:
> tabla <- array(c(100,50,150,200,120,20,100,150),dim=c(2,2,2),
dimnames=list(c("E1+","E1-"),c("Y+","Y-"),c("E2+","E2-")))
> test <- epi.2by2(dat = tabla, homogeneity = "breslow.day",outcome =
"as.columns")
> test$rval$OR.homog
test.statistic df p.value
1 12.96852 1 0.0003167718

El p-valor muy inferior a 0.05 denota que existe interacción

1.9. Exige las 3 primeras. Es cierto que recomienda luego las pruebas de interacción, pero no la exige para incluir el
resultado en el resumen.

1.10. Sólo la b) es correcta. La a) es falsa porque ningún modelo tiene necesariamente interpretación biológica o clínica.
La c) porque, aunque el análisis proporcione una estimación relativa del riesgo, aun así conviene derivar los efectos en
la escala aditiva.

1.11. a) Su principal crítica es sobre multiplicidad, ya que está haciendo numerosas pruebas de hipótesis para quedarse
luego con el resultado más significativo. Prueba lo mismo 20 veces en 20 condiciones diferentes, cada una con P=0.05.
Si las pruebas son independientes entre sí (como parece) la esperanza del número de pruebas significativas es
precisamente 1 (=0.05*20) . Ese valor significativo no tiene, pues, ningún valor, ya que es explicable por la
multiplicidad.

29
Interacción. Sesgo de selección

b) Debe decidir qué papel juega la tercera variable. Si sospecha que hay interacción, quizás convendría ponerla a prueba
directamente con una prueba tipo BD. Si sospecha que podría ser confusora, debería hacer una tipo MH. En resumen:
debe hacer menos pruebas y pensar más.

2.1.

S+ S- Global P(S+)

Z2+ Z2− Z2+ Z2− Z2+ Z2− Z2+ Z2−

Z1+ a’=80 b’=80 20 20 a=100 b=100 α=0.8 β=0.8


Z1− c’=80 d’=20 20 80 c=100 d=100 γ=0.8 δ=0.2

OR ¼ 4 1 ¼
Note que la relación de los casos seleccionados (OR=1/4) es la relación que ya había entre las probabilidades
iniciales.

2.2. Los OR coinciden y se crea una relación falsa por sesgo de selección.

Y+ Y- Y+ Y-

E1+ 160 40 E2+ 160 40

E1- 100 100 E2- 100 100

OR = 4 OR = 4

2.3. a. Si sólo mira los individuos seleccionados el DAG es:

Si mira toda la población el DAG es:

b.Las dos características (guapo y simpático) están relacionadas con la selección, además las probabilidades de
inclusión en el estudio son diferentes para cada individuo y vienen condicionadas por la variable respuesta; esto hace
que aparezca una relación falsa (ORZ1Y = ORZ2Y=4) entre las dos variables por sesgo de selección

2.4. a. Si nos centramos en los que terminan ‘a tiempo’ (A) existe una fuerte relación: encuentran 9 veces más
trabajo de lo suyo los que NO hicieron el curso. [La interpretación más correcta del 9 es: “la razón si/no trabajan en lo
suyo es 9 veces mayor en los que no lo hicieron”] En cambio, en todos (B), el OR muestra independencia.

OK NO TOTAL

30
Bioestadística para no estadísticos

YS YN YS YN YS YN

CS 100 100 90 10 190 110

CN 180 20 200 200 380 220

OR 1/9 9 1

b. En la primera tabla, centrada en los que terminan ‘a tiempo’ existe sesgo de selección: los casos “perdidos” en los
dos grupos (CS y CN) son claramente diferentes.

En cambio, al estudiar todos los casos, sin condicionar por una variable posterior a la intervención (cursos de
nivelación), la evolución es la misma en ambos grupos, independientemente de si hicieron o no el curso.

c.
Seg=OK P(Seg=OK) IPW Todos

Y Y Y Y Y Y Y Y
S N S N S N S N

C 100 100 10/19 10/11 19/10 11/10 190 110


S

C 180 20 9/19 1/11 19/9 11/1 380 220


N

OR 1/9 1/9 9 1

d. Las probabilidades de ser incluido en el estudio A [P(Seg=OK)] tienen entre ellas un OR=1/9, lo que genera en la
tabla A un OR de la misma magnitud. Por su parte, al hacer la inversa de estas probabilidades, los IPW muestra un
OR=9 que permite corregir el sesgo de selección anterior (1/9 * 9 = 1).

2.5. a.

b. La tercera variable, igual que en la confusión, está relacionada con las otras dos, pero ahora está dentro del camino
causal entre ambas, es posterior (una respuesta) a la intervención C.

2.6. a. El DAG sería , por lo que seleccionar a los casos según la estancia

significaría bloquear E, lo que podría provocar sesgo de selección.

b. El nuevo DAG sería o bien y la pregunta de interés es


precisamente si existe esta relación directa de S a IN, que diferencia ambos DAGs. Y el reto es que C abre un camino

31
Interacción. Sesgo de selección

entre S e IN. Por eso, condicionar o bloquear por C permite estudiar la relación directa de
S con IN.

2.7. Si el investigador conoce el grupo al que irá asignado el paciente, sus motivaciones clínicas le podrían llevar a
“reconducir” los casos más graves hacia la intervención que considera superior. Si finalmente los más graves
evolucionan peor, los grupos estarían desequilibrados en cuanto a la evolución. Más formalmente, según la tabla XY las
probabilidades podrían ser las siguientes, conduciendo a un OR diferente de 1.

Y Y
+ -

E1
NUEVO

E1
REFERENCIA

OR= / <1

2.8. Únicamente en las eliminaciones antes de administrar la intervención podemos garantizar que no introducen una
diferencia entre los grupos. Podemos imaginar que la decisión puede depender de la gravedad de la enfermedad (quizás
los más leves quieran asumir menos riesgos ante intervenciones nuevas) y que esta gravedad esté relacionada con la
evolución posterior. Pero, si el grupo asignado está oculto, está tendencia a no participar será idéntica en ambas ramas y
el OR=1, por lo que no podrá haber sesgo de selección y la validez interna no estará comprometida (otro tema es la
externa: quizás los casos finalmente incluidos se diferencian de la población objetivo inicial). En cambio, en las otras 3
situaciones, si esta característica ligada con la evolución (defunción, curación, eventos adversos) también está ligada
con la intervención, una vez más los grupos estarán desequilibrados. Como antes, las probabilidades de eliminar caso
podrían ser diferentes en las 4 celdas que combinan E1 con Y y conducir a un OR distinto de 1.

32
Capítulo 19

Regresión Lineal Simple


Jordi Cortés, Nerea Bielsa y Erik Cobo
Pilar Muñoz, Ángel Ruiz, José Antonio González

Febrero 2015
Regresión Lineal Simple

Regresión lineal simple

Presentación ....................................................................................................................... 3
1 Variables en el modelo de regresión .................................................................. 4
1.1. La respuesta observada Y frente a la respuesta predicha ................................... 6
1.1. El término variable ............................................................................................ 7
1.2. El predictor suele ser una condición (Z) del caso .................................................. 8
2 El modelo de regresión lineal simple ................................................................. 9
2.1. Cuantifique la incertidumbre de la predicción ....................................................... 9
2.2. El modelo contempla una relación lineal, una recta. ........................................... 10
2.3. La pendiente resume la relación de la respuesta con el predictor. ....................... 11
2.4. Interpretación del término aleatorio ................................................................ 13
2.5. Descripción conjunta de todos los ................................................................... 14
3 Inferencia: de la muestra fugaz a la población objetivo ................................ 15
3.1. Estimación puntual ............................................................................................... 15
3.2. Fórmulas de los estimadores* .............................................................................. 16
3.3. Obtención con R de los estimadores .................................................................... 17
3.4. Imprecisión de la estimación................................................................................ 18
3.5. El cociente t señal/ruido ....................................................................................... 20
3.6. Cálculo de IC95%( 1)* .......................................................................................... 21
3.7. Los p valores ........................................................................................................ 23
4. Interpretación pronóstica o causal de los coeficientes ................................... 25
5. Predicción........................................................................................................... 27
5.1. Fórmulas *............................................................................................................ 28
5.2. Interpretación ....................................................................................................... 29
5.3. Obtención con R................................................................................................... 30
6. Coeficiente de determinación (R2) ................................................................... 31
6.1. Detalles *.............................................................................................................. 31
6.2. Interpretación ....................................................................................................... 33
7. Resumen ............................................................................................................. 34
Soluciones a los ejercicios ............................................................................................. 35

2
Bioestadística para no estadísticos

Presentación
En este primer tema de modelado estudiamos como anticipar una variable numérica a partir de otra
también numérica.

En el ensayo clínico, la estadística estima la capacidad para cambiar el futuro: “si Vd. sigue mis
consejos, su presión arterial bajará entre 15 y 25 mmHg”. El pronóstico no pretende cambiar el
futuro, sólo anticiparlo: adivinar el valor de una variable a partir de la información contenida en
otra. Por ejemplo, para cualquier gestación, el peso esperado de un recién nacido (RN) será de 3.1
Kg, y estará entre 1.9 y 4.4 kg en el 95% de las ocasiones. Pero sabiendo que tiene 40 semanas de
gestación, su peso esperado será de 3.4 Kg y estará (95%) entre 2.5 y 4.3 Kg. Conocer la gestación
ha aportado información que: (1) cambia el valor esperado; y (2) reduce el rango de incertidumbre.

Figura 1: Interpretación de la regresión del peso del RN según la gestación (salida R reordenada).

En este capítulo, Vd. aprenderá (1) a obtener con R los resultados de la figura 1; y (2) a
interpretarlos, distinguiendo entre su uso para anticipar o para cambiar el futuro (pronóstico o
intervención, respectivamente), según la naturaleza de los datos (observacionales o experimentales).

Contribuciones: basado en apuntes previos elaborados por PM, JAG, JC y EC; Ángel Ruiz, JC,
Nerea Bielsa y EC lo actualizaron; y JAG lo revisó.

3
Regresión Lineal Simple

1 Variables en el modelo de regresión

Un modelo estadístico expresa una variable respuesta en función de otras variables predictoras. En
la correlación las 2 variables en estudio tienen un papel simétrico, pero en el modelo de regresión es
asimétrico: la respuesta representa la futura incógnita, y la predictora, la información que estará
disponible.

Los 2 objetivos del modelo de regresión son: (1) anticipar el valor que tomará la respuesta; y (2)
cuantificar la precisión de esta predicción.

Ejemplo 1.1: Conocida la presión arterial diastólica (PAS), Vd. quiere determinar el nivel
de hipertrofia ventricular izquierda.

Ejemplo 1.2: Han predicho un terremoto cerca de Java en un plazo de entre 3 meses y 30
años.

Antes de su aplicación, el modelado requiere 3 fases (figura 1): (1) especificar el modelo; (2)
estimar sus coeficientes; y (3) validar sus premisas. Este tema aborda los 2 primeros. El tercero lo
vemos en Cap. 21.

Figura 1.1: Fases del modelado.

Ejemplo 1.3: El peso de una persona se puede adivinar, en parte, por su altura. La Tabla 1.1
muestra su descriptiva en 30 individuos (ejemplo simulado).

Ejemplo R
> # Generación de datos inventados
> set.seed(12345) # Garantiza que los datos serán siempre iguales
> altura <- rnorm(30,171,8) # Generar la altura
> peso <- altura-100+rnorm(30,0,5) # Generar el peso

4
Bioestadística para no estadísticos

> summary(data.frame(peso,altura))
peso altura
Min. :54.86 Min. :156.5
1st Qu.:66.30 1st Qu.:167.2
Median :74.48 Median :171.8
Mean :73.19 Mean :171.6
3rd Qu.:80.02 3rd Qu.:176.0
Max. :92.38 Max. :185.5

Tabla 1.1: peso y altura de 30 casos

El siguiente ejemplo de R muestra la estimación del modelo.

Ejemplo R
> # Modelo
> lm(peso ~altura)
(Intercept) altura
-107.348 1.052

Los coeficientes estimados de este modelo valen aproximadamente -100Kg y +1Kg/cm. El


más importante es el segundo, que indica que aumentar 1 cm la talla se acompaña con un
incremento de 1 Kg del peso: es la pendiente de la línea roja de la figura 2. El primero, -100
Kg, es la constante o punto en que la recta cruza o “intercepta” el eje vertical de ordenadas.

Nota: Recuerde que dibujar una recta sólo necesita 2 coeficientes: (1) mayor pendiente indica mayor
inclinación; y (2) mayor constante, recta más hacia arriba.

b1=1.05

b0 = -100

Figura 1.2: Figura izquierda: Los puntos son los valores de talla y peso de 20 casos. La línea recta es el modelo lineal
obtenido. Figura derecha: Es la figura izquierda sin ampliar, observe la constante (b0) que cruza al eje de ordenadas en
el punto -100 y el ángulo que forma la pendiente b1.

5
Regresión Lineal Simple

Ejercicio 1.1
El juego de datos diet del paquete Epi contiene información sobre 337 individuos
que participaron en un estudio de cohortes sobre enfermedad coronaria. Dos de
las variables recogidas fueron las kilocalorias (energy) y la cantidad de grasa (fat)
consumidas diariamente. Cargue los datos:
> install.packages("Epi") # si no lo tiene instalado
> library(Epi)
> data(diet)
Realice el gráfico izquierdo de la Figura 1.2 con estas dos variables haciendo uso
de la instrucción plot.

1.1. La respuesta observada Y frente a la respuesta predicha


Además del valor observado de la respuesta, Y, cada caso tiene también un valor predicho de la
respuesta. Para distinguirlos, este último lleva encima una tilde, p.e, en forma de ángulo ‘ ’: ( ).

Ejemplo 1.3 (cont): En resumen, el valor predicho es:

Así, el modelo permite calcular el peso predicho para una persona de, por ejemplo, 170 cm:

Notación
Indicamos las variables en mayúsculas: Y, , Z, X

Ejemplo 1.3 (cont): Z representa a la variable altura, es decir al resultado numérico del
proceso de determinar la talla.

El modelo propuesto es , donde

es la respuesta predicha;

se llama constante o término independiente, porque no depende de ninguna variable; y en


inglés, intercept, porque indica dónde cruza al eje de ordenadas; y

es la pendiente que indica el aumento de Y que acompaña a un aumento de Z en 1 unidad.

6
Bioestadística para no estadísticos

Ejercicio 1.2
¿Puede decirse “sigue” en lugar de ”acompaña”? ¿Qué implicaría?

1.1. El término variable


A partir de ahora, conviene distinguir la variable Y con el valor que toma en el caso iésimo yi.

Nota técnica: la variable Y es un concepto que representa al proceso de medida en sí mismo, e indica el
paso de asignar un número o un código al elemento en estudio. Contiene todos los posibles valores.

Recuerde
Distinga las variables, Y, Z, del valor que toman, y, z.

La recta es común para todos los casos, pero no todos los casos están en la recta. Cada caso tiene
sus propias características que lo distancian de la recta en una cantidad que representaremos por
(concretamente, para el caso iésimo “i”, ).

Ejemplo 1. (cont): El valor de la talla en el paciente iésimo es zi, por ejemplo, z6=173cm.

Si añadimos el término al modelo anterior, el modelo completo queda como:

Donde denota al término asociado con la variabilidad aleatoria alrededor de la recta.

Así, el modelo se descompone en una parte determinista, la “función” “f(Z)”; y una estocástica o
aleatoria, :

El término aleatorio recoge toda la información de Y que no queda reflejada en la parte


“matemática” del modelo. Ésta oscilación aleatoria diferencia los modelos estadísticos de los
deterministas —que se usan, por ejemplo, en Física clásica. Si no existiese este término, la relación
sería determinista: conocer Z implicaría conocer Y perfectamente, sin ninguna incertidumbre.

Ejercicio 1.3
Si dado Z, determina Y exactamente, ¿tiene interés recoger Y?

Historieta: Un futuro 100% predecible no aportaría “novedades” y sería aburrido.

7
Regresión Lineal Simple

La parte determinista del modelo es reproducible, por lo que, en argot, podría hablarse de señal
(parte determinista) y ruido (parte aleatoria).

Recuerde
Un modelo estadístico contiene una señal ‘determinista’ y un ruido ‘aleatorio’.

Ejercicio 1.4
a) ¿Qué diferencia el uso de mayúsculas (Y, Z) o minúsculas (y, z)?
b) ¿Por qué llamamos ‘respuesta’ a la variable a la izquierda del signo igual, = ?
c) ¿En qué 2 partes se descompone el modelo? ¿Cómo se llaman y qué
representan?
d) ¿En qué se diferencian regresión y correlación?

1.2. El predictor suele ser una condición (Z) del caso


Z indica al predictor, que suele ser una condición del paciente. A diferencia del Ensayo Clínico, en
el que el investigador asigna el valor de la intervención (aconsejar X=T) o a su referencia (X=C),
ahora el paciente ya llega con el valor del predictor Z.

Ejemplo 1.1 (cont): La PAS es Z, una condición, porque pertenece al paciente, el


investigador no asigna al paciente un cierto valor de su PAS.

Recuerde
En el EC, el investigador aconseja la intervención X al paciente.

En la predicción, el paciente llega con el valor de su condición Z.

Lectura. La guía SAMPL pide describir el objetivo de la regresión: “Describe the purpose of the analysis”

Ejercicio 1.5
Diga si son ciertas. En un modelo de predicción:
a) La variable predictora debe ser una causa asignable
b) La variable predictora debe necesariamente ser una condición de la unidad
c) La variable respuesta debe preceder en el tiempo a la predictora

8
Bioestadística para no estadísticos

Ejercicio 1.6
Ojee estos dos enlaces y diga si las siguientes variables son condiciones o
posibles intervenciones:
a) Enlace 1. Variable “Estar en edad del primer ciclo menstrual (Sí/No)”
b) Enlace 2. Variable “Ingesta de bebidas azucaradas (Sí/No)”

2 El modelo de regresión lineal simple

2.1. Cuantifique la incertidumbre de la predicción

Ejemplo 2.1: Un paciente que despierta de un coma ignora absolutamente la temperatura


exterior. Pongamos que podría ser tan alta como 50ºC o tan baja como -40ºC. Pero si las
sábanas le informan de que está en el Hospital Clínico de Barcelona, su incertidumbre ahora
abarca, digamos, desde -5º hasta +40ºC. Si, además, el calendario indica 12 de junio, esta
‘información’ adicional reduce su ignorancia a un margen entre 20º y 30ºC.

Observe en este ejemplo, como la información adicional aportada por lugar y fecha va reduciendo el
rango de incertidumbre.

Recuerde
Cuantifique la reducción de incertidumbre de la predicción.

Ejercicio 2.1
En un modelo de predicción, ¿deseamos saber si es el mejor posible o conocer
cuál es su capacidad para reducir la incertidumbre sobre la respuesta?

Recuerde
Todos los modelos son erróneos, pero algunos son útiles (Cox)

9
Regresión Lineal Simple

2.2. El modelo contempla una relación lineal, una recta.

Estamos viendo el modelo más simple


posible: (1) una sola variable predictora; y
(2) relación en forma de línea recta. No
porque se pretenda que esta relación lineal
sea cierta, sino porque se quiere averiguar
qué capacidad de anticipación tiene un
modelo tan sencillo y parsimonioso.

Lectura. Desde Einstein, se sabe que las leyes de


Newton no son absolutamente ciertas, pero siguen
siendo útiles para hacer casas que se aguantan. En
esta línea, se dice que un modelo es útil si permite
realizar inferencias válidas.

Definición
Modelo de Regresión Lineal Simple
valor de la variable respuesta en el caso i-ésimo
constante o término independiente (intercept)
pendiente (slope)
valor de la variable predictiva en el caso i-ési mo
oscilación aleatoria del caso i-ésimo

Ejercicio 2.2
En el ejemplo del peso y la altura ¿qué unidades tiene la constante? ¿Y la
pendiente?

Al establecer la relación con una línea recta, sólo necesita estimar 2 parámetros: la constante y la
pendiente.

10
Bioestadística para no estadísticos

Recuerde
Función lineal significa que la relación se representa con una recta.

2.3. La pendiente resume la relación de la respuesta con el predictor.


La pendiente dice cuántas unidades aumenta la respuesta Y por un aumento unitario del predictor Z.
Si la pendiente vale 0, indica que la respuesta Y no aumenta nada por cada unidad que aumenta Z.

Ejercicio 2.3
Interprete una pendiente con valor 0. ¿Qué quiere decir? Por ejemplo, la regresión
del número de respuestas correctas en el examen MIR (Y) en función de la altura
(Z) de los participantes, tiene una pendiente β1=0. ¿Qué significa?

Recuerde
Una pendiente nula indica independencia lineal entre las variables

La ventana del estudio marca la población estudiada.


En teoría, quizás una variable pueda tomar valores
entre menos y más infinito. Pero en la práctica, los
datos proceden de un rango determinado que
conviene especificar con claridad.

Ejemplo 2.2: Podría pasar que, al introducir sus


datos en su programa de gráficos, le reproduzca
una figura como la 1.X. Tiene la ventaja de
mostrar la constante o intercept. Pero podría
conducir a interpretar que el modelo aplica a todas
las alturas comprendidas entre 0 y 200 cms.

Figura 2.1: Modelo de peso según alturas entre 0 y 200 cms.

Lectura: la guía SAMPL para la publicación de resultados estadísticos dice: “Do not extend the regression
line (or the interpretation of the analysis) beyond the minimum and maximum values of the data”.

11
Regresión Lineal Simple

Ejercicio 2.4
La constante es el punto en que la recta intercepta el eje vertical o de
ordenadas. En el ejemplo de talla y peso, a una altura de 0 cm le corresponde un
peso de = - 100 Kg (Z=0, Y=-100). ¿Debe interpretar que cabe esperar un peso
negativo de - 100 Kg en los adultos sanos con una altura nula?

Al rango de las observaciones estudiadas se le conoce como ventana (recuadro azul en la Figura 2.1:
Modelo de peso según alturas entre 0 y 200 cms.Figura 2.1) y define la población en estudio. Antes
de aplicar la regresión fuera de estos límites necesita nueva evidencia empírica para esa población
más amplia. Si expande o transporta los resultados, debe especificar que es una extrapolación
teórica tentativa: es decir, una interpretación, no un resultado.

Recuerde
Especifique la ventana o rango estudiado.

Ejemplo 1.3 (cont): Peso de varones adultos sanos para alturas entre 150 y 195cms.

Ejemplo 2.3: Se tiene el siguiente modelo donde se quiere predecir la capacidad vital
forzada (CVF, variable respuesta) en función de la capacidad vital (CV, variable predictora).

0.314 0.909

El valor 0.314 (Intercept) indica la CVF de una hipotética persona cuyo valor de CV fuera
nulo (CV=0); y tiene poco sentido. El valor 0.909 de la pendiente indica que un incremento
de 1 unidad en CV se asocia con un incremento de 0.909 unidades en la CVF.

Ejercicio 2.5
Se quiere predecir la PAS en mmHg (Y) en función de la Edad en años (Z) en
pacientes adultos (entre 20 y 50 años). Un posible modelo simplificado sería:

a) Interprete los 2 coeficientes del modelo


b) Proponga nuevos valores de constante y pendiente para mejorar el modelo.

12
Bioestadística para no estadísticos

2.4. Interpretación del término aleatorio


El término representa la oscilación aleatoria del caso i-
esimo. Es decir, la distancia entre el valor observado y el
valor predicho por el modelo:

La Figura 2.2 muestra un caso de 160cms (= zi) de altura


y 80Kgr (= ) de peso: el valor predicho es 60Kgr y
i= 20Kgr es la separación de (valor real) a (valor
predicho). Note que i tiene las mismas unidades que la
variable respuesta, como corresponde a una distancia
vertical.
Figura 2.2

Recuerde
i representa una distancia vertical

Nota técnica: “Distancia” en sentido coloquial, no formal —que sólo toma valores positivos.

Hay que insistir en que i representa una separación y nada más. Desde Darwin y Galton ya no es
un desvío de un valor central que es el único correcto. El término Perturbación puede ser correcto
en contextos de fabricación o de control de calidad. Al hablar de personas, aquello que es particular
de cada una preferimos llamarlo idiosincrasia, peculiaridad o característica. Si sólo contiene
aquello que no es compartido con otros casos podemos llamarle singularidad. No obstante, cuando
la finalidad de establecer este modelo es predecir el valor de la respuesta, tiene pleno sentido decir
que i representa el error de predicción o el residuo, indicando que se trata del resto: aquella parte
de la respuesta que no ha sido posible predecir.

Recuerde
El término aleatorio i representa la singularidad del caso i-ésimo.
Indica el error o el residuo en la predicción de la respuesta.

13
Regresión Lineal Simple

2.5. Descripción conjunta de todos los


Al ser los i diferentes para cada caso, hay que describir cómo varían, es decir: especificar su
distribución. Un modelo simple es una distribución Normal sin tendencia (centrada en 0) y con una
única dispersión σ2 común para todos ellos.

Esta dispersión σ2 indica la distancia (cuadrada) “promedio” de los casos a la recta. Cuanto mayor
es su valor, más amplia es la nube de puntos. Al asumir que los residuos son Normales, cabe esperar
que el 95% de los puntos estén comprendidos entre 2 σ.

Ejercicio 2.6
Los gráficos de la siguiente figura muestran la forma de la nube de puntos para 3
hipotéticos valores de : 2Kg, 10Kg y 18Kg. ¿Cuál de los 3 valores de σ le parece
más razonable para la relación entre el peso y la altura?

14
Bioestadística para no estadísticos

Ejercicio 2.7
Siguiendo con el Ejemplo 2.3 anterior, ¿cuál de los siguientes valores de sigma
para la capacidad vital le parece más probable?

3 Inferencia: de la muestra fugaz a la población objetivo

3.1. Estimación puntual


Los símbolos 0, 1 y σ representan parámetros poblacionales, “auténticos” y desconocidos que
deben ser estimados. El modelo, escrito en términos de las estimaciones muestrales, es:

Donde b0 y b1 son las estimaciones (obtenidas a partir de la muestra) de β 0 y β1 (parámetros


poblacionales desconocidos) respectivamente. Por su parte S2, varianza muestral de los residuos,
estimará la σ2 poblacional.

Ejercicio 3.1
Es importante distinguir entre y b? ¿Qué diferencia 1 de b1? ¿Cuál es más
importante? ¿Cuál es accesible?

Ejemplo 3.1: La aplicación del modelo a la unidad Juan, que pesa 73 Kg y mide 170cm
permite obtener un peso predicho de:

15
Regresión Lineal Simple

ŷ i = b0 + b1 · zi =
= -100 Kg + 1 Kg/cm ·170Kcm = 70 Kg.

Como en realidad pesa 73 Kg, ei = + 3 Kg. La ecuación completa es:


yi = b0 + b1 · zi + ei =
= -100 Kg + 1 Kg/cm · 170cm + 3 Kg = 73Kg

Tiene sentido intentar que el valor predicho ŷ i se acerque al real yi. El método de mínimos

cuadrados propone como estimadores de los parámetros 0 y 1, aquellos valores b0 y b1 que hacen
pequeños los residuos ei –en concreto, minimizan la suma de sus cuadrados.

3.2. Fórmulas de los estimadores*


La Tabla 3.1: Fórmulas de los estimadores de los coeficientes de regresión. , , y son las
medias y desviaciones típicas de la respuesta y el predictor; y , su covarianza. proporciona los
estimadores mínimo-cuadráticos de la regresión lineal simple.

Estimador de β1 Estimador de β0 Estimador de σ2

Tabla 3.1: Fórmulas de los estimadores de los coeficientes de regresión. , , y son las medias y desviaciones
típicas de la respuesta y el predictor; y , su covarianza.

La pendiente será más grande cuanto mayor sea la covarianza que mide su variación conjunta; es
decir: cuanto más relacionadas, mayor pendiente. Y viene dividida por la variabilidad del predictor.

Nota: a covarianza tiene las unidades de ambas variables y la pendiente las de la respuesta divididas por las
del predictor.

Nota: La pendiente también puede calcularse a partir de la correlación:

El estimador S² de ² es el promedio del cuadrado de los residuos —a veces se representa por Se²

Nota: dividido por los grados de libertad ‘n-2’ para ‘corregir’ por el gasto de información que implica haber
estimado previamente los 2 coeficientes de la recta.

Nota: La varianza residual tiene 2 formulas equivalentes más eficientes en cuanto al número necesario de
cálculos: y .

16
Bioestadística para no estadísticos

Ejemplo 3.2: Suponga que las medias (S) de peso y altura de 30 individuos son 70 Kg ( :
11.5Kg) y 170cm ( : 8cm), respectivamente; con una correlación rZY = 0.7

[Recuerde que ]

Ejercicio 3.2
Suponga que, en una muestra de 10 pacientes, la fracción de eyección (Y)
observada al final del seguimiento y la presión arterial diastólica (Z) inicial tienen
medias (DE) de 45% (8%) y 85 mmHg (12 mmHg), con una correlación de 0.2.
Calcule los estimadores b1 y b0 de la regresión para predecir Y a partir de Z.

3.3. Obtención con R de los estimadores


Las instrucciones de R lm (linear model) y summary proporcionan estos resultados.

Ejemplo R
> altura <- c(176,177,170,167,176) # altura de 5 individuos
> peso <- c(80,88,80,76,77) # peso de esos 5 individuos

> # La instrucción lm da b0 (-22.66) y b1 (0.59)


> modelo <- lm(peso~altura)
> modelo
Call:
lm(formula = peso ~ altura)
Coefficients:
(Intercept) altura
-22.6650 0.5939

> # summary da más información, incluida la S (4.509)


> summary(modelo)
Call:
lm(formula = peso ~ altura)
Residuals:
1 2 3 4 5
-1.8629 5.5431 1.7005 -0.5178 -4.8629
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -22.6650 88.0078 -0.258 0.813
altura 0.5939 0.5080 1.169 0.327
Residual standard error: 4.509 on 3 degrees of freedom

17
Regresión Lineal Simple

Multiple R-squared: 0.313, Adjusted R-squared: 0.08401


F-statistic: 1.367 on 1 and 3 DF, p-value: 0.3268

Iremos viendo todos estos coeficientes. Ahora interprete los 3 que ya ha estudiado.

Ejercicio 3.3
Interprete b0, b1 y S. Note que no tienen los mismos valores que antes. ¿Por qué?

Ejercicio 3.4
Repita el Ejercicio 3.2 con R sabiendo que los datos originales han sido:

Y - FE 46 39 45 43 47 52 56 53 33 33

Z - PAD 96 73 86 56 89 94 87 88 88 90

Nota: aproximado, ya que los resultados estaban redondeados.

3.4. Imprecisión de la estimación


Como ha visto, las estimaciones varían de una muestra a otra y tienen poco valor por si solas. Por
ello, conviene cuantificar su oscilación, su imprecisión esperada.

Bajo ciertas condiciones, el estimador b1 sigue, a lo largo de las posibles muestras, una distribución
Normal, centrada alrededor del parámetro β1 y con varianza conocida.

Nota:

Que los valores de b1 estén centrados alrededor del parámetro β1 indica que el centro de la
distribución del estimador coincide con el parámetro: E(b1) = β1.

18
Bioestadística para no estadísticos

Ejercicio 3.5
¿Qué implicaciones tiene que E(b1) = β1? (Puede haber varias correctas).
a) Que b1 en promedio acierta
b) Que b1 es un estimador insesgado
c) Que b1 siempre acierta
d) Que b1 siempre toma el mismo valor

La fórmula sobre la imprecisión o error estándar del estimador b1, SE(b1) o , es más sofisticada:

Observe que esta oscilación del estimador b1 depende de 3 factores, los 2 primeros comunes con el
2
error estándar de la media: (1) , la dispersión ‘natural’, aleatoria de la idiosincrasia i, estimada
por S2: (2) el número de observaciones disponibles; y (3) la dispersión o disposición de las Z en
la ventana muestreada.

Ejercicio 3.6
La estimación b1 de 1 es más precisa cuando... (varias correctas):
a) menor es su oscilación alrededor de 1

b) menor es su error estándar


c) mayor es la varianza de su residuo (idiosincracia)
d) mayor es el número de casos de la muestra
e) mayor es la dispersión ( ) de la variable predictora Z.

Ejemplo 3.3: El anterior ejemplo de R tiene la columna “Std. Error” al lado de “Estimate”:
la pendiente estimada es 0.5939, y tiene una oscilación de 0.5080. Como sus magnitudes
son parecidas, el cociente t señal/ruido es pequeño, 1.169, indicando que la señal queda
absorbida por su imprecisión.

Recuerde
Variabilidades en juego:
2
(1) (estimada por S2) o varianza de i;
(2) o dispersión de las Z y amplitud de la ventana muestreada; y

19
Regresión Lineal Simple

(3) o error estándar de b1 o SE(b1)

Ejercicio 3.7
La base de datos births del paquete Epi contiene, entre otras variables, al peso del
recién nacido en gramos (bweight) y a las semanas de gestación (gestwks). Vd.
desea saber si puede ajustar un modelo lineal del peso en función de la duración
del embarazo. A partir de la siguiente salida de R, escriba la recta estimada e
interprete el cociente t de la pendiente.

> install.packages('Epi')
> library(Epi)
> data(births)
> modelo<-lm(bweight~gestwks,data=births)
> summary(modelo)

Call:
lm(formula = bweight ~ gestwks)
Residuals:
Min 1Q Median 3Q Max
-1698.40 -280.14 -3.64 287.61 1382.24
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4489.140 340.899 -13.17 <2e-16 ***
gestwks 196.973 8.788 22.41 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 449.7 on 488 degrees of freedom
(10 observations deleted due to missingness)
Multiple R-squared: 0.5073, Adjusted R-squared: 0.5062
F-statistic: 502.4 on 1 and 488 DF, p-value: < 2.2e-16

3.5. El cociente t señal/ruido


Al conocer la distribución del estimador b1, puede hacer la inferencia estadística habitual (IC, P
valor). Como ² es desconocida, se usa S², y la distribución de referencia será la t de Student con n-
2 grados de libertad:

20
Bioestadística para no estadísticos

Ejemplo 3.3 (cont): La pendiente estimada de 0.5939 (SE=0.5080) tiene un cociente t =


1.169, con valor p = 0.327, muy lejos de la significación estadística: esta muestra de 5 casos
no aporta evidencia de que la pendiente sea diferente de 0. Es decir, los datos perfectamente
podrían proceder de dos variables sin relación. O tal vez no, al no existir cálculo muestral
previo, el problema podría ser que la muestra fuera pequeña.

Nota: Puede trabajar de forma similar con el estimador b0 de la constante, menos importante.

Ejercicio 3.8
¿Por qué es mayor la importancia de la pendiente que la de la constante?

Ejercicio 3.9
Si la pendiente estimada vale 0, b 1 = 0, ¿cómo queda la ecuación de la recta?
¿Cuánto vale la constante b0?

3.6. Cálculo de IC95%( 1)*


Ejemplo 3.4: En una muestra de 250 casos sobre las horas de estudio y la nota obtenida en
una escala de 0 a 10, se han obtenido los siguientes resultados:

b1 = 0.5 puntos/hora

horas²

S² = 2.25 puntos²

Se quiere dar un intervalo de confianza para el parámetro de la pendiente b 1

Donde tn-2 es el valor de la t-student con n-2 grados de libertad, y SE(b1) es el error estándar
del estimador b1.

Sabemos que la varianza teórica del estimador b1 vale:

V(b1) =

Por lo que la estimación del error estándar del estimador b 1.

21
Regresión Lineal Simple

SE2(b1) = =

Por lo tanto: = 0.5 ± 1.96* =

[-0.091 , 1.091]

En palabras: el auténtico valor de la pendiente poblacional es alguno de los comprendidos


entre -0.091 y +1.091, con una confianza o seguridad del 95%.

Ejercicio 3.10
La siguiente salida de R muestra los IC95% para la pendiente ( ) y para la
constante o Intercept ( ). (a) Interprete sus valores; y (b) Explique cómo los
obtendría a partir de los valores de “estimate” y de “Std. Error”. El tamaño de la
muestra es de n=30.

a)
> confint(mod)
2.5 % 97.5 %
(Intercept) -0.2649786 0.8928643
VC 0.7503939 1.0670158

b)
Call:
lm(formula = CVF ~ CV)

Residuals:
Min 1Q Median 3Q Max
-1.38038 -0.15690 0.05361 0.16059 0.81786

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.31394 0.28262 1.111 0.276
CV 0.90870 0.07728 11.758 2.41e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3866 on 28 degrees of freedom


Multiple R-squared: 0.8316, Adjusted R-squared: 0.8256
F-statistic: 138.2 on 1 and 28 DF, p-value: 2.406e-12

22
Bioestadística para no estadísticos

3.7. Los p valores


Nota: Recuerde que el p-value indica la probabilidad de que se presente un valor del estadístico más alejado
de H0 que el observado. Cuanto más pequeño es p, más propensos seremos a rechazar H0.
En este caso, queremos saber si hay que poner los coeficientes en el modelo. Nos centraremos en el
p-valor de la pendiente, dejando de lado el p-valor del Intercept: el contraste será:
H0: =0 la pendiente NO es necesaria
H1: ≠0 la pendiente SÍ es necesaria.

Ejemplo 3.5: La salida de R del Ejercicio 3.10 puede ver que el p-valor de CV vale 2.41e-12.
Es decir: P=0.00000000000241, que indicamos por P<0.0001. Como está por debajo de
0.05 rechazamos H0 y deberemos incluir la pendiente en el modelo. En otras palabras, el
cambio en CVF cuando CV aumenta es significativo. Este resultado basado en el valor de P
coincide con el anterior del IC95%, ya que el valor = 0 no pertenece al intervalo entre
0.7503939 y 1.0670158.

Ejemplo 3.6: Se tienen los datos del volumen de reserva inspiratorio (VRI) y el
rendimiento del miembro superior en el índice motor (MS_IM) de 30 pacientes. Queremos
contrastar si VRI puede predecir MS_IM linealmente. Se obtiene el siguiente resultado:

Ejemplo R
Call:
lm(formula = MS_IM ~ VRI, data = base)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.893 19.349 1.752 0.0908 .
VRI 14.065 9.649 1.458 0.1561
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 32.16 on 28 degrees of freedom


Multiple R-squared: 0.07053, Adjusted R-squared: 0.03733
F-statistic: 2.125 on 1 and 28 DF, p-value: 0.1561

En este caso, la pendiente no es significativa; esto implica que no hemos logrado demostrar
relación entre ambas. La figura 3.1 muestra que el IC95% de la pendiente incluye el valor 0
en este caso, a diferencia del caso anterior de CV y CVF.

23
Regresión Lineal Simple

Observe la Figura 3.1: el gráfico de la izquierda representa el modelo del ejemplo 3.10, cuya
pendiente es significativa. El gráfico de la derecha representa el modelo actual que, como ya
se ha dicho, no tiene una pendiente significativa ya que las bandas muestran que podría
aplanarse y hasta ser negativa

La Figura 3.1 muestra la significación de la relación lineal entre la capacidad vital (CV) y la
capacidad vital forzada (CVIF); así como la no significación de la relación entre el volumen de
reserva inspiratorio y la puntuación del miembro superior en el índice motor. Observe la buena
precisión del IC95% para el gráfico de la izquierda y la poca precisión del IC 95% del gráfico de la
derecha.

Figura 3.1. IC95% para la predicción del valor esperado (izquierda) y de una observación individual (derecha)

Nota técnica: R devuelve otro p-valor (abajo a la derecha); es el p- valor global del modelo, cuya H es que
la varianza de la variable respuesta explicada por el modelo vale 0. Es decir, si no podemos aceptar H
diremos que el modelo no explica nada de la variable respuesta, como sucede en este caso (p-value: 0.1561),
que además coincide con el p-valor de la pendiente, ya que solo hay una variable explicativa.

Ejercicio 3.11
Interprete la significación del p-valor de la pendiente que se muestra a
continuación donde CI es la capacidad inspiratoria y CVIF es la CI forzada.

Call:
lm(formula = CVIF ~ CI)
Coefficients:
Estimate Std. Error t value Pr(>|t|)

24
Bioestadística para no estadísticos

(Intercept) 0.6239 0.4030 1.548 0.133


CI 1.0282 0.1456 7.063 1.11e-07 ***
---

4. Interpretación pronóstica o causal de los coeficientes

Hablar de causa (etiología), efecto (intervención) o predicción (pronóstico) depende de su objetivo


y de su interpretación de la recogida de datos más que del análisis.

A) EFECTO. Si las condiciones de la recogida de los datos permiten interpretar causalmente la


pendiente, diremos: “cada incremento unitario de la causa X provoca un aumento de la
respuesta Y en β1 unidades”. Vimos en los temas previos que la asignación al azar (junto
con un seguimiento idéntico y completo de los casos) hace los grupos “comparables”, en el
sentido de que la única diferencia entre ellos es la intervención asignada, lo que permite el
paso último de la inferencia causal: estimar los efectos de las intervenciones.

Ejemplo 4.1: En el estudio del efecto de un fármaco hipotensor, el investigador escoge la


dosis X que asigna, al azar, a cada individuo (p.e. 0, 5, 10, 15 y 20mg). Luego interpreta β1
como: cada 1 mg adicional desciende la PAS en, por ejemplo, 1 mmHg.

B) PRONÓSTICO. Si la predictora, en lugar de


“pertenecer” al investigador (X), “es” un
atributo de los casos (Z), debe interpretarse a
nivel asociativo: “un cambio de una unidad
en la variable Z se acompaña de un cambio de
β1 unidades en la variable Y”.

Ejemplo 1.3 (cont): En el caso del peso y la


talla, esta última variable es Z ya que cada
persona tiene su talla. Ahora, se interpreta la
pendiente β1 de 1Kg/cm como: “individuos 1 cm
más altos pesan, en promedio, 1 Kg más”.

25
Regresión Lineal Simple

C) ETIOLOGÍA. El salto de anticipar el futuro (B, pronóstico) a cambiarlo (A, intervención),


requiere identificar aquellos predictores con relación de causa-efecto susceptibles de ser
modificados.

Ejemplo 4.2: En la solución del asma


pre-olímpica en Barcelona, Sunyer y
Antó no propusieron exterminar la soja
de la tierra.

Ejemplo 4.3: Un predictor, común en


casi todos los estudios, del accidente
cardio-vascular (AVC) es la obesidad.
Como ni el paciente ni el clínico puede
decidir su valor, se plantean como
posibles intervenciones, la dieta, el ejercicio o la cirugía.

Además, como se vio al estudiar el sesgo por confusión, el gran reto es descartar variables
alternativas relacionadas (colineales) con la causa en estudio.

Ejemplo 4.3 (cont): Un estudio estima que, a


igualdad de condiciones de edad, género y dieta,
una hora diaria de ejercicio se asocia con un
descenso del 10% de los AVC.

Asumiendo (1) que estas variables están bien


medidas y ajustadas; y (2) que no quedan otras
variables relevantes por las que ajustar; los
autores proponen la hipótesis de que hacer esta
hora diaria de ejercicio bajará los AVC en esta
cantidad. Y proponen un estudio de intervención
para confirmarlo.

Dedicaremos capítulos enteros a diferentes técnicas estadísticas para estimar el efecto de una
posible causa intentando anular los posibles efectos de otras.

26
Bioestadística para no estadísticos

Recuerde
Sea prudente antes de interpretar causalmente β1 en estudios observacionales.

5. Predicción

Sea zh el punto h de Z para el que se desea anticipar el valor de Y.

Ejemplo 1.3 (cont): Quiere predecir el peso de un adulto de 170 cm.

Se predice con la recta estimada:

EL peso predicho para 170 cm es 70 Kg:

Ahora bien, la estadística quiere cuantificar la calidad de esta predicción: ¿qué incertidumbre
queda?

Para ello, puede recurrir a los IC, pero antes hay que
concretar la ambición de la pregunta: “dado un cierto
valor zh, predecir…”:

(A) la media poblacional de Y, en todas las unidades


con mismo valor xh ; o bien

(B) el valor de Y en una observación individual.

En el primer caso solo hay que considerar la


incertidumbre por estimar la recta, pero en el segundo,
hay que incluir también la singularidad de los
individuos.

Ejemplo 5.1: La

Figura 5.1 muestra: (1) la recta estimada del peso del RN en función de las semanas de gestación
(línea continua roja); (2) el IC95% del objetivo A “contener la recta con los valores predichos”
(líneas verdes); y (3) el IC95% del B “contener los casos” (líneas azules). Así, línea verde vertical
muestra un ejemplo del objetivo A: el peso promedio de todos los RN con 32 semanas tiene un

27
Regresión Lineal Simple

valor esperado de 1.81Kg (IC95% entre 1.69 y 1.94). Y la línea azul vertical, uno del B: el peso
los RN con 34 semanas tiene un valor esperado de 2.21 Kg, pero el 95% de los RN estarán entre
1.32 y 3.10 Kg.

Figura 5.1: IC95% de la predicción y del valor esperado

Recuerde:

A. Estimar la esperanza de Y en un conjunto de unidades con valor zh

B. Predecir el valor de Y en un caso dado un cierto valor zh

5.1. Fórmulas *
A. Para estimar la esperanza h de Y para X=xh hay que tener en cuenta las oscilaciones por la
estimación de ambos coeficientes de la recta. Por un detalle técnico (sus errores típicos SE no son
independientes), conviene usar la ecuación de la recta en función de la media en lugar de :

Nota: Observe que la estimación del valor medio es insesgada:

Por ser independientes las estimaciones de , considerando fijos los zi:

28
Bioestadística para no estadísticos

La oscilación de la pendiente está ‘anclada’ en el valor medio de Z, pero aumenta a medida que
se aleja de ella, formando la parábola de la línea discontinua verde de la

Figura 5.1.

Nota: la recta estimada por mínimos cuadrados pasa por el punto ( ).

B. En el caso de las predicciones individuales, también hay que tener en cuenta también la
variabilidad de estas observaciones.

Nota:

Ejemplo 5.1 (cont): En births, quiere predecir el peso para un bebé de 40 semanas. La
predicción puntual será:

Para hacer el IC de un elemento concreto, debe incluir la variabilidad de los casos:

[Note que n=490 porque hay 10 casos ausentes.]

5.2. Interpretación
Existen 2 fuentes de variabilidad en la predicción de la esperanza (objetivo A) originadas por la
incertidumbre en la estimación de : SE( ) y SE( ). Así pues, se conoce cuánto varía de una
muestra a otra la predicción del valor poblacional h. La interpretación de esta fórmula es sencilla:
las oscilaciones de las predicciones vienen originadas por el ruido del estimador de la media ( ,
que sitúa verticalmente la recta; y por el ruido de la estimación de su inclinación (b 1). Nótese que
esta oscilación en la estimación de la pendiente provoca una mayor varianza en la predicción cuanto
mayor sea la distancia a ; es decir, cuanto más alejada del centro de las Z se encuentre el objetivo
zh de la predicción.

En la predicción de los valores individuales (objetivo B), hay que añadir la variabilidad natural de
las observaciones, representada por la desviación típica de los i: .

29
Regresión Lineal Simple

Ejemplo 5.1 (cont): En births, el peso esperado para un RN de 40 semanas ha sido 3.39 Kg,
con un IC95% desde 2.5 a 4.3: Cabe esperar que el 95% de los RN a las 40 semanas tengan
un peso entre 2.5 y 4.3 Kg.

Nótese el elevado grado de incertidumbre: lo único que se puede decir del peso de un recién nacido
con 40 semanas de gestación es que se trata de algún valor entre 2.5 y 4.3 Kg. Este resultado no
hace nada más que recordar que la dispersión natural de los pesos de los recién nacidos que nacen
con el mismo número de semanas de gestación es de casi medio kilo. De aquí la importancia de
acompañar las estimaciones con intervalos de certidumbre.

5.3. Obtención con R


R construye los intervalos de confianza para los dos objetivos: A) valor esperado y B) casos
individuales.

Ejemplo 5.1 (cont): Para 40 semanas, los IC95% del peso promedio de todos (objetivo A); y
el de un RN (objetivo B) puede obtenerse con R mediante:

Ejemplo R

> data(births)
> modelo<-lm(bweight~gestwks,data=births)

# Objetivo A: prediccion para el valor esperado


> predict(modelo,data.frame(gestwks=40),interval="confidence")
fit lwr upr
1 3389.765 3344.152 3435.379

# Objetivo B: prediccion para un valor individual


> predict(modelo,data.frame(gestwks=40),interval="prediction")
fit lwr upr
1 3389.765 2504.955 4274.576

Para el valor promedio de todos los neonatos hay mayor precisión: se halla entre 3.34 y 3.44
Kg, mientras que para un RN está entre 2.50 y 4.27 Kg. Lo que ilustra una vez más la
paradoja estadística entre la variabilidad del caso y la regularidad del grupo.

30
Bioestadística para no estadísticos

6. Coeficiente de determinación (R2)

Conviene disponer de una medida que resuma, a nivel global, la capacidad de predicción:
¿Considerar el valor del predictor Z, cuánto reduce la incertidumbre sobre Y?

Recuerde
En un Ensayo, la diferencia de medias valora el efecto de la intervención; en un
estudio pronóstico, la reducción de la varianza valora la capacidad predictiva.

Sin conocer el predictor Z, usará la media de Y para acercarse al posible valor de un caso.

Ejemplo 1.3 (cont): Quiere anticipar el peso de la próxima persona que entrará en clase y la
única información de que dispone es que la distribución del peso entre los estudiantes es
N(70Kg, 11.5Kg). Ahora, predecir 70 Kg tiene 2 ventajas: (1) los errores por encima y por
debajo se compensan; y (2) puede conocer el error promedio de predicción: 11.5Kg.

Nota: exactamente, 11.5 es la raíz del promedio de los errores al cuadrado.

Ahora bien, si además conoce el valor de la altura y de los coeficientes de la regresión lineal, ¿en
cuánto se reduce este error de predicción?

6.1. Detalles *
La Figura 6.1 muestra la nube que forman los puntos de los pares observados de peso, Y, y altura, Z
y 2 líneas rectas. La roja horizontal indica la predicción de Y sin conocer Z. Es horizontal porque es
la misma para todos los casos —ya que desconoce Z. La línea inclinada azul muestra la recta de
regresión.
Observe el punto azul representado por . Si desconoce la altura, el error de predicción será la
distancia a la línea roja, representada por , es decir: . Observe que si intercala , esta
distancia se descompone en 2 partes:

La distancia mide el error de predicción de la recta de regresión. Por su parte, la distancia


indica el error que deja de cometer cuando tiene en cuenta al predictor.

31
Regresión Lineal Simple

Figura 6.1

Ejemplo 1.3 (cont): El punto azul indica un caso que mide 185cm y pesa 92 Kg. Así,
= 92-70=22 Kg: sin conocer la altura, predice 70 Kg y comete un error de 22.
= 92-85=7 Kg: conocida la altura, el error baja a 7 Kg.
= 85-70=15 Kg: es el descenso en el error de predicción.

Nota: sí, hábil lector, en otros casos la situación puede no ser tan “elegante”: un voluntario de 185cms
que pese 71Kg. Tendría los siguientes valores:
= 71-70 = 1Kg: sin conocer la altura, predice 70 Kg y comete un error de 1.
= 71-85=-14Kg: conocida la altura, el error sube a -14 Kg.
= 85-70=15Kg: es el descenso en el error de predicción.

Por esta razón, hay que considerar todas las situaciones, lo que obligará a sumarlas y elevarlas al
cuadrado para evitar que valores negativos y positivos se compensen.

Cada observación de la muestra aporta estos 3 términos. Si los suma para los n casos después de
elevarlos al Cuadrado (SC), se cumple que:

Sumas de cuadrados: Total = Explicada + Residual


SCT = SCE + SCR
Nota: con mínimos cuadrados, la suma del doble producto se anula:

32
Bioestadística para no estadísticos

6.2. Interpretación
La suma de todos los errores cuadrados de la predicción ignorando Z (SC T) es igual a la de la
información aportada por Z (SCE) más la restante (SCR).

El coeficiente de determinación refleja el porcentaje de la variabilidad total reducido por el


modelo. Toma valores entre 0 y 1 y se define como:

Recuerde
La medida de la capacidad predictiva de un modelo lineal es R2.

En modelo lineal simple de un solo predictor, el coeficiente de determinación coincide con el


cuadrado de la correlación (R2 = r2).

Ejemplo 1.3 (cont.): Una correlación de 0.7 entre peso y altura implica un coeficiente de
determinación R2 de 0.49, por lo que la mitad de la variabilidad del peso queda explicada
por la talla. Es decir, si sabe la altura de una persona, reduce a la mitad la incertidumbre
(cuadrada) sobre su peso.

Ejemplo 6.1: Se quiere ajustar un modelo para la ganancia de peso entre el día 70 y 100 de
un bebé (Y), según el peso al nacer (Z). El coeficiente de determinación R2 vale 0.11, lo que
indica que el 11% de la variabilidad de la ganancia de peso viene predicha por la
variabilidad del peso al nacer.

El coeficiente de determinación no dispone de un umbral absoluto que permita distinguir entre


valores suficientes y valores pobres. Como siempre, todo depende del comparador o referencia. Si
Vd. ha obtenido un R2 de 0.8, pero otros investigadores lo tienen de 0.9, el suyo será bajo. Y al
revés, si Vd. lo tiene de 0,1, pero nadie antes había conseguido anticipar esa respuesta, Vd. es el
líder.

Si hay pocos casos, R2 es algo optimista, por lo que conviene hacer una corrección que tiene en
cuenta el tamaño muestral. El coeficiente resultante recibe el nombre de R 2 ajustado.

33
Regresión Lineal Simple

Nota: La fórmula, , muestra que el coeficiente ajustado es siempre algo


menor que el original. Vea más información en la entrada inglesa de Wikipedia.

Al hacer el summary de un modelo, R muestra tanto el R2 como el R2 ajustado.

Ejemplo 5.1 (cont): La predicción del peso del RN según la gestación tiene un R2 = 0.507,
lo que indica que conocer el número de semanas reduce a la mitad la incertidumbre sobre el
peso al nacer.

7. Resumen

Figura 6.2. Esquema del significado de la salida de R

34
Bioestadística para no estadísticos

Soluciones a los ejercicios


1.1. Alternativa simple:
> plot(fat~energy,data=diet)
> abline(lm(fat~energy,data=diet))
Alternativa más compleja:
> plot(fat~energy,data=diet,xlab='Energía',ylab='Grasa',pch=19,col='blue')
> abline(lm(fat~energy,data=diet),col='red',lwd=2)
1.2. No indica lo mismo. Con todas las salvedades del lenguaje coloquial, ‘acompaña’ indica más mera asociación,
mientras que ‘sigue’ podrían inducir a pensar que X provoca Y, claramente causal. Y, por ahora, hablamos de
predicción, nada más.
1.3. En general no, porque se trataría de información duplicada. Tan sólo en situaciones en que se quiera, por ejemplo,
valorar su concordancia.
1.4. a) Mayúsculas indica a toda la variable; minúsculas a un valor concreto. b) Llamamos respuesta a la variable a la
izquierda del signo “=” porque representa al objetivo del estudio: “estudiar los cambios en la respuesta Y relativos
a la intervención X o la condición Z”. Los términos ‘dependiente’ e ‘independiente’ tienen un significado técnico
que genera ambigüedad al hablar, por ejemplo, de ‘variables independientes’, por lo que no son tan precisos. c) El
modelo se puede descomponer en dos partes: determinista, que representa la reproducible en futuras aplicaciones; y
ruido, que es la aleatoria (o estocástica), con la información de Y no reflejada en la parte determinista del modelo.
d) Se diferencian en que en la correlación las 2 variables del estudio toman un papel simétrico; pero en cambio, en
regresión es asimétrico, ya que la respuesta representa el objetivo que se desea predecir (incógnita); pero la
predictora o explicativa, la información disponible.
1.5. a) No tiene porque ser una causa asignable, con la regresión queremos ver si hay algún tipo de relación entre esas
dos variables (variable predictora y variable respuesta). b) Atención, “suele ser” una condición, pero no “debe ser”:
este modelo puede aplicarse también a variables experimentales, asignadas por el investigador. c) Nótese el
absurdo de predecir un pasado que ya ha ocurrido. (Recordemos en broma que son frecuentes los predictores
retrospectivos que suelen decir: “ya lo decía yo”. En catalán se les ridiculiza con un “vist el cul, va dir famella”
recordando a quienes predicen el sexo del bebé después del parto).
1.6. a) El primer caso es claramente una condición ya que el individuo no puede decidir el valor de su edad; en este
ejemplo, para disminuir el riesgo de accidente cardiovascular. b) En el segundo caso, la variable es modificable,
por lo que podría representar una intervención, pero leyendo la recogida de datos, no se trató de un ensayo clínico,
comparando 2 consejos asignables sobre bebidas azucaradas, sino de un recogida observacional: el largo camino
para mejorar la salud contiene, entre otros, 3 pasos cruciales: (1) establecer causalidad; (2) proponer una
intervención asignable; y (3) estimar sus efectos en un EC.
2.1. Sí, por supuesto que es interesante alcanzar un buen modelo, quizás acercarnos al mejor, pero como nunca
podremos garantizar que lo hemos alcanzado, necesitamos por lo menos, saber qué rendimiento tiene el modelo que
proponemos: ¿qué utilidad práctica tiene?
2.2. Las unidades de la constante son Kg y las de la pendiente son Kg/cm.
2.3. El número de respuestas correctas no aumenta nada (=0) por cada centímetro que aumenta la altura: MIR y altura
son linealmente independientes.
Si la pendiente tuviera el valor 0, la recta sería

35
Regresión Lineal Simple

Es decir, conocer el valor del predictor no cambia la expectativa sobre la respuesta; Por tanto, en este caso, el
predictor Z no aporta información sobre la respuesta Y. Así, una pendiente igual a 0 se interpreta igual que una
correlación igual a 0. Al menos, en un modelo lineal.
2.4. Por supuesto que no. Por abreviar o quizar para bromear, a veces usamos expresiones literales que no tienen ningún
significado. Vigile. Y si algo le parece absurdo: ¡Grítelo!
2.5. a) El valor 1 de la pendiente indica que un incremento de un año en la edad se asocia con un incremento de 1
mmHg en la PAS. El coeficiente del término independiente indicaría la PAS de un neonato; sin embargo, en el
enunciado se menciona que la ventana de estudio abarca únicamente a mayores de edad y, por tanto, no tendría
sentido dicha interpretación (De hecho, conocemos que esta relación lineal no se cumpliría fuera del rango de
estudio). b) Posiblemente un experto nos diría que la constante debería ser más pequeña, quizás ½, acorde con subir
5mmHg cada 10 años.
2.6. σ=10. Si fuese 2 implicaría conocer el peso a partir de la altura con un margen muy pequeño (equivocarse en más
de 4 kg sería muy extraño), mientras que un valor de 18 significaría no tener prácticamente información del peso
conociendo la altura, ya que equivocarse menos de 36kg, arriba o abajo, entraría dentro de lo más frecuente (el 95%
de las veces).
2.7. El valor que parece más probable es σ = 0.9. σ = 0.2 implicaría poder la CVF a partir de la CV con un margen
mínimo, es decir, en la mayoría de veces no se cometerían errores mayores a 0.4 unidades. En cambio σ = 1.6,
muestra lo complicado que es intentar predecir el valor de la CVF a partir del valor de la CV.
3.1. es el parámetro, valor poblacional desconocido, auténtico objetivo del estudio, pero directamente inaccesible, sin
estudiar toda la población. En cambio, b es el accesible valor muestral que informa sobre .
3.2.

Nótese, que la pendiente es tan poco pronunciada que se deduce que un incremento de la PAD apenas tiene
influencia en la fracción de eyección. Clínicamente no parece relevante. Enseguida estudiaremos si es
estadísticamente significativa.
3.3. No tiene porqué tener los mismos valores porque son otros datos. [Si le parece obvio, no siga leyendo.] Éste es el
reto de la inferencia estadística, ya que diferentes muestras dan diferentes valores. Por eso, debe usar herramientas
de inferencia como, por ejemplo, la estimación por intervalo.
3.4. > Y <- c(46,39,45,43,47,52,56,53,33,33)
> Z <- c(96,73,86,56,89,94,87,88,88,90)
> modelo <- lm(Y~Z)
> summary(modelo)

Call:
lm(formula = Y ~ Z)

Residuals:
Min 1Q Median 3Q Max
-12.3830 -3.1832 0.9392 5.0758 11.0036

36
Bioestadística para no estadísticos

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.7847 19.9504 1.693 0.129
Z 0.1289 0.2335 0.552 0.596
Residual standard error: 8.256 on 8 degrees of freedom
Multiple R-squared: 0.03667, Adjusted R-squared: -0.08374
F-statistic: 0.3046 on 1 and 8 DF, p-value: 0.5961

3.5. a) y b) Si bien, hemos dicho “bajo ciertas condiciones”. Más adelante las estudiamos.
3.6. Todas correctas menos c, que es al revés
3.7. La recta estimada es:
La pendiente indica que el peso del neonato aumenta 197 g por cada semana adicional de gestación. Su error típico
es mucho menor, 8.788, con un cociente señal/ruido de 22.41, indicando que la señal es mucho mayor que la
imprecisión.
3.8. Se considera más importante la pendiente que la constante porque la pendiente indica en cuánto se modificará la
respuesta según se modifique la variable predictora; en cambio la constante, sólo indica el “punto de partida”, pero
no aporta más información.
3.9. La ecuación de la recta quedaría solo con el término constante, es decir . Si se representa gráficamente se
obtiene una línea horizontal a la altura del valor de la constante. La constante b0 toma el valor del punto por donde
cruza la recta en el eje de ordenadas Y.
3.10. a) Con un nivel de confianza del 95% se espera que: para el parámetro Intercept si la variable CV toma valor 0,
el 95% de los casos tengan un valor de respuesta comprendido entre -0.265 y 0.893. Las estimaciones de CV
(b1) indican que en el 95% de los casos la pendiente tomará valores entre 0.75 y 1.067. b) Siguiendo la fórmula de
IC95% se obtiene: = 0.9087 ± 2.045*0.07728 = [ 0.751 , 1.067]
Nota: los resultados son aproximados, la precisión de R es mayor;
3.11. En este caso, la pendiente es significativa, es decir la variable CI es importante para explicar la variable CVIF,
por lo tanto, se espera que por cada unidad que aumente la variable CI la respuesta aumente en 1.0282 unidades.

37
Capítulo 20

Regresión Lineal Múltiple


Jordi Cortés, José Antonio González y Erik Cobo
Pilar Muñoz, Ángel Ruiz y Nerea Bielsa

Marzo 2015
Regresión Lineal Múltiple

Regresión Lineal Múltiple

Regresión Lineal Múltiple ................................................................................................ 2

Presentación ...................................................................................................................... 3

1 Modelo general ...................................................................................................... 4

2 Modelo con un factor categórico ........................................................................... 5

2.1 Más de 2 categorías * ............................................................................................. 9

2.2 Codificaciones alternativas de las variables cualitativas * .................................. 10

3 Modelo con 2 factores ......................................................................................... 12

3.1 Modelo con interacción entre 2 factores .............................................................. 18

4 Modelo aditivo para una numérica y una categórica........................................... 23

4.1 Modelo con interacción entre numérica y categórica* ........................................ 25

5 Utilidad en investigación de salud ...................................................................... 28

5.1 La predicción puede ser simultánea o futura. ...................................................... 29

5.2 Coeficientes ajustados: Especulando sobre cómo cambiar el futuro ................... 30

5.3 Confusión entre pronóstico y etiología ................................................................ 30

Soluciones a los ejercicios .............................................................................................. 32

2
Bioestadística para no estadísticos

Presentación
Este capítulo modela una variable respuesta Y con cierta combinación de variables predictoras que
podrán ser X (intervenciones) o Z (condiciones). El principal objetivo de este capítulo es interpretar
sus coeficientes según estas predictoras sean numéricas o categóricas. Estudia, además, el caso en el
que el coeficiente de un predictor es el mismo para cada valor de las restantes predictoras (modelo
aditivo) y el caso en el que cambia (modelo con interacción o multiplicativo).

Por ejemplo, la Figura 1 contiene el ajuste de un modelo de regresión múltiple en un ensayo clínico
de artritis. La variable respuesta Y es el ángulo de flexión del codo al final del seguimiento y las 2
variables predictoras son el tratamiento y el ángulo de flexión previo. También aparece un término
de interacción entre estas dos variables que responde a la pregunta de si el efecto del tratamiento es
común (“independiente”) para cualquier flexión previa.

Figura 1: Interpretación de la regresión del nivel de flexión final (faft) según su nivel inicial (fbef), el tratamiento (grp)
y su interacción en el codo derecho (side==”right”).

Este tema aborda la interpretación y significación estadística de los resultados. El siguiente estudia
las premisas y cautelas necesarias para interpretarlos.

Contribuciones: basado en apuntes previos elaborados por PM, JAG, JC y EC; AR, JC y EC lo
actualizaron; JAG lo revisó y NB lo editó.

3
Regresión Lineal Múltiple

1 Modelo general
En Regresión Lineal Simple (RLS) el modelo contiene una variable predictora:

La Regresión Lineal Múltiple (RLM) suma las contribuciones lineales de k predictoras:

Ejercicio 1.1
¿Cuántas ‘betas’ tiene el modelo lineal con k variables?

Igual que en RLS, su traslado a los valores muestrales origina ‘n’ ecuaciones para los ‘n’ casos,
representados por el subíndice ‘i’:

Ejercicio 1.2
Diga en palabras qué significa cada símbolo:
.

Además, podrán aparecer términos de interacción entre dos predictoras: Por ejemplo, ¿el efecto del
tratamiento X en la respuesta Y depende del género Z? O también, ¿la relación de la presión arterial
inicial Z con la final Y es la misma para todos los estratos de glicemia inicial?

A continuación, veremos la RLM con 2 predictoras según sean numéricas o factores dicotómicos.

NOTA: Es habitual llamar a la variable respuesta Y ‘dependiente’, precisamente porque es la que


‘depende’ de las variables Z, y a éstas últimas ‘independientes’, porque en la ecuación no dependen de
terceras variables y sus contribuciones pueden sumarse, son “aditivas”. Aquí evitamos esta ambigüedad
usando el término de variables predictoras. Cuando se trate de intervenciones discutiremos si esta
predicción de Z en Y puede elevarse a ‘efecto’ de X en Y.

Ejercicio 1.3
Busque en ambos documentos de STROBE (la declaración y el largo explicativo)
cuántas veces aparece el término “independent variable”. Repita en el doc E&E
de TRIPOD. ¿Y cuántas aparece ‘predictor’ en la 1ª página de este último?

4
Bioestadística para no estadísticos

Recuerde
Use variable ‘predictora’ en lugar de ‘independiente’.

Progresivamente iremos introduciendo variables en este modelo.

Historieta: En este capítulo, las predictoras serán “independientes” entre ellas. En el siguiente, lo
generalizamos a variables independientes que no son independientes entre sí.

2 Modelo con un factor categórico


En el caso de una categoría con 2 valores, el modelo es:

La variable Z1 representa un factor con dos categorías. Para convertirla en “numérica”, usamos un
indicador (dummy) que valdrá 0 para la categoría de referencia y 1 para la otra.

Ejemplo 2.1: Sea Y la altura en centímetros de adultos sanos de Barcelona. Sea Z la


variable género: mujer (0) y hombre (1). Se propone el siguiente modelo:

La altura para una mujer vendrá dada por la substitución z i por el valor 0:

Para los hombres, la altura esperada es 175 cm.

Ejemplo 2.2: El conjunto de datos hips del paquete faraway de R sobre Espondilitis
Anquilosante contiene los grados de flexión de los codos antes y después de cierto
tratamiento en 39 pacientes. La Figura 2.1 muestra la recta que pasa por las medias de la
flexión final derecha en ambos grupos de tratamiento.

5
Regresión Lineal Múltiple

Figura 2.1. Flexión final en brazo derecho según tratamiento. La linea (roja) es la recta de regresión
estimada con sus bandas de confianza (verde).

Ejercicio 2.1
En la regresión del grado de flexión final según el grupo de tratamiento, diga qué
representan los 2 coeficientes del modelo.
>install.packages("faraway")
>library("faraway")
>hips
Call:
lm(formula = faft ~ grp, data = hips)
> lm(faft~grp,data=hips)
Coefficients:
(Intercept) grptreat
113.75 10.23

Recuerde
Si usa el indicador 0, 1, la constante es la media en el grupo de referencia
(codificado 0) y la pendiente, la diferencia entre ambas medias.

Nota: Más adelante se comentan las implicaciones de codificaciones alternativas.

Ejemplo 2.1 (cont): Vimos que una mujer tendrá una altura esperada de 165 cm. Sin
embargo, no todas las mujeres miden 165 cm. De aquí, la presencia del término particular
: la señora Abigail Abad (primer caso: i=1) mide 167 cm. Por tanto, e1 vale

6
Bioestadística para no estadísticos

Su idiosincrasia vale 2 cm, que generará un residuo o error en la predicción de 2 cm

Para los hombres, la altura esperada es 175 cm. Sin embargo, el señor Abraham Abadesa
(caso i=2) mide 174 cm, por lo que su particularidad  vale -1:

Nota: Poner a mujeres en 0 es arbitrario. Tan sólo es más cómodo hablar en positivo: “los hombres miden
10 cm más”.

Recuerde
Elija la categoría de referencia (“0”) para facilitar la interpretación.

Como en RLS, la instrucción lm estima los coeficientes del modelo RLM.

Ejemplo R
> # Datos (4 hombres y 4 mujeres)
> y <- c(165,171,164,149,169,179,175,184)
> z <- factor(c('M','M','M','M','H','H','H','H'),levels=c('M','H'))

> # Descriptiva (tapply realiza el 'summary' de y estratificado por z)


> tapply(y,z,summary)
$M
Min. 1st Qu. Median Mean 3rd Qu. Max.
149.0 160.2 164.5 162.2 166.5 171.0
$H
Min. 1st Qu. Median Mean 3rd Qu. Max.
169.0 173.5 177.0 176.8 180.2 184.0

> # Modelo estimado


> lm(y~z)
Call:
lm(formula = y ~ z)
Coefficients:
(Intercept) zH
162.2 14.5

Ejercicio 2.2
Diga, para este ejemplo, qué significan 162.2 y 14.5.

El modelo lineal descansa en la premisa de linealidad: diferentes incrementos de una unidad en la


variable predictora Zk van seguidos del mismo incremento  k en la variable respuesta Y. En el caso
de una dicotomía, sólo hay un solo incremento entre las dos categorías y, por tanto, la premisa de
linealidad no es necesaria.

7
Regresión Lineal Múltiple

Nota: Por 2 puntos siempre pasa una recta. No tiene mérito alinear 2 medias en una recta, lo que sí lo
tendría sería alinear 3 o más.

Una dicotomía, como la representada por una variable dummy, puede interpretarse en cualquier
escala de medida, incluso numérica.

Ejemplo 2.3 (cont. Ejemplo 3.2): Podemos mirar al indicador (dummy) de género como
“número de cromosomas Y”: ‘0’ para las mujeres y “1” para los hombres. La diferencia de
medias observada, 14.5 cms, puede interpretarse como el incremento de altura asociado a un
incremento de 1 unidad en el número de cromosomas Y.

Recuerde
Un indicador (dummy) representa en números a una dicotomía.

Ejercicio 2.3

Las siguientes instrucciones cargan los datos faraway de Espondilitis


Anquilosante y guardan en mod.lm1 la RL de la flexión final (faft) en función del
tratamiento (grp) en el brazo derecho.
> install.packages("faraway")
> library(faraway)
> mod.lm1 <- lm(faft~grp,data=subset(hips,side=='right'))

Ejecute estas instrucicones y obtenga el summary de mod.lm1, luego: a) Interprete


a nivel predictivo los 2 coeficientes del modelo; b) discuta su significación
estadística; c) interprete la capacidad de anticipación del modelo; d) obtenga el
IC95% del coeficiente de GRP; y e) asumiendo que se trata de un ECA bien
diseñado y ejecutado, sin riesgos de sesgos, ¿qué coeficiente podría interpretar
causalmente? Interprételo.

Ejercicio 2.4

Diga cuáles son ciertas y, en caso contrario, exprese correctamente diciendo las
razones.

a) El mejor nombre para las variables a la derecha del “=” es independientes.

b) Strobe sugiere llamar intervenciones y confusoras a las variables a la derecha


del símbolo “=”.

8
Bioestadística para no estadísticos

c) Como en el modelo RLS, las mayúsculas representan a los valores; y las


minúsculas, las variables.

d) Como en el modelo RLS, las letras griegas representan a los valores estimados
en las muestras; y las latinas, los parámetros desconocidos de la población.

e) RLM usa 2 subíndices: k para los casos; y i para las variables.

f) Como en RLS, el término ‘e’ representa la particularidad de cada caso, es


decir, aquello que puede ser modelado de forma común con los demás casos.
Representa aquello predecible por el modelo estudiado y suele llamarse
residuo o incluso error.

g) En una RL con un indicador (dummy) de valores 0, 1; la constante


proporciona la diferencia de medias ; y la pendiente a la media del grupo “1”.

h) Como en RLS, en una dummy de valores 0, 1; el coeficiente que estudia la


relación entre la predictora Z y la respuesta Y es la constante (intercept).

i) Si hago el promedio de los valores 0, 1 de una dummy, obtengo la suma de ‘1’


dividida por el total de casos, es decir, el promedio de “unos”, que no es nada
más que la proporción de casos que tienen el valor 1.

2.1 Más de 2 categorías *


La variable categórica puede tener más de 2 modalidades. En este caso, se tendrá un parámetro
adicional por cada modalidad extra. El motivo, es que se crean tantas variables “dummies” con 2
categorías (con valor 0 si no se pertenece a determinada modalidad y 1 si se pertenece) como
modalidades tenga la variable original menos 1 (la de referencia).

Ejemplo 2.4: En una variable que representa la edad categorizada con las modalidades
joven (referencia), adulto y anciano, al hacer la regresión se transformará automáticamente
en dos variables dummies representando las categorías adulto y anciano.
Dummy Dummy
Variable original Adulto Anciano
joven 0 0
adulto 1 0
anciano 0 1

9
Regresión Lineal Múltiple

Por tanto, en estos casos, para una variable con k categorías, el modelo ajustará (k-1) pendientes
que se interpretarán cada una de ellos como el “efecto” en la respuesta de esa modalidad concreta
respecto a la de referencia.

Ejemplo R : flexión final según 3 niveles de flexión inicial


> # Cargamos la libreria y los datos
> library(faraway)
> data(hips)

> # Nueva variable con 3 categorias  (87,112];(112,122];(122,139]


> hips$fbef.cat <- cut(hips$fbef,br=c(87,112,122,139))
> lm(faft~fbef.cat,subset(hips,side=="right"))
[…]
Coefficients:
(Intercept) fbef.cat(112,122] fbef.cat(122,139]
107.80 14.14 22.65

La flexión posterior (faft) en el brazo derecho es 14.14 grados superior en aquellos con una flexión
inicial (fbef) moderada (entre 113 y 122) y 22.65 grados superior en aquellos con flexión inicial
elevada (entre 123 y 139) respecto a aquellos con una flexión inicial pobre (entre 88 y 112). El
segundo incremento es un 60% superior al primero.

Ejercicio 2.5
Repita el ejemplo anterior con los datos del brazo derecho, pero para el nivel de
rotación (raft y rbef). Recodifique la variable de rotación inicial rbef en 4
categorías con puntos de corte en los percentiles 25%, 50% y 75%. [Pista: use la
instrucción quantile]. Interprete. Discuta la proporcionalidad de los incrementos.

2.2 Codificaciones alternativas de las variables cualitativas *


Como se ha explicado, R usa por defecto la codificación de 0’s y 1’s. No obstante, ésta no es la
única codificación posible. Otra alternativa habitual es usar -1’s y +1’s. Usar una u otra codificación
cambia la interpretación de los coeficientes.

10
Bioestadística para no estadísticos

R permite cambiar la codificación que se emplea en los factores.

Ejemplo R
> # Cargamos la libreria y los datos
> library(faraway)
> data(hips)

> # Codifición con 0’s y 1’s ('contr.treatment')


> options(contrasts=c('contr.treatment','contr.poly'))
> lm(raft~grp,subset(hips, side == "right"))
[…]
Coefficients:
(Intercept) grptreat
29.50 3.13

> # Codifición con -1’s y 1’s ('contr.sum')


> options(contrasts=c('contr.sum','contr.poly'))
> lm(raft~grp,subset(hips, side == "right"))
[…]
Coefficients:
(Intercept) grp1
31.065 -1.565

> # Volvemos a la codificación inicial


> options(contrasts=c('contr.treatment','contr.poly'))

Note que con la codificación -1 y 1, el coeficiente del tratamiento (grp) es la mitad del efecto del
tratamiento.

Recuerde
Usar una codificación alternativa para las variables categóricas cambia el valor de
los coeficientes de la recta.

Nota: En este caso, no cambiaría su significación estadística ni su R 2, pero esta propiedad no aplica a los
modelos multivariantes.

Utilice la codificación por defecto e interprete los coeficientes de la manera explicada. Si tiene
dudas utilice la instrucción predict de R para interpretar.

11
Regresión Lineal Múltiple

3 Modelo con 2 factores


Con 2 factores, el modelo es:

Ejercicio 3.1
Convierta las 2 variables grp y side en una única Z de 4 valores mediante:

> z <- with(hips,factor(paste(grp,side,sep=""),


labels=c("Ref_I","Ref_D","T_I","Trt_D")))

Haga plot(faft~z,data=hips) e interprete.

Ejemplo 3.1 (cont. Ejemplo 2.2): La Figura 3.1 contiene las dos rectas de regresión que se
ajustarían para cada brazo del paciente. Si asumimos que la calidad del estudio permite
interpretar causalmente los resultados se puede ver que el efecto del tratamiento es el mismo
en ambos brazos. En ambos brazos el efecto aproximado de cambiar de C a T es de 10
grados (en el brazo izquierdo de 112 a 122 y en el brazo derecho de 110 a 120).

Figura 3.1. Rectas de regresión para ambos brazos.

Al añadir variables aumentan las formas de preguntar a los datos. Cada una tendrá sus matices
lógicos. Estimar un efecto propio de cada centro tiene una utilidad limitada. Y se basa en menos
casos. Pero una pregunta más ambiciosa sería estimar un efecto único común para los 2 centros —
siempre que tenga sentido creer que el efecto del tratamiento es el mismo en ambos.

12
Bioestadística para no estadísticos

Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-higiénico profundo (T)


frente al convencional (C), se han obtenido mediciones en 2 centros de atención primaria (A
y B). La respuesta es PAD tras 8 semanas:

Ejemplo R
#Lectura de datos con R que estan accesibles via web:
>w<-'http://www-eio.upc.edu/teaching/best/datos-ejemplos/PAD.txt'
> datos<-read.table(url(w),header=TRUE)

#Descriptiva por centro y grupo:


> with(datos,by(PAD1,list(Tratamiento,Centro),summary))
> boxplot(PAD1~Tratamiento+Centro,datos)

#Ajuste del modelo G:


> modG <- lm(PAD1 ~ Tratamiento + Centro,data=datos)
> summary(modG)
Call:
lm(formula = PAD1 ~ Tratamiento + Centro, data = datos)
Residuals:
Min 1Q Median 3Q Max
-16.600 -4.525 -0.100 5.300 12.200
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 84.500 1.936 43.652 < 2e-16 ***
TratamientoT -15.800 2.235 -7.069 2.3e-08 ***
CentroB 6.100 2.235 2.729 0.00966 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.068 on 37 degrees of freedom
Multiple R-squared: 0.6081, Adjusted R-squared: 0.5869
F-statistic: 28.71 on 2 and 37 DF, p-value: 2.976e-08

A partir de la significación de la variable TratamientoT se puede afirmar que el tratamiento


T tiene efecto en ambos centros. La variable CentroB también es significativa, esto quiere
decir que existen diferencias entre el centro A (incluído en el Intercept) y el Centro B.

Ejercicio 3.2
(1) Recupere y compare los valores del residuo típico S y del coeficiente de
determinación R2 en los 3 modelos G, A, y B anteriores; ¿coinciden sus
cambios?

(2) Discuta si estas 3 estimaciones de los residuos típicos significan lo mismo;

(3) ¿Bajo qué condiciones estos residuos representarían las ‘particularidades’ de


los casos?

13
Regresión Lineal Múltiple

Para saber si el Tratamiento T tiene efecto en los centros por separado hay que crear un
primer modelo en el que sólo se seleccionen los datos del Centro A y un segundo modelo en
el que sólo se seleccionen los datos del Centro B

#Ajuste del modelo en el centro A; mediante la función subset


seleccionamos los datos del centro A
> modA <- lm(PAD1 ~ Tratamiento ,data=subset(datos,Centro=='A'))
> summary(modA)
Call:
lm(formula = PAD1 ~ Tratamiento, data = subset(datos, Centro ==
"A"))
Residuals:
Min 1Q Median 3Q Max
-12.00 -3.45 -0.10 5.00 10.80
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 84.200 1.828 46.057 < 2e-16 ***
TratamientoT -15.200 2.585 -5.879 1.44e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.781 on 18 degrees of freedom
Multiple R-squared: 0.6576, Adjusted R-squared: 0.6385
F-statistic: 34.56 on 1 and 18 DF, p-value: 1.445e-05

#Ajuste del modelo en el centro B; mediante la función subset


seleccionamos los datos del centro B
> modB <- lm(PAD1 ~ Tratamiento ,data=subset(datos,Centro=='B'))
> summary(modB)
Call:
lm(formula = PAD1 ~ Tratamiento, data = subset(datos, Centro ==
"B"))
Residuals:
Min 1Q Median 3Q Max
-16.90 -5.05 -0.20 6.35 12.50
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 90.900 2.628 34.586 < 2e-16 ***
TratamientoT -16.400 3.717 -4.412 0.000336 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.311 on 18 degrees of freedom
Multiple R-squared: 0.5196, Adjusted R-squared: 0.4929
F-statistic: 19.47 on 1 and 18 DF, p-value: 0.0003362

De nuevo, para saber si el tratamiento T tiene efecto en el Centro A hay que mirar la
significación de las variables. La variable TratamientoT es significativa, por lo tanto el
Tratamiento T tiene efecto en el centro A; lo mismo sucede con la significación de la
variable TratamientoT en los datos del Centro B.

14
Bioestadística para no estadísticos

Ejercicio 3.3
(1) Recupere y compare los valores del residuo típico S y del coeficiente de
determinación R2 en los 3 modelos G, A, y B anteriores; ¿coinciden sus
cambios?

(2) Discuta si estas 3 estimaciones de los residuos típicos significan lo mismo;

(3) ¿Bajo qué condiciones estos residuos representarían las ‘particularidades’ de


los casos?

Recuerde
Estimar un único coeficiente (“efecto”, si procede) requiere asumir que su valor
es común en todos los casos.

Ejercicio 3.4
Con los datos del Ejemplo 3.2 obtenga el IC95% del efecto, sin considerar el
centro,e interprete.

Pero el centro podría ser también una fuente de variabilidad: podría ser que los aparatos fueran de
distinta marca o no estuvieran igual calibrados; o los pacientes podrían tener distintas condiciones,
quizás de edad o de hábitos saludables. Por si fuera así, podríamos querer descontar del residuo
típico todo aquello que pudiera ser explicado por el centro. En ese caso, pondremos ambas variables
en el mismo modelo.

Ejercicio 3.5
De nuevo, con los datos del Ejemplo 3.2 obtenga el IC95% del efecto ajustando por
centro e interprete.

15
Regresión Lineal Múltiple

Ejemplo 3.3 (cont. Ejemplo 3.2): Los residuos típicos proporcionados por R en los
modelos que incluyen: (A) sólo el tratamiento; y (B) centro y tratamiento; son:

(A)
lm(formula = PAD ~ Tratamiento)
Residual standard error: 7.645 on 38 degrees of freedom

(B)
lm(formula = PAD ~ Tratamiento + Centro)
Residual standard error: 7.068 on 37 degrees of freedom

Aunque las 2 estimaciones son parecidas, el modelo que incluye ambas variables
proporciona un valor menor para las ‘particularidades’: la oscilación alrededor del valor
predicho para ese centro y ese tratamiento es de 7.068. Tiene 37 grados de libertad ya que se
dispone de la información de 40 casos y se han estimado 3 parámetros.

Ejercicio 3.6
Con los datos del Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-
higiénico profundo (T) frente al convencional (C), se han obtenido mediciones en
2 centros de atención primaria (A y B).compare los coeficientes del Centro y del
Tratamiento obtenidos en los modelos que incluyen sólo una predictora y el
modelo que incluye ambas.

Recuerde
Si en el modelo múltiple se añade una variable completamente independiente de
la previa, la estimación puntual no cambia.

Nota técnica: La estimación del residuo típico es exactamente:

Al añadir un coeficiente en el modelo, el denominador desciende en 1 punto. El grado de descenso del


numerador dependerá de la mejora predictiva. En el peor caso quedaría igual, por lo que al disminuir el
denominador en un punto el residuo típico podría aumentar.

16
Bioestadística para no estadísticos

Recuerde
Cuando baja el residuo típico disminuye la oscilación de la estimación.

Ejercicio 3.7
Con los datos del Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-
higiénico profundo (T) frente al convencional (C), se han obtenido mediciones en
2 centros de atención primaria (A y B).compare los errores típicos de los
coeficientes de las variables centro y tratamiento. ¿Qué sucede? ¿Por qué cree que
sucede? [Nota: el error típico de la pendiente coincide, en este caso, con el de la
diferencia de 2 medias (comprobar y poner fórmula), usando como S, el valor del
residuo típico.]

Ejercicio 3.8
Con los datos del Ejemplo 3.2: En un EC sobre el efecto de un consejo dietético-
higiénico profundo (T) frente al convencional (C), se han obtenido mediciones en
2 centros de atención primaria (A y B).calcule a mano los valores predichos para
cada tratamiento y centro de acuerdo con el modelo que incluye ambas variables.
Compruebe que las siguientes instrucciones de R le proporcionan el mismo
resultado:

> #Cree las 4 combinaciones para hacer la predicción.


> data.predict <- data.frame(Tratamiento=c("C","C","T","T"),
Centro=c("A","B","A","B"))
> predict(mod,data.predict)

Ejemplo 3.4: Al comparar los valores de los coeficientes de determinación de los modelos
del Ejercicio 3.5 observe como cuando la variabilidad residual disminuye aumenta la
variabilidad explicada (R-squared)
Multiple Adjusted Residual
R-squared R-squared standard error
mod
0.6081 0.5869 7.068
(PAD ~ Tratamiento + Centro)

mod1
0.5292 0.5168 7.645
(PAD ~ Tratamiento)

mod2
0.07888 0.05464 10.69
(PAD ~ Centro)

17
Regresión Lineal Múltiple

En el modelo estudiado, los coeficientes correspondientes a las variables estudiadas se suman: “son
aditivos”. Ello es así porque en este modelo se ha considerado que el efecto de la intervención es el
mismo en ambos centros. El próximo apartado relaja esta premisa.

Ejercicio 3.9
Diga cuáles son ciertas y, en caso contrario, exprese correctamente diciendo las
razones.

a) Cabe esperar que al incluir más variables en el modelo, mejore la predicción y


baje la estimación del residuo típico.
b) Cuando dos variables predictoras introducidas en el modelo son
independientes entre sí, la estimación puntual del coeficiente de una es la
misma cuando está la otra que cuando no está.
c) Cuando baja el residuo típico sube la precisión de las estimaciones de los
parámetros.
d) Cuanto más baja el residuo típico más sube R2.

3.1 Modelo con interacción entre 2 factores


Ejemplo 3.5: En un EC sobre el
efecto de un fármaco (T) frente a un
grupo Control (C) en la PAD a las 8
semanas, se han obtenido datos de 2
centros de atención primaria (A y
B). La Figura 3.2 muestra los
resultados hipotéticos de 4 posibles
estudios con sus respectivas
pendientes del efecto del tratamiento
(T frente a C) en todas las
situaciones.

Las líneas rojas enlazan las


medianas de los box-plot: en las
situaciones a y b, el descenso de la
PAD es el mismo en ambos centros. Figura 3.2

18
Bioestadística para no estadísticos

En la b es algo mayor en el segundo centro. Pero en el caso c y d la diferencia entre ambos


efectos es mucho mayor. Este es un ejemplo de interacción, ya que el efecto del tratamiento
es diferente según el centro: es decir en los casos c y d, hay interacción entre las variables
tratamiento y centro.

La instrucción de R, interaction.plot proporciona un análisis gráfico directo de la interacción. La


Figura 3.3 los muestra para los casos b y d anterior.

Ejemplo R
> # Lectura de datos
> w <- 'http://www-eio.upc.edu/teaching/best/datos-ejemplos/PAD.txt'
> datos <- read.table(url(w),header=TRUE)

> # Interaction.plot con las variables en este orden: X, Z, Y


> par(mfrow=c(1,2))
> with(datos,interaction.plot(Tratamiento,Centro,PAD2,
main="Datos de PAD2",ylim=c(70,110)))
> with(datos,interaction.plot(Tratamiento,Centro,PAD4,
main="Datos de PAD4",ylim=c(70,110)))

Figura 3.3

Ejercicio 3.10
Interprete los gráficos de interacción anteriores.

En términos poblacionales, las medias de los 4 grupos del Ejemplo 3.2: En un EC sobre el efecto de
un consejo dietético-higiénico profundo (T) frente al convencional (C), se han obtenido mediciones
en 2 centros de atención primaria (A y B).serán:

19
Regresión Lineal Múltiple

T C

Centro A

Centro B

Así, las siguientes diferencias se corresponden con

→ "efecto" de T respecto a C en el centro A.

→ "efecto" de T respecto a C en el centro B.

→ "efecto" de T respecto a C, en general, sin condicionar.

Las herramientas (IC95%, valor de P) de la inferencia estadística permiten el salto a la población.


Para ello ajustaremos el mismo modelo anterior añadiendo un término que indique la interacción.

Ejercicio 3.11
Lea con R los datos del último caso anterior (d) que estan accesibles via web,
haga la descriptiva de los 2 grupos de tratamiento; de los 2 centros; de los 4
grupos; rellene la tabla inferior con todas las medias; estime puntualmente el
efecto global y en cada centro con R; y explique a qué diferencia de medias
corresponde en la tabla. Finalmente, discuta si tiene sentido estimar el efecto
global.
> w='http://www-eio.upc.edu/teaching/best/datos-ejemplos/PAD.txt'
> datos<-read.table(url(w),header=TRUE)
> with(datos,mean(PAD4))
> with(datos,by(PAD4,list(Tratamiento),summary))
> with(datos,by(PAD4,list(Centro),summary))
> with(datos,by(PAD4,list(Tratamiento,Centro),summary))
> boxplot(PAD4~Tratamiento+Centro,datos)

C T Todos
A
B
Todos

20
Bioestadística para no estadísticos

El ejercicio anterior muestra que, en presencia de interacción, mirar un efecto global —que
promedia efectos que son diferentes entre sí— tiene una utilidad muy limitada.

Recuerde
En presencia de interacción, un efecto global tiene poco sentido.

Ejercicio 3.12
Obtenga el modelo con interacción para el caso (d), compruebe si tiene el mismo
valor anterior e intente deducir qué estima cada coeficiente en este modelo; es
decir, a qué diferencia entre medias corresponde.
> mod.interaccion <- lm(PAD4 ~ Tratamiento * Centro,data=datos)
> summary(mod.interaccion)

La interacción puede ser definida mediante la diferencia entre los efectos de la intervención en
ambos centros. A partir de:

T,A – C,A → "efecto" de T respecto a C en el centro A.

T,B – C,B → "efecto" de T respecto a C en el centro B.

(T,A – C,A) – (T,B – C,B) → "interacción del centro en el efecto" de T respecto a C

Recuerde
En caso de interacción, reporte los efectos en cada grupo por separado.

Ejercicio 3.13
Compare los errores típicos de estimación de los efectos de la intervención de los
modelos del ejercicio 3.12. Observe también el error típico del término de
interacción.

La estimación de un efecto global junta los casos de los grupos y tiene un menor error típico de la
estimación. Así, si puede asumir que el efecto es el mismo, la estimación es más precisa. Además,
disponer de una única medida del efecto, sin necesidad de matizar su valor según los grupos en
comparación, hace la vida más fácil.

Recuerde
Un efecto homogéneo en los grupos es más preciso y fácil de comunicar.

21
Regresión Lineal Múltiple

La estimación de la interacción tiene un mayor error típico: dispone de más información para
estimar los efectos de la intervención que para comprobar si son estables a lo largo de los grupos.

Nota: Ello es debido a que el efecto es la diferencia de 2 medias, pero la interacción le da una vuelta más:
es la diferencia de los efectos en los subgrupos; es decir, la diferencia de 2 diferencias. Al comparar 4
estimaciones, cada una con su error muestral tiene mayor imprecisión. Además, cada estimación se basa
en un subgrupo de menor tamaño, con mayor oscilación muestral.

Recuerde
Hay menos precisión para estudiar la interacción que los efectos.

Este mayor error de estimación conduce a mayores IC 95%. Pero, quizás más relevante, dificulta
encontrar diferencias significativas: desciende la potencia del contraste que pone a prueba la
interacción.

Recuerde
La prueba de la interacción tiene menos potencia.

Ejercicio 3.14
Compruebe que se pueden reproducir las medias de cada grupo combinanado los
coeficientes del modelo con interracción. Utilice las siguiente comanda para
obtener la tabla de medias:
> install.packages("MASS")
> library(MASS)
> data(birthwt)
> birthwt
> summary(birthwt)
> tapply(birthwt$bwt, list(birthwt$smoke, birthwt$low), mean)

La interacción puede ser una hipótesis que se desea estudiar y poner a prueba.

Ejemplo 3.6: la combinación de 2 antibióticos tiene un efecto sinérgico.

O también, casi al revés, la homogeneidad del efecto puede ser una premisa muy conveniente para
estudiar el efecto de una intervención en una población más amplia.

Ejemplo 3.7: Los ensayos clínicos hacen el cálculo del tamaño para estimar un único
efecto. Implícitamente están asumiendo que, dentro de las condiciones del estudio, los
criterios de elegibilidad definen una población en la que el efecto de la intervención es
constante.

22
Bioestadística para no estadísticos

Ejercicio 3.15
Diga cuáles son ciertas y, en caso contrario, exprese correctamente diciendo las
razones.

a) La interacción es la diferencia del efecto de la intervención en los grupos


estudiados.

b) En presencia de interacción, los coeficientes del modelo incluidos en la misma


son más fáciles de interpretar.

c) La prueba de hipótesis de la interacción tiene más potencia estadística que la


del efecto de la intervención.

d) La interacción puede ser vista como una hipótesis a ser contrastada, pero
también como una premisa necesaria para la hipótesis principal.

4 Modelo aditivo para una numérica y una categórica.


Ejemplo 4.1: Recupere el ejemplo del peso y la altura de los adultos varones sanos
(Ejemplo 2.1), pero tenga en cuenta también, ahora, a las mujeres. Una simple ecuación
podría ser:

Pesoi = -100Kg + 1Kg/cm · alturai – 5Kg si mujer + εi

Así, la predicción para una mujer de 170cms es 65Kg. La representación gráfica es (Figura
4.1):

Si además cuantifica en σ = 5Kg a la


dispersión de la particularidad εi, el modelo
estará completamente especificado.

Este modelo “aditivo” que simplemente suma


los coeficientes tiene una interesante
implicación: la suma de un coeficiente es la
misma para cualquier valor de la otra variable.

Figura 4.1

23
Regresión Lineal Múltiple

Recuerde
Al reportar el modelo debe informar sobre la dispersión de i.

Ejemplo 4.1 (cont): sea cual sea el valor de la altura, siempre resta 5Kg a todas las mujeres.

Así, aplicar el coeficiente de una variable arroja siempre el mismo resultado, “independientemente”
del valor de la otra variable.

Ejercicio 4.1
Continuando con los datos hips del paquete faraway, obtenga el summary del
siguiente modelo que compara el efecto del tratamiento (grp) en la respuesta (faft)
teniendo en cuenta el nivel inicial (fbef) y conteste, teniendo en cuenta los IC 95%:
(1) Por cada grado inicial de movilidad, ¿cuánto mayor es la movilidad final? (2)
¿Qué hubiera significado que el coeficiente para fbef hubiera sido 1? (3) ¿cuántos
grados de movilidad aumenta la intervención? (4) Este efecto del tratamiento,
¿varía según la movilidad inicial? (5) ¿Cuál es la capacidad predictiva de este
modelo?

> mod.lm<-lm(faft~grp+fbef,data=subset(hips,side=='right'))

Recuerde
En el modelo aditivo, un coeficiente es “independiente” de las otras variables.

La instrucción lm(...) proporciona el ajuste del modelo (al igual que con la regresión lineal simple).

Ejercicio 4.2
A partir de las instrucciones siguientes, obtenga e interprete el modelo para
predecir el peso en función de altura y género.

> # Lectura de datos


> w<-'http://www-eio.upc.edu/teaching/best/datos-ejemplos/peso.txt'
> datos<-read.table(url(w),header=TRUE)

> # Ajuste del modelo


> mod.lm1 <- lm(peso~altura+genero,datos)
> summary(mod.lm1)
> # IC para los coeficientes
> confint(mod.lm1)

24
Bioestadística para no estadísticos

Recuerde
Interprete los coeficientes con sus IC95%.

Ejercicio 4.3
El recuadro muestra la salida de R para la regresión de la Presión Arterial
Sistólica (PAS) en función de la edad y desglosada por género (datos inventados).
Interprete los coeficientes y obtenga su intervalo de confianza del 95%.

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.0133 5.7636 17.873 < 2e-16 ***
edad 0.4194 0.1094 3.835 0.000264 ***
generoMujer -8.9092 2.6729 -3.333 0.001351 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 11.65 on 73 degrees of freedom


Multiple R-squared: 0.2576, Adjusted R-squared: 0.2373
F-statistic: 12.67 on 2 and 73 DF, p-value: 1.897e-05

4.1 Modelo con interacción entre numérica y categórica*


Hasta ahora la premisa ha sido que la dicotomía no altera la relación entre las otras dos variables.

Ejemplo 4.2: La pendiente (el


incremento de peso por cada cm de
altura) era el mismo en hombres y
mujeres. Suponga ahora que no es así y
que Vd. conoce el auténtico modelo, que
es:

Hombres

Mujeres

Figura 4.2

La obtención de este modelo con R puede llevarse a cabo de 2 maneras. La primera trabaja con
todas las variables indicando con un “*” que el término de interacción estará incluido:

25
Regresión Lineal Múltiple

Ejemplo R
Los siguientes datos son un ejemplo imaginario de peso y altura.
# datos
> w<-'http://www-eio.upc.edu/teaching/best/datos-ejemplos/peso2.txt'
> datos<-read.table(url(w),header=TRUE)
> mod.lm2 <- lm(peso~altura*genero,datos)
> summary(mod.lm2)

[…]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -93.3929 45.9291 -2.033 0.0589 .
altura 0.9705 0.2597 3.737 0.0018 **
generoMujer -2.1492 59.4328 -0.036 0.9716
altura:generoMujer -0.0356 0.3427 -0.104 0.9186
[…]

Nota: Fíjese en la equivalencia de este modelo con los dos posteriores:

Pesoi =  0 + 1 · altura + 2 · género +  12 · altura:genero + εi

Si género es igual a 0 (Hombre), entonces:

Pesoi =  0 + 1 · altura → 0 = 0H = -116.0 ; 1 = 1H=1.1

Si género es igual a 1 (Mujer), entonces:

Pesoi =  0+1 · altura + 2 + 12 · altura = ( 0 + 2) + (1 + 12) · altura→0 + 2 = 0M = -60.7

1 + 12 = 1M= 0.76

Una posibilidad es ajustar un modelo para cada género:

Hombres: Pesoi = 0H + 1H · altura + εi

Mujeres: Pesoi = 0M + 1M · altura + εi

El modelo para los hombres se podría obtener ajustando lm sólo para los hombres

Ejemplo R
> mod.lmH <- lm(pesoH~alturaH)
> summary(mod.lmH)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -116.0495 34.3974 -3.374 0.00499 **
alturaH 1.1071 0.1974 5.609 8.5e-05 ***
> confint(mod.lmH)
2.5 % 97.5 %

26
Bioestadística para no estadísticos

(Intercept) -190.3604799 -41.738538


alturaH 0.6806569 1.533541

El IC95% para β0H es [-190.4 a -41.7] e incluye el verdadero valor (-130) del modelo.

El IC95% para β1H es [0.68 a 1.53] e incluye la pendiente real (1.2) del modelo.

El modelo para las mujeres sería:

Ejemplo R
> mod.lmM <- lm(pesoM~alturaM)
> summary(mod.lmM)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -60.6949 26.6159 -2.280 0.040089 *
alturaM 0.7643 0.1639 4.664 0.000443 ***

> confint(mod.lmM)
2.5 % 97.5 %
(Intercept) -118.1950383 -3.194763
alturaM 0.4102724 1.118424

El IC95% para β0M es [-118.2 a -3.2] e incluye el verdadero valor (-100) del modelo.

El IC95% para β1M es [0.41 a 1.11] e incluye la pendiente real (1) del modelo.

Ejercicio 4.4
En el siguiente gráfico (Figura 4.3) se vuelve a representar la PAS en función de
la edad y estratificada por género (datos inventados). En el fichero PAS.txt
encontrará los datos que han generado este gráfico (en el conjunto de datos los
hombres se codifican con un 1 y las mujeres con un 2). Analice con R y responda:

1) ¿Cuál es el IC95% para la pendiente (incremento en la PAS por año de edad) en


los hombres?

2) ¿Cuál es el IC95% para la pendiente en las mujeres?

27
Regresión Lineal Múltiple

140
Hombres
Mujeres
PAS(mmHg) 130

120

110

100

30 40 50 60 70
edad(años)

Figura 4.3

5 Utilidad en investigación de salud


Repitamos otra vez que, en los estudios observacionales, los modelos con múltiples predictoras
tienen 2 grandes usos: (1) cuantificar la capacidad predictiva de una escala pronóstica y (2) explorar
el papel etiológico de las variables predictivas.

Para el primer objetivo, el indicador más importante es el coeficiente de determinación R 2, que


cuantifica, precisamente, la reducción en la incertidumbre de la respuesta Y a partir de las variables
predictoras Z.

En cambio, para el segundo objetivo, el indicador más importante es la pendiente , que permite
especular sobre el futuro efecto en la respuesta Y que se obtendrá cuando se consiga cambiar la
variable predictora Xi en una unidad mientras se dejan fijas todas las restantes.

Recuerde
La regresión múltiple permite cuantificar: (1) o bien la capacidad para anticipar la
respuesta mediante el R2; (2) o bien el hipotético efecto  causal en Y de cambiar
X en una unidad.

Las guías TRIPOD y STROBE abordan el modelado aplicado al primer y al segundo objetivo,
respectivamente.

28
Bioestadística para no estadísticos

5.1 La predicción puede ser simultánea o futura.


En un estudio diagnóstico puede desearse conocer hasta qué punto puede sustituirse a una variable
actual o simultánea obtenida en un estudio transversal. En cambio, el pronóstico requiere un lapso
de tiempo recogido en un diseño longitudinal.

Ejercicio 5.1
Busque en la red Equator la guía TRIPOD sobre modelos múltiples y diga si
aplica a diagnóstico, a pronóstico, a ambos o a ninguno.

Ejemplo 5.1: La Tabla 5.1 muestra el modelo de regresión lineal múltiple para predecir la
masa del ventrículo izquierdo1.

Tabla 5.1

Este modelo explica el 66% de la respuesta con las 3 variables predictoras.

Para ver qué implica R2 en una situación concreta hay que recordar, 1º, que es una medida sobre
errores cuadrados; y, 2º, que los intervalos tienen mayor amplitud para valores de las predictoras Z
más alejados de sus medias.

Recuerde
Sólo si el modelo es independiente a la muestra, el estudio permite contrastar
dicha hipótesis, confirmando o rechazando su capacidad predictiva.

29
Regresión Lineal Múltiple

Ejercicio 5.2
¿Por qué es necesario el lapso de tiempo para un estudio pronóstico pero no para
uno diagnóstico.

Ejercicio 5.3

Según la guía TRIPOD, el modelo múltiple obtenido en un estudio ¿es una


propuesta por confirmar o un resultado ya validado?

5.2 Coeficientes ajustados: Especulando sobre cómo cambiar el futuro


Otro atractivo de este modelo es que representa la relación entre la variación en una unidad para una
variable predictora (mientras se dejan igual las restantes) con el incremento en la respuesta Y.

Ejemplo 5.2: ¿Cuál sería el cambio en la respuesta Y cuando la variable X 1 aumenta 1


unidad y todas las demás variables permanecen constantes? Nótese que el cambio asociado
a la respuesta Y será, precisamente de 1 unidades. En general, Y aumenta  1 veces el
incremento experimentado por la variable X1.

Recuerde
Los coeficientes  k representan el cambio esperado en la respuesta Y por un
aumento unitario en Xk, mientras permanecen fijas todas las demás variables.

Estos modelos permiten fijar matemáticamente a las terceras variables Z, para así estimar la
relación de la variable X habiendo suprimido las posibles interferencias de las terceras variables Z.
Nótese que este “fijar” es conceptual: intenta emular qué se hubiera observado en un estudio que,
por criterios de selección controlara a esas variables.

Ahora bien, si X está relacionada con Y a nivel fijo de Z, ¿podemos interpretar etiológicamente el
coeficiente βX? ¿Podemos decir que X es una causa de Y? ¿Podemos decir que βX es el ‘efecto’ en
Y cuando cambiamos X en una unidad y dejamos fijas el resto de variables? El próximo capítulo
discute las premisas que hacen razonable esta “emulación”.

5.3 Confusión entre pronóstico y etiología


En ocasiones, podría suceder que, inconscientemente, cambiemos entre los objetivos de pronóstico
y de etiología. Por ejemplo, ¿cuál es el objetivo de establecer la relación entre la edad de los padres
y el riesgo de síndrome de Down: intervenir o predecir? Si lo que se pretende es cambiar la edad de
la madre o del padre para disminuir el riesgo, se trata de una intervención, pero si se desea

30
Bioestadística para no estadísticos

seleccionar aquellos embarazos con elevada probabilidad de síndrome de Down, entonces el


objetivo es predecir. Para este objetivo, es más conveniente usar la edad de la madre, aunque sólo
sea por discreción.

NOTA: Si el objetivo fuera intervenir, para poder establecer la necesaria relación causal, la mejor
respuesta vendría de un diseño experimental en el que se estudiara la edad de cada uno de los padres
dejando equilibrada la del otro. Por ejemplo, se aparearían tanto las madres de 20 como las de 40 años,
por igual, con padres de 20 y de 40 años. Este diseño no sería ético, por supuesto, pero es que además, en
nuestro entorno sociocultural, este estudio no tendría sentido práctico, ya que una madre o un padre no
buscan pareja «independientemente» de su propia edad.

Ejercicio 5.4
Diga si es correcto o corrija en caso contrario.

a) Si definimos la solidez de un estudio como la menor necesidad de premisas


adicionales, podemos decir que un ensayo clínico aleatorizado es más sólido
que un estudio observacional.

b) Un estudio transversal permite estimar modelos múltiples pronósticos.

c) Un estudio longitudinal pretende estimar modelos múltiples diagnósticos.

d) Pronóstico, etiología e intervención hablan de variables en diferentes


momentos del tiempo.

e) Hablar de pronóstico, etiología o intervención en un estudio transversal tiene


pinta de ser un marrón horrible.

31
Regresión Lineal Múltiple

Soluciones a los ejercicios


1.1. Tiene k+1: el término independiente y k coeficientes para las k pendientes de las k predictoras: .

1.2. Y: Variable respuesta. Coeficientes de las variables predictoras. Intercept, constante o término independiente.
Pendiente que indica el aumento de Y que acompaña a un aumento de Z1 en una unidad. Primera variable
predictora. Coeficiente de la variable predictora k. Variable predictora k. término aleatorio. Valor de
la variable respuesta para el caso iésimo. Estimación concreta de . Estimación de . Valor de Z del
caso iésimo. Coeficiente estimado de la variable k. Valor de la variable k en el caso iésimo. Término
aleatorio (diferencia entre valor real y predicho) del caso iésimo.

1.3. En la declaración STROBE no aparece. Sí aparece en el ítem 7 de E&E, pero no aconseja utilizarlo, así como
tampoco aconseja utilizar el término “variables explicativas”. En su lugar sugiere exposiciones y confusoras. En
TRIPOD E&E ‘independent variable’ aparece sólo 1 vez, por 5 ‘predictor, sólo en la 1ª página.
2.1. El coeficiente 113.75 representa la media estimada para el grupo de control y el coeficiente 10.23 representa la
diferencia estimada de medias.
2.2. La media estimada de la altura en las mujeres es 162.2cms y los hombres son 14.5 cm más altos, en media.
2.3. >summary(mod.lm1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 113.583 2.591 43.840 < 2e-16 ***
grptreat 10.269 3.114 3.298 0.00216 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.975 on 37 degrees of freedom
Multiple R-squared: 0.2272, Adjusted R-squared: 0.2063

a) La flexión final esperada en los controles es de 114º y se espera un incremento de 10º en los tratados; b) Ambos
coeficientes son significativamente diferentes de 0; c) La capacidad predictiva del modelo es del 20% (conocer el
grupo reduce un 20% la incertidumbre sobre la respuesta) d) use confint(mod.lm1) o, simplemente sume y reste
1.96 veces el error estándar (3.11) para obtener que la pendiente poblacional está entre 3.96 y 16.58 con una
confianza del 95%; e) Ser tratado aumenta el ángulo de flexión posterior en el brazo derecho unos 10º, con una
incertidumbre de este valor que oscila entre 4 y 17º)

2.4. a) Falso, TRIPOD usa predictoras y STROBE exposiciones o confusoras. b) Falso, sí confusoras, pero no
intervenciones. c) Falso, al revés, mayúsculas indica a toda la variable y minúsculas a su valor en un caso concreto.
d) Falso, al revés. e) Falso, al revés, k es para las variables e i para los casos (número de individuo). f) Falso,
representa aquello no modelado y no predecible por el modelo. g) Falso, la constante representa la media estimada
del grupo 0 y la pendiente representa la diferencia de medias. h) Falsa, es la pendiente (que representa la diferencia
de medias) la que resume la relación entre ambas. i) Cierta
> data(hips)
> # Cálculo de cuantiles
> quantile(hips$rbef,c(0,0.25,0.5,0.75,1))
0% 25% 50% 75% 100%
2.00 20.25 25.00 31.50 48.00
> # Categorización
> hips$rbef.cat <- cut(hips$rbef,br=c(2,20.25,25,31.5,48),
include.lowest = TRUE)
> # Modelo
> lm(raft~rbef.cat,subset(hips, side == "right"))
[…]
Coefficients:

32
Bioestadística para no estadísticos

(Intercept) rbef.cat(20.2,25] rbef.cat(25,31.5] rbef.cat(31.5,48]


24.250 5.167 9.194 14.450

La rotación posterior (raft) en el brazo derecho es 5.2 grados superior en aquellos con una rotación inicial (rbef)
comprendida entre 20 y 25 grados; 9.2 grados superior en aquellos con una rotación basal entre 25 y 31.5; y 14.4
grados mayor para rotaciones previas superiores a 31.5 respecto a los pacientes con una rotación inicial inferior o
igual a 25 grados. Los incrementos para cuartiles sucesivos son 5.2, 4.0 (9.2-5.2) y 5.2 (14.4-9.2), bastante
similares, y es coherente que el incremento entre las clases centrales (4.0) sea menor ya que estas se encuentran
más concentradas.

3.1. Mediante el gráfico se puede ver que los


individuos que han tenido el tratamiento
(grp) de referencia control tienen una
flexión final inferior a los que han seguido
el tratamiento treat. Además puede ver que
tanto el tratamiento de referencia como el
tratamiento treat parece que funcionan
igual en ambos brazos ya que no hay
diferencias significativas entre el brazo
izquierdo y el brazo derecho en ninguno de
los dos grupos.

3.2. (1) En G, S=7.068 , R2=0.6081; en A, S=5.781 , R2=0.658; y en B, S=8.311, R2=0.520. Cuanto mayor es S, menor
es R2. El modelo que deja menos por predecir (S) y predice más (R2) es B.
(2) Son modelos distintos que estiman S diferentes: significarían lo mismo si asumiéramos que en ambos centros
los pacientes tienen la misma variabilidad; y en este caso, la mejor estimación sería la de G, que dispone de más
casos (información) y sería más estable.
(3) Sólo asumiendo que hemos ‘descontado’ todo lo explicable, lo que quede sería propio del caso y no compartido
con otros. Ello requiere que el modelo incluya (y haya descontado) todo lo que sea común; es decir, como veremos
en el próximo capítulo, que el modelo sea completo en el sentido de incluir todas las variables que explican la
variabilidad [Nótese lo exigente de esta premisa.].
3.3. #Ajustamos el modelo solo con la variable Tratamiento, para que R entienda que no se quiere
distinguir por centro.
>mod1<-lm(PAD1 ~ Tratamiento,data=datos)
#Mediante la función confint se obtiene el IC95% para la variable Tratamiento
> confint(mod1)
2.5 % 97.5 %
(Intercept) 84.08954 91.01046
TratamientoT -20.69382 -10.90618

El IC95% para el efecto del tratamiento es [-20.7 -10.9], esto quiere decir que el tratamiento T provoca una
disminución de la PAD media de entre 20.7 y 10.9 mmHg., con una confianza del 95%, si no distinguimos por
centro.

33
Regresión Lineal Múltiple

3.4. En este caso, se realiza el ajuste del modelo con las dos variables (Tratamiento y Centro) y se obtiene el IC 95% del
mismo modo que en el ejercicio anterior:
> mod <- lm(PAD1 ~ Tratamiento + Centro,data=datos)
> confint(mod)
2.5 % 97.5 %
(Intercept) 80.577780 88.42222
TratamientoT -20.328989 -11.27101
CentroB 1.571011 10.62899

El IC95% para el efecto del tratamiento es [-20.33 -11.27], esto quiere decir que en el 95% de los casos el
tratamiento T provoca una disminución de la PAD media de entre 20.33 y 11.27 mmHg, si distinguimos por
centro.

Tenga en cuenta que al incluir una variable que reduce el residuo, baja la oscilación de la estimación; y ello
disminuye el numerador del error típico de la estimación de la pendiente, por eso en este segundo ejercicio, si se
compara con el anterior el IC es más estrecho.

3.5. > mod <- lm(PAD ~ Tratamiento + Centro,data=datos)


> summary(mod)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 84.500 1.936 43.652 < 2e-16 ***
TratamientoT -15.800 2.235 -7.069 2.3e-08 ***
CentroB 6.100 2.235 2.729 0.00966 **
--
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.068 on 37 degrees of freedom
Multiple R-squared: 0.6081, Adjusted R-squared: 0.5869
----------------------------------------------------------------

> mod1 <- lm(PAD ~ Tratamiento,data=datos)


> summary(mod1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 87.550 1.709 51.217 < 2e-16 ***
TratamientoT -15.800 2.417 -6.536 1.05e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.645 on 38 degrees of freedom
Multiple R-squared: 0.5292, Adjusted R-squared: 0.5168
----------------------------------------------------------------

> mod2 <- lm(PAD ~ Centro,data=datos)


> summary(mod2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 76.600 2.391 32.036 <2e-16 ***
CentroB 6.100 3.381 1.804 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.69 on 38 degrees of freedom
Multiple R-squared: 0.07888, Adjusted R-squared: 0.05464

Son idénticos. Esto sucede en este caso porque la RLM garantiza que la estimación puntual de un coeficiente no
cambia al añadir una predictora que sea independiente de la variable en estudio. En este caso, centro y tratamiento
son independientes entre sí, ya que cada combinación tiene 10 casos.

3.6. Son iguales porque el residuo típico es el mismo para ambos coeficientes, así como las ‘n’ de las muestras.
Nota: el error típico de la pendiente coincide, en este caso, con el de la diferencia de 2 medias usando como S, el

valor del residuo típico.

34
Bioestadística para no estadísticos

3.7. > predict(mod,data.predict)


1 2 3 4
84.5 90.6 68.7 74.8

A mano, se pueden hallar, substituyendo las variables por 0’s o 1’s según corresponda:

PASCA = 84.5 - 15.1·0 + 6.1·0 = 84.5

PASCB = 84.5 - 15.1·0 + 6.1·1 = 90.6

PASTA = 84.5 - 15.1·1 + 6.1·0 = 68.7

PASTB = 84.5 - 15.1·1 + 6.1·1 = 74.8

Observe que ambos coeficientes son aditivos.

3.8. a) Cierta. b) Cierta. c) Cierta. d) Cierta Son ciertas a), b) y d)] Escrib bien c.
3.9. En la izquierda puede verse que el efecto (aproximado) de cambiar de C a T es 20 mmHg en ambos centros: en A
baja de 95 a 75 y en B de 90 a 70. En cambio, en la figura de la derecha hay interacción, ya que en el centro A baja
15 mmHg (105 a 90) y en el centro B 35 mmHg (105 a 70).
3.10. #Descriptiva por grupo de tratamiento
> with(datos,mean(PAD4))
[1] 92.65
> with(datos,by(PAD4,list(Tratamiento),summary))
: C
Min. 1st Qu. Median Mean 3rd Qu. Max.
88.0 100.0 104.5 104.6 110.2 115.0
--------------------------------------------------
: T
Min. 1st Qu. Median Mean 3rd Qu. Max.
59.00 72.75 81.50 80.75 90.25 97.00
> with(datos,by(PAD4,list(Centro),summary))
: A
Min. 1st Qu. Median Mean 3rd Qu. Max.
79.00 90.75 96.50 97.60 104.20 115.00
-------------------------------------------------------
----------
: B
Min. 1st Qu. Median Mean 3rd Qu. Max.
59.00 72.75 85.50 87.70 103.80 115.00
#Descriptiva por grupo de tratamiento y centro
> with(datos,by(PAD4,list(Tratamiento,Centro),summary))
: C
: A
Min. 1st Qu. Median Mean 3rd Qu. Max.
96.0 100.2 104.5 104.2 107.5 115.0
--------------------------------------------------
: T
: A
Min. 1st Qu. Median Mean 3rd Qu. Max.
79.00 89.25 90.50 91.00 96.00 97.00
--------------------------------------------------
: C
: B
Min. 1st Qu. Median Mean 3rd Qu. Max.
88.0 100.5 104.5 104.9 111.8 115.0
--------------------------------------------------
: T
: B
Min. 1st Qu. Median Mean 3rd Qu. Max.
59.00 65.50 71.50 70.50 74.75 83.00

C T Todos

35
Regresión Lineal Múltiple

A 104.2 91.0 97.6

B 104.9 70.50 87.7

Todos 104.6 80.75 92.65

Para estimar el efecto en global y en cada centro seguimos los mismos pasos que en el Ejemplo 3.2: En un EC
sobre el efecto de un consejo dietético-higiénico profundo (T) frente al convencional (C), se han
obtenido mediciones en 2 centros de atención primaria (A y B).:
#Efecto global:
> mod6<-lm(PAD4~Tratamiento+Centro,datos)
> summary(mod6)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 109.500 2.453 44.638 < 2e-16 ***
TratamientoT -23.800 2.833 -8.402 4.21e-10 ***
CentroB -9.900 2.833 -3.495 0.00125 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.957 on 37 degrees of freedom
Multiple R-squared: 0.6912, Adjusted R-squared: 0.6745
--------------------------------------------------

#Efecto Centro A:
> mod4 <- lm(PAD4 ~ Tratamiento ,data=subset(datos,Centro=='A'))
> summary(mod4)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.200 1.828 56.997 < 2e-16 ***
TratamientoT -13.200 2.585 -5.106 7.39e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.781 on 18 degrees of freedom
Multiple R-squared: 0.5915, Adjusted R-squared: 0.5688
--------------------------------------------------

#Efecto Centro B:
> mod5 <- lm(PAD4 ~ Tratamiento ,data=subset(datos,Centro=='B'))
> summary(mod5)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.900 2.628 39.912 < 2e-16 ***
TratamientoT -34.400 3.717 -9.255 2.9e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.311 on 18 degrees of freedom
Multiple R-squared: 0.8263, Adjusted R-squared: 0.8167

Observe en este caso que el efecto global es -23.8=80.8-104.6; el del centro A, -13.2=91.0-104.2; y el del centro B, -
34.4=70.5-104.9.

En este caso, como ya ha podido ver gráficamente, existe interacción. Si existe interacción hablar de efecto global
indicará un efecto intermedio de los dos centros (en este caso), pero no da información útil de ninguno de ellos en
particular.

3.11. > mod.interaccion <- lm(PAD4 ~ Tratamiento * Centro,data=datos)


> summary(mod.interaccion)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.200 2.264 46.028 < 2e-16 ***
TratamientoT -13.200 3.202 -4.123 0.00021 ***
CentroB 0.700 3.202 0.219 0.82816
TratamientoT:CentroB -21.200 4.528 -4.682 3.95e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.159 on 36 degrees of freedom

36
Bioestadística para no estadísticos

Multiple R-squared: 0.8081, Adjusted R-squared: 0.7921

En este caso, el Intercept es la PAD esperada para una persona que esté en el centro A y se le aplique el tratamiento
C (categorías ‘0’ de cada dummy); el coeficiente de TratamientoT es el cambio de tratamiento C al T en el centro A
(dummy de centro =0),; el coeficiente de CentroB es el cambio de A a B en los controles (dummy de trat=0); por
último, el efecto de TratamientoT:CentroB es el efecto adicional del trat T enaquellas personas que están en el
centro B: es la diferencia de los efectos, es decir (TB - TA) - (CB - CA)

3.12. #Modelo aditivo


> summary(mod.ad)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 109.500 2.453 44.638 < 2e-16 ***
TratamientoT -23.800 2.833 -8.402 4.21e-10 ***
CentroB -9.900 2.833 -3.495 0.00125 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.957 on 37 degrees of freedom
Multiple R-squared: 0.6912, Adjusted R-squared: 0.6745

#Modelo con interacción


> summary(mod.in)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 104.200 2.264 46.028 < 2e-16 ***
TratamientoT -13.200 3.202 -4.123 0.00021 ***
CentroB 0.700 3.202 0.219 0.82816
TratamientoT:CentroB -21.200 4.528 -4.682 3.95e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.159 on 36 degrees of freedom
Multiple R-squared: 0.8081, Adjusted R-squared: 0.7921

Los errores típicos del modelo aditivo son más bajos que los del modelo con interacción porque cuando se estima un
efecto global los errores típicos de las estimaciones son menores, ya que se asume que el efecto es el mismo para los
diferentes grupos y la estimación es más precisa. Si observa el error típico de la variable TratamientoT:CentroB
(término de interacción) verá que es mayor que el resto de errores típicos. Esto se debe a que la varianza de esta
diferencia es mayor que la varianza de cada término.

3.13. > tapply(birthwt$bwt, list(birthwt$smoke, birthwt$low), mean)


0 1
0 3394.802 2050.069
1 3200.705 2143.033
#Cálculo del modelo
> modelo<-lm(bwt~low*smoke, data=birthwt)
> summary(modelo)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3394.80 48.34 70.233 <2e-16 ***
low -1344.73 96.26 -13.970 <2e-16 ***
smoke -194.10 83.08 -2.336 0.0206 *
low:smoke 287.06 143.28 2.003 0.0466 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 448.3 on 185 degrees of freedom


Multiple R-squared: 0.6282, Adjusted R-squared: 0.6221

#Intercept = 3394.80 ([0,0] en la tabla)


#Efecyo low ([0,1] en la tabla)
> 3394.80-1344.73
[1] 2050.07

37
Regresión Lineal Múltiple

#Efecto smoke
> 3394.80 - 194.10 ([1,0] en la tabla)
[1] 3200.7
#Efecto interacción low smoke ([1,1] en la tabla)
> 3394.80 -1344.73 - 194.10 + 287.06
[1] 2143.03

3.14. a) Cierto. b) Falso, cuando hay interacción los coeficientes del modelo incluidos en la misma son más
complicados de interpretar y se recomienda no realizar una interpretación del efecto global, si no realizar la
interpretación del efecto por grupos. c) Falso, la potencia de la prueba de hipótesis de la interacción tiene menor
potencia estadística que la del efecto de la intervención. d) Cierta.
4.1. > summary(mod.lm)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.91158 9.97406 4.603 5.02e-05 ***
grptreat 5.90756 2.16784 2.725 0.00986 **
fbef 0.61566 0.08937 6.889 4.60e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.976 on 36 degrees of freedom


Multiple R-squared: 0.6666, Adjusted R-squared: 0.6481

> confint(mod.lm)
2.5 % 97.5 %
(Intercept) 25.6832527 66.1399007
grptreat 1.5109824 10.3041452
fbef 0.4344046 0.7969238

(1) Para saber cuánto mayor es la movilidad final según el grado inicial de movilidad hay que mirar el coeficiente de
fbef=0.61566; esto quiere decir que por cada grado inicial de movilidad se espera un aumento de la movilidad final
de 0.61566 grados. El IC95% para esta variable va de [0.43 0.80], por lo tanto en el 95% de los casos se espera que
por cada grado inicial de movilidad que tenga el individuo su movilidad final aumente entre 0.43 y 0.80 grados. (2)
Querría decir que por cada grado de movilidad inicial que el individuo tenga aumenta en un grado la movilidad
final. (3) El hecho de aplicar la intervención (treat) implica un aumento esperado en la movilidad final de 5.9
grados; el IC95% va de 1.511 a 10.304, esto implica que en el 95% de los casos aplicar el tratamiento provocará un
aumento en los grados de movilidad final de entre 1.511 y 10.604 grados. (4) En caso de modelo aditivo no, ya que
el valor de los coeficientes es independiente del resto de variables. (5) La capacidad predictiva del modelo es de un
66.66%.

4.2. Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -89.7815 29.1252 -3.083 0.00675 **
altura 0.9501 0.1645 5.776 2.23e-05 ***
generoMujer -8.3142 3.0175 -2.755 0.01352 *
---
> # IC para los coeficientes
> confint(mod.lm1)
2.5 % 97.5 %
(Intercept) -151.2303425 -28.332661
altura 0.6030784 1.297108
generoMujer -14.6806971 -1.947753

La estimación de la constante es -89.8, con un IC95% = [-151.2 a -28.3], muy amplio. La estimación del coeficiente
de la altura es 0.95, IC95% = [0.6 a 1.3]: el peso aumenta entre 0.6 y 1.3 Kg por cada cm adicional de la altura. Al
no incluir el valor 0 de independencia, peso y altura están relacionadas: la altura contribuye a disminuir la
incertidumbre sobre el peso. Para el género la estimación es -8.3, IC95% = [-14.7 a -1.9], también significativa al
no incluir el 0. Estos intervalos de confianza son amplios por las pocas observaciones de las que se dispone. El

38
Bioestadística para no estadísticos

residuo típico o variabilidad no explicada por el modelo (σε) es 6.02. Representa el 20% de la variabilidad total, ya
que la explicada es el 80% (R2 = 0.80).]

4.3. Por cada año más que el individuo tenga (indiferente si es hombre o mujer) se espera un aumento de la PAS de
0.4194 unidades; si además, es individuo es de sexo femenino se espera que la PAS sea 8.91 unidades más baja que
en los individuos de sexo masculino.
Los IC serían: coeficiente Intercept: IC95%: 103.01 ± 5.76 = [ 97.25 , 108.78 ]; coeficiente edad: IC95%: 0.4194 ±
0.1094 = [ 0.31 , 0.53 ]; coeficiente generoMujer: IC95%: -8.9092 ± 2.67 = [ -11.58 , -6.24 ].
4.4. > mod<-lm(PAS~edad*genero,datos)
> summary(mod)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 100.71935 8.21482 12.261 < 2e-16 ***
edad 0.46547 0.16051 2.900 0.00495 **
generoMujer -4.56463 11.34610 -0.402 0.68865
edad:generoMujer -0.08687 0.22041 -0.394 0.69464
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 11.72 on 72 degrees of freedom


Multiple R-squared: 0.2592, Adjusted R-squared: 0.2283

> confint(mod)
2.5 % 97.5 %
(Intercept) 84.3434084 117.0953004
edad 0.1454887 0.7854463
generoMujer -27.1826610 18.0534073
edad:generoMujer -0.5262433 0.3525024

1) En este caso el IC que interesa es el del Intercept, por lo tanto el IC 95% para el incremento en la PAS por año de
edad en los hombres va de 84.34 a 117.10. 2) El IC95% para las mujeres va de -27.18 a 18.05.

5.1. Aplica a ambos.


5.2. Simplemente porque el pronóstico hace referencia al futuro, no al presente.
5.3. Una vez se tiene el modelo debe realizarse una validación interna (los datos utilizados son los que provienen de la
muestra del estudio; los métodos más comunes son bootstrapping o validación cruzada) y una validación externa
(datos diferentes a los utilizados para la estimación del modelo).
5.4. a) Cierta. b) Falsa, un estudio transversal permite estimar modelos múltiples diagnósticos. c) Falsa, Un estudio
longitudinal pretende estimar modelos múltiples pronósticos. d) Cierta. e) Cierta, al querer aplicar a diferentes
momentos del tiempo resultados obtenidos en un solo tendremos que hacer un montón de premisas adicionales. Por
ejemplo, es bien conocido que para hablar de causalidad se requiere discutir primero qué variable tira de qué
variable.

39
Capítulo 21

RLM: Cautelas
Jordi Cortés, José Antonio González y Erik Cobo
Pilar Muñoz, Ángel Ruiz y Nerea Bielsa

Marzo 2015
RLM: premisas y cautelas

Regresión Lineal Múltiple: Premisas y cautelas

Regresión Lineal Múltiple: Premisas y cautelas ............................................................... 2

Presentación ...................................................................................................................... 4

1. Colinealidad .................................................................................................................. 5

1.1. Definición............................................................................................................... 5

1.2. Cambio en la estimación puntual. .......................................................................... 6

1.3. Cambio en la oscilación muestral (error típico). .................................................... 7

1.4. Dificultad de la interpretación ................................................................................ 8

1.5. Medida.................................................................................................................... 9

2. Selección del modelo .................................................................................................. 12

2.1. Objetivo pronóstico .............................................................................................. 12

2.2. Objetivo etiológico ............................................................................................... 13

2.3. Sistemas automáticos ........................................................................................... 14

2.4. Metodología no automática .................................................................................. 15

2.5. Considere adecuadamente la colinealidad ........................................................... 16

3. Papel de las premisas .................................................................................................. 19

3.1. Premisas de la regresión lineal ............................................................................. 19

3.2. Implicaciones ....................................................................................................... 21

3.3. Papel de las premisas en la inferencia estadística ................................................ 22

3.4. Observaciones con influencia .............................................................................. 22

3.5. Validación gráfica de los residuos ....................................................................... 23

3.5.1. Premisa de linealidad ............................................................................................ 26

3.5.1. Premisa de homoscedasticidad .............................................................................. 27

3.5.2. Premisa de normalidad .......................................................................................... 29

3.5.3. Premisa de independencia ..................................................................................... 30

2
Bioestadística para no estadísticos

3.5.4. Resumen ................................................................................................................ 32

3.6. Observaciones atípicas e influyentes ................................................................... 32

3.6.1. Observaciones potencialmente influyentes * ........................................................ 32

3.6.2. Observaciones atípicas (“outliers”) * ................................................................... 35

3.6.3. Influencia real * .................................................................................................... 36

3.7. Mejora de las premisas mediante transformaciones*........................................... 37

3.8. Relaciones no lineales * ....................................................................................... 39

Soluciones a los ejercicios .............................................................................................. 42

3
RLM: premisas y cautelas

Presentación
Este tema trata 3 retos de la Regresión Lineal Múltiple:
colinealidad, selección del modelo y estudio de las
premisas.

La colinealidad es relación entre las variables explicativas


predictivas. Una primera aproximación para observarla es
por inspección gráfica (véase figura 1).

Esta relación (como entre peso y altura en la figura),


comporta 2 retos: (1) dificulta cómo interpretar los
coeficientes; y (2) empeora la calidad de la predicción.

Figura 1 Figura 2

Para escoger el modelo, conviene distinguir si el objetivo


es etiológico (interpretar los coeficientes) o pronóstico
(maximizar la capacidad predictiva).

La figura 2 indica la capacidad de anticipación (R2) según


las variables incluidas en el modelo, por lo que ayuda a
buscar el mejor modelo predictivo.

Los gráficos de residuos (figura 3) miran si se


cumplen las premisas de: (1) linealidad; (2)
varianza constante; y (3) normalidad. La premisa
(4) de independencia de los residuos requiere un
buen diseño de recogida de datos.

También veremos cómo actuar si no se cumplen las


premisas o existen datos o atípicos o influyentes.

Figura 3

4
Bioestadística para no estadísticos

1. Colinealidad
1.1. Definición
En los estudios observacionales algunas variables predictoras suelen estar correlacionadas entre sí.

Definición

Colinealidad es correlación entre algunas de las variables predictoras del modelo.

Se habla de variable dependiente y variables independientes porque, en el modelo, la respuesta


“depende” de unas predictoras que, “no dependen” de otras. Pero, en la realidad, la respuesta puede
ser independiente de las predictoras; y éstas, pueden depender entre sí.

Historieta: en los estudios observacionales las variables independientes no son independientes.

Recuerde

Evite el término “independientes” para referirse a las predictoras.

En los ensayos clínicos, las variables adicionales a la intervención están balanceadas entre los
grupos: el tratamiento es independiente de terceras variables y, por tanto no debe preocupar la
colinealidad.

Ejemplo 1.1: La primera tabla muestra la media de la PAS en dos grupos de tratamiento
para dos centros (A y B). No existe colinealidad porque la razón tratado/control (1 a 1) es la
misma en ambos centros. El premio es que las estimacies ajustadas dentro de cada centro y
la global, sin ajustar, del efecto del tratamiento coinciden (siempre -10 mmHG a favor de
los tratados en ambos centros y en total).

Media (n) Tratados Controles Total Diferencia


Centro A 110 (10) 120 (10) 115 (20) -10
Centro B 130 (10) 140 (10) 135 (20) -10
Total 120 (20) 130 (20) 125 (40) -10

Sin embargo, los estudios observacionales no están protegidos contra la colinealidad, que
suele ser habitual.

5
RLM: premisas y cautelas

Ejemplo 1.1 (cont): En la siguiente tabla hay colinealidad entre tratamiento y centro (más
tratados en el centro B). En este caso, el efecto ajustado del tratamiento observado en cada
centro (-10) no concuerda con la estimación global (+6).

Media (n) Tratados Controles Total Diferencia


Centro A 110 (2) 120 (18) 119 (20) -10
Centro B 130 (18) 140 (2) 131 (20) -10
Total 128 (20) 122 (20) 125 (40) +6

1.2. Cambio en la estimación puntual.

Si hay colinealidad entre 2 predictoras A y B, el coeficiente de A en el modelo cambia al


incluir B en el mismo.

Ejercicio 1.1

Los datos diet del paquete Epi, ya vistos, contienen los ámbitos dietéticos y la
enfermedad coronaria de 337 pacientes.

a) Cargue los datos (use las instrucciones install.packages, library y data)

b) Ajuste el modelo con el peso (weight) como respuesta y la cantidad diaria de


grasa ingerida (fat) como predictora. ¿Cuál es coeficiente de la cantidad diaria de
grasa ingerida?

c) Ajuste el modelo con el peso (weight) como respuesta y dos variables


predictoras: la cantidad diaria de grasa (fat) y de energia (energy) ingeridas. ¿Cuál
es coeficiente de la cantidad diaria de grasa ingerida?

Recuerde

La colinealidad provoca que las estimaciones ajustadas puedan diferir de las


estimaciones sin ajustar.

6
Bioestadística para no estadísticos

En epidemiología se dice que Z2 confunde el efecto de Z1 en Y cuando la relación entre Z1 e Y


cambia al ajustar por Z2. En estadística se dice que si Z1 y Z2 están relacionadas, tendrán sus
(posibles) efectos en Y confundidos.

Nota: si lo cree conveniente, repase el capítulo 17 de confusión.

1.3. Cambio en la oscilación muestral (error típico).


La colinealidad, además de afectar a la estimación puntual de un coeficiente, altera su error
estándar, que valora su oscilación de un estudio a otro.

Ejemplo 1.2: En el capítulo anterior vimos el ejemplo de la PAD en función del tratamiento
y el centro, en el que estas 2 variables eran independientes: no había colinealidad porque se
asignó el tratamiento con la misma razón en ambos centros. En el modelo sin la variable
centro el efecto (EE) del tratamiento es -15.8 (2.42); y en el que incluye también a centro, -
15.8 (2.23), misma estimación puntual, pero menor EE, ya que el segundo tiene menor S
(7.068 en lugar de 7.645) y mayor R2 (0.6081 en lugar de 0.5292), al haber descontado la
variabilidad explicada por el centro.

Si hay independencia entre las predictoras, al introducir una nueva variable predictora, si baja la
dispersión residual, mejorará la estimación de los coeficientes ya introducidos en el modelo, lo que
puede verse en el descenso de sus EE. Veamos ahora qué pasa si las variables del modelo están
relacionadas (colinealidad).

Ejercicio 1.2

Sigamos con el conjunto de datos diet del paquete Epi. Cargue estos datos, si no
los tiene ya.

b) Ajuste el modelo con el peso (weight) como respuesta y la cantidad diaria de


grasa ingerida (fat) como predictora. ¿Cuál es el error estándar del coeficiente de
la grasa ingerida?

c) Ajuste el modelo con el peso (weight) como respuesta y dos variables


predictoras: la cantidad diaria de grasa (fat) y de energia (energy) ingeridas.
¿Cuál es el error estándar del coeficiente de la grasa ingerida?

7
RLM: premisas y cautelas

Cuando hay colinealidad entre las predictoras, aumenta la oscilación muestral (error típico o
estándar EE) de las estimaciones de los coeficientes. Sucede porque, al estar relacionadas las 2
variables, al dejar fija a una de ellas, la ventana de información que la otra aporta queda reducida.

Nota técnica: la fórmula del error típico de estimación del coeficiente de un predictor X indica
que es menor cuanto mayor es , es decir su posibilidad de variar a nivel fijo de todas
las otras predictoras Zi:

Recuerde

La colinealidad aumenta el error estándar del coeficiente.

La colinealidad informa de qué cantidad de la información de la nueva variable es repetida, en el


sentido de ser compartida con las variables ya introducidas en el modelo. Por tanto, una variable
muy colineal con las ya existentes: (1) aporta poca información adicional; y (2) al quedar “fija” en
el modelo, reduce la variabilidad de las previas.

Recuerde

La colinealidad indica la información repetida.

1.4. Dificultad de la interpretación


La pendiente de la variable Z1 en un modelo de regresión múltiple que incluye las variables Z 2, Z3,
…ZK estima, a nivel fijo de Z2, …ZK, cual es el incremento en Y que se asocia a un incremento de 1
unidad en la variable Z1.

Nota técnica: Para valores concretos (minúsculas) de z1, z2, y z3, el valor predicho de Y será;
ŷ i = b0 + b1 · z1i + b2 · z2i + b3 · z3i

Si aumentamos z1 en una unidad, pero dejamos igual z2, y z3, el nuevo valor predicho de Y será;
ŷ i ’ = b0 + b1 · (z1i +1) + b2 · z2i + b3 · z3i

Y su diferencia, eliminando los términos comunes b0, b2·z2i y b3·z3i;


ŷ i ’ - ŷ i = b1 · z1i - b1 · (z1i +1) = b1
Por lo que el coeficiente b1 representa el cambio esperado en Y al aumentar Z1 en 1 unidad.

8
Bioestadística para no estadísticos

Pero precisamente la existencia de colinealidad cuestiona que sea posible provocar un cambio en
una variable a nivel fijo de las restantes.

Ejemplo 1.3: Suponga que desea conocer el efecto en la PA de bajar el consumo de alcohol
a nivel fijo de consumo de tabaco: ¿disponemos de una intervención de salud que permita
modificar una sin cambiar la otra?

Ejemplo 1.4: Suponga que desea conocer la relación con la probabilidad de malformación
congénita de la edad materna a nivel fijo de la edad paterna. ¿Vivimos en una sociedad en la
que las madres potenciales dejan fija la edad paterna antes de escoger la edad en la que
serán madres?

Ejemplo 1.5: Suponga que desea conocer el efecto en la probabilidad de tener un evento
cardiovascular a los 10 años de la PAS a nivel fijo de la PAD. ¿Disponemos de alguna
intervención de salud que permita modificar una sin cambiar la otra?

Por tanto, en un estudio observacional en el que ajustamos por variables colineales con la
exposición en estudio, una cuestión que permanece es si, en el futuro, podremos modificar la
exposición dejando fijo el valor de las variables por las que hemos ajustado.

Recuerde

La colinealidad cuestiona la posibilidad de modificar una variable a nivel fijo del


resto.

1.5. Medida
Para medir la cantidad de “información novedosa” se ajusta un modelo donde la respuesta sea la
que se está evaluando y las predictoras el resto de variables ya introducidas en el modelo. El R2 de
este modelo da una medida de la cantidad de información ya disponible por el resto de variables: un
R2 de 1 (=100%) indicaría que no aporta información nueva, mientras que un valor nulo (=0%) sería
señal que la información aportada no esté recogida en el resto de variables.
Ejemplo 1.6: Con el juego de datos diet del paquete Epi, estime la cantidad de información
novedosa que aporta energy respecto a height, fat y fibre. El modelo correspondiente
dice que un 75% de su información ya está contenida en el resto de variables:
> mod <- lm(energy~height+fat+fibre,diet)

9
RLM: premisas y cautelas

> summary(mod)$r.squared
[1] 0.7515448
Aunque para este análisis se ha prescindido de la respuesta, para incluir una nueva variable en el
modelo, además de que la información sea novedosa, también debe explicar parte de la respuesta.

Ahora, lo que se hará es transformar este R2 en una medida que evalúe el incremento de su varianza
entre un modelo que sólo la contiene a ella y otro que incluya también a las restantes. Esta medida
es el Factor de Incremento de la Varianza o, más conocido por su nombre en inglés, Variance
Inflation Factor (VIF).

Fórmula

El punto de corte dependerá de sus objetivos y del beneficio de una mejor predicción. Algunas
fuentes indican que un valor de VIF > 5 desaconseja incluir esa variable en el modelo.

Ejemplo 1.6 (cont.): Calcule el VIF de energy respecto a las variables height, fat y fibre.

Esta mayor varianza de la estimación de la pendiente tiene 2 implicaciones prácticas: la


incertidumbre sobre el valor poblacional es mayor; y los resultados son inestables de una muestra a
otra.

Recuerde

El VIF mide el incremento de EE de una variable predictora si se introducen el


resto de variables.

Nota técnica: Como , Si fijamos los valores de las variables previas en la


ecuación, la variabilidad de Xi se ha reducido en , por lo que la varianza de la estimación de bi
aumenta en .

La instrucción vif en R lo calcula para todas las variables de un modelo. Fíjese que requiere ajustar
un modelo con todas las variables (incluida una variable respuesta aunque no se utilice).

10
Bioestadística para no estadísticos

Ejemplo de R
# Cálculo del vif para todas las variables predictoras de un modelo
> mod <- lm(weight~energy+height+fat+fibre,diet)
> vif(mod)
energy height fat fibre
4.024871 1.064486 3.483038 1.442643
# Aconseja cuestionar la inclusión de energy en el modelo.

Gràficamente, en R se puede observar si 2 variables están correlacionadas 2 a 2 con la instrucción


pairs.

Ejemplo de R
# Representación gráfica de las parejas de variables (Figura 1)
> pairs(~energy+height+fat+fibre,diet,pch=19,col="blue",cex=0.6)

Figura 1.1
# Parece que la mayor correlación es entre energy y fat.

Ejercicio 1.3

Cargue el juego de datos births del paquete Epi. Calcule el VIF de las variables:
semanas de gestación (gestwks); edad de la madre (matage); y género del bebé
(sex) para predecir el peso del reción nacido (bweight). ¿Cree que hay
colinealidad?

Ejercicio 1.4

11
RLM: premisas y cautelas

Cargue el juego de datos diabetes del paquete faraway. Calcule el VIF de las
variables: stab.glu, hdl, glyhb, location, age, gender, height, weight, frame, bp.1s,
bp.1d, bp.2s, bp.2d, waist, hip, time.ppn para predecir el nivel de colesterol (chol).
¿Qué variables descartaría por elevada colinealidad?

2. Selección del modelo


Ya ha visto que los modelos estadísticos tienen 2 funciones: (1) anticipar el valor de la respuesta; y
(2) lanzar hipótesis sobre cómo cambiar en esta respuesta interviniendo sobre las predictoras. Para
el primer objetivo, R2 cuantifica la capacidad de anticipación; pero para el segundo son más
interesantes los coeficientes de la recta.

2.1. Objetivo pronóstico


Si el objetivo es anticipar el futuro conviene escoger aquellas variables que sean más baratas, más
tempranas en el tiempo, más fiables (en el sentido de obtener valores más similares en sucesivas
determinaciones) e incluso más fácil de interpretar.

Ejemplo 2.1: Para predecir el riesgo de síndrome de Down, la edad de la madre cumple más
con estas propiedades (fácil, barata, temprana, fiable) que la edad del padre.

Pero también es necesario, para conseguir una buena predicción, evitar la colinealidad. Para ello, se
debe reducir la dimensión del problema, bien eliminando alguna de las variables, bien definiendo
una combinación de las mismas que retenga la información relevante.

Ejemplo 2.2: En el caso de las determinaciones múltiples en farmacocinética para conocer


la concentración plasmática a lo largo de sucesivos momentos de tiempo, el investigador no
comunica los valores observados en cada determinación, sino que los transforma en nuevas
variables con significados más interesantes, ya que le informan de la velocidad de
absorción, de la velocidad de eliminación o de la cantidad de fármaco en la sangre.

Lectura: La escuela francesa ha aportado diversas técnicas estadísticas para proponer estas nuevas
variables mediante combinación de las variables originales.

12
Bioestadística para no estadísticos

Ejercicio 2.1

¿Cuál de las siguientes NO es cierta?

a) La elevada correlación entre PAS y PAD provocará, si se incluyen ambas en el


modelo, estimaciones inestables, con resultados discordantes entre diferentes
estudios.

b) Puede ser interesante estudiar qué variable de presión arterial, PAD o PAS,
permite predecir de manera más precisa el riesgo de accidente vascular.

c) Dado que los tratamientos actuales no permiten disminuir una presión arterial
(PAD o PAS) sin disminuir la otra, introducir ambas tiene una utilidad limitada.

d) Para el desarrollo de futuros fármacos puede tener interés preguntarse por los
efectos independientes de PAS y PAD.

Recuerde

En la predicción, maximice R2, pero evite colinealidad.

2.2. Objetivo etiológico


Si el objetivo es contribuir a mejorar el futuro identificando posibles causas que sean luego
confirmadas en estudios de intervención, debería ajustar por todas aquellas variables que la teoría
previa considera relevantes.

Lectura: STROBE, en su punto 16 dice: “Proporcione estimaciones no ajustadas y, si procede, ajustadas por
factores de confusión, así como su precisión (p. ej., intervalos de confianza del 95%). Especifique los
factores de confusión por los que ajusta y las razones para incluirlos.”

Ejemplo 2.3: Pichini et al: “El hábito tabáquico (…) se asoció (…) de forma negativa con
medidas somatotrópicas del recién nacido (…). Tras ajustar por otras características de las
madres y del recién nacido, esta asociación negativa se confirmó.”

Ejercicio 2.2

¿Cuál de las siguientes no es cierta?

13
RLM: premisas y cautelas

a) La guía Tripod y la guía Strobe son para estudios observacionales

b)La guía Tripod es para estudios etiológicos; y Strobe, de predicción.

c) En los estudios de predicción, lo más relevante son los coeficientes de la recta.

Recuerde

En la etiología, ajuste por las posibles causas competitivas.

2.3. Sistemas automáticos


Los paquetes estadísticos presentan sistemas que realizan una selección automática de las variables
predictoras. Por ejemplo, partiendo del modelo sin ninguna variable e introduciendo en cada paso
(step-up) a la variable más significativa. O viceversa, partiendo del modelo completo, eliminando
(step-down) a la menos significativa. O combinando ambos pasos ascendente y descendente (step-
wise). Estos sistemas pueden ser útiles en estudios predictivos. Pero en los etiológicos, conviene
garantizar que ha controlado las causas competitivas.

Lectura: El punto 12 de análisis estadístico de Strobe aconseja “describir totalmente los procesos
específicos para la selección de las variables, y no sólo presentar los resultados del modelo final.”

La instrucción step de R permite implementar estos métodos de selección automática de variables


en función de su significación. Por defecto, si no se especifica, se aplica el método stepwise.Esta
instrucción no admite datos ausentes en las variables del modelo, por lo que un paso previo será
tratar los datos ausentes, si no puede recuperarlos, con algún método de imputación. El primer
abordaje puede consistir en eliminar los datos ausentes.

Ejemplo de R
# Eliminar datos ausentes
> library(faraway)
> data(diabetes)
> diabetes.complete <- subset(diabetes,complete.cases(diabetes))

# Ajustar el modelo
> mod <- lm(chol~ stab.glu + hdl + glyhb + location +
age + gender + height + weight + frame +
bp.1s + bp.1d + bp.2s + bp.2d + waist +
hip + time.ppn ,diabetes.complete)

# Aplicar la selección automática y mostrar el módelo resultante


> mod.step <- step(mod,trace=0)

14
Bioestadística para no estadísticos

> summary(mod.step)
[…]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 130.3837 15.0170 8.682 1.61e-14 ***
hdl 0.6640 0.2037 3.259 0.00143 **
glyhb 8.9534 1.4576 6.143 9.66e-09 ***

[…]

En este caso, de todas las variables iniciales, la selección automática nos dejado 2: Lipoproteína de
Alta Densidad (hdl) y hemoglobina glicosilada (glyhb).

La función step tiene algunos parámetros que conviene conocer:

- scope. Para especificar las variables candidatas a ser incluidas (especialmente útil en el
método step-up) o aquellas que queramos incluir independientemente de su significación
estadística.
- direction. Con tres opciones según el método: both (stepwise, opción por defecto),
backward (va quitando) and forward (va añadiendo)
- trace. Indica si desea ver el proceso de selección. El valor 0 lo oculta y el valor 1 (por
defecto) lo muestra.

Ejercicio 2.3

El anterior ejemplo de diabetes aplicó el método stepwise. Aplique los métodos


step-down y step-up. ¿Obtiene el mismo modelo final?

2.4. Metodología no automática


Los métodos automáticos son útiles, a nivel exploratorio, en busca del modelo con mayor capacidad
predictiva. Pero no tienen en cuenta la colinealidad, que puede provocar bien mucha inestabilidad
en los coeficientes; o bien, coeficientes con valores algo absurdos, ya que una variable colineal
(confusora) podría ser no significativa, pero podría cambiar el coeficiente de otra variable de interés
del modelo. Por ello, , a pesar de no ser significativa, convendría incluirla por razones teóricas
(premisas previas).

A continuación le proponemos un posible proceso de selección manual de variables en un modelo


de regresión múltiple (lineal o no lineal):

15
RLM: premisas y cautelas

1. Ajuste todos los modelos univariantes con todas las variables predictoras. Seleccione
aquellas con una significación p<0.25.
2. Ajuste el modelo multivariante aditivo (sin interacciones) con todas las variables no cribadas
en el anterior paso.
3. Elimine las variables una a una empezando por la menos significativa si cumple los
siguientes criterios:
a. No es significativa (p>0.05)
b. El coeficiente de esta variable en el modelo univariante (paso 1) y multivariante es
similar.
c. Los coeficientes del resto de variables del modelo no varían susceptiblemente al
eliminar esta variable, es decir, no es una variable confusora.
4. Una vez haya eliminado todas las variables posibles, vuelva a introducir una a una por
separado para verificar que ninguna recupera la significación.
5. Considere introducir aquellas interacciones que considere clínicamente factibles y evalúe su
significación.
6. Valide el modelo según lo propuesto en el último punto de este tema.

Ejercicio 2.4

Aplique la metodología “manual” de selección de variables para predecir el peso


(weight) a partir de la altura (height) y las cantidades diarias de energía (energy),
de grasa(fat), y de fibra (fibre) del conjunto de datos diet del paquete Epi. ¿Qué
modelo obtiene?

2.5. Considere adecuadamente la colinealidad


I) A ser posible, en el diseño:
a. Plantee diseños en los que las otras predictoras sean independientes a la(s)
variable(s) de interés.

Ejemplo 2.4: En un estudio con objetivo no predictivo, para estimar efectos, el ejemplo por
excelencia es el ensayo clínico paralelo que equilibra las variables en ambos brazos:
Primero fija unos criterios de elegibilidad que marcan las condiciones de aplicación de la

16
Bioestadística para no estadísticos

intervención. Y luego equilibra el resto mediante la aleatorización. Al aceptarla, los


investigadores y los voluntarios aclaran que la intervención es asignable (en esos casos)
independientemente de los valores de esas variables iniciales.

b. Si hay más de una posible intervención de interés, plantee diseños factoriales con
más de un factor para garantizar el equilibrio entre ellos.

Ejemplo 2.5: Una vez más, la posibilidad de asignar a cualquiera de los grupos, comprueba
que el valor de una intervención no predetermina el de la otra.

c. Aumente la muestra, ya que puede hacer desaparecer una colinealidad espuria


obtenida simplemente por azar, sobretodo en estudios con pocos casos.
d. Haga la muestra más heterogénea para abarcar una población más amplia donde
quizás esta colinealidad se diluya.
II) Si no ha podido controlar la colinealidad en el diseño, hágalo en el análisis
a. no incluyendo en el modelo variables predictoras demasiado relacionadas entre sí.

Ejemplo 2.6: Si ya ha incluido la sistólica, ¿qué aporta la diastólica? Si ya ha incluido la


edad materna, ¿qué aporta la paterna?

b. Si existe un par de variables colineales que cree que juntas pueden aportar mayor
información respecto a la respuesta, construya una única variable predictora que sea
combinación de estas dos variables e introdúzcala en el modelo.

Ejemplo 2.7: En el caso de la PAD y la PAS, su media puede informar de la tensión


soportada por las arterias; mientras que su diferencia informará de otros aspectos como
quizás, la elasticidad. Estas 2 nuevas variables (media y diferencia) son muy independientes
entre sí, por lo que permitirían contestar preguntas ‘independientes’.

c. No incluya variables predictoras que sean combinación lineal de otras.

Por ejemplo, en vez de incluir en un modelo el peso y el IMC, sería mejor incluir el peso y
la altura que aunque estarán correlacionadas, lo estarán en menor medida, ya que el IMC
incluye peso y altura en su definición.

17
RLM: premisas y cautelas

d. En algunas situaciones, las transformaciones sobre variables (logaritmos,


inversas,…) puede reducir la colinealidad y aumentar su capacidad predictiva. Por
ejemplo, para corregir factores de escala.

Por ejemplo, en un estudio ecológico donde los registros son poblaciones (p.ej, provincias
de España), las variables predictoras de la calidad asistencial como el número de camas de
hospital; el número de médicos y enfermeras colegiados; el número de centros hospitalarios
de primer, segundo y tercer nivel, etc… deberán ser consideradas en relación a la población
de la región, es decir, introducir en el modelo las variables número de X por cada 100,000
habitantes.

Ejercicio 2.5

Una revista ha publicado un estudio donde demuestran que el peso de una persona
está inversamente relacionado con la cantidad de colesterol en sangre. Además, lo
certifican con mucha evidencia, mostrando el modelo ajustado donde se ve una
gran significación de la variable peso en el modelo:

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.67913 17.64601 1.002 0.31890
peso -0.29577 0.09503 -3.112 0.00244 **
altura 1.31848 0.12427 10.609 < 2e-16 ***
¿Qué pensaría de tal hallazgo al ver el modelo?

El proceso de definición de las variables a ser incluidas merece tanto respeto y maduración como el
de la definición de los criterios de elegibilidad de un EC. O de las variables que definen los bloques
o los criterios de minimización en la aleatorización.

Recuerde

Razone qué variables incluirá en el modelo.

18
Bioestadística para no estadísticos

3. Papel de las premisas

Para valorar si las premisas asumidas son razonables, veremos cuáles son; cómo estudiar su validez;
y sus implicaciones en caso de no cumplirse.

3.1. Premisas de la regresión lineal


1. Linealidad: la pendiente es constante para cualquier valor de Z: sea cual sea el punto en que la
predictora Z aumenta en 1 unidad, el incremento esperado en Y será siempre β1 —manteniendo el
resto de variables constantes. Por supuesto, el término “siempre” aplica a la ventana de
aplicabilidad del modelo, es decir, para el rango de valores considerado.

Ejemplo 3.1: El incremento esperado del peso al aumentar la altura 1cm es siempre 1 Kg,
tanto al pasar de 160 a 161, como al subir de 170 a 171cms.

Nota: Técnicamente, la linealidad implica que todos los tienen un valor esperado nulo ( ), es
decir, el valor medio de las particularidades debe ser 0 para cualquier valor de las predictoras. Si su valor
medio cambiara a lo largo de los valores del predictor Zi, querría decir que los aún contienen información
y que podría ser mejorada para incorporarla.

2. Varianza constante (homoscedasticidad): la oscilación de la particularidad es la misma para


cualquier valor de la variable predictora ( ). Es decir, las aportaciones individuales
tienen siempre la misma magnitud, lo que se traduce en la misma incertidumbre de la predicción
para cualquier valor de la predictora.

Ejemplo 3.2: La oscilación del peso alrededor del valor predicho es siempre la misma,
pongamos σ=7kg. Tanto si esperamos un peso de 60 como de 70kg, siempre tenemos la
misma variabilidad de la particularidad y, por tanto, de la incertidumbre de la predicción.

Historieta: Es un modelo democrático, ya que nadie es más importante, todos tenemos la misma magnitud
de idiosincrasia.

Nota: La consecuencia es que todas las observaciones aportan la misma información y tendrá sentido hacer
promedios sin necesidad de ponderar.

3. Normalidad. La singularidad sigue una distribución Normal (3ª premisa) que estará centrada
en 0 (por la 1ª premisa) y con la misma varianza (por la 2ª). En resumen:

19
RLM: premisas y cautelas

Ejemplo 3.3: Diferentes personas tienen diferentes pesos, pero son más frecuentes aquellas
con distancias al valor predicho cercanas a 0, que aquellas que se alejen, por ejemplo, 14Kg
(2σ). Su distribución conjunta tiene la forma de distribución Normal que corresponde a
fenómenos que son el resultado de muchos factores con efectos pequeños e independientes
(muchos genes y mucha influencia de muchos fenómenos del ambiente: alimentación,
ejercicio, etc.).

Conocer la distribución de posibilita el cálculo de los intervalos de incertidumbre de las


predicciones.

4. Independencia. Los términos del modelo son independientes entre sí: cada
contribución particular no aporta información sobre las otras.

Ejemplo 3.4: En el ejemplo del peso y la altura, si esta premisa es cierta, la distancia del
peso de un caso concreto al valor promedio de todos los de su misma altura no aporta
información sobre dicha distancia en otro caso. Como contra-ejemplo, si 2 casos
pertenecieran a la misma familia y uno de ellos fuera extremadamente alto, cabría esperar
que el otro también lo fuera. Un modelo mejor tendría en cuenta esta información adicional.

Por tanto, esta cuarta premisa requiere que el modelo haya incluido, de forma correcta, a todas las
variables importantes.

Así, en su conjunto, todas estas premisas implican que el modelo es completo y correcto, es decir,
que incluye a todos los predictores relevantes y que la forma de la relación funcional está bien
especificada.

Recuerde

Premisas del modelo de regresión:

1. Linealidad. Siempre hay la misma pendiente sea cual sea el valor de Z que
aumenta en 1 unidad.

2. Varianza constante. La oscilación de la particularidad es la misma para


cualquier valor de la variable predictora.

20
Bioestadística para no estadísticos

3. Normalidad: las particularidades siguen una distribución Normal.

4. Independencia: Los términos son independientes entre sí.

3.2. Implicaciones
Destacamos las siguientes implicaciones de los desvíos de las premisas:

1. El modelo podría ser mejorado, incluyendo la información ausente que origina el desvío de las
premisas.

Recuerde

Si no se cumplen las premisas, el modelo puede ser mejorado

2. El uso de la t de Student para el cálculo de IC y p valores dejaría de estar justificado,


especialmente si la muestra es pequeña.

Recuerde

Si no se cumplen las premisas, IC y valor de P son dudosos en muestras pequeñas

3. Conviene evitar lecturas causales sobre variables Z, si bien puede ser interesante lanzar
prudentes hipótesis causales que deban luego ser confirmadas. Que el modelo no esté completo
es especialmente delicado cara a esta especulativa interpretación causal, ya que se podría
atribuir a una variable incluida los efectos de la omitida —quizás por ser desconocida o no
medible con precisión.

Recuerde

Si no se cumplen las premisas, la interpretación causal es aún más delicada.

Ahora bien, que el modelo pueda ser mejorado, no implica que sea inútil para realizar una
predicción. Si el coeficiente de determinación es alto y la muestra es suficiente, un modelo simple
puede ser útil.

Recuerde

Aunque no se cumplan las premisas, R2 estima la capacidad de anticipación.

21
RLM: premisas y cautelas

3.3. Papel de las premisas en la inferencia estadística


La inferencia estadística debe centrarse en las hipótesis de interés. Las premisas son supuestos
secundarios necesarios para estimar parámetros o contrastar hipótesis. La pregunta de interés no es
“si las premisas son ciertas”, sino “si pueden hacerse inferencias válidas actuando como si fueran
ciertas”.

Ejemplo 3.5: cierto investigador desea saber si un nuevo gen es un buen predictor de la
PAS. No sabe nada sobre su hipótesis, la relación entre ambos. Pero hace muchos años que
sabe que la PAS suele aproximarse muy bien por una distribución Normal. Lo importante no
es ahora contrastar la Normalidad, sino observar si otro método que no descansa en esta
normalidad ofrece resultados similares.

Recuerde que la distribución Normal es un Modelo, no una Ley que deban obedecer los datos. Es
útil porque muchas variables se aproximan bien por la Normal: no hace falta que sean exactamente
normales. Por ello, los gráficos de Normalidad muestran el ajuste (correlación modelo-datos de
Shapiro-Wilks) o el desajuste (distancia modelo-datos de Kolmogorov); y son más útiles que los P
valores.

Nota: Recuerde la incongruencia de los p valores en el estudio de las premisas: (A) si la muestra
es pequeña, grandes desviaciones de las premisas pueden afectar a la inferencia, pero los p
valores difícilmente serán significativos; y (B) si la muestra es grande, pequeñas desviaciones
afectarán poco la inferencia, pero casi siempre serán significativas (p valores bajos).

Recuerde

Las premisas se establecen de antemano, según el conocimiento previo; y se


revisan luego con gráficos, no con p valores.

3.4. Observaciones con influencia


Por diversas razones, un caso concreto podría dirigir los resultados. Veremos más delante de qué
forma. Digamos ahora, que un deseo adicional es que el modelo descanse de forma razonablemente
similar en todas las observaciones, por lo que, si no es así, querremos saberlo.

22
Bioestadística para no estadísticos

3.5. Validación gráfica de los residuos


El análisis de las premisas se hace mediante el estudio gráfico de los residuos o particularidades de
cada caso. Recordemos que éstos son la diferencia entre el valor observado y el predicho:

Ejemplo 3.6: La recta obtenida para el peso en función de la altura es:

Elena que tiene una altura de 170 cm y un peso de 75 kg tiene una particularidad de +5 kg:

R realiza gráficos de residuos que ayudan a evaluar estas premisas y las observaciones influyentes:

- Residuos según los valores predichos. Permitirá validar la premisa de linealidad.


- Residuos estandarizados en valor absoluto según los valores predichos. Permitirá validar
la premisa de homoscedasticidad.
- QQ-Norm de los residuos. Permitirá validar la premisa de normalidad.
- Residuos estandarizados en valor absoluto según una medida de influencia (Leverage).
Permitirá detectar observaciones influyentes

¿Y la premisa de independencia? Esta premisa la debe asumir como cierta el investigador si el


diseño del estudio se realizó correctamente. Por tanto, no se puede analizar a posteriori. Si bien, sí
que se puede estudiar la independencia de los residuos con algunas variables medidas. Por ejemplo,
es habitual estudiarla respecto al orden de recogida de datos, lo que permitiría detectar patrones a lo
largo del tiempo.

R, al aplicar la instrucción plot a un modelo mostrará los 4 gráficos de la figura.

Ejemplo de R
# Ajustar un modelo
> mod <- lm(weight~height+fat+fibre,diet)

# Abrir una ventana para 4 gráficos (2x2) y hacerlos (Figura 3.1)


> par(mfrow=c(2,2))
> plot(mod)

23
RLM: premisas y cautelas

Figura 3.1

Anscombe, inventó unos datos para ilustrar la importancia de mirar estos gráficos. Consisten en 4
parejas X-Y que dan las mismas rectas de regresión, con idénticos coeficientes; pero que, sin
embargo, el estudio de las premisas muestra ‘patologías’ muy distintas. Veamos estos datos con el
siguiente código.

Ejemplo de R
> # Cargar los datos
> data(anscombe)
> # Descriptiva (misma media y desviación para todas las x’s e y’s)
> apply(anscombe,2,mean)

x1 x2 x3 x4 y1 y2 y3 y4
9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
> apply(anscombe,2,sd)
x1 x2 x3 x4 y1 y2 y3 y4
3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
> # Diagramas bivariantes con rectas de regresión (

24
Bioestadística para no estadísticos

Figura 3.2
> par(mfrow=c(2,2))
> plot(y1~x1,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y1~x1,anscombe),lwd=2,col=2)
> plot(y2~x2,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y2~x2,anscombe),lwd=2,col=2)
> plot(y3~x3,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y3~x3,anscombe),lwd=2,col=2)
> plot(y4~x4,anscombe,pch=19,ylim=c(3,13))
> abline(lm(y4~x4,anscombe),lwd=2,col)

Figura 3.2

25
RLM: premisas y cautelas

Ejercicio 3.1

Mirando los datos y las figuras, diga:

a) ¿Qué parejas X-Y cumplen la premisa de linealidad?

b) ¿Y la de homoscedasticidad?

c) ¿Cuáles tienen alguna observación influyente?

3.5.1. Premisa de linealidad

El gráfico que resalta los desvíos de la linealidad dibuja, para cada caso:

- En el eje horizontal, el valor predicho según el modelo estimado;


- En el eje vertical, la diferencia entre el valor real y el predicho por el modelo; u
- Una línea que une las medias de los residuos, para ver los desvíos del 0.

Si la linealidad es cierta, debería ver una nube


de puntos sin forma definida, distribuida
alrededor del 0, sin tendencia creciente ni
decreciente. El siguiente ejemplo muestra este
primer gráfico para evaluar la linealidad en los
4 conjuntos de datos de Anscombe

26
Bioestadística para no estadísticos

Ejemplo de R
> # Cargar datos
> data(anscombe)

> # Ajustar modelos (guardelos para ejemplos posteriores)


> mod1 <- lm(y1~x1,anscombe)
> mod2 <- lm(y2~x2,anscombe)
> mod3 <- lm(y3~x3,anscombe)
> mod4 <- lm(y4~x4,anscombe)

> # Gràfico de residuos vs valores predichos (1)(


Figura 3.3)
> par(mfrow=c(2,2))
> plot(mod1,1) ; plot(mod2,1) ; plot(mod3,1) ; plot(mod4,1)

Figura 3.3

Ejercicio 3.2

Ajuste el siguiente modelo con los datos diet del paquete Epi

Valore la premisa linealidad

Recuerde

Mire linealidad en el gráfico de residuos frente a valores predichos

3.5.1. Premisa de homoscedasticidad

El concepto de homoscedasticidad hace referencia a que la variabilidad de las particularidades


(residuos) es la misma independientemente de los predictores. Aplicado a ejemplos previos,
equivaldría a esperar cometer el mismo error de predicción en el peso de una hombre que mida 2
metros que en una mujer que mida 1.60 metros. Como siempre, se trata de una premisa de
conveniencia que debe ser razonablemente aproximada, no exactamente cierta.

El gráfico de la raíz de los residuos estandarizados en función de los valores predichos resalta la
posible homoscedasticidad.

- En el eje horizontal pone el valor predicho según el modelo estimado;

27
RLM: premisas y cautelas

- En el eje vertical, la raíz cuadrada de los residuos estandarizados (o residuos divididos por
su desviación estándar)

Una nube de puntos homogénea a lo largo del


eje horizontal denota variabilidad constante. El
siguiente ejemplo evalúa esta premisa en los
datos de Anscombe.

Ejemplo de R
> # Cargar datos
> data(anscombe)

> # Use los modelos del ejemplo anterior

> # Gràfico de residuos estnadarizados vs valores predichos (3)(Figura


3.4)
> par(mfrow=c(2,2))
> plot(mod1,3) ; plot(mod2,3) ; plot(mod3,3) ; plot(mod4,3)

Figura 3.4

Nota técnica: Se usa la raíz del valor absoluto de los residuos estandarizados porque de esta forma resalta
más los desvíos de la homoscedasticidad.

28
Bioestadística para no estadísticos

Ejercicio 3.3

Ajuste el siguiente modelo con los datos diet del paquete Epi

Valore la premisa de homoscedasticidad

Recuerde

Mire homoscedasticidad en el gráfico de la raíz de los residuos estandarizados


absolutos frente a valores predichos

3.5.2. Premisa de normalidad

En el modelo lineal se asume que los residuos


siguen una distribución Normal para cada
combinación posible de las variables
predictoras. Para evaluarla, se deberían tener
varios valores de la respuesta para cada
combinación. No obstante, si se asume que la
variabilidad es la misma para cualquier
combinación posible, puede evaluarse
mediante un QQ-Norm de todos los residuos
agrupados.

Puntos razonablemente alineados cobre la


recta de equivalencia entre residuos empíricos
y teóricos es indicativo de Normalidad.

Figura 3.5

29
RLM: premisas y cautelas

Ejemplo de R
> # Cargar datos
> data(anscombe)

> # Use los modelos del ejemplo anterior

> # Gràfico del QQ-Norm de los residuos residuos (2) (Figura 3.5)
> par(mfrow=c(2,2))
> plot(mod1,2) ; plot(mod2,2) ; plot(mod3,2) ; plot(mod4,2)

Ejercicio 3.4

Ajuste el siguiente modelo con los datos diet del paquete Epi

Valore la premisa de normalidad de los residuos

Recuerde

Mire normalidad en el QQ plot de los residuos

3.5.3. Premisa de independencia

Si los residuos estuvieran aún relacionados entre sí o con alguna variable, tendrían información
relevante que convendría incluir en el modelo. Por ello, conviene estudiar si tienen o no relación
con otras variables predictoras o con la respuesta.

Cuando la recogida de la información sigue un patrón temporal, podría ser que un residuo
‘heredara’ parte del comportamiento del residuo anterior, perdiendo la independencia. Como
siempre, lo más adecuado es diseñar bien el estudio y la recogida de los datos, asegurándonos de
que las diferentes observaciones o casos son independientes los unos de los otros. Para estudiarla
gráficamente, se conectan residuos consecutivos según el orden de recogida de los datos.

30
Bioestadística para no estadísticos

Ejemplo de R
> # Cargar datos
> data(anscombe)
> # Use los modelos del ejemplo anterior
> # Gràfico del residuos contra el orden (2)
> par(mfrow=c(2,2))
> plot(residuals(mod1),type="l");plot(residuals(mod2),type="l")
> plot(residuals(mod3),type="l");plot(residuals(mod4),type="l")

Figura 3.6

Recuerde

31
RLM: premisas y cautelas

Conviene proveer la independencia entre los residuos mediante un buen diseño.


Puede estudiarse conectando residuos consecutivos durante la recogida.

3.5.4. Resumen

Recuerde

Validación gráfica de las premisas:

1. Linealidad (o valor promedio 0): Los residuos han de aparecer distribuidos al


azar por el gráfico y sin presentar tendencia.

2. Igualdad de varianzas: La dispersión de los residuos se ha de mantener


constante a lo largo de los diferentes valores predichos por el modelo.

3. Normalidad: Los residuos se han de ajustar a la recta del Q-Q Plot.

4. Independencia: El diseño y recogida de datos han de contemplar que los casos


son independientes entre sí.

3.6. Observaciones atípicas e influyentes


Siempre es conveniente revisar la muestra, puesto que pueden existir observaciones “extrañas”,
atípicas o demasiado alejadas del resto que perjudiquen la estimación del modelo. Estas
observaciones pueden afectar a los resultados de forma notable ya que entre otras, afectan a los
coeficientes estimados, al ajuste del modelo o a la inferencia.

Recuerde

El gráfico de los residuos estandarizados absolutos según la palanca (leverage)


permite ver la influencia

Clasificamos este tipo de observaciones en tres grupos:

Potencialmente influyentes
Atípicas u outliers
Observaciones con influencia real

3.6.1. Observaciones potencialmente influyentes *

Estas observaciones hacen palanca en la recta y cambian su pendiente.

32
Bioestadística para no estadísticos

El leverage (hii) sirve para conocer el grado de palanca que hace. Es bastante complicado y
laborioso calcular el leverage de cada observación a mano, en cambio con R resulta muy sencillo.

Para saber si el punto es potencialmente influyente compararemos su leverage en valor absoluto con
el valor crítico 2· , donde , siendo k el número de parámetros a estimar y N el número de

individuos (observaciones).

Nota: según como de estricto sea el criterio de detección utilizamos el valor crítico , o,

Ejemplo 3.7: Se tienen los datos del número de cigarros consumidos por cápita de 44
estados (variable cig) y las tasas de muerte por 100.000 habitantes por cáncer de vejiga
(variable cvej) .

Ejemplo R

#Lectura de las dos variables


>cig<-c(18.20, 25.82, 18.24, 28.60, 31.10, 33.60, 40.46, 28.27, 20.10,
27.91, 26.18, 22.12, 21.84, 23.44, 21.58, 28.92, 25.91, 26.92, 24.96,
22.06, 16.08, 27.56, 23.75, 23.32, 42.40, 28.64, 21.16, 29.14, 19.96,
26.38, 23.44, 23.78, 29.18, 18.06, 20.94, 20.08, 22.57, 14.00, 25.89,
21.17, 21.25, 22.86, 28.04, 30.34)
>cvej<-c(2.90, 3.52, 2.99, 4.46, 5.11, 4.78, 5.60, 4.46, 3.08, 4.75,
4.09, 4.23, 2.91, 2.86, 4.65, 4.79, 5.21, 4.69, 5.27, 3.72, 3.06, 4.04,
3.95, 3.72, 6.54, 5.98, 2.90, 5.30, 2.89, 4.47, 2.93, 4.89, 4.99, 3.25,
3.64, 2.94,3.21, 3.31, 4.63, 4.04, 5.14, 4.78, 3.20, 3.46)
#Creación del modelo
>mod1<-lm(cvej ~cig)
#Pida a R los leverages de cada observación con la instrucción
hatvalues(modelo)
>leverage <- hatvalues(mod1)
>k<-1 #Número de parámetros a estimar
>n=length(cvej) #Número de observaciones
>h1<-2*(k/n) #Valor crítico 1 ((más estricto)
#Recuerde que la instrucción which devuelve las observaciones que
cumplen la condición de dentro del parentesis
>which(leverage > h1)
1 3 5 6 7 21 25 34 38

33
RLM: premisas y cautelas

>h2<-2*((k+1)/n) #Valor crítico 2 (menos estricto)


>which(leverage > h2)
7 25 38

Suponga que utilizamos el valor crítico menos estricto: los valores potencialmente influyentes son
los estados 7, 25 y 38.

Como ya se ha comentado, los puntos potencialmente influyentes afectan al pendiente de la recta de


regresión; distinguimos entre dos tipos, influyentes a priori e influyentes a posteriori.

El punto marcado en rojo de la figura 2.1, es uno de los puntos que R ha detectado como
potencialmente influyentes (estado 25), vea como a priori puede parecer una observación
influyente, ya que parece un valor extremo, pero a posteriori no lo es, ya que su eliminación no
provoca que la recta varíe sustancialmente.

Figura 3.7: Izquierda: gráfico con la recta de la regresión teniendo en cuenta el estado 25. Derecha: gráfico
con la recta de regresión (color rojo) sin tener en cuenta el estado 25 y con la recta de regresión (color negro)
teniendo en cuenta el estado 25

En cambio, si añadimos un estado nuevo que sea extremo, por ejemplo con valor de cigarros 59 y
valor de cáncer de vejiga 9.9, sucede lo siguiente:

34
Bioestadística para no estadísticos

Figura 3.8: Izquierda: gráfico con la recta de la regresión teniendo en cuenta el estado 45. Derecha: gráfico
con la recta de regresión (color rojo) sin tener en cuenta el estado 45 y con la recta de regresión (color negro)
teniendo en cuenta el estado 45

En este caso, el estado añadido tiene influencia a priori y a posteriori, ya que la recta si que se se
modifica sustancialmente.

3.6.2. Observaciones atípicas (“outliers”) *

Son aquellas observaciones que presentan un comportamiento muy diferente al resto de


observaciones.

Una forma de detectarlas es mediante un residuo estudentizado mayor en valor absoluto a 2.


Veamos cómo detectarlas con R.

Ejemplo R

#Siguiendo con los datos y el modelo anterior:


#Pida a R los residuos estudentizados de cada observación con la
instrucción rstudent(modelo)
>r <- rstudent(mod1)
#Mediante la instrucción which devuelve las observaciones con un
residuo estudentizado en valor absoluto mayor que 2
>which(abs(r)>2)
26 41 44

Los puntos atípicos o outliers son los estados 26 ,41 y 44

35
RLM: premisas y cautelas

3.6.3. Influencia real *

Decimos que una observación tiene influencia real cuando tiene un mayor efecto en el ajuste que el
resto de observaciones; son aquellas observaciones cuya eliminación provocaría modificaciones
importantes en las estimaciones, errores estándar e intervalos de confianza.

Hay varios métodos de detección; unos de los más sencillos es utilizar la medida DFFITSj, que
indica cuanto cambia el coeficiente estimado bi, tomando como unidad la desviación estándar, si se
elimina a la j-ésima observación.

Mediante R podemos obtener los DFFITS de cada observación y compararlos con el valor crítico,

que es 2 , donde, igual que en el valor crítico de las observaciones potencialmente influyentes, k

es el número de parámetros a estimar y N el número de individuos (observaciones).

Las observaciones cuyos DFFITS superen este valor crítico serán consideradas observaciones con
influencia real.

Nota: Igual que en las observaciones potencialmente influyentes, según lo estricto que se quiera ser a la

hora de detectar las variables con influencia real se puede utilizar el valor crítico 2 o 2 siendo el

segundo menos estricto.

Veamos ahora como detectar los puntos con influencia real usando R:

Ejemplo R

#Siguiendo con los datos y el modelo anterior:


#Pida a R los DFFITS de cada observación con la instrucción
dffits(modelo)
> dff<-dffits(mod1)
> l1 <- 2*sqrt((k)/n) #Valor crítico 1
> which(abs(dff)>l1)
7 26 41 43 44
> l2<-2*sqrt((k+1)/n) #Valor crítico 2
> which(abs(dff)>l2)
44

Si utiliza el valor crítico más estricto sólo devuelve como puntos con influencia real los estados 7,
26, 41, 43 y 44,;en cambio si utiliza el menos estricto, sólo detecta el estado 44.

36
Bioestadística para no estadísticos

Note que cada observación no tiene porqué ser sólo potencialmente influyente, atípica (o outlier) o
tener influencia real; por ejemplo, el caso del estado 44 es una observación atípica y además tiene
influencia real.

3.7. Mejora de las premisas mediante transformaciones*


“Transformar” una variable mediante su logaritmo natural, su raíz cuadrada o su inversa puede
mejorar el cumplimiento de las premisas.

Ejemplo 3.8: el pH es una variable usual con la que Vd. ya trabaja y que incluye una
transformación logarítmica que facilita la valoración de la acidez..

Nota: Por supuesto, este es un tema para “nota”: Sorensen fue extremadamente creativo cuando
propuso el pH.

Ejemplo 3.9: La variable ingresos mensuales/persona es una variable claramente asimétrica


Figura 3.9):

Log(Income)

Figura 3.9: Muchos reciben ‘poco’, y pocos reciben ‘mucho’


A la izquierda vemos la distribución empírica de la variable Income (ingresos mensuales),
claramente asimétrica; a la derecha la misma variable aplicando el logaritmo. Imagine que
quiere hacer una regresión lineal entre Income y la tasa de mortalidad infantil (infant),
también asimétrica, por lo que los casos se concentran en la parte inferior izquierda de la
Figura 3.10; y el ajuste no es bueno ( ).

37
RLM: premisas y cautelas

Figura 3.10

Pero al transformarlas con un logaritmo, se obtiene (Figura 3.11).

Figura 3.11

Se pueden aplicar otras transformaciones, tanto en los predictores como en la respuesta:

1. Recíproco:

2. Raíz cuadrada:

Tukey y Mosteller, propusieron empezar por transformar las predictoras una a una, ya que hacerlo
con la respuesta Y afectará a su relación con todas las predictivas.

Por supuesto, si transforma una o varias variables del modelo, deberá ser cuidadoso con las
interpretaciones y predicciones.

38
Bioestadística para no estadísticos

3.8. Relaciones no lineales *


A veces la validación del modelo es satisfactoria en cuanto a igualdad de varianzas y normalidad de
residuos, pero la relación entre la variable respuesta y explicativa no es de tipo lineal. De hecho,
suponer dicha linealidad es una simplificación en la mayoría de problemas reales, ya que las
relaciones pueden ser más complejas.

Ejemplo 3.10: La relación entre la edad de una persona y su altura no es lineal, pues llega
un momento que por mucho que aumente la primera, no lo hace la segunda: la altura tiene
un máximo, un punto de saturación.

Ejemplo 3.11: Se quiere establecer un modelo de regresión para predecir el consumo


eléctrico mensual a partir de la superficie de dicha casa en pies cuadrados.

Ejemplo R
>home<-c(1290,1350,1470,1600,1710,1840,1980,2230,2400,2930)
> kw<-c(1182,1172,1264,1493,1571,1711,1804,1840,1956,1954)
#Genere el modelo
> modelo<-lm(kw~home)
> summary(modelo)
Call:
lm(formula = kw ~ home)
Residuals:
Min 1Q Median 3Q Max
-208.02 -105.36 52.89 77.29 155.27
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 578.92775 166.96806 3.467 0.008476 **
home 0.54030 0.08593 6.288 0.000236 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 133.4 on 8 degrees of freedom
Multiple R-squared: 0.8317, Adjusted R-squared: 0.8107
F-statistic: 39.54 on 1 and 8 DF, p-value: 0.0002359

> plot(kw~home)
> abline(modelo,col=2)

39
RLM: premisas y cautelas

Figura 3.12

Con un . Supongamos que la validación de los residuos es correcta en cuanto a varianzas


y normalidad. Note que la relación entre ambas variables es más bien cuadrática (

Figura 3.12).

#Genere el nuevo modelo, con la variable explicativa elevada al


cuadrado
> modelo2<-lm(kw~I(home^2))
> summary(modelo2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.134e+03 1.111e+02 10.200 7.32e-06 ***
I(home^2) 1.221e-04 2.589e-05 4.716 0.00151 **
---
Residual standard error: 167.3 on 8 degrees of freedom
Multiple R-squared: 0.7355, Adjusted R-squared: 0.7024
F-statistic: 22.24 on 1 and 8 DF, p-value: 0.00151

Para añadir un término cuadrático en R utilizamos I(variable^2).

Como el coeficiente de determinación es más bajo que con el primer modelo, conviene ver qué pasa
si añadimos un término lineal al modelo.

40
Bioestadística para no estadísticos

#Genere el modelo con el nuevo término


> modelo3<-lm(kw~home+I(home^2))
> summary(modelo3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.216e+03 2.428e+02 -5.009 0.001550 **
home 2.399e+00 2.458e-01 9.758 2.51e-05 ***
I(home^2) -4.500e-04 5.908e-05 -7.618 0.000124 ***
---
Residual standard error: 46.8 on 7 degrees of freedom
Multiple R-squared: 0.9819, Adjusted R-squared: 0.9767
F-statistic: 189.7 on 2 and 7 DF, p-value: 8.001e-07

Vea cómo ahora el cambio en el coeficiente de determinación es grande, y que un 98% de la


variación en el consumo de energía en el hogar se explica por la superficie del mismo.

41
RLM: premisas y cautelas

Soluciones a los ejercicios


1.1 . a)
> install.packages("Epi")
> library("Epi")
> data(diet)

b)
> mod.b <- lm(weight~fat,diet)
> summary(mod.b)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.3583 3.1339 18.302 < 2e-16 ***
fat 1.1894 0.2414 4.928 1.32e-06 ***
[...]

El coeficiente de la cantidad de grasa diaria ingerida es 1.19.

c)
> mod.c <- lm(weight~fat+energy,diet)
> summary(mod.c)
[...]
(Intercept) 54.6308 3.7101 14.725 <2e-16 ***
fat 0.6940 0.4348 1.596 0.111
energy 0.3194 0.2333 1.369 0.172
[...]

El error estándard es 0.69. El motivo de este cambio es que la cantidades diarias de grasa y energía ingereidas están
muy correlacionadas; concretamente, en este juego de datos, la correlación de Pearson entre ambas variables es de
0.83:

> with(diet,cor(fat,energy))

[1] 0.8319827

1.2 a) Revise el ejercicio 1.1 a)

b) > mod.b <- lm(weight~fat,diet)


> summary(mod.b)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.3583 3.1339 18.302 < 2e-16 ***
fat 1.1894 0.2414 4.928 1.32e-06 ***
[...]

El error estándard es 0.24.

c)
> mod.c <- lm(weight~fat+energy,diet)
> summary(mod.c)
[...]
(Intercept) 54.6308 3.7101 14.725 <2e-16 ***
fat 0.6940 0.4348 1.596 0.111
energy 0.3194 0.2333 1.369 0.172
[...]

El error estándard es 0.43. Como ya se ha mencionado, el motivo de este incremento es que la cantidades diarias de
grasa y energía ingereidas están muy correlacionadas (r = 0.83)

42
Bioestadística para no estadísticos

1.3 library(Epi)
> data(births)
> mod <- lm(bweight~gestwks+matage+sex,births)
> vif(mod)
gestwks matage sex
1.000825 1.002048 1.001665

En este caso, no hay colinealidad entre las variables, por tanto, no habría problema en incluirlas todas en un modelo.
1.4 > library(faraway)
> data(diabetes)
> mod <- lm(chol~ stab.glu + hdl + glyhb + location +
age + gender + height + weight + frame +
bp.1s + bp.1d + bp.2s + bp.2d + waist +
hip + time.ppn ,diabetes)
> vif(mod)
stab.glu hdl glyhb locationLouisa
3.382033 1.442216 3.807874 1.226260
age genderfemale height weight
2.007954 2.719588 2.497786 8.815676
framemedium framelarge bp.1s bp.1d
2.200824 2.694424 5.351977 3.459947
bp.2s bp.2d waist hip
5.802834 3.654930 4.699834 8.360927
time.ppn
1.210357

Por tener vif > 5, cConvendría quitar una a una a las variables weight, bp.1s, bp.2s y hip, para ver si, al reducir el
modelo, vif sigue siendo superior a 5 para las restantes variables.

2.1 a) Cierta. b) Cierta. c) Cierta. d) Falsa, no tiene sentido mirar los efectos de forma independiente ya que son
variable correlacionadas.
2.2 a) Cierta. B) Falsa (es al revés). C) Falsa (es R2)
2.3 Para el modelo step-down, se debe ajustar el mismo modelo del ejemplo previo y aplicar la función step con
direction=”backward”.
> mod <- lm(chol~ stab.glu + hdl + glyhb + location + age + gender + height + weight + frame +
bp.1s + bp.1d + bp.2s + bp.2d + waist + hip + time.ppn ,diabetes.complete)
> mod.down <- step(mod,direction="backward",trace=0)
> summary(mod.down)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 130.3837 15.0170 8.682 1.61e-14 ***
hdl 0.6640 0.2037 3.259 0.00143 **
glyhb 8.9534 1.4576 6.143 9.66e-09 ***
[...]

Para el modelo step-up, es ligeramente más complicado porque debe partir del modelo más simple sin ninguna
variable predictora. Al aplicar la función step con direction=”forward”, en scope se debe especificar las variables
candidatas al modelo.

> mod.simple <- lm(chol~1,diabetes.complete)


> mod.up <- step(mod.simple, scope=list(upper=~stab.glu + hdl + glyhb + location + age + gender +
height + weight + frame + bp.1s + bp.1d + bp.2s + bp.2d + waist + hip +
time.ppn),direction="forward",trace=0)
> summary(mod.up)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 130.3837 15.0170 8.682 1.61e-14 ***
glyhb 8.9534 1.4576 6.143 9.66e-09 ***
hdl 0.6640 0.2037 3.259 0.00143 **
[...]

Observa que llega al mismo modelo final independientemente de la metodología escogida.

43
RLM: premisas y cautelas

2.4 1) Todas las variables tienen en el modelo univariante tienen una p < 0.25, por lo que seleciona todas.
> summary(lm(weight ~ height,diet))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -59.91601 14.31557 -4.185 3.66e-05 ***
height 0.76421 0.08252 9.261 < 2e-16 ***

> summary(lm(weight ~ energy,diet))


Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.7076 3.7184 14.713 < 2e-16 ***
energy 0.6293 0.1296 4.854 1.86e-06 ***

> summary(lm(weight ~ fat,diet))


Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.3583 3.1339 18.302 < 2e-16 ***
fat 1.1894 0.2414 4.928 1.32e-06 ***

> summary(lm(weight ~ fibre,diet))


Estimate Std. Error t value Pr(>|t|)
(Intercept) 61.2132 1.7884 34.227 < 2e-16 ***
fibre 6.4741 0.9862 6.565 2.05e-10 ***

2) Ajuste el modelo con todas las variables seleccionadas.


> mod1 <- lm(weight~height+energy+fat+fibre,diet)
> summary(mod1)
[...]
Estimate Std. Error t value Pr(>|t|)
(Intercept) -55.61672 13.95372 -3.986 8.32e-05 ***
height 0.65910 0.08077 8.160 7.54e-15 ***
energy 0.07232 0.22905 0.316 0.752404
fat 0.40922 0.39630 1.033 0.302556
fibre 3.76150 1.07390 3.503 0.000526 ***
[..]

3) Elimine variables 1 a 1 empezando por la menos significativa, en este caso, elimine energy
> mod2 <- lm(weight~height+fat+fibre,diet)
> summary(mod2)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -54.87820 13.73716 -3.995 8.02e-05 ***
height 0.65790 0.08057 8.166 7.20e-15 ***
fat 0.51073 0.23140 2.207 0.028003 *
fibre 3.89132 0.99070 3.928 0.000105 ***

Todas quedan significativas y los coeficientes no han variado sustancialmente.

4) No tiene sentido volver a añadir la variable energy porque no será significativa

5) No tiene sentido considerar interacciones con estas variables.

6) La validación la veremos más adelante.

Por tanto, el modelo seleccionado incluye las variables predictivas height, fat and fibre. En este caso, el proceso
automático de selección hubiese llevado al mismo modelo final;
> mod1step<-step(mod1,trace=0)
> summary(mod1step)
[…]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -54.87820 13.73716 -3.995 8.02e-05 ***
height 0.65790 0.08057 8.166 7.20e-15 ***
fat 0.51073 0.23140 2.207 0.028003 *
fibre 3.89132 0.99070 3.928 0.000105 ***
---
[…]

44
Bioestadística para no estadísticos

2.5 Las variables altura y peso estarán muy correlacionadas entre sí y la presencia de la altura modifica el coeficiente
del peso por colinealidad. En este caso hipotético, este resultado debería ser interpretado como que, a nivel fijo de
altura, son los que menos pesan los que tienen más colesterol.
3.1 Las parejas que cumplen la premisa de linealidad son la 1 y la 3; la 2 parece que sigue una parábola y la 4 tiene
todos los puntos en un mismo valor de x (exceptuando el punto extremo). b) En este caso también cumplen la
homoscedasticidad las parejas 1 y 3. c) Las parejas 3 y 4 son las que tienen un punto muy alejado del resto de
observaciones que, por sí sólo influye en la recta estimada.
3.2 > data(diet)

> mod <- lm(weight~height+fat+fibre,diet)

> par(mfrow=c(1,1))

> plot(mod,1)

Se cumple de forma razonable la premisa de linealidad. La ligera


curvatura que presenta la línea roja en los extremos nos debe poner
en alerta pero debe tenerse en cuenta que está determinada por unos
pocos puntos.

3.3 > data(diet)

> mod <- lm(weight~height+fat+fibre,diet)

> par(mfrow=c(1,1))

> plot(mod,3)

Se observa que los puntos se distribuyen homogéneamente a lo largo


de los valores predichos. El hecho de existir mayor separación en la
parte central se debe a una mayor densidad de predicciones en este
intervalo.

3.4 > data(diet)

> mod <- lm(weight~height+fat+fibre,diet)

> par(mfrow=c(1,1))

> plot(mod,2)

Los residuos se distribuyen a lo largo de la recta con lo que es


coherente pensar que se distribuyen normalmente.

45

Вам также может понравиться