Академический Документы
Профессиональный Документы
Культура Документы
y anlisis multivariado
Miguel ngel Martnez Gonzlez, Jokin de IralaEstvez
En este apartado se exponen los principios del estudio formal de factores pronsticos que
condicionan la supervivencia de un paciente1-4. Tambin se puede considerar como resulta-
do la aparicin de complicaciones o la curacin en vez de la muerte. En este segundo caso
lo que se suele estudiar es la supervivencia libre de complicaciones. Por tanto, aunque se
le siga denominando anlisis de supervivencia, no siempre tiene que ser la muerte el acon-
tecimiento de desenlace. Pero en principio debe tratarse de acontecimientos que, como la
muerte, marcan un punto de no retorno. Los procedimientos ms habituales requieren
adems que el desenlace slo pueda ocurrir una vez como la muerte.
Para valorar el pronstico, en ambas situaciones, suelen aplicarse tcnicas estadsticas
de anlisis de supervivencia3. La supervivencia incorpora el concepto dinmico del tiempo
y es por tanto una variable compuesta de dos elementos: respuesta y tiempo. La respuesta
o desenlace de inters no es una cantidad numrica1, como la presin arterial, ni una cua-
lidad dicotmica como enfermar o no, sino que toma la forma de tiempo transcurrido hasta
un suceso (time-to-event), lo que supone utilizar como desenlace o respuesta (variable
1
2 Manual de medicina basada en la evidencia (Captulo 17)
se representa el tiempo de seguimiento de cada paciente por una lnea. Hay dos situaciones
posibles: aqullos cuyo periodo de seguimiento acaba porque fallecen (representados por
una cruz) o aquellos que estn vivos cuando dejan de ser observados (se van del estudio, se
trasladan de ciudad, acaban el estudio estando vivos), en estos se representa su final por
una seal de visto bueno.
Por ejemplo, el primer paciente muri tras haber estado 5 aos en el estudio y el
ltimo paciente entr tarde y muri a los 3,5 aos de entrar en el estudio. A pesar de que
el seguimiento de cada paciente suele haberse empezado en fechas de calendario diferen-
tes, debe imaginarse que todos han empezado el estudio en la misma fecha. Esto supone
asumir que se trata de pacientes homogneos en el sentido de que los distintos tiempos
de entrada en el estudio no estn relacionados con el efecto de inters.
5 1, 5 0
3 2 1
6 3, 5 1
2 4 0
4 4 0
1 5 1
La primera columna indica el nmero de identificacin de cada paciente. La segunda, el tiempo durante el cual se le ha obser-
vado. La tercera columna indica el estado del paciente al final del seguimiento. Se ha asignado un 1 a los que han fallecido
(su tiempo de seguimiento es, por tanto, la duracin de su supervivencia) y un 0 a los que seguan vivos al final del segui-
miento. Es muy importante que los datos se hayan ordenado segn el tiempo de observacin en orden ascendente
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
peculiares, que probablemente tendrn una supervivencia distinta (mejor o peor) de los
que son seguidos hasta el final.
En el ejemplo de los 6 pacientes antes comentado, si se excluyen los casos de los cuales
no se sabe cunto han tardado en morir, ya que la ltima informacin sobre ellos es que
seguan vivos Pacientes censurados (pacientes 5, 2 y 4 que se han sombreado); y se conside-
ran slo aquellos que se sabe cuanto han tardado en morir (pacientes 3, 6 y 1), se podra
calcular fcilmente la supervivencia.
Si nos olvidsemos de los censurados, podra pensarse que la supervivencia (S) en cada
tiempo valdra:
A los 3,5 aos: han muerto 2 y sobrevive 1 ........................ S3,5 = 1/3 = 0,33 (33%)
Pero hacer esto no es correcto, pues supone, por un lado desaprovechar la informacin que
proporcionan los sujetos 5, 2 y 4 y, por otro lado, algo ms importante: no es verdad, por
ejemplo que a los 3,5 aos la supervivencia sea del 33%, ya que los pacientes nmero 2 y 4
han sobrevivido al menos 4 aos. Por tanto, hay que usar un mtodo que incluya en los
clculos a estos pacientes, como el 5, 2 y 4, de los que tenemos una informacin truncada
o censurada. En el mtodo de KaplanMeier para aprovechar esta informacin la super-
vivencia a tiempo t (St) se define como:
Si
St =
ni
Donde la letra pi mayscula (P) es un smbolo anlogo al sumatorio (S), pero que significa
productorio o multiplicatorio, es decir, en vez de expresar sumar todo quiere decir
multiplicar todo; si son los supervivientes en el tiempo ti, y ni son los que estn a riesgo de
fallecer al inicio del tiempo ti. Es el producto de una serie de probabilidades condicionales,
y se calcula por multiplicacin. La condicin es haber llegado vivo hasta el instante inme-
diatamente anterior a ese tiempo ti. Lo que expresa este estimador de KaplanMeier no es
una nica cantidad, sino una funcin que variar a lo largo del tiempo, por eso se indica
como St, donde el subndice t indica que la supervivencia ser distinta de un tiempo a otro.
En la cuadro 172 se representa, paso a paso cmo se calcula el estimador de Kaplan
Meier para los datos del ejemplo.
Cualquier anlisis de supervivencia se suele acompaar de la respectiva representacin
grfica para expresar visualmente cmo va disminuyendo la probabilidad de sobrevivir a
medida que pasa el tiempo. Siempre se sita el tiempo en el eje de abscisas (x) y la
estimacin del el porcentaje de los que sobreviven en el eje de ordenadas (y). Las curvas
de supervivencia calculadas con el mtodo de KaplanMeier son un procedimiento des-
criptivo: sirven para resumir la historia de una serie de pacientes en cuanto a su riesgo de
fallecimiento, o visto en trminos positivos, en cuanto a su probabilidad de supervivencia.
Anlisis de supervivencia y anlisis multivariado 5
5 1, 5 0
3 2 1 4/5 = 0, 8 0, 8
6 3, 5 1 3/4 = 0, 75 0, 8 0, 75 = 0, 6
2 4 0
4 4 0
1 5 1 0/1 = 0 0, 6 0 = 0
Las 3 primeras columnas coinciden con las del cuadro 171. La penltima columna estima la proporcin de pacientes que so-
breviven ms all de cada tiempo, pero slo se clcula para aquellos tiempos en los que se observa algn fallecimiento. Por
ejemplo, hay 5 pacientes a riesgo de fallecer a los 2 aos (ni = 4), stos son los pacientes 3, 6, 2, 4 y 1; de ellos sobrevi-
ven 4 (si = 4). El cociente si / ni = 0, 8 estima la probabilidad de sobrevivir 2 o ms aos. La ltima columna corresponde al es-
timador de Kaplan-Meier y va multimplicando los cocientes si / ni de cada tiempo por el producto previo. As, podremos decir
que la supervivencia acumulada a los 2 aos era del 80%, a los 3, 5 aos del 60% y a los 5 aos del 0%
Como muestra la figura 172, para construir una curva de supervivencia se deben dar
los siguientes pasos:
importante hacer notar que entre los que entran a riesgo de morir (ni) se incluyen
tambin el individuo o individuos que van a morir en ese periodo, aunque mueran
justamente en el inicio del periodo.
d. Multiplicar en cada periodo de tiempo los cocientes (si/ni) por los de los tiempos
anteriores. La supervivencia en ese momento ser precisamente este producto.
e. Finalmente, siempre es recomendable representarlo grficamente. Se debe empezar con
una supervivencia de 1, que se mantiene hasta que se produce el primer falleci-
miento. En ese momento la grfica da un salto correspondiente al descenso de la super-
vivencia a partir de ese momento (en el ejemplo pasa a 0,80). Y as sucesivamente.
Cuando el ms largo de los tiempos corresponde a alguien que segua vivo al final del
periodo de observacin, se deja una lnea horizontal al final. Si todos hubieran fallecido
(como sucede en el ejemplo) se traza una vertical hasta el punto 0 de supervivencia. En la
figura 172 se ha presentado la curva que de KaplanMeier correspondiente a los datos del
ejemplo. Se observa en la figura 173 que los saltos se dan slo cuando ocurre alguna
muerte, cabra preguntarse entonces: si slo los pacientes fallecidos provocan un salto en la
6 Manual de medicina basada en la evidencia (Captulo 17)
1,0
,9
,8
,7
,6
Supervivencia acumulada
,5
,4
,3
,2
,1
0,0
1 2 3 4 5 6
TIEMPO (AOS)
Figura 172. Curva de Kaplan-Meier representando la supervivencia acumulada durante el se-
guimiento de 6 pacientes. Puede observarse que, como es lgico, slo hay cambios en la super-
vivencia cuando muere algn paciente. Se han observado 3 muertes (a los 2, 3,5 y 5 aos). Los
otros 3 pacientes estn censurados.
curva cmo influyen los individuos que no fallecen (censurados) en las estimaciones de la
supervivencia? La respuesta es que cada dato censurado influye disminuyendo el denomi-
nador de los cocientes si/ni, con lo que, aunque un individuo truncado no provoque un
salto, s provoca una mayor magnitud en el tamao del siguiente salto.
En la cuadro 173 hay otro ejemplo con su solucin. Se ha representado la curva de
Kaplan-Meer de este segundo ejemplo en la figura 173.
,9
si
si
TIEMPO ESTADO ni ni ,8
Supervivencia acumulada
,7
1 0 ,6
1 1 9/10 = 0, 9 0, 9 ,5
2 1 ,4
2 1 6/8 = 0, 75 0, 9 75 = 0, 68 ,3
3 0 ,2
3 0 ,1
Lo que hay que hacer en cambio para comparar dos o ms curvas de supervivencia es
usar diversos tests especficamente diseados para ello y que tienen en cuenta toda la
historia de seguimiento de los pacientes en vez de considerar slo un punto en el tiempo, es
decir detectan diferencias persistentes a lo largo del tiempo en la supervivencia.
8 Manual de medicina basada en la evidencia (Captulo 17)
Hiptesis nula (H0): las supervivencias de los grupos que se comparan (2 ms) es la
misma.
Hiptesis alternativa (H1): al menos uno de los grupos tiene una supervivencia diferente.
Estadstico utilizado: jicuadrado con k-1 grados de libertad, siendo k el nmero de
grupos (n de curvas que se comparan).
As, para la supervivencia acumulada a 2 aos que aparece en la cuadro 173, su error
estndar se calculara multiplicando la supervivencia estimada (0,68) por la suma de los
cocientes entre fallecidos y el producto de totales por supervivientes sumando los del
tiempo previo (1/(10 9)) y los de ese tiempo (2/(8x6)). Es decir, el error estndar valdra
EES2=0,68 [(1/90)+(2/48)]0,5 = 0,16. En cambio, para la supervivencia al ao, EES1=0,9
(1/90)0,5= 0,095. Para los 5 aos, EES1= 0,19.
Una aproximacin poco fina pero conservadora para estimar los intervalos de confianza al
95% ser aplicar la siguiente expresin:
Por ejemplo, si en el listado de SPSS vemos la salida que aparece en las tres primeras
columnas de la cuadro 174 (corresponden a los datos del ejemplo de la cuadro 173), las
estimaciones de supervivencia con sus lmites de confianza seran las presentadas en las dos
ltimas columnas de la tabla.
1 0, 9 0, 0949 0, 71 1, 09
2 0, 675 0, 1551 0, 37 0, 99
5 0, 5063 0, 1868 0, 14 0, 88
7 0, 3375 0, 1857 -0, 03 0, 71
9 0, 1688 0, 1512 -0, 13 0, 47
Con los datos del cuadro 173 se han calculado los errores estndar y la estimacin de los intervalos de confianza al 95% para
la supervivencia. Las 2 primeras columnas coinciden con la primera y la ltima del cuadro 173, la tercera columna recoge los
errores estndar (son los que suelen presentar los programas de software convencionales, como SPSS) y las dos ltimas el in-
tervalo de confianza calculado simplemente al restar y sumar 1, 96 veces el error estndar a cada estimacin de la superviven-
cia. como puede verse, hay lmites de confianza que exceden de 1 y otros que son negativos, lo cual es absurdo. En el cuadro
175 se presentan las estimaciones ms adecuadas, libres de este problema.
Pero, el mtodo simplista de sumar y restar 1,96 veces el error estndar a la supervi-
vencia estimada es desaconsejable porque proporciona intervalos de confianza que son ne-
gativos y otros que exceden de 1,0, lo cual es absurdo. Se puede usar otra expresin ms
adecuada3, calculando un error estndar transformado (EEt).
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
Donde ln significa logaritmo natural (neperiano) y EXP supone elevar a la cantidad corres-
pondiente el nmero e, base de los logaritmos naturales. As, para la supervivencia a 5 aos
del ejemplo anterior (S5 = 0,5063), el intervalo de confianza al 95% sera:
1 1 2 1
EEt = + + = 0,54
(ln[0,5063]) 10 9 8 6 4 3
2
En la cuadro 175 se recogen los intervalos de confianza para cada tiempo, as calculados.
Puede apreciarse que los intervalos de confianza son ms estrechos y adems nunca son
inferiores a 0 ni superiores a 1.
Cuadro 175. Con los mismos datos de los dos cuadros anteriores se han calculado los
errores estndar transformados (EEt) y la estimacin de los intervalos de confianza al
95% para la supervivencia donde ya se calculan con la expresin adecuada para que
no sobrepasen nunca la unidad o el 0. Este mtodo es el ms aconsejable
1 n s
EEt = i i
(ln[S ])
TIEMPO SUPERVIVENCIA 2 IC 95%
ni si
1 0, 9 1 0, 47 0, 99
2 0, 675 0, 58 0, 29 0, 88
5 0, 5063 0, 54 0, 14 0, 79
7 0, 3375 0, 51 0, 05 0, 67
9 0, 1688 0, 83 0, 00 0, 70
Puede programarse una hoja de clculo (p. ej., en Microsoft Excel) para obtener intervalos
de confianza al 95% de la supervivencia a partir del output convencional que proporciona
un paquete estadstico de anlisis de supervivencia. Se indican a continuacin las rdenes
que deben drsele a la hoja de clculo5. Si se ha introducido el valor de la supervivencia en
la casilla A2 y su error estndar convencional (el que aparece por ejemplo en SPSS en la
casilla B2), deber indicarse
ANLISIS MULTIVARIADO
te o para realizar predicciones. Por ejemplo, puede resultar de inters conocer qu factores
pronsticos influyen en la supervivencia de los pacientes con infarto de miocardio, o si la
supervivencia de los pacientes con un determinado tumor se ve afectada por diversos
tratamientos (quimioterapia, radioterapia) u otros factores, como por ejemplo, el estado
psicolgico del paciente. En general, la aplicacin de una tcnica de anlisis multivariante
significa que se tienen en cuenta simultneamente muchas variables en el anlisis de los
datos. La principal ventaja que ofrecen estas tcnicas, es que permiten controlar de modo
eficiente muchos factores de confusin al mismo tiempo cuando se trata de estudiar aso-
ciaciones potencialmente causales entre una determinada exposicin y un efecto o desen-
lace. sta ha sido y sigue siendo su principal aplicacin en la investigacin mdica en las
ltimas 3 dcadas. El ajuste multivariante supone la aplicacin de un modelo matemtico
que hace ms comparables a los grupos de individuos expuestos y no expuestos, evitando
la distorsin que supondra que, por ejemplo, los expuestos fuesen de mayor edad o se
encontrasen con mayor frecuencia sometidos a otros factores pronsticos distintos del que
se est estudiando. As se consigue que la comparacin de inters quede depurada de otros
factores y se pueda apreciar mejor cul es su efecto verdaderamente independiente. Hay
muchos procedimientos y tcnicas de ajuste multivariante. Los ms utilizados se suelen
basar en un modelo de regresin. El ms simple es la regresin lineal.
REGRESIN MLTIPLE
Se emplea cuando se desea estudiar como influyen varios factores (o variables indepen-
dientes) en una sola variable de respuesta (la variable dependiente o desenlace), que ha de
ser en este caso una variable cuantitativa numrica, como por ejemplo la talla o el peso. La
ecuacin de la regresin lineal simple es la ecuacin de una recta; ste es el modelo mate-
mtico ms sencillo:
y = a + bx
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
y = 30 + 8 x1 + 0,06x2 + 0,07x3
Talla = 30 + 8(Edad) + 0,06(Tallapadre) + 0,07(Tallamadre)
La interpretacin ser que por cada ao ms de edad que cumple el nio su talla aumenta
en 8 cm, independientemente de cul sea la talla del padre o de la madre. Por cada cm ms
de altura del padre, el nio tendr, (sea cual sea su edad y sea cual sea la talla de su madre)
0,06 cm ms de altura. Y por cada cm ms de altura de la madre, el nio ser 0,07 cm ms
alto, independientemente de cul sea la altura de su padre y cul sea su edad.
Es posible tambin introducir variables categricas en el modelo tales como el sexo del
nio. Para ello introduciramos en el modelo otra nueva variable (sexo= x4), con dos cdi-
gos: varn = 1 y mujer = 0. Generalmente se le da el valor 0 a aquella categora en la que se
espera un nivel menor o basal. Cmo las nias suelen tener una menor talla que los nios
se les da en este ejemplo el valor 0. Un ejemplo del modelo que se obtendra al ajustar as
una regresin mltiple sera el siguiente:
y = 30 + 4x1 +8x2
Talla = 30 + 30 +4(Sexo) +8(Edad)
REGRESIN LOGSTICA
dicotmica, es decir con dos posibilidades, como por ejemplo estar sano o enfermo, res-
ponder a un tratamiento o no responder, etc. en vez de utilizar la regresin lineal, se va a
utilizar la regresin logstica. En este caso, al ser dicotmica la respuesta o resultado, se
hablara de regresin logstica binaria.
La regresin logstica se usar, por tanto, cuando se valoran diversos predictores de un
resultado o desenlace que tiene carcter dicotmico. Por ejemplo cuando se intentan valorar
las variables que pueden predecir la aparicin de diabetes. El coeficiente bi de cada uno de
los predictores utilizado como exponente del nmero e, base de los logaritmos naturales,
equivale a la odds ratio (OR), como se explica a continuacin.
La funcin logstica es aqulla que halla, para cada individuo, segn los valores de un
factor predictor (x), la probabilidad (p) de que presente el efecto o desenlace estudiado. La
expresin de la funcin logstica es:
Con una manipulacin algebraica de esta ecuacin, tomando logaritmos neperianos (ln), se
obtiene una funcin llamada logit y hace que se parezca a la regresin lineal:
ln (p/1-p) = a + bx
Esta expresin, en efecto, es muy similar a la sencilla ecuacin de la recta. El nico cambio es
que se ha sustituido la variable dependiente (y) por otra expresin. Ahora la variable de-
pendiente es el logaritmo neperiano (ln) de la probabilidad (p) de que ocurra un suceso,
dividido por la probabilidad de que no ocurra (1p). A ln (p/1-p) se le llama el logit. Es decir:
logit = ln (p/1-p)
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
Debemos decir que lo que hay dentro del parntesis (p/1-p) corresponde al concepto de odds.
A este cociente se le llama en ingls odds y en espaol se ha querido traducir por ventaja.
Una odds es la probabilidad (p) dividida por el complementario de la probabilidad (1-p).
p
odds =
1 p
Es ms fcil calcular una odds que definirla. Si en un estudio que incluye a 250 pacientes
obesos, 50 de ellos han desarrollado despus diabetes, la odds de desarrollar diabetes se
calculara dividiendo 50 entre 200 (odds =1/4). Tambin puede expresarse como una odds
= 1:4 y se interpreta como que apareci un diabtico por cada 4 no-diabticos.
14 Manual de medicina basada en la evidencia (Captulo 17)
P (diabetes) 50 / 250 50 1
ODDS = = = =
P (no diabetes) 200 / 250 200 4
odds
p=
1 + odds
Como puede apreciarse en la cuadro 176, la odds ratio (OR) es simplemente el co-
ciente entre las odds del resultado, en este caso, el resultado es dejar de fumar. Tambin
puede calcularse la odds ratio mediante el cociente de los productos cruzados de la tabla
2x2 (figura 175). El resultado (OR = 8,88) significa que para la intervencin se ha obser-
vado una efectividad que casi 9 veces mayor que para el grupo control.
Figura 175. La odds ratio (OR) se calcula en un tabla 2 2 mediante la rzn de los productos
cruzados.
Nos hemos detenido en explicar el concepto de odds ratio (OR) porque esta medida
de asociacin es el fruto ms interesante que se suele obtener habitualmente al hacer una
regresin logstica. Calcular la OR mediante regresin logstica aporta la ventaja de que se
puede ajustar esta medida por otras variables que tambin pudiesen influir en el resultado
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
(p. ej., en el caso anterior podra pensarse que es ms fcil que respondan bien a una
intervencin los diabticos con mayor nivel educativo y debera plantearse la cuestin de si
el nivel educativo medio del grupo de intervencin y del grupo control eran similares). A
esas otras variables se les llama factores de confusin y se pueden controlar o ajustar por
ellos mediante un modelo de regresin logstica8-9. En efecto, volviendo a la regresin
logstica, la ecuacin antes vista
ln (p/1-p) = a + bx
bi = ln (OR)
OR = antilog(bi)
Esto hace a la regresin logstica un procedimiento muy til para construir modelos mate-
mticos que ajusten por factores de confusin, ya que sus resultados son interpretables
como odds ratios estimadas en el supuesto de que los dems factores incluidos en el mode-
lo (los otros predictores: x2, x3,...xp) fuesen exactamente iguales para los individuos de los
grupos que se comparan. Por este motivo, la regresin logstica es muy utilizada, cada vez
ms, tanto en epidemiologa de factores de riesgo como en epidemiologa clnica, ya que
libera a las estimaciones de la presencia de confusores indeseados8.
Por ejemplo, si a los datos de la cuadro 176 le aplicamos una regresin logstica
univariante, utilizando como variable dependiente (resultado) el cese del tabaco y como
variable independiente la intervencin, un programa convencional (SPSS) encontrara los
resultados recogidos en la cuadro 177.
La salida de ordenador presenta el coeficiente b que vale 2,183, su error estndar (E.T.),
un test estadstico (test de Wald) y el valor de la odds ratio (Exp(B)). Esta odds ratio es
Anlisis de supervivencia y anlisis multivariado 17
equivalente a la calculada a mano. Sin embargo, podemos pedirle al ordenador que ajuste la esti-
macin de la odds ratio por otras variables potencialmente confusoras, por ejemplo, la edad y
el sexo, entonces los resultados seran los presentados en la cuadro 178.
Ahora puede afirmarse que a igualdad de sexo y edad, la intervencin tiene una odds
ratio de 9,3 para lograr el cese del tabaco. Esto es lo que significa que se haya ajustado. Se
ajusta por una variable cuando se introduce esa variable en el modelo. Con este ejemplo, se
aprecia que resulta interesante la regresin logstica porque puede servir para estimar la
fuerza de la asociacin de cada factor con el desenlace de una manera independiente. La
estimacin independiente quiere decir que se han controlado otros factores (se ha liberado
a la odds ratio de esos factores de confusin).
Si se desea saber cul es la odds ratio para una diferencia de edad de 10 aos, se multi-
plicara por 10 el coeficiente de la edad (0,025) y se elevara el nmero e a la cantidad
resultante.
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
Por cada 10 aos ms de edad aumentara en un 28,4% la odds de dejar el tabaco, indepen-
dientemente de que el paciente hubiera sido sometido o no a la intervencin y de su sexo.
Esto significa que estamos comparando dos sujetos que estn en el mismo grupo (ya sea el
grupo de intervencin o el de control) y que son del mismo sexo, pero que se llevan 10
aos de diferencia. Entonces es ms probable que el mayor de ellos sea el que deje de
fumar. Pero esta ventaja con la edad no resulta estadsticamente significativa, ya que el
valor p para la edad en el test de Wald fue de 0,107.
De todos modos, siempre estamos ante el paradigma de la estadstica, porque com-
paramos un efecto con un error4-5, y habra que considerar que las estimaciones de
odds ratios nunca son perfectas y existe una amplia variabilidad individual, que en princi-
pio es aleatoria. No se pueden establecer predicciones individuales, pero los modelos son
tiles para saber cul ser la respuesta promedio en un grupo suficientemente numeroso
de pacientes. Para medir la fuerza del efecto de la intervencin se utiliza la /odds ratio6. Lo
ms interesante es que el efecto favorable de la intervencin se da a igualdad de nivel de
18 Manual de medicina basada en la evidencia (Captulo 17)
edad y sexo. Es decir, de modo independiente de la edad y sexo. El modelo est ajustado
por edad y sexo9. Cada predictor independiente (xi) que se introduzca en el modelo supo-
ne un ajuste y un control del sesgo de confusin que ese predictor podra provocar. Al igual
que en la regresin lineal mltiple, es posible introducir variables independientes (xi) cate-
gricas o dicotmicas en los modelos (el sexo en nuestro caso). Tambin es posible incluir
como variables independientes, variables cualitativas con varias categoras, como estado
civil (soltero, casado, viudo, etc.). Pero ello requerira la creacin de una serie de variables
artificiales tambin conocidas como variables indicadoras o variables dummy.
La regresin logstica se emplea habitualmente en uno de los diseos epidemiolgicos
mas utilizados: los estudios de casos y controles8. Sin embargo en los de estudios de casos
y controles emparejados no se debe aplicar la regresin logstica convencional, sino que se
ha de utilizar un tipo especial de regresin logstica: la regresin logstica condicional
Los resultados obtenidos en la cuadro 177 deberan presentarse en un trabajo de investi-
gacin de manera resumida, indicando simplemente cul es la estimacin de la odds ratio
ajustada (y quiz tambin sin ajustar o cruda) para cada variable y cul es su intervalo de
confianza, habitualmente calculado al 95%. Los paquetes estadsticos suelen tener opcio-
nes para pedir los intervalos de confianza. Se calculan as:
En 1972 Cox public un articulo, Regression models and life tables (Modelos de regresin y
tablas de vida) que se ha convertido en un autntico bestseller, ya que es uno de los artculos
ms citados en la bibliografa cientfica10-11. Se utiliza la regresin de Cox (proportional
hazards model), cuando la variable dependiente est relacionada con la supervivencia de los
individuos y se desee averiguar simultneamente el efecto independiente una serie de fac-
tores sobre esta supervivencia.
Por ejemplo, si se deseara saber en qu medida el trasplante de hgado mejora la super-
vivencia de los pacientes con hepatocarcinoma y simultneamente se desea valorar el efec-
to del estadio tumoral y de otros factores (sexo, edad, etc.) sobre la supervivencia de los
pacientes, se emplear la regresin de Coxe:12. Tngase en cuenta que no se trata slo de
saber el efecto sobre la supervivencia despus de un tiempo determinado de seguimiento
(p. ej., la supervivencia a los 5 aos), sino de valorar cul es el efecto sobre la funcin de
supervivencia a lo largo de todo el periodo de observacin de los pacientes, sea cual sea el
punto temporal que se elija para la comparacin. Si slo interesase estudiar el efecto sobre
la supervivencia en un punto del tiempo (p. ej., a los 5 aos), entonces bastara con un
anlisis de regresin logstica, porque la variable de respuesta sera dicotmica (s sobrevi-
ven o no sobreviven). Slo la regresin de Cox permite afirmar que una supervivencia ms
ventajosa puede ser atribuida a un determinado tratamiento, porque, por ejemplo, com-
prueba que a igualdad de edad, sexo, estadio tumoral, etc., los pacientes que fueron trata-
dos con transplante heptico sobrevivieron ms en cualquier punto posible dentro del
seguimiento que ha existido en el estudio. A este procedimiento multivariable de tener en
Anlisis de supervivencia y anlisis multivariado 19
cuenta los niveles de todos los dems factores y poder asegurar que un efecto pertenece
realmente a una determinada variable y no a los otros factores, se le denomina ajustar por
esos otros factores como hemos visto en la regresin logstica.
La ecuacin de la regresin de Cox es:
Donde lambda dependiente del tiempo, lt como se recoge en la figura 177, es la tasa (en
ingls hazard) de fallecer ms all del instante t (es decir, la tasa instantnea de fallecer).
En lo dems, todo es bastante parecido al anlisis de regresin logstica. La tasa se diferen-
cia del riesgo en que la tasa expresa la rapidez con la cual se enferma (fallecimientos por
unidad de tiempo), mientras que el riesgo slo es una proporcin y no tiene en cuenta ms
que el nmero de sujetos inicialmente a riesgo de fallecer. El hazard es una tasa instant-
nea, que conceptualmente corresponde a una duracin de tiempo infinitesimal.
Se demuestra que para un factor pronstico dicotmico xi cuyo valor sea 1 para los
expuestos a ese factor y 0 para los no expuestos, la razn de hazards (hazard ratio, HR) ser:
Esta medida de asociacin aunque se expresa por algunos como un riesgo relativo y se
interpreta como tal (razn de proporciones) es en realidad una hazard ratio, y se asemeja
ms a la razn de densidades de incidencia (RDI, razn de tasas) que a la razn de inciden-
cias acumuladas (razn de proporciones o riesgo relativo). Una hazard ratio de 2 significa,
en realidad, que se multiplica por 2 la rapidez con la cual fallecen los sujetos que estn
expuestos al factor pronstico que se estudia. Un hazard ratio de 1, significa que el efecto
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.
del factor es nulo: no es un factor que afecte al pronstico. Un hazard ratio de 0,5 significa
que esa exposicin en vez de asociarse a un mal pronstico, lo mejora, ya que reduce la
velocidad de ocurrencia de fallecimientos a la mitad. Si la exposicin fuese cuantitativa
habra que elevar el nmero e al coeficiente correspondiente (bi), pero multiplicando antes
el coeficiente por el incremento en unidades de la variable independiente cuyo hazard
ratio queramos estimar, tal como se poda hacer en el ejemplo de regresin logstica con la
edad para calcular una odds ratio. Cuando se emplea el modelo de regresin de Cox, se
asume que la razn de tasas (hazard ratio) es constante a lo largo del tiempo. Hay mtodos
para verificar si es cierta esta suposicin y tambin hay tcnicas que permiten trabajar con
modelos de riesgo no proporcionales cuya descripcin y anlisis superan los objetivos de
este texto.
4( z / 2 + z ) 2
n=
[ln(HR)]2
Donde:
n: nmero de eventos que deben observarse
z/2 = valor de la distribucin normal para el error alfa deseado (a 2 colas)
z = valor de la distribucin normal para el error beta deseado (a 1 cola)
HR = hazard ratio (equivalente al riesgo relativo, responde a la pregunta cuntas
veces esperamos que sea superior el evento en un grupo que en otro?)
As, para un riesgo relativo de 1,5, con un error alfa de 0,05 (z=1,96) y un error beta de 0,2
(potencia del 80%, z=0,84), necesitaramos observar 256 eventos.
4(1,96 + 1,28) 2
256 =
[ln(1,5)]2
En la siguiente cuadro y figura se representan diversos supuestos, con el nmero necesario
de eventos que se deben observar.
REFERENCIAS
1. Greenhalgh T. Statistics for the nonstatistician. I: Different types of data need different statistical
tests. BMJ 1997: 3646. 4.
2. Altman DG. Practical statistics for medical research. Londres, Chapman and Hall, 1991. 3.
3. Collet D. Modelling survival data in medical research. Londres, Chapman and Hall, 1994.
4. Martnez-Gonzlez MA, de Irala J, Segu-Gmez M (eds.). Mtodos en Salud Pblica (4 ed.).
Pamplona: Ulzama Digital, 2003.
5. Martnez Gonzlez MA, De Irala Estvez J, Fauln Fajardo FJ (eds.). Bioestadstica amigable.
Madrid: Daz de Santos, 2001.
6. MartnezGonzlez MA, de Irala J, Guillen F. Qu es una odds ratio? Med Clin 1999; 112: 416422.
7. Canga N, de Irala J, Vara E, Duaso MJ, Ferrer A, Martnez-Gonzlez MA. Intervention study for
smoking cessation in diabetic patients, a randomized controlled trial in both clinical and primary care
settings. Diabetes Care 2000;23:1455-60.
8. De Irala J, Martnez-Gonzlez MA, Segu-Gmez M (eds.). Epidemiologa aplicada Barcelona:
Ariel. 2004.
9. De Irala J, Martnez-Gonzlez MA, Guilln-Grima F. Qu es un factor de confusin? Med Clin
(Barc.) 2001;117:377-385. (fe errores: Med Clin (Barc.) 2001;117: 775).
10. Cox DR. Regression model and life tables. J Roy Statist Soc B 1972; 34: 187220.
11. Cox DR, Oakes D. The analysis of survival data. Londres, Chapman and Hall, 1984.
12. Sangro B, Herraiz M, Martnez-Gonzlez MA, Bilbao I, Herrero I, Beloqui O, Bets M, de la
Pea A, Cienfuegos JA, Quiroga J, Prieto J. Prognosis of hepatocellular carcinoma in relation to
treatment: a multivariate analysis of 178 patients from a single European institution. Surgery
1998;124:575-83.
Editorial El manual moderno Fotocopiar sin autorizacin es un delito.