Utilización de Modelos de Regresión Generalizados y Técnicas de Supervivencia para La Evaluación Del Impacto de Una Consulta Especializada en El Servicio de Medicina Interna (USC)

Mster en Tcnicas Estadsticas
Memoria de las prcticas realizadas en

la unidad de epidemiologa clnica del
CHUS

Fiz Lagoa Labrador

Julio 2012

Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
3

3

Resumen

En este informe de prcticas realizadas en la Unidad Epidemiolgica del Complejo
Hospitalario de Santiago de Compostela (CHUS), se resume en cuatro captulos las
tareas realizadas por el alumno Fiz Lagoa Labrador. Adems de estas tareas, dicho
alumno particip en los estadillos que peridicamente se realizan en esta unidad, tanto
de oyente como de ponente (exponiendo algunos temas como Series de Tiempo y
Contrastes de simetra en tablas cuadradas).

En el Captulo N1: Quejas en un hospital universitario, se realizar un estudio
descriptivo y una evolucin temporal de las quejas dependiendo del ao, de los meses,
del motivo y del servicio clnico.

En el Captulo N2: Concentracin de elastasa leucocitaria en la enfermedad
arterial coronaria diagnosticada mediante angiografa, se mostrar las caractersticas
clnicas del los pacientes del estudio y de los que tengan enfermedad arterial coronaria.
Tambin se analizar la asociacin de la concentracin de elastasa y la enfermedad
arterial coronaria y se evaluar la capacidad diagnstica de la elastasa en dicha
enfermedad.

En el Captulo N3: Funciones en R para un anlisis descriptivo y comparativo de
las variables cualitativas y cuantitativas, se construir tres funciones para describir y
comparar: dos variables cualitativas, dos variables cuantitativas y una variable
cualitatitiva y otra cuantitativa.

En el Captulo N4: Evaluacin del impacto de una consulta especializada en el
servicio de medicina interna, se caracterizarn a los individuos controlados en la
consulta especializada frente a los no controlados, se caracterizarn a los individuos
controlados segn el motivo de finalizacin del seguimiento en la consulta especializada
y se definirn los factores pronstico de estos motivos, se describirn las causas de
muerte (cardiovasculares y no cardiovasculares) y se definirn los factores pronstico
de mortalidad, se describir la repercusin del control de los pacientes hasta la fecha fin
de seguimiento y finalmente se valorar la supervivencia de los pacientes con
insuficiencia cardaca controlados durante un periodo de 4 aos y medio.

A continuacin mostramos una tabla resumen en la cual aparecen los diferentes
anlisis o tcnicas estadsticas utilizadas en cada captulo y los paquetes en R que son
utilizados.

Fiz Lagoa Labrador
4

4

Tabla Resumen

Captulo

Tcnicas Estadsticas Paquetes

Captulo N1

Diagramas de Pareto
Series de Tiempo

qcc

Captulo N2

Test de Lilliefors
Test de Shapiro-Wilk
Test chi-cuadrado
Test exacto de Fisher
Pueba t de comparacin de medias
Prueba F de comparacin de varianzas
Test de Wilcoxon
Regresin Logstica
Curvas ROC

nortest
DiagnosisMed

Captulo N3

Test de Lilliefors
Test chi-cuadrado
Test Exacto de Fisher
Test de Mc-Nemar
Extensin de Bowker al test de Mc-Nemar
Extensin de Stuart y Maxwell al test de Mc-Nemar
Prueba t de comparacin de medias
Test de Wilcoxon
Anova de un factor
Test de Levene
Mtodo de Tukey
Test de Kruskal-Wallis
Test de Friedman

nortest
coin
car

Captulo N4
Test de Lilliefors
Test chi-cuadrado
Test Exacto de Fisher
Test de Mc-Nemar
Prueba t de comparacin de medias
Anova de un factor
Test de Levene
Test de Wilcoxon
Test de Kruskal-Wallis
Regresin Logstica
Regresin Multinomial
Estimador de Kaplan-Meier
Test de Mantel y Haenzel
Resgresin de Cox

nortest
coin
car
effects
multinom
nnet
survival
Fiz Lagoa Labrador
5

5

ndice
Captulo 1:
Quejas en un hospital universitario: estudio descriptivo y evolucin temporal ................. 7
1. Introduccin ............................................................................................................... 7
2. Mtodos ..................................................................................................................... 7
3. Resultados .................................................................................................................. 9
3.1. Evolucin anual ............................................................................................. 9
3.2. Evolucin mensual ...................................................................................... 10
3.3. Motivos ........................................................................................................ 11
3.4. Servicios clnicos ......................................................................................... 13
3.5. Distribucin de los diferentes motivos ........................................................ 16
4. Conclusiones ............................................................................................................ 17
Captulo2:
Concentracin de elastasa leucocitaria en la enfermedad arterial coronaria
diagnosticada mediante angiografa .................................................................................. 19
1. Introduccin ............................................................................................................. 19
2. Mtodos ................................................................................................................... 19
3. Resultados ................................................................................................................ 20
3.1. Caractersticas clnicas de los pacientes del estudio .................................... 20
3.2. Caractersticas clnicas del grupo CAD ....................................................... 21
3.3. Anlisis de la asociacin entre la concentracin de la elastasa y la
enfermedad arterial coronaria (CAD) .......................................................... 22
3.4. Capacidad diagnstica de un test ................................................................. 23
4. Conclusiones ............................................................................................................ 28
Captulo3:
Funciones en R para un anlisis descriptivo y comparativo de variables cualitativas y
cuantitativas ........................................................................................................................ 29
1. Introduccin ............................................................................................................. 29
2. Funciones en R para un anlisis descriptivo de los datos ........................................ 30
3. Funciones en R para un anlisis comparativo de los datos ..................................... 30
3.1. Funcin en R para un anlisis comparativo de dos variables cualitativas ....... 31
3.2. Funcin en R para un anlisis comparativo de dos variables cuantitativas ...... 33
Fiz Lagoa Labrador
6

6

3.3. Funcin en R para un anlisis comparativo de una variable cuantitativa
y otra cualitativa .......................................................................................... 33
4. Ejemplo del uso de las funciones ............................................................................ 34
Captulo4:
Evaluacin del impacto de una consulta especializada en el servicio de medicina interna .. 39
1. Introduccin ............................................................................................................. 39
2. Mtodos ................................................................................................................... 40
2.1. Diseo del estudio ........................................................................................ 40
2.2. Sujetos .......................................................................................................... 40
2.3. Variables ...................................................................................................... 40
3. Anlisis estadstico .................................................................................................. 43
3.1. Test paramtricos en dos poblaciones normales .......................................... 44
3.2. Test paramtrico en ms de dos poblaciones normales ............................... 45
3.3. Test no paramtricos en dos muestras ......................................................... 48
3.4. Test no paramtrico para ms de dos muestras ............................................ 49
3.5. Independencia en tablas de contingencia ..................................................... 50
3.6. Regresin Logstica ..................................................................................... 56
3.7. Regresin Multinomial ................................................................................ 57
3.8. Anlisis de Supervivencia ............................................................................ 58
4. Resultados ................................................................................................................ 65
4.1. Caractersticas clnicas de los individuos segn el control .......................... 65
4.2. Caractersticas clnicas de los individuos segn el status ............................ 66
4.3. Caractersticas clnicas de los individuos controlados segn
los motivos de finalizacin del seguimiento ................................................ 68
4.4. Repercusin del seguimiento ....................................................................... 70
4.5. Factores pronstico de la mortalidad ........................................................... 72
4.6. Factores pronstico de los motivos finalizacin del seguimiento ............... 73
4.7. Valoracin de la supervivencia .................................................................... 76
5. Conclusiones ............................................................................................................ 82
Valoracin de las prcticas ............................................................................................... 83
Bibliografa ......................................................................................................................... 85
Anexo .................................................................................................................................. 87
Fiz Lagoa Labrador
7

7

Captulo 1

Quejas en un Hospital Universitario:
Estudio descriptivo y evolucin temporal

1. INTRODUCCIN

Existe una necesidad creciente en la mejora de la calidad en la provisin de cuidados
de salud. Pacientes y familiares son la mejor fuente de datos para obtener informacin
acerca de la calidad en la atencin recibida.

La exploracin y monitorizacin de las quejas que presentan los pacientes pueden
ser buenos indicadores de la calidad de los cuidados y puede contribuir al diseo de
estrategias que permitan mejorar la atencin a los pacientes.

El objetivo de este estudio es describir los motivos y principales servicios de
procedencia de las quejas presentadas en el periodo 2001-2011 por los pacientes o sus
familiares.

2. MTODOS
mbito
Estudio retrospectivo de todas las quejas registradas por escrito en un Hospital
Universitario. El periodo de estudio comprende desde Enero de 2001 hasta Octubre
de 2011.

Variables

Se recoge la fecha de reclamacin, domicilio del afectado, motivo de la
reclamacin, servicio hospitalario involucrado.

Las quejas han sido agrupadas en 8 motivos:

- Deficiencia en la informacin: Recoge deficiencia en la informacin en los
procedimientos administrativos y procedimientos clnicos, informacin
deficiente en el servicio de urgencias, ausencia de confidencialidad,
informacin deficiente en el consentimiento informado, as como
deficiencias en la sealizacin.

Fiz Lagoa Labrador
8

8

- Deficiencia en la documentacin: No localizacin de la historia clnica,
prdida de documentacin, retraso en la entrega de documentacin clnica u
otro tipo de documentacin, as como no facilitar receta mdica.

- Lista de espera: Se refiere a la lista de espera de ciruga.

- Demora lista de espera: Agrupa retrasos en las citas a consultas, realizacin
de pruebas, suspensin de pruebas, no citaciones por falta de agenda y
errores administrativos en la citacin.

- Demora en la atencin: Agrupa la no atencin por falta de historia clnica,
retraso en la atencin de la cita, retraso en la atencin en urgencias y quejas
por el orden de entrada.

- Desacuerdo en el proceso asistencial: Agrupa desacuerdos con el
diagnstico y tratamiento, cambios de mdicos y enfermera, traslados, altas,
descoordinacin entre servicios, suspensin o retraso de procedimientos
quirrgicos, yatrogenia, errores en el diagnstico y tratamiento.

- Trato personal: Agrupa lo que el paciente o familiares consideran trato
incorrecto o irrespetuoso, no identificacin de profesionales, relacin con
otros pacientes y desacuerdo con el idioma utilizado.

- Hostelera, habitabilidad y confort: Agrupa deficiencias en limpieza,
problemas con instalaciones, deficiencia con las comidas, fumar en zonas
prohibidas, ruidos, temperatura inadecuada, problemas de aparcamiento,
cafetera y temas relacionados con el confort en general.

Se han elegido los 10 servicios que presentan una mayor frecuentacin de
quejas, debido a la confidencialidad de los datos, a estos servicios los llamaremos:
servicio A, servicio B, servicio C, servicio D, servicio E, servicio F, servicio G,
servicio H, servicio I y servicio J para hacer un anlisis especfico de estos servicios.

Anlisis estadstico

La descripcin de los datos se presenta mediante tablas con datos brutos y
porcentajes. Irn acompaados de Diagramas de Pareto en los cuales se puede
observar mediante barras el nmero bruto de datos, su porcentaje y el porcentaje
acumulado. Se realiza tambin un anlisis de la evolucin temporal del nmero de
quejas en general as como para los servicios con mayor nmero de quejas.

Se presentarn tambin anlisis descriptivos para los motivos agrupados segn
las definiciones arriba mencionadas.

Fiz Lagoa Labrador
9

9

3. RESULTADOS

3.1. Evolucin anual

Entre los aos 2001 y 2010 se han recogido 33521 quejas. En la Figura.1
mostramos un diagrama de Pareto, el cual muestra la frecuencia absoluta de quejas
por ao y el porcentaje acumulado, tambin un grfico con la evolucin temporal de
dichas quejas. En la Tabla.1 se muestra el nmero total de quejas por ao y sus
porcentajes. Observamos como el nmero de quejas aumentan ao a ao, siendo los
aos 2006 y 2007 los aos con mayor nmero de quejas. A partir del 2007 el
nmero de quejas comienza a descender y en los aos 2009 y 2010 vuelven a
situarse al nivel del 2004-2005.

Figura.1 Diagrama de Pareto por Aos y
Grfico de la evolucin anual de las quejas

Tabla.1 Distribucin anual de las quejas

Ao Nmero de quejas Porcentajes
2001 1456 4.34%
2002 1666 4.97%
2003 1846 5.51%
2004 2591 7.73%
2005 3186 9.50%
2006 6050 18.05%
2007 6015 17.95%
2008 5179 15.45%
2009 2697 8.05%
2010 2835 8.46%
Total 33521 100%
Fiz Lagoa Labrador
10

10

3.2. Evolucin mensual

La distribucin de las quejas dentro del ao puede no ser uniforme y puede
haber una mayor frecuencia en algunos meses que en otros. En la Tabla.2 se
presenta el nmero bruto de quejas distribuidas por mes y ao.

Tabla.2 Distribucin mensual de las quejas en cada ao

Ene Feb Mar Abr May Jun Jul Ago Sept Oct Nov Dic
2001 126 134 196 103 98 106 109 89 109 115 156 115
2002 146 137 141 154 196 176 117 90 178 102 123 106
2003 104 127 146 122 140 183 177 68 169 199 209 202
2004 127 195 198 191 156 241 218 190 259 308 243 265
2005 161 234 180 316 266 335 301 132 194 372 337 358
2006 513 353 509 486 517 615 671 495 457 486 507 441
2007 363 638 558 437 578 773 422 369 440 530 526 381
2008 410 494 586 694 461 534 367 266 349 458 328 232
2009 226 210 319 270 284 267 198 149 152 170 213 239
2010 145 196 250 270 263 304 205 155 255 273 308 211
2011 235 277 277 187 208 227 212 180 204 244

En la Figura.2 y la Tabla.3 se muestra la distribucin de las quejas y porcentajes
por meses. Se observa que los meses con mayor frecuencia de quejas son Junio y
Marzo, los cuales tienen ms de un 10% y 9% del total de las quejas
respectivamente. Los meses con menor frecuencia son Enero y Agosto con menos
del 13% de las quejas entre los dos meses. A la vista de estos datos puede
observarse que en los meses de primavera y otoo son en los que se producen
mayor nmero de quejas, mientras que los meses de invierno y verano disminuyen
las quejas. En la Figura.2 tambin mostramos la evolucin de las quejas en todo el
periodo de estudio mes a mes.

Figura.2 Diagrama de Pareto por Meses y
Grfico de la evolucin mensual de las quejas

Fiz Lagoa Labrador
11

11

3.3. Motivos

Como ya hemos comentado tambin se mostrar los resultados del anlisis
descriptivo para las quejas por los motivos de las mismas. Estos resultados son del
periodo comprendido entre Enero del 2001 hasta Octubre del 2011. As, en la
Figura.3 mostramos un Diagrama de Pareto donde se muestran el nmero de quejas
segn los 8 grupos en que hemos categorizado los motivos.

Figura.3 Diagrama de Pareto por motivos

Como observamos en la Tabla.4, dos terceras partes de las quejas se producen en
el grupo de quejas Demora en la lista de espera, teniendo el resto de grupos de
quejas un porcentaje sobre el total muy pequeo. En la Tabla.4 mostramos el
nmero total de quejas por cada motivo y sus respectivos porcentajes exactos.
Tabla.3 Distribucin mensual de las quejas

Ao Nmero de quejas Porcentajes
Enero 2321 6.92%
Febrero 2718 8.11%
Marzo 3083 9.20%
Abril 3043 9.08%
Mayo 2959 8.83%
Junio 3534 10.54%
Julio 2785 8.31%
Agosto 2003 5.98%
Septiembre 2562 7.64%
Octubre 3013 8.99%
Noviembre 2950 8.80%
Diciembre 2550 7.61%
Total 33521 100%
Fiz Lagoa Labrador
12

12

Tabla.4 Distribucin de las quejas por motivos

Motivos Nmero de quejas Porcentaje
Demora lista espera 24511 68.52%
Desacuerdo proceso asistencial 4198 11.73%
Demora atencin 2090 5.84%
Lista de espera 1970 5.50%
Trato personal 906 2.53%
Hostelera, habitabilidad, confort 716 2%
Deficiencia informacin 697 1.94%
Deficiencia documentacin 684 1.91%
Total 35772 100%

En la Figura.4 mostramos la evolucin temporal de las quejas por cada motivo.
Se observa que la evolucin temporal de los motivos Lista de Espera y Trato
Personal son bastante uniforme. Los motivos de Demora en la lista de espera,
Deficiencia en la Documentacin y Desacuerdo en el Proceso Asistencial si
presentan un cambio temporal en su nmero de quejas ya que entre los aos 2007 y
2008 alcanzan su mximo y en los aos 2009 y 2010 desciende notablemente el
nmero de quejas. Los motivos Hostelera, Habitabilidad y Confort, Deficiencia en
la Informacin y Demora en la atencin parecen oscilar en torno a un nmero
medio de quejas.

Figura.4 Evolucin anual de las quejas para cada motivo

Fiz Lagoa Labrador
13

13

3.4. Servicios clnicos

Se recogen quejas en prcticamente todos los servicios con los que cuenta el
Hospital. A continuacin se muestran los resultados de los 10 servicios con mayor
nmero de quejas y su distribucin temporal.

En la Figura.5 presentamos el Diagrama de Pareto de los 10 servicios ms
relevantes, donde se puede observar el nmero total de quejas en dichos servicios y
su porcentaje sobre el total de quejas.

Figura.5 Diagrama de Pareto por servicios clnicos

El servicio con mayor nmero de quejas es el servicio A, seguido de otros
servicios como servicio B, servicio C y servicio D. El servicio A tiene casi un 13%
de quejas sobre el total del hospital y entre los 10 servicios analizados aglutinan un
60% de las quejas. En la Tabla.5 mostramos todos los datos brutos.

Tabla.5 Distribucin de las quejas por servicios

Servicios Nmero de quejas Porcentaje
A 4545 12.71%
B 3121 8.72%
C 2628 7.35%
D 2558 7.15%
E 1926 5.38%
F 1886 5.27%
G 1815 5.07%
H 1167 3.26%
I 994 2.78%
J 845 2.36%
Total 10 servicios 21485 60.06%
Total 35772 100%

Fiz Lagoa Labrador
14

14

Como en el caso de los motivos de las quejas, se mostrar la evolucin temporal
de las quejas en cada servicio.

En la Figura.6 se muestra una comparativa de los servicios con mayor nmero
de quejas. Se puede observar como casi todos estos servicios tienen el pico de
quejas en el ao 2006. Los servicios de B y C, que son los servicios con mayor
nmero de quejas despus del servicio A, tienen en los aos 2007 y 2008 sus picos
de quejas respectivamente.

Figura.6 Evolucin anual de las quejas por servicios

Ya que el nmero de quejas depende del nmero de Consultas realizadas en
cada servicio, calculamos una tasa del nmero de quejas por cada 10000 consultas.
En la Tabla.6 se muestran el nmero de quejas de cada servicio, su nmero de
consultas y la tasa del nmero de quejas por 10000 consultas. En la Figura.7 se
presenta el Diagrama de Pareto y en la Figura.8 la evolucin temporal de las tasas.
Para este anlisis tuvimos que prescindir de los servicios D, H e I ya que no
tenemos la frecuentacin de consultas. Como tampoco se dispona del nmero de
Consultas del ao 2011, el anlisis de las quejas se excluy este ao.

Con este anlisis de tasas, se observa que el servicio C, pasa a tener la tasa ms
elevada donde en nmeros brutos ocupaba el tercer lugar mientras que el servicio
A, que anteriormente era el que ms quejas tena ahora pasa a ser el servicio con la
segunda mayor tasa de quejas.

Fiz Lagoa Labrador
15

15

Tabla.6 Distribucin de las quejas y de las tasas por servicios

Servicios Nmero de quejas Consultas Tasa (*10
-4
)
G 1673 316599 53
A 4385 713736 61
J 816 198555 41
F 1765 664231 27
B 2963 559257 53
E 1776 871121 20
C 2498 226447 110
Total 15876 3549946 365

Figura.7 Diagrama de Pareto de las tasas de los servicios

Figura.8 Evolucin anual de las tasas de los servicios

Fiz Lagoa Labrador
16

16

3.5. Distribucin de los diferentes motivos segn servicios

En la Tabla.7a se muestran las quejas totales de cada servicio clnico
desglosadas por motivos. La tabla 7.b se presentan los resultados en porcentajes de
motivos de las quejas en cada servicio. Se observa que el motivo ms frecuente en
todo los servicios es Demora en la lista de espera menos en el servicio E en el que
solo significa casi un 4% de las quejas, siendo Demora en la atencin y Descuerdo
en el proceso asistencial los ms frecuentes.

Tabla.7a Distribucin de las quejas de cada servicio por motivos

I G A J F D H B E C
Def. Informacin 2 5 32 7 19 32 2 29 80 7
Def. Doc. 9 9 34 11 32 73 9 91 18 9
Lista Espera 22 2 16 4 23 NA 1 58 NA 13
Dem. List. Espera 886 1677 4101 739 1467 2200 1087 2503 75 2503
Demora Atencin 28 33 56 14 63 97 3 119 918 23
Desac. Proc.Asist. 36 71 238 55 236 98 60 261 539 69
Trato Personal 8 17 60 15 34 41 5 56 181 3
Host. Habit. Conf 3 1 8 0 12 17 0 4 115 1
Total 994 1815 4545 845 1886 2558 1167 3121 1926 2628

Tabla.7b Distribucin del porcentaje de los motivos de las quejas en cada servicio

I G A J F D H B E C
Def. Informacin 0.2 0.28 0.7 0.83 1.01 1.26 0.17 0.93 4.15 0.27
Def. Doc. 0.92 0.5 0.75 1.3 1.7 2.85 0.77 2.92 0.94 0.34
Lista Espera 2.21 0.11 0.35 0.47 1.22 0 0.09 1.86 0 0.49
Dem. List. Espera 89.13 92.39 90.23 87.45 77.78 86 93.14 80.2 3.89 95.24
Demora Atencin 2.82 1.82 1.23 1.66 3.34 3.79 0.26 3.81 47.66 0.88
Desac. Proc.Asist. 3.62 3.9 5.24 6.51 12.51 3.83 5.14 8.36 27.99 2.63
Trato Personal 0.8 0.94 1.32 1.78 1.8 1.6 0.43 1.79 9.4 0.11
Host. Habit. Conf 0.3 0.06 0.18 0 0.64 0.67 0 0.13 5.97 0.04
Total 100 100 100 100 100 100 100 100 100 100

NA: No Aplicable.

Fiz Lagoa Labrador
17

17

4. CONCLUSIONES

Los aos 2006 y 2007 son los aos con mayor nmero de quejas. A partir del
2007 el nmero de quejas comienza a descender y en los aos 2009 y 2010 vuelven
a situarse al nivel del 2004-2005.

Los meses de primavera y otoo, son en los que se producen un mayor nmero
de quejas, mientras que los meses de invierno y verano disminuyen las quejas.

Dos terceras partes de las quejas se producen en el grupo de quejas Demora en
la lista de espera.

Entre los 10 servicios donde ms quejas se producen, estos aglutinan un 60%
del total de las quejas del hospital, el servicio A es el que ms tiene.

Ya que el nmero de quejas depende del nmero de consultas realizadas en cada
servicio, calculamos una tasa del nmero de quejas por cada 10000 consultas. Con
este anlisis de tasas, se observa que el servicio C, pasa a tener la tasa ms elevada
donde en nmeros brutos ocupaba el tercer lugar mientras que el servicio A, que
anteriormente era el que ms quejas tena ahora pasa a ser el servicio con la
segunda mayor tasa de quejas.

En todos los servicios, menos en el servicio C, la queja que predomina es
Demora lista de espera. En el servicio C los motivos de quejas ms frecuentes son:
Demora en la atencin y Desacuerdo en el proceso asistencial.

Fiz Lagoa Labrador
19

19

Captulo 2

CONCENTRACIN DE ELASTASA
LEUCOCITARIA EN LA ENFERMEDAD
ARTERIAL CORONARIA
DIAGNOSTICADA MEDIANTE
ANGIOGRAFA

1. INTRODUCCIN

Aunque existen numerosas tcnicas no invasivas capaces de detectar enfermedad
arterial coronaria, (coronary artery disease CAD), como por ejemplo,
electrocardiograma (con o sin esfuerzo), ecocardiograma (con o sin estrs) y el uso de
radiotrazadores. Todos ellos comparten una caracterstica, detectan sntomas derivados
de la isquemia ms que las placas de ateroma, que son la causa de esa isquemia. Una
consecuencia es que estos mtodos tienen un xito muy limitado en la deteccin de
CAD. Una posible solucin puede ser la de medir factores bioqumicos relacionados
con la formacin o destruccin de la placa de ateromas.
La elastasa es una enzima proteoltica liberada por los neutrfilos, que se ha visto
implicada en la fisiopatologa de la enfermedad isqumica del corazn.
El objetivo de este estudio es investigar si la elastasa leucocitaria en sangre puede
asociarse a la enfermedad arterial coronaria, y si los niveles de esta enzima pueden ser
tiles en su diagnostico.

2. MTODOS

Sujetos

En este estudio se incluyeron 141 pacientes, reclutados en el Servicio de
Cardiologa del Complejo Hospitalario Universitario de Santiago de Compostela
(CHUS), y que se sometieron a una angiografa coronaria para la evaluacin de
dolor precordial o de una enfermedad cardaca valvular. Ninguno de los sujetos
estaba tomando antibiticos y no tenan historia clnica que pudiesen sugerir
pneumopatas, neoplasia, enfermedad cerebrovascular, enfermedad arterial
perifrica o enfermedad sistmica.
Fiz Lagoa Labrador
20

20

De los 141 pacientes, 45 tuvieron un angiograma coronario normal (grupo no-
CAD) y 96 tuvieron un angiograma coronario anormal (grupo CAD). En este ltimo
grupo, a su vez, las lesiones coronarias fueron clasificadas como simples y como
complejas.

Variables

Las variables de nuestro estudio son: la edad, el sexo, la talla, el peso, la
concentracin total de colesterol, la concentracin de elastasa en los pacientes y si
estos tienen o no hipertensin, diabetes, angina, si son fumadores o no y si tienen un
angiograma coronario anormal o normal (CAD o no-CAD).

Anlisis estadstico

La asociacin entre cada una de las variables del estudio y el status coronario
(no-CAD o CAD) fueron evaluadas usando el t-test y el test de Wilcoxon para
variables continuas, y para comprobar la independencia de las variables categricas
utilizamos el test exacto de Fisher y el test chi-cuadrado.
El efecto de posibles variables de confusin se evalu utilizando un modelo
logstico de regresin mltiple, usando un procedimiento stepwise. Solamente las
variables significativas fueron guardadas en el modelo. La estimacin de los riesgos
relativos y de los intervalos de confianza al 95% fueron calculados a partir de los
coeficientes.
Para el clculo de los diferentes indicadores que permiten el conocimiento de la
capacidad diagnstica de un test, se utiliz la librera DiagnosisMed.

3. RESULTADOS

3.1. Caractersticas clnicas de los pacientes del estudio

La Tabla.1 muestra las caractersticas clnicas del grupo CAD y del grupo no-
CAD (grupo control). El grupo no-CAD es ms joven que el grupo CAD (P<0.05)
contiene menos hombres (alrededor del 51% en contra del 84% en el grupo CAD;
P<0.001) y un menor nmero de fumadores y enfermos de angina de pecho.
El grupo control es menos alto, menos pesado y tiene una menor concentracin
de colesterol que el grupo CAD y contiene un nmero menor de hipertensos y
diabticos, aunque estas diferencias no fueron significativas.
La concentracin de elastasa del grupo CAD (
1
49.7 2.8 g.l

) y del grupo No-
CAD (
1
29.5 2.2 g.l

) difieren significativamente (P<0.001), podemos verlo en la
Figura.1.

Fiz Lagoa Labrador
21

21

Tabla.1 Caractersticas clnicas de los pacientes
Grupo No-CAD
(n=45)
Grupo CAD
(n=96)
P-valor
Edad (aos) 56.3 1.8 62.3 1.0
0.0064
Sexo (Hombre)
23(51%) 81(84%) 0.0000
Talla (cm) 162.2 1.2 163 0.7
0.5938
Peso (kg) 73.5 1.8 73.8 1.2
0.8437
Hipertensin (Si)
12(29%) 28(31%) 0.8951
Diabetes (Si)
2(5%) 15(17%) 0.0915
Fumador (Si)
16(38%) 55(62%) 0.0153
Angina (Si)
24(53%) 94(98%) 0.0000
Colesterol 207.7 6.3 210.2 4.7
0.7481
Elastasa 29.5 2.2 49.7 2.8
0.0000

En cada grupo para las variables cuantitativas se representa
la media y su error estndar y para las variables cualitativas
las frecuencias y sus porcentajes.

Figura.1 Diagrama de cajas y las diferentes densidades
de elastasa en ambos grupos

3.2. Caractersticas clnicas del grupo CAD

La Tabla.2 muestra las caractersticas clnicas del grupo CAD, diferenciando los
tipos de lesiones coronarias (Simples y Complejas).

La concentracin de elastasa en lesiones simples (
1
38.6 1.9 g.l

) difiere
significativamente (P<0.001), de la concentracin de elastasa en lesiones complejas
(
1
65.2 5.3 g.l

), podemos verlo en la Figura.2.

Fiz Lagoa Labrador
22

22

Tabla.2 Caractersticas clnicas del grupo CAD
Lesiones Simples
(n=56)
Lesiones Complejas
(n=40)
P-valor
Edad (aos) 61.0 1.3 64.1 1.7
0.1331
Sexo (Hombre)
47(84%) 34(85%) 0.8867
Talla (cm) 163.7 1.0 161.8 1.0
0.1110
Peso (kg) 75.1 1.5 71.8 1.9
0.1613
Hipertensin (Si)
14(27%) 14(37%) 0.4759
Diabetes (Si)
6(12%) 9(24%) 0.2303
Fumador (Si)
35(69%) 20(54%) 0.2416
Colesterol 215.3 6.1 201.7 7.0
0.1482
Elastasa 38.6 1.9 65.2 5.3
0.0000

la media y su error estndar y para las variables cualitativas
las frecuencias y sus porcentajes.

Figura.2 Diagrama de cajas y las densidades
de elastasa en ambas lesiones

3.3. Anlisis de la asociacin entre la concentracin de la elastasa y la
enfermedad arterial coronocaria (CAD)

Para evaluar la asociacin entre la elastasa y la enfermedad coronaria, ajustando
por el efecto de posibles variables de confusin, se utilizo un modelo de regresin
logstica, usando el procedimiento stepwise .
Las variables que tienen un valor significativo independiente para la prediccin
del CAD entre pacientes incluidos en el estudio fueron: angina, sexo, edad y la
concentracin de elastasa. En resumen partimos de un modelo con las 10 variables
iniciales que aparecen en la Tabla.1, y eligiendo un modelo, utilizando un algoritmo
paso a paso por AIC, nos quedamos con las variables: angina, sexo, edad y la
concentracin de elastasa.
Fiz Lagoa Labrador
23

23

En la Tabla.3 se muestra los coeficientes estimados del modelo de regresin
logstica, el error estndar, el p-valor (si es menor que 0.05, indica que ese
coeficiente es significativo en el modelo), el riesgo relativo y su correspondiente
intervalo de confianza al 95%.

Tabla.3 Estimacin de los coeficientes del modelo
Coeficientes SE P-valor Riesgo Relativo (R.R) I.C. 95% del R.R
Constante -11.29 2.77 0.0000
Angina 5.24 1.31 0.0001 188.14
Sexo 2.15 0.72 0.0029 8.57 (2.26,40.33)
Edad 0.04 0.03 0.1741 1.04 (0.98,1.10)
Elastasa 0.10 0.02 0.0000 1.11 (1.06,1.17)

Viendo los resultados de la Tabla.3 podemos decir que los que tienen angina,
tienen 188 veces ms riesgo de tener CAD que los que no presentan una angina de
pecho. Los hombres tienen 8.57 veces ms riesgo de tener CAD que las mujeres. Y
que el riesgo de CAD se incrementa un 11% por cada unidad de aumento en la
elastasa.

3.4. Capacidad diagnstica de un test

Anteriormente hemos visto que la elastasa est asociada a la enfermedad arterial
coronaria. El segundo objetivo que deseamos contestar es el de evaluar la capacidad
diagnstica de la elastasa en la enfermedad arterial coronaria.

Habitualmente para estas evaluaciones se utiliza una discriminacin que tenga
la capacidad de separar aquellos individuos enfermos o sanos. Antes de introducir
la medida de discriminacin ms utilizada definiremos dos conceptos previos, que
son los siguientes:

- Sensibilidad (sen): Indica la capacidad de la prueba para detectar un sujeto
enfermo.

- Especificidad (esp): Indica la capacidad de identificar como sanos a los
individuos que realmente los son.

La confianza que realiza el test ser mayor cuando la sensibilidad y
especificidad del test estn ms prximas a 1, siendo el test ideal aquel con sen=1 y
esp=1, sin embargo en la prctica esta situacin ideal nunca se produce.
La medida de discriminacin ms utilizada es la curva ROC (Receiver Operating
Characteristic), que se define (Swets y Pickett, 1982) como el conjunto de posibles
valores de 1-esp(c) (falsos positivos) y sen(c) (verdaderos positivos) que en nuestro
caso, se alcanzan para cada valor de la concentracin de elastasa.

Fiz Lagoa Labrador
24

24

La precisin de un test ser mayor cunto ms prxima este la curva ROC a la
esquina superior izquierda del cuadrado. Esto sugiere la utilizacin del rea bajo la
curva ROC (AUC, Area under the curve) como medida de la capacidad dignostica
de un test.

Adems de la sensibilidad y la especificidad existen otros indicadores que
permiten el conocimiento casi completo de la capacidad diagnstica del test, y son
los siguientes:

- ndice de Validez (IV): Se define como la proporcin de individuos
clasificados correctamente, la utilizacin de este ndice tiene un problema
que es que depende de la prevalencia de la enfermedad.

- ndice de Youden (IY): Refleja la diferencia entre la tasa de verdaderos
positivos y la de falsos positivos, por lo tanto cunto ms cercano a 1 sea el
IY, mejor es la prueba diagnstica que se est evaluando.

- Razn de Verosimilitud (RV): Es un ndice que cuantifica cuantas veces es
ms probable que el test sea positivo en los enfermos que en los sanos. La
RV viene dado por la siguiente expresin matemtica
1
sen
RV
esp
+ =
cuyo
complementario es
1 sen
RV
esp
= razn de verosimilitud para resultados

negativos. Un buen test debe tener una RV cercana a 0 y una RV + alta (no
es posible especificar un lmite superior).

Para calcular: los puntos de corte de la variable elastasa (PC), los verdaderos
positivos (VP), los falsos negativos (FN), los falsos positivos (FP), los verdaderos
negativos (VN), la sensibilidad (sen), la especificidad (esp), el valor predictivo
positivo (VPP), el valor predictivo negativo (VPN), la razn de verosimilitud para
resultados positivos (RV+), la razn de verosimilitud para resultados negativos
(RV-), el ndice de Youden (IY) y los intervalos de confianza (IC) del 95% para sen,
esp, VPP, VPN, RV+ y RV- utilizamos la librera DiagnosisMed.

Usaremos tres criterios diferentes:

- Se=Sp (1) es el criterio en el que para un determinado valor de la
elastasa, se iguala la sensibilidad y la especificidad.

- Max.Youden (2) es el criterio en el cual un determinado valor de la
variable elastasa, maximiza el ndice de Youden.

- Max.DOR (3) es el criterio en el que un determinado valor de la
elastasa, maximiza la razn de probabilidad del diagnstico.

Esos valores de la elastasa sern los puntos de corte para cada criterio.

Fiz Lagoa Labrador
25

25

En la Figura.3, Figura.4 y Figura.5 mostramos la curva ROC y la AUC, el punto
de corte, la sensibilidad y la especificidad para los criterios (1), (2) y (3)
respectivamente.

En la Figura.6, Figura.7 y Figura.8 representaremos la sensibilidad y la
especificidad para cada valor de la concentracin de elastasa y dibujaremos el punto
de corte para los criterios (1), (2) y (3) respectivamente.

Finalmente en la Tabla.4 mostramos para cada punto de corte calculado por los
criterios (1), (2) y (3): VP, FN, FP, VN e IY y en la Tabla.5 mostramos para cada
punto de corte calculado por los criterios (1), (2) y (3): sen, esp, VPP, VPN, RV+ y
RV- y sus correspondientes intervalos de confianza (IC) al 95%.

Figura.3 Curva ROC y punto de corte
calculado por el criterio Se=Sp

calculado por el criterio Max.Youden

Fiz Lagoa Labrador
26

26

calculado por el criterio Max.DOR

Figura.6 Grfico de la sensibilidad, especificidad y punto de corte
obtenidos por el criterio Se=Sp

obtenidos por el criterio Max.Youden

Fiz Lagoa Labrador
27

27

obtenidos por el criterio Max.DOR

Tabla.4 Indicadores de la capacidad diagnstica
para cada uno de los criterios

PC VP FN FP VN VPP VPN IY
Se=Sp (1)
38 65 31 15 30 0.8125 0.4918 0.3438
Max.Youden (2)
37 66 30 15 30 0.8148 0.5000 0.3542
Max.DOR (3)
21 93 3 29 16 0.7623 0.8421 0.3244

Tabla.5 Indicadores de la capacidad diagnstica, y sus
IC al 95% para cada uno de los criterios

PC Sen Esp RV+ RV-
Se=Sp (1)
38 0.68
(0.58,0.76)
0.67
(0.52,0.79)
2.03
(1.31,3.14)
0.48
(0.34,0.69)
Max.Youden (2)
37 0.69
(0.59,0.77)
0.67
(0.52,0.79)
2.06
(1.33,3.18)
0.47
(0.33,0.67)
Max.DOR (3)
21 0.97
(0.91,0.99)
0.36
(0.23,0.5)
1.5
(1.2,1.88)
0.09
(0.03,0.29)

La estimacin no paramtrica del rea es 0.7436, cuyo IC al 95% es (0.6772,
0.8181), por lo tanto podemos decir que la elastasa discrimina bastante bien a
individuos enfermos (CAD) y sanos (No-CAD).

En nuestro caso, el mejor criterio sera el (3) ya que clasifica a 3 individuos que
tienen CAD como si no lo tuviesen (Falsos Negativos, FN) y clasifica a 29
individuos que no tienen CAD como si lo tuviesen (Falsos Positivos, FP), mientras
que el criterio (1) y (2) clasifican respectivamente a 31 y 30 individuos que tienen
CAD como si no lo tuviesen y clasifican a 15 individuos que no tienen CAD como
si lo tuviesen.

Fiz Lagoa Labrador
28

28

El criterio (3) comete menos falsos negativos que los criterios (1) y (2) por lo
que en caso de error, para nuestro caso, es menos grave que siga hospitalizado un
sano que dar el alta a un enfermo.

La probabilidad de un resultado positivo para el criterio (3) es 1.5 veces mayor
en los pacientes con CAD que en los pacientes que no tienen CAD y en cambio la
probabilidad de un resultado negativo es 11 veces superior (1/0.09=11.1) en los
pacientes con no-CAD que en los que tienen CAD. Este test tiene una sensibilidad
alta pero una especificidad muy baja lo que confiere mayor valor para detectar
enfermos que para descartar sanos.

4. CONCLUSIONES

Las caractersticas clnicas de los pacientes del estudio son las siguientes:

- La edad media en el grupo CAD es significativamente mayor que la del
grupo No-CAD.

- La proporcin de: hombres, personas diabticas y personas que tienen una
angina de pecho en el grupo CAD, es significativamente mayor que en el
grupo No-CAD.

- La concentracin de elastasa media en el grupo CAD es significativamente
mayor que la del grupo No-CAD.

La caracterstica clnica dentro del grupo CAD, diferenciando los dos tipos de
lesiones coronarias (Simples y Complejas), es la siguiente:

- La concentracin de elastasa media en el grupo de lesiones complejas es
significativamente mayor que la del grupo de lesiones simples.

Podemos decir que el riesgo de CAD se incrementa un 11% por cada unidad de
aumento de la concentracin de elastasa.

La estimacin no paramtrica del AUC es 0.7436, cuyo IC al 95% es (0.6772,
0.8181), por lo tanto la elastasa discrimina bastante bien a individuos enfermos (CAD) y
sanos (No-CAD).

Eligiendo, mediante el criterio que maximiza la razn de probabilidad del
diagnstico (Max.DOR), un punto de corte (PC=21) para la concentracin de
elastasa, obtenemos un test que tiene una sensibilidad alta pero una especificidad muy
baja lo que confiere mayor valor para detectar enfermos que para descartar sanos.

Fiz Lagoa Labrador
29

29

Captulo 3

FUNCIONES EN R PARA UN ANLISIS
DESCRIPTIVO Y COMPARATIVO DE
VARIABLES CUALITATIVAS Y
CUANTITATIVAS

1. INTRODUCCIN

En la Unidad de Epidemiologa del Complejo Hospitalario de Santiago de
Compostela (CHUS) es frecuente el uso de variables cualitativas (Sexo, Fumador,
Anemia, Diabetes) y cuantitativas (Edad, Peso, Colesterol) de ah la utilidad de
crear unas funciones en R, que nos faciliten el trabajo de describir esos datos, ya que
es el primer paso en cualquier anlisis que se realice.

En general, y en concreto en esta unidad de epidemiologa es frecuente estudiar si un
conjunto de variables continuas (independientes o relacionadas) presenta distribuciones
iguales. Tambin es muy frecuente comprobar si dos variables cualitativas son
independientes y contrastar si dos variables cualitativas relacionadas son simtricas (por
ejemplo, si existen cambios significativos de la variable de inters entre dos tiempos,
basal y final).

Las variables segn su naturaleza se puede clasificar en:

- Cualitativas: No se pueden medir numricamente, por ejemplo sexo o nivel de
estudios. Cuando las categoras de la variable (Hombre/Mujer; Sin
estudios/Estudios primarios/Estudios secundarios) no tiene orden, la variable se
dice que es nominal (sexo), y si se puede ordenar se dice que es ordinal (nivel de
estudios).

- Cuantitativa: Cuando puede tomar valores numricos. El nmero de hijos o la
estatura de un individuo son variables cuantitativas. Se clasifican en discretas y
continuas. Una variable se dice que es discreta si solo puede tomar un nmero
finito de valores o infinito numerable (nmero de hijos). Por el contrario, las
variables continuas pueden tomar todos los valores de un determinado intervalo
(la estatura).

Fiz Lagoa Labrador
30

30

Es muy importante saber distinguir entre los distintos tipos de variables, ya que los
anlisis entre variables cualitativas y cuantitativas se realizan de manera completamente
diferente.

2. FUNCIONES EN R PARA UN ANLISIS DESCRIPTIVO DE LOS DATOS

Las funciones des.cont y des.cat.def realizan un anlisis descriptivo de una variable
cuantitativa y cualitativa respectivamente. El nico argumento que hay que pasarle a las
funciones es la variable que se desea describir.

Al ejecutar la funcin des.cont nos aparece en pantalla:

- El nmero de elementos de la variable que se est describiendo.

- La cantidad de datos perdidos (NAs) que tiene esa variable.

- La media y entre parntesis la desviacin tpica (standard deviation, sd) y el error
estndar (standard error, se) que se calcula de la siguiente manera: / . n o

- La mediana y entre parntesis el primer cuartil (
1
Q ), el tercer cuartil (
3
Q ) y el
rango intercuartlico (Interquartile Range, IQR) que se calcula de la siguiente
manera:
3 1
. Q Q

Al ejecutar la funcin des.cat.def nos aparece en pantalla:

- La cantidad de datos perdidos que tiene esa variable cualitativa.

- Para cada categora de la variable cualitativa nos aparece sus frecuencias y al
lado de ellas entre parntesis sus porcentajes.

3. FUNCIONES EN R PARA UN ANLISIS COMPARATIVO DE LOS DATOS

Una vez que hayamos identificado la naturaleza de las variables del estudio
construiremos unas funciones que nos permitan comparar variables cualitativas y
variables cuantitativas. La funcin test.cualitativa compara dos variables cualitativas, la
funcin test.cuantitativa compara dos variables cuantitativas y la funcin test.mixto
analiza una variable cuantitativa y una cualitativa.

Pero antes explicaremos el funcionamiento de dos funciones normalidad y
tablas.bidim. La primera funcin normalidad se utiliza en test.mixto y en
test.cuantitativa y lo que hace es darnos el p-valor del Test de Lilliefors (Lilliefors,
1967) si el tamao de la muestra es mayor o igual que 50. Si el tamao es menor que 50,
nos devuelve el p-valor del Test de Shapiro-Wilk, (Shapiro y Wilk, 1965). El nico
argumento que hay que pasarle a esta funcin es la variable cuantitativa, que se desea
contrastar.

Fiz Lagoa Labrador
31

31

La funcin tablas.bidim se utiliza en test.cualitativa y al ejecutarla nos aparece en
pantalla:

- La tabla de frecuencias absolutas y la tabla de frecuencias relativas
correspondiente a dos variables cualitativas.

- Las distribuciones condicionales por columnas (si las dos variables cualitativas
no pertenecen al mismo individuo) o por filas (si las dos variables categricas
pertenecen al mismo individuo, es decir si son relacionadas).

Los argumentos que hay que pasarle a esta funcin son: el nombre de las dos
variables cualitativas, los datos, y si estn o no relacionadas esas dos variables
(paired=TRUE o FALSE).

3.1. Funcin en R para un anlisis comparativo de dos variables cualitativas

Uno de los principales objetivos de la funcin test.cualitativa ser contrastar la
hiptesis de independencia entre dos variables cualitativas basndonos en la
informacin proporcionada por las frecuencias observadas contenidas en la tabla de
contingencia.

Dentro de esta funcin se ejecuta la funcin des.cat.def para describir las dos
variables cualitativas y luego la funcin tablas.bidim para calcular las tablas de
frecuencias absolutas y relativas y las distribuciones condicionales por columnas o
filas.

Para tablas 2x2 tenemos dos opciones utilizar el contraste de independencia
chi-cuadrado o el test exacto de Fisher.

Para poder aplicar correctamente el contraste de independencia chi-cuadrado,
debe cumplirse que la muestra sea grande (n>30) y las frecuencias esperadas
mayores o iguales que 5.

En el caso de un tamao de muestra pequeo, debe utilizarse la correccin por
continuidad propuesta por Yates (Yates, 1934) para el estadstico chi-cuadrado.
Esta correccin solo es validad para el caso de tablas 2x2. Existe mucha polmica
sobre la aplicacin de la correccin de Yates porque hay casos prcticos en los que
con el estadstico corregido se rechaza la independencia con bastante menor
significacin que con el test no corregido. Es decir, el p-valor corregido es bastante
mayor que l no corregido, por lo que el test corregido es ms conservativo. Cabe
destacar que en caso de tamao muestral grande, la correccin tiene efecto
pequeo sobre el valor del estadstico, por ello, no utilizaremos dicha correccin en
este caso.

En esta funcin se calcula los estimadores de mxima verosimilitud de las
frecuencias esperadas bajo la hiptesis nula de independencia. Se calculan de la
siguiente manera:
. .
/ ,
ij i j
m n n n = donde
. i
n y
. j
n son las sumas de la i-sima fila y de
la j-sima columna respectivamente, de la tabla de frecuencias absolutas y n

es el
tamao de la muestra.
Fiz Lagoa Labrador
32

32

En el caso de que todas las frecuencias esperadas sean mayores o iguales que 5
utilizamos el contraste de independencia chi-cuadrado (con o sin correccin
dependiendo del tamao muestral) y si alguna de estas frecuencias son menores que
5 utilizamos el test exacto de Fisher (Fisher, 1934).

Para el caso general que tengamos tablas I J , quitando el caso en el que 2 I =
y 2 J = , utilizamos el contraste de independencia chi-cuadrado (con o sin
correccin dependiendo del tamao muestral).

Si los datos categricos proceden de muestras relacionadas (por ejemplo
medidas repetidas de un mismo individuo), las tablas que resultan de la
representacin de estos datos son cuadradas y adems con las mismas categoras
para filas y columnas. Para ellas el estudio de la independencia no tiene inters por
lo que otro de los objetivos de la funcin test.cualitativa ser contrastar la simetra
(si existen cambios significativos de la variable de inters en el tiempo, por ejemplo
basalmente y finalmente) y la homogeneidad marginal (si las diferencias entre las
proporciones marginales son significativas).

Para tablas 2x2 ambos conceptos (simetra y homogeneidad marginal) son
equivalentes. Para este tipo de tablas utilizaremos el test de McNemar (McNemar,
1947). Los estimadores de mxima verosimilitud de las frecuencias esperadas bajo
simetra se calculan de la siguiente manera:

11 11 11 11 12 21 12 21
; ; ( ) / 2. m n m n m m n n = = = = +

Al igual que en el test chi-cuadrado, la correccin de Yates es aconsejable
cuando las frecuencias esperadas en el caso de simetra son menores que 5, es decir,
12 21
( ) / 2 5. n n + <

Consideramos ahora tablas cuadradas I I , es decir cuando la variable
cualitativa tiene tres o ms categoras. En este caso la simetra y la homogeneidad
marginal no son equivalentes (para tablas 2x2 s que lo son), sin embargo la
simetra implica homogeneidad marginal pero el recproco no es cierto.

Si queremos contrastar la simetra para este tipo de tablas utilizaremos la
extensin de Bowker (Bowker, 1948) para al test de McNemar. Si la hiptesis de
simetra es rechazada puede ser de inters contrastar la hiptesis de homogeneidad
marginal por lo que utilizaremos la extensin de Stuart (Stuart, 1955) y Maxwell
(Maxwell, 1970) al test de McNemar. Para realizar este test se debe instalar y
cargar la librera coin.

Los argumentos que hay que pasarle a la funcin test.cualitativa son: los
nombres de las dos variables cualitativas, los datos y si estn relacionadas o no esas
dos variables (paired=TRUE o FALSE). Adems esta funcin representa un
diagrama de barras para los datos.

Fiz Lagoa Labrador
33

33

3.2. Funcin en R para un anlisis comparativo de dos variables cuantitativas

En la funcin test.cuantitativa se analizan dos variables cuantitativas
dependiendo si proceden de muestras independientes o dependientes, tambin
comprobaremos si las dos variables son normales para realizar test paramtricos o
no paramtricos. El principal objetivo de esta funcin es contrastar si las dos
variables tienen la misma distribucin.

Dentro de esta funcin se ejecuta des.cont para describir las dos variables
cuantitativas.

Para comprobar la normalidad de los datos, dentro de esta funcin ejecutamos la
funcin normalidad, si la variable tiene ms de 50 elementos realizamos el test de
Lilliefors (recordemos que para realizar este test hay que cargar e instalar la librera
nortest) y si tiene menos de 50 elementos realizamos el test de Shapiro-Wilk.

Por lo que si las variables son independientes y normales, en primer lugar se
realiza la prueba F de comparacin de varianzas. Si las dos variables tienen la
misma varianza se realiza la prueba t de comparacin de medias (con varianzas
iguales) y si no tienen varianzas iguales se realiza la prueba t de comparacin de
medias (con varianzas diferentes).

Si las variables son independientes pero alguna de las dos no es normal
realizamos la prueba no paramtrica de Wilcoxon.

Si las variables estn relacionadas, es decir si por ejemplo son medidas repetidas
en los individuos, y provienen de una distribucin normal, realizaremos la prueba t
de comparacin de medias para muestras relacionadas, y si son variables
relacionadas pero alguna de ellas no es normal realizamos la prueba no paramtrica
de Wilcoxon para muestras relacionadas o dependientes.

Los argumentos que hay que pasarle a test.cuantitativa son: las dos variables
continuas, los datos y si estn o no relacionadas (paired=TRUE o FALSE). Adems
esta funcin representa un diagrama de cajas y la estimacin tipo kernel de la
funcin de densidad (funcin density en R) de cada una de las variables continuas.

3.3. Funcin en R para un anlisis comparativo de una variable cuantitativa y
otra cualitativa

En la funcin test.mixto analizaremos una variable cuantitativa y una variable
cualitativa.

Dentro de esta funcin, en primer lugar se ejecuta des.cont y des.cat.def para
describir una variable continua y categrica respectivamente.

Dependiendo de las k categoras que tenga la variable cualitativa tendremos k
variables cuantitativas.

Fiz Lagoa Labrador
34

34

Si la variable es dicotmica, es decir que tiene k=2 categoras, el anlisis es
similar al que hace la funcin test.cuantitativa. Si la variable es policotmica, es
decir que tiene k>2 categoras, tenemos dos situaciones:

1) Si las k variables cuantitativas son independientes diferenciamos tres
situaciones:

- Si las k variables provienen de una distribucin normal (esto lo sabemos
ejecutando la funcin normalidad) y si tienen la misma variabilidad (para
ello utilizaremos el Test de Levene (Levene, 1960), funcin leveneTest del
paquete car) se realiza un anlisis de la varianza de un factor (ANOVA de
un factor). En este caso al efectuar el ANOVA, si hay diferencias entre las
medias de las k variables, se realiza el contraste a posteriori de Tukey para
conocer donde se encuentran esas diferencias.

- Si las k variables provienen de una distribucin normal pero no tienen la
misma variabilidad, se realiza el test de Kruskal-Wallis para k muestras
independientes.

- Si algunas de las k variables cuantitativas no es normal, se realiza el test de
Kruskal-Wallis para k muestras.

2) Si las k variables cuantitativas estn relacionadas se realiza el Test de
Friedman para k muestras relacionadas o dependientes.

Los argumentos que hay que pasarle a la funcin test.mixto son: el nombre de
una variable continua, el nombre de una variable categrica, los datos y si las k
variables estn o no relacionadas (paired=TRUE o FALSE). Adems esta funcin
representa los diagramas de cajas y las estimaciones no paramtricas tipo kernel de
las densidades segn las k variables.

4. EJEMPLO DEL USO DE LAS FUNCIONES

Utilizaremos los datos de elastasa (Captulo N2) para comprobar el
funcionamiento de las funciones test.cualitativa y test.mixto.

En primer lugar queremos comprobar si la variable edad es diferente segn la
variable grupo (CAD, No-CAD). Como la edad es una variable cuantitativa y la
variable grupo es cualitativa usamos la funcin test.mixto.

Creamos los script en R: descriptiva_cualitativa, descriptiva_continua,
comparacion_cualitativas, comparacion_cuantitativas, comparacion_mixtas,
normalidad y bidimensional. En estos scripts se encuentran las funciones:
des.cat.def, des.cont, test.cualitativa, test.cuantitativa, test.mixto, normalidad y
tablas.bidim respectivamente.

Fiz Lagoa Labrador
35

35

source("descriptiva_cualitativa.R")
source("descriptiva_continua.R")
source("comparacion_cualitativas.R")
source("comparacion_continuas.R")
source("comparacion_mixtas.R")
source("normalidad.R")
source("bidimensional.R")

elas$cad<-factor(elas$cad, levels=c(1,0), labels=c("CAD","No CAD"))
test.mixto("edad","cad",elas,paired=F)
**********
Descriptiva edad
**********
Nmero de elementos: 141
NAs: 0
Media (sd, se)
60.4 (11.148, 0.94)
Mediana (1st Qu, 3rd Qu, IQR)
61 (56, 68, 12)
**********
Descriptiva cad
**********
NAs: 0
[,1]
CAD 96 (68.09%)
No-CAD 45 (31.91%)
**********
categrica-nivel: CAD
**********
NAs: 0
Media (sd, se)
62.3 (10.207, 1.04)
62 (56.75, 70, 13.25)
**************
TEST DE LILLIEFORS para nivel = CAD
p-valor: 0.386
**************
**********
categrica-nivel: No-CAD
**********
NAs: 0
Media (sd, se)
56.36 (12.078, 1.8)
59 (52, 63, 11)
**************
TEST DE SHAPIRO-WILK para nivel = No-CAD
p-valor: 0.0032
**************
**************
***** TEST NO PARAMTRICOS PARA DOS MUESTRAS *****
**************
***** Test de Wilcoxon *****

Wilcoxon rank sum test with continuity correction

data: cont.var by cat.var
W = 2776, p-value = 0.006448
alternative hypothesis: true location shift is not equal to 0

NO TIENEN LA MISMA DISTRIBUCIN

Fiz Lagoa Labrador
36

36

de la edad en ambos grupos

En segundo lugar queremos comprobar si la variable sexo es independiente de la
variable grupo (CAD, No-CAD). Como sexo y grupo son variables cualitativas
usamos la funcin test.cualitativa.

elas$cad<-factor(elas$cad, levels=c(1,0), labels=c("CAD","No CAD"))
elas$sexo<-factor(elas$sexo, levels=c(1,2), labels=c("Hombre","Mujer"))

test.cualitativa("sexo","cad",elas,paired=F)
**********
Descriptiva sexo
**********
NAs: 0
[,1]
Hombre 104 (73.76%)
Mujer 37 (26.24%)
**********
Descriptiva cad
**********
NAs: 0
[,1]
CAD 96 (68.09%)
No-CAD 45 (31.91%)
**********
Tabla de frecuencias absolutas
**********
cad
sexo CAD No-CAD
Hombre 81 23
Mujer 15 22
**********
Tabla de frecuencias relativas
**********
cad
sexo CAD No-CAD
Hombre 0.5744681 0.1631206
Mujer 0.1063830 0.1560284

Fiz Lagoa Labrador
37

37

**********
Distribucin sexo/cad = CAD
**********
NAs: 0
[,1]
Hombre 81 (84.38%)
Mujer 15 (15.62%)
**********
Distribucin sexo/cad = No-CAD
**********
NAs: 0
[,1]
Hombre 23 (51.11%)
Mujer 22 (48.89%)
**************
***** TEST CHI-CUADRADO *****
**************

Pearson's Chi-squared test

data: cat1.var and cat2.var
X-squared = 17.5151, df = 1, p-value = 2.85e-05

LAS VARIABLES SON DEPENDIENTES

Figura.2 Diagrama de barras de las frecuencias absolutas
del sexo en ambos grupos

Se puede comprobar que los resultados coinciden con la Tabla.1 del captulo
N2, pgina N21 de este informe.

Utilizaremos los datos de Insuficiencia Cardaca (Captulo N4) para comprobar
el funcionamiento de la funcin test.cuantitativa. Queremos comprobar si hay
cambios en el nivel de hemoglobina basal (hb0) y hemoglobina final (hb_fin) en
unos individuos seguidos en una consulta.

Fiz Lagoa Labrador
38

38

test.cuantitativa("hb0","hb_fin",Seguidos,paired=T)
**********
Descriptiva hb0
**********
NAs: 0
Media (sd, se)
12.91 (1.8, 0.18)
12.7 (11.5, 14.12, 2.62)
**********
Descriptiva hb_fin
**********
NAs: 0
Media (sd, se)
12.84 (1.615, 0.16)
12.75 (11.6, 13.82, 2.22)
**************
TEST DE LILLIEFORS para hb0
p-valor: 0.3817
**************
TEST DE LILLIEFORS para hb_fin
p-valor: 0.7309
**************
***** TEST PARAMTRICOS EN POBLACIONES NORMALES
*****
**************
***** Comparacin de medias para muestras relacionadas
*****
Paired t-test

data: covar1.var and covar2.var
t = 0.4605, df = 95, p-value = 0.6462
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.2311016 0.3706850
sample estimates:
mean of the differences
0.06979167

TIENEN LA MISMA MEDIA

de hemoglobina basal y final

Fiz Lagoa Labrador
39

39

Captulo 4

Evaluacin del impacto de una consulta
especializada en el servicio de medicina
interna.

1. INTRODUCCIN

La insuficiencia cardaca (Heart Failure, HF) es la incapacidad del corazn de
bombear sangre en los volmenes ms adecuados para satisfacer las demandas
del organismo.

La HF constituye un problema de salud pblica importante, y su incidencia ha
aumentado en la ltima dcada coincidiendo con el envejecimiento de la poblacin. Su
prevalencia afecta al 10% de los individuos que superan los 75 aos, y aumenta con la
edad. Constituye la primera causa de hospitalizacin y reingreso en mayores de 65 aos,
suponiendo la mayor proporcin del gasto sanitario. Adems, la mortalidad es alta
(siendo la tercera de las causas cardiovasculares por detrs de la cardiopata isqumica y
la enfermedad vascular cerebral) y merma de forma considerable la calidad de vida de
los pacientes que la sufren.

En el ao 2007 el servicio de Medicina Interna del Complejo Hospitalario
Universitario de Santiago de Compostela (CHUS) pone en marcha una consulta
especializada para el seguimiento y control de los pacientes con insuficiencia cardaca.
La hiptesis de la que parten los investigadores es que un mejor control y seguimiento
de los pacientes con HF permite reducir su mortalidad. Para lograr el objetivo del
estudio y en ausencia de grupo control definido a priori, en este trabajo se consider
como grupo control aquellos individuos que asisten al menos a la segunda conulta.

Los objetivos de este estudio son los siguientes:

- Caracterizar a los individuos controlados en la consulta especializada frente a los
individuos que no se controlaron.

- Caracterizar a los individuos controlados, segn el motivo de finalizacin del
seguimiento en la consulta especializada (muerte, derivacin a otro servicio, o
abandono del estudio por otras causas) y definir los factores pronstico de estos
motivos de finalizacin del seguimiento.

Fiz Lagoa Labrador
40

40

- Describir las causas de muerte (cardiovasculares y no cardiovasculares) y definir
los factores pronstico de mortalidad.

- Describir la repercusin del seguimiento de los pacientes controlados hasta la
fecha fin de seguimiento (30/06/2011).

- Valorar la supervivencia de una cohorte de pacientes con insuficiencia cardaca
en una consulta de Medicina Interna durante un perodo de 4 aos y medio.

2. MTODOS

2.1. Diseo del estudio

Estudio de cohortes retrospectivo, no intervencionista, de pacientes
diagnosticados de HF seguidos en una consulta especfica de Medicina Interna del
Complejo Hospitalario Universitario de Santiago de Compostela (CHUS).

El seguimiento en la consulta especializada, se hace de modo protocolizado,
siguiendo las directrices de la Gua de Insuficiencia Cardiaca de la Sociedad
Espaola de Cardiologa (SEC).

2.2. Sujetos

En este estudio 277 pacientes con insuficiencia cardaca asistieron, al menos una
vez, a una consulta especfica del servicio de Medicina Interna del CHUS, en el
periodo comprendido entre el 01/01/2007 hasta el 31/12/2010. De los 277
pacientes, 22 asistieron solamente a la primera consulta y abandonaron el estudio
por causas ajenas a la HF (grupo no controlados) y 255 asistieron al menos a la
segunda consulta (grupo controlados). En este ltimo grupo y en relacin con el
mantenimiento de su adherencia a la consulta especfica: se mantuvieron en
consulta 96 pacientes hasta la fecha fin de estudio (30/06/2011), 71 pacientes
abandonaron con anterioridad la consulta por causas ajenas a la HF (pudiendo estar
vivos o muertos a la fecha fin de estudio), 34 pacientes fallecieron estando en
consulta (fecha de muerte anterior a la fecha fin de estudio) y a 54 pacientes se les
dio el alta y se derivaron a otros servicios (pudiendo estar vivos o muertos a la
fecha fin de estudio).

2.3. Variables

Variables demogrficas:

- edad_entrada: nmero de aos que tiene el paciente cuando asiste a su primera
consulta.

- sexo: si es un hombre (se codifica con 1) y si es una mujer (se codifica con 2).

Fiz Lagoa Labrador
41

41

Variables de comorbilidad

Son enfermedades crnicas presentes en cada sujeto:

- hta: hipertensin arterial (1=si, 0=no).

- dm: diabetes mellitus (1=si, 0=no).

- epoc: enfermedad pulmonar obstructiva crnica (1=si, 0=no).

- fa: fibrilacin auricular (1=si, 0=no).

Variables de tiempo:

- consulta1: es la fecha correspondiente a la primera consulta realizada por cada
paciente. Esta primera consulta se puede realizar desde el 01/01/2007 hasta el
31/12/2010.

- fecha_final: si el paciente est vivo, esta fecha es 30/06/2011, y si el paciente
falleci la fecha es anterior a la fecha fin de estudio (30/06/2011).

- tiempo_dias: es el tiempo de supervivencia (en das) desde que la persona entra
en el estudio (consulta1) hasta la fecha_final.

Variables de control:

- status: si el sujeto est muerto (exitus=1) o si est vivo (censura=0) al finalizar
el estudio.

- n_cons_seg: es el nmero total de consultas que realiza el sujeto.

- motivo: los motivos del fin de seguimiento, de los 255 pacientes que se
controlaron, son: seguido=1, prdida=2, muerte=3 y alta=4.

- grupo: si el paciente solo asiste a la primera consulta (no controlado=0) y si
asiste al menos a la segunda consulta (controlado=1).

Variables basales y finales

Las variables que indican la situacin clnica del paciente a su inclusin en el
estudio son las basales, y las que indican la situacin clnica al final del control en
consulta de HF son las finales.

- glucemia: glucemia0 (basal) y glucemia_fin (final). Es la concentracin de
glucosa (mg/dl) en sangre.

Fiz Lagoa Labrador
42

42

- sodio: sodio0 (basal) y sodio_fin (final). Es la concentracin de sodio (mMol/l)
en sangre.

- hiponatremia: hiponatremia0 (basal) e hiponatremia_fin (final). Tener
hiponatremia es tener un nivel de sodio en sangre por debajo de los lmites de
normalidad. (hiponatremia=1, no hiponatremia=0).

- GFR: GFR0 (basal) y GFR_fin (final). Es la tasa de filtrado glomerular
calculada a partir de la edad, creatinina y sexo usando la frmula MDRD; es el
indicador ms utilizado para valorar la funcin renal. (Glomerular Filtration
Rate, GFR).

- ERC: ERC0 (basal) y ERC_fin (final). Presencia de Enfermedad Renal Crnica,
definida como un GFR<60 segn las Guas KDQI. (ERC=1, no ERC=0).

- hemoglobina: hb0 (basal) y hb_fin (final). Es la concentracin de hemoglobina
(g/dl) en sangre.

- anemia: anemia0 (basal) y anemia_fin (final). La anemia se define como una
concentracin de hemoglobina en la sangre inferior a 11 g/dl. (anemia=1, no
anemia=0).

- NYHA: NYHA0 (basal) y NYHA_fin (final). La NYHA (New York Heart
Association) es la clasificacin ms utilizada para establecer la capacidad
funcional de pacientes con insuficiencia cardaca. Establece cuatro clases (I, II,
III, IV), basndose en las limitaciones en la actividad fsica del paciente
ocasionadas por los sntomas cardacos, y son las siguientes:

Clase I. No limitacin de la actividad fsica. La actividad ordinaria no
ocasiona excesiva fatiga, palpitaciones, disnea o dolor anginoso.

Clase II. Ligera limitacin de la actividad fsica. Confortables en reposo.
La actividad ordinaria ocasiona fatiga, palpitaciones, disnea o dolor
anginoso.

Clase III. Marcada limitacin de la actividad fsica. Confortables en
reposo. Actividad fsica menor que la ordinaria ocasiona fatiga,
palpitaciones, disnea o dolor anginoso.

Clase IV. Incapacidad para llevar a cabo cualquier actividad fsica sin
disconfort. Los sntomas de insuficiencia cardaca o de sndrome
anginoso pueden estar presentes incluso en reposo. Si se realiza cualquier
actividad fsica, el disconfort aumenta.

En nuestro estudio codificamos NYHA=1, agrupando las clases I y II, y
NYHA=3, agrupando las clases III y IV.

Fiz Lagoa Labrador
43

43

3. ANLISIS ESTADSTICO

Cada una de las variables: demgraficas, de comorbilidad y basales, se definen como las
variables del estudio. A continuacin, nombramos las tcnicas estadsticas utilizadas
para conseguir los siguientes objetivos:

a) Para caracterizar a los individuos controlados en la consulta especializada frente
a los que no se controlaron, se comprueba la asociacin entre cada una de las
variables del estudio y el grupo (control, no control), usando:

- El t-test y el test de Wilcoxon para variables continuas.

- El test chi-cuadrado y el test exacto de Fisher para variables cualitativas.

b) Para describir las causas de muerte (cardiovasculares y no cardiovasculares), se
comprueba la asociacin entre cada una de las variables del estudio y el status
(muerto o vivo) usando:

- El t-test y el test de Wilcoxon para variables continuas.

- El test chi-cuadrado para variables cualitativas.

Con la finalidad de evaluar los factores pronstico de mortalidad, se utiliza un
modelo de regresin con respuesta binaria (status).

c) Para caracterizar a los individuos controlados, segn el motivo de finalizacin
del seguimiento en la consulta especializada, se comprueba la asociacin entre
cada una de las variables del estudio y el motivo (seguido, prdida, muerte y
alta), usando:

- ANOVA de un factor y el test de Kruskal-Wallis para variables
continuas.

- El test chi-cuadrado para variables cualitativas.

Con el objetivo de establecer los factores pronstico de estos motivos de
finalizacin del seguimiento, se utiliza un modelo de regresin con respuesta
multinomial (motivo).

d) Para describir la repercusin del seguimiento en la consulta especfica, de los 96
pacientes que fueron seguidos hasta la fecha fin de estudio (30/12/2010), se
comparan las variables basales y finales de esos pacientes, para comprobar si
hubo cambios a lo largo de ese seguimiento, usando:

- El t-test y el test de Wilcoxon para muestras relacionadas, si las variables
son continuas.

Fiz Lagoa Labrador
44

44

- El test de Mc-Nemar para muestras relacionadas, si las variables son
cualitativas.

e) Valorar la supervivencia de una cohorte de pacientes con insuficiencia cardaca
en una consulta de Medicina Interna durante un perodo de 4 aos y medio,
usando:

- El estimador de Kaplan-Meier.

- Un modelo de regresin de Cox.

3.1. TEST PARAMTRICOS EN DOS POBLACIONES NORMALES


Sea ( )
1 2
, ,...,
n
X X X una muestra de tamao n procedente de una distribucin
normal ( ) ,
X X
X N o ~ y sea ( )
1 2
, ,...,
m
Y Y Y una muestra de tamao m de otra
poblacin normal ( ) ,
Y Y
Y N o ~ . Para contrastar
( )
2 2 2 2
0
: 1
X Y X Y
H o o o o = = se
utiliza el estadstico de contraste:

( )
( )
( )
( )
2
2 2
1, 1 2 2
2
1
1
1
1
X
X X
n m
Y Y
Y
n S
n
S
E F
m S S
m
o
o

| |
|
|
= = ~
|
|
\ .
, si
0
H es cierta.

Se rechaza
0
H si el p-valor calculado para el valor de E en la muestra es
menor que o .

Prueba t de comparacin de medias para muestras independientes

Sea ( )
1 2
, ,...,
n
X X X una muestra de tamao n procedente de una distribucin
normal, ( ) ,
X X
X N o ~ y sea ( )
1 2
, ,...,
m
Y Y Y una muestra de tamao m de otra
poblacin normal ( ) ,
Y Y
Y N o ~ , independiente de la anterior. Para contrastar
la igualdad de medias,
0 1
: 0 vs : 0
X Y X Y
H H = = , el estadstico cambia dependiendo de
que se asuman varianzas poblaciones iguales o distintas.

( )
( )
X Y
v
X Y
E t
X Y

o

= ~
, si
0
H es cierta

En el caso de varianzas iguales 2 v n m = + .
Fiz Lagoa Labrador
45

45

En el caso de varianzas distintas v , adems de depender de n y m, depende
de las varianzas muestrales:
( )
2
2
1
1
n
i
X
i
X X
S
n
=
y
( )
2
2
1
1
m
j
Y
j
Y Y
S
m
=
. Para el
valor de E en la muestra, se calcula su p-valor y se rechaza si es menor que o .

Prueba t de comparacin de medias para muestras dependientes.

En este caso se considera una muestra( )
1 2
, ,...,
n
X X X de tamao n
procedente de una distribucin normal ( ) ,
X X
X N o ~ y una muestra
( )
1 2
, ,...,
n
Y Y Y de tamao tambin n , de otra poblacin normal ( ) ,
Y Y
Y N o ~ . Se
pueden reducir los datos a una sola muestra ( )
1 2
, ,...,
n
D D D , donde cada
i i i
D X Y = , tendr tambin distribucin normal con media
D X Y
= . Este
caso es habitual cuando se toman medidas repetidas en los individuos de una
poblacin.

Para contrastar
0
: 0
X Y
H = se utiliza el estadstico de contraste

1
D
n
D
D
E t
S
n
= ~ , si
0
H es cierta.

Se rechaza
0
H si el p-valor calculado para el valor de E en la muestra es
menor que o .

3.2. TEST PARAMTRICO EN MS DE DOS POBLACIONES NORMALES

Anova de un factor

Adems de que las 2 k > variables sean normales tiene que cumplirse que las
k varianzas sean homogneas, esto se evala realizando el Test de Levene
(Levene, H. (1960)).

En un anlisis de varianza (ANOVA) de un factor el objetivo que se busca es
evaluar si los valores medios de una variable continua varan en funcin de las
categoras, en nuestro caso los diferentes motivos del fin de seguimiento, de una
variable cualitativa. Esta prueba es la extensin de la prueba t para ms de dos
categoras. Queremos contrastar:

0 1 2 1
: ... vs : para algn i e j.
K i j
H H = = = = =

La hiptesis nula nos indica que no hay diferencias en las medias en los
distintos motivos y la alternativa nos indica que al menos las medias en dos de
los motivos no son iguales. Para contrastar la hiptesis anterior contaremos con
Fiz Lagoa Labrador
46

46

una muestra (o 4 k =

muestras si consideramos por separado cada uno de los
motivos), que representaremos de la siguiente manera:

Motivo Muestra Tamao de muestra Media

1

1
11 12 1
Y , Y ,..., Y
n

1
n
1
1
1
1.
1
n
j
j
Y
Y
n
=
=

2

2
21 22 2
Y , Y ,..., Y
n

2
n
2
2
1
2.
2
n
j
j
Y
Y
n
=
=

3

3
31 32 3
Y , Y ,..., Y
n

3
n
3
3
1
3.
3
n
j
j
Y
Y
n
=
=

4

4
41 42 4
Y , Y ,..., Y
n

4
n
4
4
1
4.
4
n
j
j
Y
Y
n
=
=

Global

1 2 3 4
n n n n n = + + +
4
1 1
..
i
n
ij
i j
Y
Y
n
= =
=

Cada una de las observaciones de nuestra muestra
ij
Y puede ser representada
de la siguiente manera:

( )
ij i ij i i ij
Y Y e = + = + ,

donde
ij
e representa el error de la observacin j del motivo i con respecto a
la media en ese motivo. Adems,

( )
ij i ij i ij i ij
Y e e e o = + = + + = + +

Por lo tanto cada observacin la podemos descomponer en:

1. , que es la media global

2.
i
o , que es la desviacin entre la media global y la media en el
motivo i (efecto del motivo i).

3.
ij
e , que es el error experimental.

Fiz Lagoa Labrador
47

47

El estadstico de contraste en el ANOVA de un factor, se basa en comparar la
variabilidad entre motivos (diferencias en las medias) y la variabilidad de la
respuesta dentro de cada motivo (
2
o ).

Variabilidad entre motivos
.
Variabilidad dentro de los motivos

Si el cociente anterior es grande, entonces cabe esperar que s existan
diferencias entre los motivos.

Teniendo en cuenta que,

( ) ( )
,
ij i ij i ij i
Y e Y o = + + = + +

substituimos los correspondientes valores poblacionales y
i i
por los
correspondientes valores muestrales,

( ) ( )
.. . .. .
,
ij i ij i
Y Y Y Y Y Y = + +

llegando a la siguiente igualdad,

( ) ( ) ( )
.. . .. .
.
ij i ij i
Y Y Y Y Y Y = +

A partir de esta ltima expresin, se obtiene la siguiente suma de cuadrados,

( ) ( ) ( )
4 4 4
2 2 2
.. . .. .
1 1 1 1 1
.
i i
n n
ij i i ij i
i j i i j
Y Y n Y Y Y Y
= = = = =
= +

En la igualdad anterior, podemos identificar 3 componentes:

1. Variabilidad total o suma total de cuadrados

( )
4
2
..
1 1
.
i
n
Total ij
i j
SC Y Y
= =
=

Medida de la variabilidad de los datos con respecto a la media global.

2. Variabilidad explicada o suma de cuadrados de los motivos

( )
4
2
. ..
1
.
Motivo i i
i
SC n Y Y
=
=

Medida de la variabilidad de las medias en cada motivo con respecto a
la media global. (Variabilidad entre motivos).

Fiz Lagoa Labrador
48

48

3. Variabilidad no explicada o suma de cuadrados del error

( )
4
2
.
1 1
.
i
n
Error ij i
i j
SC Y Y
= =
=

Medida de la variabilidad en la respuesta entre observaciones del
mismo motivo. (Variabilidad dentro de cada tratamiento).

Por lo que el estadstico de contraste es de la siguiente manera:

3
0 3, 4
4
Motivo
Error
SC
n SC
n
F F

= ~ , si
0
H es cierta.

Se rechaza
0
H si el p-valor calculado para el valor de
0
F en la muestra es
menor que o . En este caso el objetivo ser evaluar que motivos son distintos
y que motivos son iguales. En trminos de un contraste, lo que buscamos es:

0 1
: vs :
i j i j
H H = = , para cada par de motivos i e j.

Existen diferentes mtodos para realizar el anterior contraste, entre ellos:

Mtodo de la mnima diferencia significativa.

Mtodo de Bonferroni.

Mtodo de la diferencia significativa de Tukey.

3.3. TEST NO PARAMTRICO EN DOS MUESTRAS

Test de Wilcoxon para muestras independientes

Sea ( )
1 2
, ,...,
n
X X X una muestra de tamao n procedente de una poblacin
con distribucin de tipo continuo
X
F y sea ( )
1 2
, ,...,
m
Y Y Y una muestra de tamao
m de otra poblacin con distribucin de tipo continuo
Y
F .

Se trata de contrastar
0 1
: vs :
X Y X Y
H F F H F F = = . Este test se basa en los
rangos de las observaciones y utiliza la idea de que, si
0
H es cierta, se espera
que los rangos correspondientes a los valores de una y otra muestra estn
entremezclados o dispersos, mientras que en otro caso, debe esperarse que los
rangos de las observaciones de cada muestra estn muy agrupados en los
extremos.

Fiz Lagoa Labrador
49

49

Llamando R a la suma de los rangos asociados a las observaciones de una
cualquiera de las dos muestras (por ejemplo, la de menor tamao), la
distribucin del estadstico R est tabulada. El estadstico R est perfectamente
relacionado con el estadstico U de Mann-Whitney, de manera que ambos
proporcionan la misma prueba.

3.3.1. Test de Wilcoxon para muestras dependientes

La hiptesis a contrastar es la misma que la del anterior,
0
: ,
X
H F F = pero en
este caso se considera una muestra de tamao n de una poblacin bivariante, es
decir n pares de observaciones muestrales ( ) ( )
1 1
, ,..., ,
n n
X Y X Y correspondientes
a dos variables aleatorias X e Y con distribucin de tipo continuo, pero no
necesariamente independientes.

Como ya se coment anteriormente, esta situacin aparece frecuentemente al
tomar medidas repetidas sobre un mismo individuo.

Si reducimos los datos a una sola muestra
1 2
, ,..., ,
n
D D D donde cada
,
i i i
D X Y = pasamos a trabajar con una muestra de tamao n de la variable
aleatoria D X Y = .

Bajo la hiptesis nula, esta variable diferencia estar distribuida de forma
simtrica respecto al 0, por lo que las diferencias positivas y negativas de igual
magnitud absoluta sern equiprobables. Los estadsticos de Wilcoxon se basan
en esta idea y calculan la suma de los rangos de las diferencias positivas, , T + y
de las diferencias negativas, , T habindose asignado los rangos a los valores
absolutos de las diferencias observadas.

La distribucin de los estadsticos de Wilcoxon (por ejemplo del T + ) est
tabulada.

3.4. TEST NO PARAMTRICO PARA MS DE DOS MUESTRAS

Test de Kruskal-Wallis para k muestras independientes

Se trata de una generalizacin del test de Wilcoxon al caso de k muestras.
Sean
( )
1
11 12 1
, ,..., ,
n
X X X
( )
2
21 22 2
, ,..., ,
n
X X X
( )
1 2
..., , ,..., ,
k
k k kn
X X X k muestras
de tamaos
1 2
, ,..., ,
k
n n n respectivamente, de sendas distribuciones continuas.

Se quiere contrastar la hiptesis nula de que las k distribuciones son idnticas
frente a la alternativa de que difieren en su tendencia central.

Fiz Lagoa Labrador
50

50

A cada una de las
1 2
...
k
N n n n = + + + observaciones conjuntamente
ordenadas, se les asigna un rango y se determina la suma de los rangos
j
R de las
observaciones de cada una de las muestras, 1,..., j k = .
En esencia, el contraste determina si la disparidad entre las
j
R con respecto a
los tamaos muestrales
j
n de las muestras es suficientemente significativa para
llevar al rechazo de la hiptesis nula.

Si
0
H es cierta y para tamaos muestrales suficientemente grandes, el
estadstico

( )
( )
2
1
1
12
3 1 ,
1
k
j
k
j
j
R
H N
n
N N
_

=
| |
| |
= + ~
|
|
+
\ .
\ .

Por lo que para un nivel de significacin , o se rechazar
0
H si el estadstico
H > el percentil 1 o de una
2
1 k
_

.

3.5. INDEPENDENCIA EN TABLAS DE CONTINGENCIA

Nuestro objetivo ser contrastar la hiptesis de independencia poblacional entre
dos factores basndonos en la informacin proporcionada por las frecuencias
observadas contenidas en la tabla de contingencia.

Tabla.1. (Notacin para una tabla de contingencia I J )

Factor B

1
B

1
B

J
B

1
A
11
n

1 j
n
1J
n
1.
n

Factor A
i
A
1 i
n

ij
n
iJ
n
. i
n

I
A
1 I
n

Ij
n
IJ
n
. I
n

.1
n

. j
n
.J
n
n

A partir de la Tabla.1 se obtienen las siguientes distribuciones de frecuencias
marginales y condicionales:

Distribuciones marginales:

Factor A:
.
1
( 1,..., ),
J
i ij
j
n n i I
=
= =

Fiz Lagoa Labrador
51

51

Factor B:
.
1
(j 1,..., ),
I
j ij
i
n n J
=
= =

verificando
. .
1 1 1
.
I J I J
ij i j
i j i j
n n n n
= = = =
= = =

Distribuciones condicionadas:

Factor A condicionado a ( 1,..., ):
j
B B j J = =

| .
n 1,...,
i j ij j
n n i I = =

Factor B condicionado a A (i 1,..., ):
i
A I = =

| .
n j 1,...,
j i ij i
n n J = =

Tabla.2. (Notacin para una tabla I J de probabilidades poblacionales)

Factor B

1
B

1
B

J
B

1
A
11
p

1 j
p
1J
p
1.
p

Factor A
i
A
1 i
p

ij
p
iJ
p
. i
p

I
A
1 I
p

Ij
p
IJ
p
. I
p

.1
p

. j
p
. J
p 1

De igual forma que para las frecuencias observadas, se definen las distribuciones
de probabilidad marginales y condicionadas asociadas de la siguiente manera:

Distribuciones marginales:

Factor A:
.
1
( 1,..., ),
J
i ij
j
p p i I
=
= =

Factor B:
.
1
(j 1,..., ),
I
j ij
i
p p J
=
= =

verificando
. .
1 1
1
I J
i j
i j
p p
= =
= =

Fiz Lagoa Labrador
52

52

Distribuciones condicionadas:

Factor A condicionado a ( 1,..., ):
j
B B j J = =

| .
1,...,
i j ij j
p p p i I = =

Factor B condicionado a A (i 1,..., ):
i
A I = =

| .
j 1,...,
j i ij i
p p p J = =

Contraste de independencia Chi-cuadrado.

Consideremos una tabla de contingencia I J generada por muestreo
multinomial. Esto significa que la distribucin conjunta del vector aleatorio que
genera a las frecuencias observadas es una multinomial de parmetros las
probabilidades poblacionales.

Supongamos que queremos contrastar la hiptesis nula de independencia

0 . .
:
ij i j
H p p p = 1,..., ; 1,..., i I j J = =

Sean
. .
/
ij i j
m n n n = los estimadores de mxima verosimilitud de las frecuencias
esperadas bajo la hiptesis de independencia. Para llevar a cabo este contraste, se
define el estadstico de Pearson de la siguiente manera:

2
2
( )
,
ij ij
i j ij
n m
X
m

que bajo la hiptesis nula de independencia, tiene distribucin de probabilidad
asinttica (para tamaos muestrales grandes)
2
( 1)( 1) I J
_

.
Se rechaza la hiptesis de independencia al nivel o cuando
2 2
( 1)( 1); I J
X
o
_

>

Correcin por continuidad del estadstico
2
X

Los contrastes de independencia basados en la distribucin chi-cuadrado
aproximan una distribucin discreta (la del estadstico del contraste que es funcin
de la multinomial) por una continua (la distribucin chi-cuadrado).

Esto da lugar a un error considerable cuando el tamao muestral no es
demasiado grande. Los mtodos que disminuyen este error se llaman correcciones
por continuidad.

Fiz Lagoa Labrador
53

53

Para mejorar esta aproximacin en el caso de tamaos muestrales pequeos,
Yates (Yates, 1934) propuso un mtodo que se llama correccin por continuidad de
Yates para el estadstico
2
X en una tabla 2 2.

Esta correccin consiste en restar 1/2 a las desviaciones positivas y sumar 1/2 a
las desviaciones negativas. Por lo tanto, el estadstico
2
X corregido es de la forma:

( )
( )
2
2
1/ 2
.
ij ij
C
i j ij
n m
X
m

=

Existe mucha polmica sobre la aplicacin de la correccin de Yates porque hay
casos prcticos en los que con el estadstico corregido se rechaza la independencia
con bastante menor significacin que con el test no corregido. Es decir, el p-valor
corregido es bastante mayor que el no corregido y el test corregido es ms
conservativo. En caso de tamaoo muestral grande la correccin tiene efecto
pequeo sobre el valor del estadstico
2
X .

Test exacto de Fisher para tablas 2x2

Consideremos una tabla 2 2 con los totales marginales ( )
1. 2. .1 .2
, , , n n n n de
ambas variables fijos.

Supongamos que queremos contrastar la hiptesis de independencia poblacional
que para una tabla 2 2 se puede expresar como:

0 1|1 1|2
: H p p =

La distribucin exacta bajo
0
H de cualquier distribucin de frecuencias
observadas cuyos totales marginales coincidan con los fijados de antemano, es la
hipergeomtrica de parmetros ( )
.1 1.
, , n n n dada por

1. 1.
.1 11 11 1. 2. .1 .2
11 12 21 22
.1
! ! ! !
,
! ! ! ! !
n n n
n n n n n n n
n n n n n n
n
| | | |
| |

\ .\ .
=
| |
|
\ .

que bajo la hiptesis de independencia no depende de ningn parmetro
desconocido, y expresa la distribucin de las cuatro casillas de la tabla en trminos
del elemento
11
n debido a que, dados los totales marginales, su valor determina las
otras tres casillas de la tabla.

El rango para los posibles valores de
11
n ( ) { } { }
.1 1. 11 .1 1.
max 0, min , . n n n n n n s s

Dado que aparecen en la frmula de la distribucin hipergeomtrica un total de
IJ I J 1 + + + factoriales, el clculo de las probabilidades de todas las posibles tablas
Fiz Lagoa Labrador
54

54

es complicado y laborioso. Este proceso se simplifica aplicando la frmula de
Feldman y Kinger que calcula una de estas probabilidades, por ejemplo la de la
tabla observada, y las dems se obtienen a partir de ella. Si denotamos por
11
n
p a la
probabilidad que asigna la distribucin hipergeomtrica a una tabla con frecuencia
11
n en la casilla (1,1), la expresin para la probabilidad de las dems tablas es:

( )( )
11 11
12 21
1
11 22
,
1 1
n n
n n
p p
n n
+
=
+ +

( )( )
11 11
11 22
1
12 21
.
1 1
n n
n n
p p
n n
=
+ +

El paso siguiente es fijar una hiptesis alternativa, fijemos
1 1|1 1|2
: H p p = . Como
bajo
0
H se tiene que verificar
11 11 1. .1
, n m n n n = = se rechazar
0
H cuando la
distancia
11 11 11
d n m = sea suficientemente grande. Por lo tanto el p-valor del test
es:

11 11 11 11 11 11
: definiendo .
Obs Obs Obs
p P n d d d n m = > ( =

Si
11 11
Obs
n m > entonces
( ) { }
11
11 11 11 11 11
: 2 ,
.
Obs Obs
n
n n n m n
p p
e +
=

Si
11 11
Obs
n m < entonces
( ) { }
11
11 11 11 11 11
: , 2
.
Obs Obs
n
n n n n m
p p
e +
=

El test resulta significativo para rechazar la independencia si p o s siendo o el
nivel de significacin previamente fijado para el contraste.

Para ms informacin sobre este test puede consultarse (Aguilera, 2001).

Los test vistos anteriormente sirven para contrastar si dos variables cualitativas
son independientes, pero en ocasiones tenemos variables cualitativas tomadas de un
mismo individuo, por ejemplo en nuestro caso anemia0 (basal) y anemia_fin
(final), por lo que el estudio de la independencia no tiene inters. Las tablas que
resultan de la representacin de estos datos (relacionados o dependientes) son
cuadradas y adems con las mismas categoras para filas y columnas.

Las hiptesis de inters en este tipo de tablas sern (debido a su interpretacin en
relacin a si existen cambios significativos de la variable de inters en el tiempo o
bajo los tratamientos considerados): la simetra y la homogeneidad marginal.

- Simetra:
ij ji
p p = ( ) i j =
- Homogeneidad marginal:
. . i i
p p = ( 1,..., ) i I =

Fiz Lagoa Labrador
55

55

En una tabla 2 2 ambos conceptos son equivalentes. Sin embargo, en general,
la simetra implica homogeneidad marginal pero el recproco no es cierto.

Test de Mc-Nemar para una tabla 2x2.

La estructura de una tabla 2 2 procedente de datos dependientes binarios
(clasificados segn una variable dicotmica) es la siguiente:

Caso2
Caso1 A1 A2
A1

11
n
12
n
A2

21
n
22
n

Contiene en cada una de sus casillas las frecuencias observadas
ij
n .

Vamos a obtener en primer lugar un test aproximado (basado en la distribucin
chi-cuadrado) para contrastar la hiptesis nula:

0 1. .1 12 21 1 1. .1 12 21
: vs : H p p p p H p p p p = = = =

0
H significa que la probabilidad de clasificarse en la categora A1 es la misma en
los dos casos considerados. Es decir, se contrasta que no hay cambios significativos
de la clasificacin en los dos casos frente a la existencia de cambios. Por ello el test
se suele llamar, tambin, test de significacin de cambios.

El test es debido a McNemar (McNemar, 1947) y se obtiene como sigue. Bajo
0
H los EMV (suponiendo muestreo multinomial para la tabla 2 2) de las
probabilidades poblacionales son:

11 11
/ p n n =
22 22
/ p n n =
12 21 12 21
( ) / 2 p p n n n = = +

Por lo tanto, los EMV de las frecuencias esperadas bajo
0
H son:

11 11
m n =
22 22
m n =
12 21 12 21
( ) / 2 m m n n = = +

Entonces, substituyendo en el estadstico
2
X de bondad de ajuste se tiene la
expresin:

2
2 12 21
12 21
( )

( )
n n
X
n n
=
+

que tiene, bajo
0
H distribucin asinttica
2
_ con 1 grado de libertad, y es
conocido como estadstico de McNemar.
Fiz Lagoa Labrador
56

56

El nmero de parmetros libres de la tabla es 3. El nmero de parmetros
estimados es dos. Por lo tanto la diferencia es el nmero de grados de libertad igual
a 1.

Por lo tanto, el test resultar significativo para rechazar la hiptesis de
independencia al nivel o si se verifica:
2 2
1;
X
o
_ >

Se puede comprobar que la correccin de Yates del estadstico de McNemar es
de la forma:
( )
( )
2
12 21 2
12 21
1

C
n n
X
n n

=
+

La correccin de Yates es aconsejable cuando las frecuencias esperadas en el
caso de simetra (u homogeneidad marginal) son menores que 5, es decir,
( )
12 21
5
2
n n +
< .

En nuestro estudio no tenemos variables cualitativas dependientes con ms de
dos categoras, si las tuvisemos para contrastar la simetra tendramos que utilizar
la extensin de Bowker (Bowker, 1948) para al test de McNemar. Si la simetra se
rechaza, como no estamos en tablas 2x2 la simetra y la homogeneidad marginal no
son equivalentes por lo que puede ser de inters utilizar la extensin de Stuart
(Stuart, 1955) y Maxwell (Maxwell, 1970) al test de McNemar para contrastar la
homogeneidad marginal.

3.6. REGRESIN LOGSTICA

Consideremos una variable respuesta Y, que slo puede tomar dos valores, que
codificaremos como 0 y 1. Diremos que Y es una variable binaria (o dicotmica), y
queremos estudiar su relacin con otras variables explicativas X mediante un
anlisis de regresin. Por ser la variable respuesta binaria, su distribucin ser
Bernoulli y su media una probabilidad de xito.

Nuestro propsito es construir un modelo para

( ) ( ) 1/ x P Y X x t = = =

esto es, para la probabilidad de xito condicionada a cada valor de la variable
explicativa. Podemos aplicar a ( ) x t una funcin que transforme el intervalo [0,1]
en toda la recta real. As, se tratara de expresar

'
( ( , )) g x x t | | =

donde a la funcin g se le conoce como funcin enlace o funcin link, x es el vector
que contiene los valores de las variables explicativas y | el vector de los
coeficientes.
Fiz Lagoa Labrador
57

57

En esta situacin donde la variable respuesta es dicotmica, es comn considerar
como funcin link la funcin logstica o funcin logit:

( ) [0,1]
1
p
g p p
p
= e

Como el argumento p ser sustituido por la probabilidad de xito, la funcin
logstica consiste en efectuar un logaritmo al cociente entre la probabilidad de
xito, p, y la probabilidad de fracaso, (1- p). A este cociente se le conoce como
odds:

( 1)
( )
( 0)
P Y
Odds Y
P Y
=
=
=

Ahora que la odds se mueve en el intervalo [0, ] + , slo falta aplicar un
logaritmo para transformarlo en una cantidad situada en toda la recta real. En
definitiva el modelo consistir en expresar el logaritmo de la odds de la variable
respuesta como funcin lineal de la variable explicativa:

'
( , )
log
1 ( , )
x
x
x
t |
|
t |
=

Veamos ahora que forma adopta este modelo si lo pensamos como
representacin de la probabilidad de xito. Para ello habr que invertir la funcin
logit, que viene dada de la siguiente manera

1
( )
1
x
x
e
g x
e
=
+

Finalmente, el modelo logstico consiste en expresar la probabilidad de xito de
la siguiente manera:

'
'
1 '
( , ) ( )
1
x
x
e
x g x
e
|
|
t | |
= =
+

Se define la Odds Ratio (OR), como el cociente de la odds en una y otra
poblacin y se representa como OR e
|
= . Cuantifica la magnitud de la asociacin
entre la respuesta y el factor de inters.

3.7. REGRESIN MULTINOMIAL

La regresin logstica multinomial (Hosmer y Lemeshow, 1989) se utiliza en
modelos con variable dependiente de tipo nominal con ms de dos categoras
(policotmica) y es una extensin multivariante de la regresin logstica binaria.
Fiz Lagoa Labrador
58

58

En el modelado de una respuesta policotmica nominal con k categoras, se
deben definir k-1 logits, cada uno de ellos comparando una determinada categora
de k de respuesta con la categora de referencia, codificada con un 0. Por tanto, el
modelo de regresin logstica multinomial plantea un conjunto de k-1 ecuaciones
de regresiones simultanas:

0 1
( )
logit( ) ln siendo 1,..., 1
( 0)
s s
P Y s
Y s x s k
P Y
| |
| | =
= = = + =
|
=
\ .

3.8. ANLISIS DE SUPERVIVENCIA

Introduccin

El anlisis de supervivencia consiste en un conjunto de tcnicas para analizar
el tiempo de seguimiento hasta la ocurrencia de un evento de inters (en nuestro
caso muerte). En la prctica, es muy frecuente encontrarse con situaciones que
se cuenten con observaciones incompletas de los perodos que transcurren entre
el tiempo inicial y el tiempo final. Esto puede darse por censura o por
truncamiento, y es precisamente bajo censura o truncamiento que el anlisis de
supervivencia cobra una mayor importancia. Los mecanismos de censura y
truncamiento ms frecuentes son los siguientes:

i. Censura por la derecha: Se presenta cuando hasta la ltima observacin
que se le hace al individuo, an no ha ocurrido el evento que se desea
observar. Existen varias razones para que se presente este tipo de censura:

- Que hasta el momento de finalizacin del estudio no haya ocurrido
el evento, esto ocurrira en el caso de que el perodo de seguimiento
sea finito.

- Que el individuo haya abandonado el estudio.

- Que haya ocurrido en el individuo otro evento que imposibilite la
ocurrencia del evento que se desea observar.

ii. Censura por la izquierda: Es poco comn en el anlisis de supervivencia,
se presenta cuando para la primera observacin que se realiza sobre el
individuo ya ha ocurrido el evento de inters. Este tipo de censura suele
confundirse con el truncamiento por la izquierda o la entrada tarda.

iii. Censura por intervalos: Se presenta cuando solo se sabe que al individuo le
ocurre el evento de inters entre un instante
i
t y un tiempo
j
t .

Fiz Lagoa Labrador
59

59

iv. Entrada tarda al estudio (truncamiento por la izquierda): Se presenta
cuando el individuo comienza a observarse posteriormente al verdadero
evento inicial.

v. Truncamiento por la derecha: Se presenta cuando slo se incluyen los
individuos que presentan el evento de inters.

Para obtener un panorama general de los distintos tipos de censura puede
verse el libro de (Andersen et al., 1993) o el de (Klein y Moeschberger, 1997).

Definiciones bsicas

Funcin de Supervivencia

La funcin de supervivencia se define como la probabilidad de que una
persona sobreviva (no le ocurra el evento de inters) al menos hasta el tiempo t.
Una definicin ms formal puede darse de la siguiente manera: sea T una
variable aleatoria positiva con funcin de distribucin ( ) F t y funcin de
densidad ( ) f t . La funcin de de supervivencia ( ) S t es:

( ) 1 ( ) [ ] S t F t P T t = = >

Funciones de Riesgos

La funcin de razn de riesgos ( ) t se define como el cociente entre la
funcin de densidad y la funcin de supervivencia:

( )
( )
( )
f t
t
S t
=

Se interpreta como la probabilidad de que a un individuo le ocurra el evento
de inters en la siguiente unidad de tiempo t A dado que ha sobrevivido al
tiempo t.

La funcin de riesgo acumulada ( ) t A se define como:

0
( ) ( ) log ( )
t
t u du S t A = =
}

Como habamos planteado anteriormente, lo que distingue el anlisis de
supervivencia es la presencia de censura, que en nuestro caso ser la de censura
por la derecha.

Los datos de supervivencia suelen presentarse de la forma ( , )
i i
t o , donde
i
t es
el tiempo de observacin y, 0
i
o = si la observacin es censurada y 1
i
o =
cuando se observa la ocurrencia del evento de inters.
Fiz Lagoa Labrador
60

60

Estimador de Kaplan-Meier

La presencia de datos censurados o truncados hace que la funcin de
supervivencia no pueda ser obtenida directamente a travs de argumentos
probabilsticos hacindose necesario el uso de algunos estimadores. Existen
varias formas de estimar la funcin de supervivencia, entre los ms conocidos
son los basados en tablas de vida, entre el que se incluye el estimador actuarial y
el estimador de Kaplan-Meier, que es ms prctico, ya que no es necesario
trabajar con perodos de tiempos, sino que los mismos tiempos de observacin
van contribuyendo a la estimacin de la funcin de supervivencia.

El estimador de Kaplan-Meier (Kaplan-Meier, 1958) es el estimador de la
funcin de supervivencia ms utilizado y se define para el caso en que los datos
puedan presentar censura por la derecha como:

( ) ( )
( )
( )
i
i i
KM
t t i
r t d t
S t
r t
s
=
[

donde ( )
i
r t y ( )
i
d t

son el nmero de individuos en riesgo y el nmero de
muertes en el momento
i
t .

La varianza del estimador de Kaplan-Meier se obtiene a travs de la frmula
de Greenwood (1926):

| |
2
( )

( ( )) ( )
( ) ( ) ( )
i
i
KM KM
t t
i i i
d t
V S t S t
r t r t d t
s
=

El intervalo de confianza al 95% se obtiene mediante:

( )

( ) 1.96 ( )
KM KM
S t ee S t

donde
( )
( )
KM
ee S t es el error estndar de estimacin del estimador de Kaplan-
Meier.

Comparacin de las funciones de supervivencia

La comparacin de curvas se efecta a travs de contrastes basados en tablas
de contingencia, en nuestro caso, la tabla es de la siguiente forma:

Fiz Lagoa Labrador
61

61

Tabla.1
Grupo
Evento 1 0 Total
Muerte
1
( )
i
d t

0
( )
i
d t ( )
i
d t
No Muerte
1 1
( ) ( )
i i
r t d t

0 0
( ) ( )
i i
r t d t ( ) ( )
i i
r t d t
En riesgo
1
( )
i
r t

0
( )
i
r t ( )
i
r t

Se han definido los grupos, como 1 (Controlado) y 0 (No controlado),
correspondiendo estos grupos a cada una de las curvas de supervivencia.
Para construir el estadstico de contraste basta con calcular el nmero
esperado de muertes y la varianza estimada del nmero de muertes para cada
uno de los grupos; por ejemplo, para el grupo 1. El nmero esperado de muertes
se calcula de la siguiente manera:
1
1
( ) ( )
( )
( )
i i
i
i
r t d t
e t
r t
=

La varianza estimada de ( )
i i
d t est basada en la distribucin hipergeomtrica
y para el grupo 1 est definida como:

( ) ( )
( )
( )
1 0
1 2
( ) ( ) ( ) ( )
( ) ( ) 1
i i i i
i
i i
r t r t r t d t
V d t
r t r t

=

Finalmente, el estadstico de contraste se define de la siguiente manera:

( )
( ) ( )
2
1 1
1
2
1
1
( ) ( )
m
i i i
i
m
i i
i
w d t e t
Q
w V d t
=
=
(
(

=

Este estadstico se puede aproximar mediante una chi-cuadrado de un grado
de libertad si el nmero de ocurrencias de eventos es grande.

Bajo la hiptesis nula, se asume que las dos funciones de supervivencia son
iguales. En esta frmula m es el nmero de tiempos de ocurrencia de eventos en
ambos grupos y
i
w denota los pesos, que toman valores distintos dependiendo
del test utilizado. Utilizaremos el ms comn de los tests, que es el de Mantel y
Haenzel (o long-rank). Este test est diseado para verificar igualdad o
diferencia en la funcin de supervivencia en todos los tiempos. En este test los
pesos son iguales a 1, es decir, 1.
i
w = (Mantel, 1966).

Fiz Lagoa Labrador
62

62

Otro test comnmente utilizado es el de Peto y Peto (1972). Este test permite
verificar igualdad o diferencia de las funciones de supervivencia en los tiempos
iniciales. Para una enumeracin muy completa de los distintos test, basados en
procesos de conteo (Andersen et al, 1993) y (Fleming y Harrigton, 1991).

Supervivencia media y mediana
Supervivencia media

La supervivencia media puede ser estimada mediante la siguiente expresin:

0
( )
T
KM
S t dt =
}

donde T es tiempo mximo de seguimiento observado durante el estudio.

Supervivencia mediana

La supervivencia mediana se define como el primer tiempo t que satisface la
siguiente condicin:

( ) 0.5
KM
S t s

Modelo de regresin de Cox

El modelo de regresin de Cox (Cox, 1972) es el modelo de regresin ms
utilizado para datos de supervivencia en el rea mdica.

En el modelo de regresin de Cox, el riesgo para el i-simo individuo se
define mediante la siguiente expresin:

( )
'
( )
0
; ( ) ( )
i
Z t
i
t Z t t e
|
=

donde ( )
i
Z t es el vector de covariables para el i-simo individuo en el tiempo t.

El modelo de Cox establecido anteriormente se dice que es un modelo
semiparamtrico debido a que incluye una parte paramtrica y otra no
paramtrica.

i. La parte paramtrica es
'
( )
( )
i
Z t
i
r t e
|
= , llamada puntuaje de riesgo (risk score),
y | es el vector de parmetros de la regresin.

ii. La parte no paramtrica es
0
( ) t que es llamada funcin de riesgo base, es
una funcin arbitraria y no especificada.
Fiz Lagoa Labrador
63

63

El modelo de regresin de Cox se llama tambin modelo de riesgos
proporcionales debido a que el cociente entre el riesgo para dos sujetos con el
mismo vector de covariables es constante en el tiempo, es decir:

( )
( )
' '
' '
( ) ( )
0
( ) ( )
0
; ( ) ( )
; ( )
( )
i i
j j
Z t Z t
i
Z t Z t
j
t Z t t e e
t Z t
t e e
| |
| |

= =

Suponiendo que una muerte ha ocurrido en el tiempo
*
t , entonces la
verosimilitud de que la muerte le ocurra al individuo i-simo y no a otro
individuo es:

* * *
* * * * *
0
( ) ( ) ( )
( )
( ) ( ) ( ) ( ) ( )
o i i
i
j j j j
j j
t r t r t
L
Y t t r t Y t r t
= =

El producto de los trminos de la expresin anterior ( ) ( )
i
i
L L | | =
[
se
denomina la verosimilitud parcial y fue introducida por Cox.

La maximizacin de ( ) log ( ) L | da una estimacin para | sin necesidad de
estimar el parmetro de ruido o funcin de riesgo base
0
( ) t .

Contrastes de hiptesis para el modelo de Cox.

Una vez que se ha ajustado el modelo Cox, existen tres contrastes de hiptesis
para verificar la significacin del modelo, estos tests son asintticamente
equivalentes, pero no siempre sucede lo mismo en la prctica. Estos tres
contrastes son el test de razn de verosimilitudes, es el que presenta una mayor
confiabilidad, el test de Wald, es quizs el ms natural debido a que proporciona
un contraste por variables en vez de una medida de significacin global, y el test
de puntuajes (score test).

Modelos de Cox estratificados

Una extensin del modelo de Cox permite obtener la estimacin de los
modelos para distintos grupos disjuntos o estratos. El modelo obtenido se conoce
como modelo de Cox estratificado y est definido para el estrato j-simo como:

( )
'
( )
; ( ) ( )
i
Z t
i j
t Z t t e
|
=

Este modelo permite obtener la estimacin del modelo en presencia de una
variable de estratificacin sobre la cual se desean obtener funciones de
supervivencia por cada uno de los distintos grupos y probablemente poder
estudiar la existencia o no de las funciones de supervivencia entre los grupos.

Fiz Lagoa Labrador
64

64

El modelo de Cox estratificado tambin constituye una de las maneras de
corregir el modelo de Cox cuando no se cumple el supuesto de riesgos
proporcionales para alguna de las covariables. En este caso suele correrse el
modelo estratificando por la covariable que no cumple con el supuesto de riesgo
proporcional. Este procedimiento permite corregir el sesgo en la estimacin del
parmetro que puede presentarse cuando se viola el supuesto de riesgo
proporcional. Sin embargo, presenta una desventaja y es que no existe ningn
que permita estimar el efecto de la covariable de estratificacin.

Estudio de residuos en el anlisis de supervivencia

Una de las ventajas que han surgido del enfoque del anlisis de supervivencia
es la posibilidad de efectuar anlisis de residuos (Andersen et al., 1993, Fleming
y Harrington, 1991, Therneau y Grambsch, 2000, Therneau et al., 1990).

Los residuos se pueden utilizar para:

1. Descubrir la forma funcional correcta de un predictor continuo.

2. Identificar los sujetos que estn pobremente predichos por el modelo.

3. Identificar los puntos o individuos de influencia.

4. Verificar el supuesto de riesgo proporcional.

Existen cuatro tipos de residuos de inters en el modelo de Cox: los residuos
de martingala, los de desvos (deviance), los de puntuaje (score) y los de
Schoenfeld.

Residuos de Martingala

Los residuos de martingala se usan para estudiar la forma funcional de una
covariable.

Residuos de desvos (deviance)

Los residuos de desvos se utilizan para la deteccin de valores atpicos
(outliers).

Residuos de puntuajes (scores)

Los residuos de puntuajes se utilizan para verificar la influencia individual y
para la estimacin robusta de la varianza.

Residuos de Schoenfeld

Los residuos de Schoenfeld (Schoenfeld, 1982) son tiles para la verificacin
del supuesto de riesgo proporcional en el modelo de Cox.

Fiz Lagoa Labrador
65

65

4. RESULTADOS

4.1. Caractersticas clnicas de los individuos segn el control

En la Figura.1 se explica mediante un diagrama como se definen los pacientes
controlados y los no controlados en la consulta implantada en el servicio de
Medicina interna. En la Tabla.1 se muestra las caractersticas clnicas de los
pacientes controlados (que adems de la primera consulta asistieron al menos a la
segunda consulta) y de los no controlados (que asistieron solamente a la primera
consulta). El grupo no controlado contiene: un nmero mayor de individuos que
presentan anemia (P<0.05) y un nmero menor de pacientes que presentan ninguna
o poca limitacin en la actividad fsica (P<0.05). Los resultados de la Tabla.1 se
obtuvieron utilizando la funcin test.mixto y la funcin test.cualitativa definida en
el Captulo3.

Figura.1 Control de los individuos en la consulta especializada

Tabla.1 Caractersticas clnicas de los pacientes

Controlados
(n=255)
No controlados
(n=22)
P-valor
Edad (aos) 79 8 80 6
0.8755
Sexo (Hombre)
117(46%) 11(50%) 0.7101
Hipertensin (Si)
212(83%) 14(64%) 0.0396
Diabetes (Si)
81(32%) 10(45%) 0.1896
EPOC (Si)
75(29%) 10(45%) 0.1175
FA (Si)
140(55%) 15(68%) 0.2287
Glucemia (mg/dl) 114 38 142 74
0.0661
Hemoglobina (g/dl) 13 2 12 2
0.0803
Sodio (mMol/l) 139 3 138 4
0.2502
GFR (ml/min) 57 21 56 19
0.9315
Hiponatremia (Si)
27(11%) 4(18%) 0.2867
Anemia (Si)
43(17%) 9(41%) 0.0102
ERC (Si)
148(58%) 10(45%) 0.2526
NYHA (1)
180(71%) 11(50%) 0.0389

la media y su desviacin tpica y para las variables cualitativas
las frecuencias y sus porcentajes. La variable NYHA=1 indica
ninguna o poca limitacin en la actividad fsica.

Fiz Lagoa Labrador
66

66

4.2. Caractersticas clnicas de los individuos segn el status

En la Tabla.2 se muestra las caractersticas clnicas de los individuos segn el
status, es decir de los pacientes muertos y de los vivos. El grupo de los individuos
que fallecieron presenta una mayor edad que los que viven (P<0.05), un menor
nivel de glucosa, hemoglobina y sodio que los que viven (P<0.05) un mayor
porcentaje de individuos que presentan anemia (P<0.05) y un menor porcentaje de
pacientes que presentan ninguna o poca limitacin en la actividad fsica (P<0.001).

En las Figura.2, Figura.3, Figura.4 y Figura.5 se representan los diagramas de
cajas y las estimaciones de las densidades de las variables edad, glucemia,
hemoglobina y sodio respectivamente segn la variable categrica status
(muerte=1, vivo=0).

En la Figura.6 se representa los diagramas de barra de las frecuencias absolutas
de anemia y NYHA segn la variable categrica status.

Los resultados de la Tabla.2 y todas las figuras de esta seccin 4.2 se obtuvieron
utilizando las funciones test.mixto y test.cualitativa definidas en el Captulo3.

Tabla.2 Caractersticas clnicas de los pacientes segn el status

Grupo Muerto
(n=105)
Grupo Vivo
(n=172)
P-valor
Edad (aos) 81 7 78 8
0.0001
Sexo (Hombre)
52(49%) 76(44%) 0.3873
Hipertensin (Si)
88(84%) 138(80%) 0.4561
Diabetes (Si)
29(28%) 62(36%) 0.1896
EPOC (Si)
39(37%) 46(27%) 0.0687
FA (Si)
62(59%) 93(54%) 0.4181
0.0426
0.0012
Sodio (mMol/l) 138 3 139 3
0.0030
GFR (ml/min) 55 20 58 22
0.2294
Hiponatremia (Si)
14(13%) 17(10%) 0.3770
Anemia (Si)
28(27%) 24(14%) 0.0086
ERC (Si)
63(60%) 95(55%) 0.4368
NYHA (1)
52(50%) 139(81%) 0.0000


Fiz Lagoa Labrador
67

67

de la Edad en ambos grupos

de Glucemia en ambos grupos

de Hemoglobina en ambos grupos

Fiz Lagoa Labrador
68

68

de Sodio en ambos grupos

de Anemia y NYHA en ambos grupos

4.3. Caractersticas clnicas de los individuos controlados segn los motivos de
finalizacin del seguimiento

En la Figura.7 se explica mediante un diagrama como se definen los motivos de
finalizacin del seguimiento en la consulta especializada. Se diferencian cuatro
motivos:

- Seguido: El individuo se controlo hasta la fecha fin de seguimiento
(30/06/2011).

- Perdida: El individuo dej de asistir a la consulta por causas ajenas a la
HF.

- Muerte: El individuo dej de asistir a la consulta porque falleci.

- Alta: El individuo dej de asistir a la consulta porque se deriv a
atencin primaria.
Fiz Lagoa Labrador
69

69

En la Tabla.3 se muestra las caractersticas clnicas segn los motivos de
finalizacin del seguimiento. Los individuos que son seguidos y los que les dan alta
presentan una mayor cantidad de sodio que los que se son perdidos. El grupo de
seguidos y de altas tienen un mayor porcentaje de individuos con ninguna o poca
limitacin de la actividad fsica que el grupo muerte.

En la Figura.8 y la Figura.9 se representa el diagrama de cajas junto con la
estimacin de la densidad de la variable sodio y el diagrama de barras de las
frecuencias absolutas de la variable NYHA respectivamente, segn la variable
categrica motivo.

Los resultados de la Tabla.3 y todas las figuras de esta seccin 4.3 se obtuvieron
utilizando las funciones test.mixto y test.cualitativa definidas en el Captulo3.

Figura.7 Motivos finalizacin del seguimiento

Tabla.3 Caractersticas clnicas segn los motivos
de finalizacin de seguimiento

Seguido
(n=96)
Perdida
(n=71)
Muerte
(n=34)
Alta
(n=54)
P-valor
Edad (aos) 78 7 80 9 80 7 79 7
0.1
Sexo (Hombre)
39(41%) 35(49%) 17(50%) 26(48%) 0.6268
Hipertensin (Si)
81(84%) 59(83%) 29(85%) 43(80%) 0.8752
Diabetes (Si)
31(32%) 20(28%) 10(29%) 20(37%) 0.7494
EPOC (Si)
27(28%) 17(24%) 14(41%) 17(31%) 0.3237
FA (Si)
55(57%) 37(52%) 23(68%) 25(46%) 0.2318
Glucemia (mg/dl) 117 42 111 36 113 40 112 32
0.593
Hemoglobina (g/dl) 13 2 13 2 12 2 13 2
0.6075
Sodio (mMol/l) 140 3 138 3 139 3 139 3
0.0016
GFR (ml/min) 56 19 58 24 57 18 59 23
0.7668
Hiponatremia (Si)
6(6%) 13(18%) 4(12%) 4(7%) 0.0717
Anemia (Si)
11(11%) 14(20%) 7(21%) 11(20%) 0.3584
ERC (Si)
55(57%) 43(61%) 19(56%) 31(57%) 0.9635
NYHA (1)
73(76%) 46(66%) 18(55%) 43(80%) 0.0376


Fiz Lagoa Labrador
70

70

de Sodio en ambos motivos

de la NYHA en ambos motivos

4.4. Repercusin del seguimiento

En la Tabla.4 se comparan las variables basales con las finales en pacientes que
se controlaron hasta la fecha fin de seguimiento (30/06/2011). Estos pacientes son
los definidos como los 96 seguidos de la seccin 4.3.

De la Tabla.4 se observa que el porcentaje de enfermos renales crnicos aumenta
significativamente y que el estado funcional de esos pacientes que se controlaron
hasta la fecha fin de seguimiento mejora significativamente.

Los resultados de la Tabla.4 y las figuras de esta seccin 4.4 se obtuvieron
utilizando las funciones: test.cuantitativa y test.cualitativa del Captulo3.

Fiz Lagoa Labrador
71

71

Tabla.4 Comparacin basal y final

Basal

Final

P-valor
0.3261
0.6462
Sodio (mMol/l) 140 3 141 3
0.0561
GFR (ml/min) 56 19 52 17
0.0648
Hiponatremia (Si)
6(6%) 2(2%) 0.1336
Anemia (Si)
11(11%) 9(9%) 0.7237
ERC (Si)
55(57%) 65(68%) 0.0499
NYHA (1)
73(76%) 90(94%) 0.0007


basal y final de ERC y NYHA

El diagrama de la izquierda de la Figura.10, representa el cambio que se produce
en la variable ERC. De los 55 enfermos renales crnicos que haba al principio, 47
siguieron enfermos y 8 no siguieron enfermos al final, mientras que de los 40 que
no eran enfermos renales crnicos al principio, 22 siguen sin serlo y 18 pasan a
serlo al final. Por lo que el porcentaje de enfermos renales crnicos aumenta
significativamente.

El diagrama de la derecha de la Figura.10, representa el cambio que se produce
en la variable NYHA. De los 73 individuos que haba al principio con ninguna o
poca limitacin en la actividad fsica, 69 siguieron igual y 4 pasaron a tener
bastante o mucha limitacin al final, mientras que de los 23 individuos que haba al
principio con bastante o mucha limitacin en la actividad fsica, 2 siguieron
tenindola y 21 pasaron a tener ninguna o poca bastante limitacin. Esto indica que
los pacientes que se controlaron hasta la fecha fin de estudio, su estado funcional
mejora significativamente por lo que el seguimiento mejora la calidad de vida.

Fiz Lagoa Labrador
72

72

4.5. Factores pronstico de la mortalidad

En la Tabla.5 se muestra los coeficientes estimados del modelo, el error estndar
de estas estimaciones, el p-valor y el riesgo relativo con sus intervalos de confianza
al 95%. En la Figura.11 representamos los efectos que tienen las variables del
modelo en la mortalidad, para ello utilizamos la librera effects (John Fox, 2003).


Coeficientes

SE P-valor Riesgo Relativo (RR) I.C. 95% del R.R
Constante 11.45 6.02 0.0574
Edad 0.09 0.02 0.0001 1.09 (1.04,1.14)
Sexo (Mujer) -0.55 0.30 0.0653 0.58 (0.32,1.03)
Hipertension (Si) 0.65 0.39 0.0925 1.91 (0.91,4.18)
Glucemia -0.01 0.00 0.0647 0.99 (0.98,1.00)
Hemoglobina -0.14 0.07 0.0471 0.87 (0.75,0.99)
Sodio -0.12 0.04 0.0062 0.89 (0.81,0.96)
NYHA (3) 1.40 0.30 0.0000 4.05 (2.25,7.42)

En esta tabla se muestra los coeficientes estimados del modelo, el error
estndar (SE), el P-valor y el riesgo relativo con sus intervalos de confianza
al 95%. La variable NYHA=3 indica bastante o mucha limitacin en la actividad
fsica.

La estimacin del RR respecto a la edad es 1.09, con un I.C. al 95% (1.04, 1.14).
Por cada ao que aumenta la edad se multiplica por 1.09 la probabilidad de morir.
Esta relacin es significativa, pues el intervalo de confianza no contiene al 1 y
(P<0.05).

La estimacin del RR por cada unidad que aumenta el nivel de hemoglobina es
0.87, es decir, por cada unidad menos en el nivel de hemoglobina se multiplica por
1.15 la probabilidad de morir. El intervalo de confianza para este RR es (0.75, 0.99)
como podemos observar no contiene el valor 1 y por tanto refleja una relacin
significativa. Este hecho lo confirma (P<0.05).

La estimacin del RR por cada unidad que aumenta el nivel de sodio es 0.89, es
decir, por cada unidad menos en el nivel de sodio se multiplica por 1.13 la
probabilidad de morir. El intervalo de confianza para este RR es (0.81, 0.96) como
podemos observar no contiene el valor 1 y por tanto refleja una relacin

El RR de NYHA, bastante o mucha limitacin en la actividad fsica respecto con
ninguna o poca limitacin en la actividad fsica es 4.048, por lo que los individuos
que tengan bastante o mucha limitacin tienen 4 veces ms riesgo de morir que los
que tienen poca o ninguna limitacin. El intervalo de confianza es (2.25, 7.42). Este
intervalo no contiene el valor 1 por lo que la relacin es significativa hecho que
tambin indica (P<0.01).

Fiz Lagoa Labrador
73

73

Figura.11 Efectos de las variables del modelo

4.6. Factores pronstico de los motivos de finalizacin del seguimiento

Los motivos de finalizacin de seguimiento son: Seguido (1), Prdida (2),
Muerte (3) y Alta (4). Son los que hemos visto en la seccin 4.3. Definimos 3
logits, cada uno de ellos comparando un determinado motivo de la respuesta con el
motivo de referencia, Seguido (1). En la Tabla.6 se muestra los coeficientes
estimados del modelo, el error estndar de estas estimaciones y el riesgo relativo
con sus intervalos de confianza al 95% para cada uno de los 3 logits. En la Tabla.7
se muestra las probabilidades estimadas en cada uno de los motivos para la variable
NYHA.

En la Figura.12, Figura.13 y en la Figura.14 se representa las probabilidades
estimadas de cada motivo para las variables edad, sodio y NYHA.

La representacin de las figuras y los resultados de las tablas se obtienen,
utilizando la librera effects, mencionada en la seccin 4.5 y la funcin multinom de
la librera. (Fox y Jangman, 2009).
Fiz Lagoa Labrador
74

74

de regresin logstica multinomial

Coeficientes

SE Riesgo Relativo (RR) IC 95% del R.R
2:Constante 22.60 4.31
2:Edad_entrada 0.06 0.02 1.06 (1.02,1.11)
3:Edad_entrada 0.05 0.03 1.05 (0.99,1.11)
4:Edad_entrada 0.02 0.02 1.02 (0.98,1.07)
2:Sexo (Mujer) -0.51 0.32 0.60 (0.32,1.12)
3:Sexo (Mujer) -0.63 0.42 0.53 (0.23,1.22)
4:Sexo (Mujer) -0.36 0.35 0.69 (0.35,1.39)
2:Sodio -0.20 0.03 0.82 (0.77,0.88)
3:Sodio -0.11 0.02 0.89 (0.86,0.92)
4:Sodio -0.06 0.02 0.94 (0.90,0.98)
2:NYHA (3) 0.49 0.34 1.63 (0.84,3.16)
3:NYHA (3) 0.88 0.43 2.40 (1.03,5.60)
4:NYHA (3) -0.26 0.42 0.77 (0.34,1.75)

En esta tabla se muestra los coeficientes estimados del modelo, el
error estndar (SE), el P-valor y el riesgo relativo con sus
intervalos de confianza al 95% para los 3 logits, siendo el motivo de
referencia, Perdida(1). La variable NYHA=3 indica bastante o mucha
limitacin en la actividad fsica.

La estimacin del RR respecto a la edad, cuando el motivo es Perdida, es 1.06,
con un I.C. al 95% (1.02, 1.11). Por cada ao que aumenta la edad se multiplica por
1.06 la probabilidad de ser Perdida respecto de ser Seguido.

La estimacin del RR por cada unidad que aumenta el nivel de sodio, cuando el
motivo es Perdida, es 0.82, es decir, por cada unidad menos en el nivel de sodio se
multiplica por 1.22 la probabilidad de ser Perdida respecto de ser Seguido. El
intervalo de confianza para este RR es (0.77, 0.88) como podemos observar no
contiene el valor 1 y por tanto refleja una relacin significativa.

motivo es Muerte, es 0.89, es decir, por cada unidad menos en el nivel de sodio se
multiplica por 1.12 la probabilidad de ser Muerte respecto de ser Seguido. El
intervalo de confianza para este RR es (0.86, 0.92).

motivo es Alta, es 0.94, es decir, por cada unidad menos en el nivel de sodio se
multiplica por 1.06 la probabilidad de ser Alta respecto de ser Seguido. El intervalo
de confianza para este RR es (0.90, 0.98).

La estimacin de RR de NYHA, es 2.40, por lo que los individuos que tengan
bastante o mucha limitacin, multiplica por 2.40 la probabilidad de ser Muerte
respecto de ser Seguido. El intervalo de confianza es (1.03, 5.60). Este intervalo no
contiene el valor 1 por lo que la relacin es significativa
Fiz Lagoa Labrador
75

75

Figura.13 Efecto de la variable Edad
en el motivo de finalizacin del seguimiento

Figura.14 Efecto de la variable Sodio

Figura.15 Efecto de la variable NYHA

Fiz Lagoa Labrador
76

76

Tabla.7 Probabilidades estimadas en cada uno de los motivos de finalizacin
del seguimiento para la variable NYHA

Ninguna/Poca Limitacin en la
Actividad Fsica
Bastante/Mucha Limitacin en la
Actividad Fsica
P(Motivo=Seguido) 0.363 0.284
P(Motivo=Perdida) 0.305 0.389
P(Motivo=Muerte) 0.099 0.186
P(Motivo=Alta) 0.233 0.141

4.7. Valoracin de la supervivencia

En la Figura.16 se representa la estimacin de la funcin de Supervivencia y
cmo podemos observar, la probabilidad de supervivencia disminuye a medida que
pasa el tiempo. En la Figura.17 se representa la supervivencia de una cohorte de
pacientes con insuficiencia cardaca controlados en una consulta especializada.

Figura.16 Estimacin de la funcin de Supervivencia utilizando
el mtodo de Kaplan-Meier

Figura.17 Comparacin de funciones de Supervivencia
para controlados y no controlados

Fiz Lagoa Labrador
77

77

Aparentemente ambas funciones de supervivencia parecen distintas, para
verificar igualdad o diferencia en la funcin de supervivencia en todos los tiempos
utilizamos el test de Mantel y Haenzel (o long-rank). Como p=0.118 > 0.05, no hay
evidencias significativas para rechazar la hiptesis nula de igualdad de funciones de
supervivencia (para un nivel de significacin del 5%).

Como el estimador de Kaplan-Meier es un estimador no paramtrico univariante
es interesante tambin verificar igualdad o diferencia en la funcin de
supervivencia para las variables NYHA, sexo, y anemia.

Figura.18 Comparacin de funciones de Supervivencia para
las variables NYHA, sexo y anemia

Para las variables NYHA, y anemia hay evidencias significativas para rechazar
la hiptesis nula de igualdad de funciones de supervivencia (para un nivel de
significacin del 5%). Tener bastante o mucha limitacin en la actividad fsica
afecta negativamente a la supervivencia. Tener anemia afecta negativamente a la
supervivencia.

Mientras que para la variable sexo no hay evidencias estadsticamente
significativas para rechazar igualdad de funciones de supervivencia para hombres y
mujeres.

La regresin de Cox modeliza la funcin de riesgo, y es una generalizacin del
anlisis de Kaplan-Meier. Mientras que con este ltimo mtodo podemos realizar
comparaciones entre grupos diferentes definidos por un factor simple, la regresin
de Cox ofrece la posibilidad de introducir en el modelo un conjunto de covariables,
categricas o continuas. As, la regresin de Cox, consiste en obtener una funcin
lineal de las variables independientes que permita estimar, en funcin del tiempo, la
probabilidad de que ocurra el evento de inters (muerte).

En la Tabla.8 se muestra los coeficientes estimados del modelo, el error
estndar de estas estimaciones, el p-valor y el riesgo relativo con sus intervalos de
confianza al 95%.

Fiz Lagoa Labrador
78

78

de regresin de Cox

Coeficientes

SE P-valor Riesgo Relativo (RR) I.C. 95% del R.R
Edad 0.08 0.02 0.0000 1.08 (1.05,1.12)
Sexo (Mujer) -0.59 0.20 0.0036 0.55 (0.37,0.82)
Hemoglobina -0.14 0.05 0.0088 0.87 (0.78,0.97)
Sodio -0.06 0.03 0.0481 0.94 (0.88,0.99)
NYHA (3) 0.74 0.20 0.0003 2.09 (1.41,3.11)

En esta tabla se muestra los coeficientes estimados del modelo, el error
estndar (SE), el P-valor y el riesgo relativo con sus intervalos de confianza
al 95%. La variable NYHA=3 indica bastante o mucha limitacin en la actividad
fsica.

La estimacin del RR respecto a la edad es 1.08, con un I.C. al 95% (1.05, 1.12).
Por cada ao que aumenta la edad se multiplica por 1.08 la probabilidad de morir.
Esta relacin es significativa, pues el intervalo de confianza no contiene al 1 y
(P<0.01).

El RR de mujeres respecto a hombres es 0.55, por lo que mujeres tienen menos
riesgo de morir que los hombres (los hombres tienen 1.81 veces ms riesgo que las
mujeres). El intervalo de confianza es (0.37, 0.82). Este intervalo no contiene el
valor 1 por lo que la relacin es significativa hecho que tambin indica (P<0.01).

La estimacin del RR por cada unidad que aumenta el nivel de hemoglobina es
0.87, es decir, por cada unidad menos en el nivel de hemoglobina se multiplica por
1.15 la probabilidad de morir. El intervalo de confianza para este RR es (0.78, 0.97)
como podemos observar no contiene el valor 1 y por tanto refleja una relacin

La estimacin del RR por cada unidad que aumenta el nivel de sodio es 0.94, es
decir, por cada unidad menos en el nivel de sodio se multiplica por 1.07 la
probabilidad de morir. El intervalo de confianza para este RR es (0.88, 0.99) como
podemos observar no contiene el valor 1 y por tanto refleja una relacin

El RR de NYHA, bastante o mucha limitacin en la actividad fsica respecto con
ninguna o poca limitacin en la actividad fsica es 2.09, por lo que los individuos
que tengan bastante o mucha limitacin tienen 2 veces ms riesgo de morir que los
que tienen poca o ninguna limitacin. El intervalo de confianza es (1.41, 3.11). Este
intervalo no contiene el valor 1 por lo que la relacin es significativa hecho que
tambin indica (P<0.01).

Fiz Lagoa Labrador
79

79

Podemos concluir que hay influencia de la edad, sexo, hemoglobina, sodio y
NYHA en la supervivencia tras ser diagnosticado esta enfermedad (Insuficiencia
Cardaca). El menor nivel de hemoglobina y sodio, una mayor edad, ser hombre y
tener bastante o mucha limitacin en la actividad fsica afectan negativamente al
tiempo de supervivencia.

Los p-valores para el test de razn de verosimilitud, test de Wald y test de los
puntuajes son menores que 0.05, con lo cual el modelo es significativo.

En la Tabla.9 se representa la verificacin del supuesto de riesgos
proporcionales del modelo de Cox.

Tabla.9 Verificacin de los supuestos del modelo de Cox

rho chisq P
Edad_entrada
0.1058 1.242 0.265
Sexo
-0.0909 0.840 0.359
Hemoglobina
-0.1124 1.581 0.209
Sodio
0.0431 0.222 0.637
NYHA
-0.0719 0.536 0.464
Global
NA 4.158 0.527

De donde se concluye de que no existe evidencia significativa al 5% de que se
viole el supuesto de riesgos proporcionales, ni desde el punto de vista global, ni
para cada covariable.

Figura.19 Grficos de los betas para cada una de las covariables

Fiz Lagoa Labrador
80

80

En la Figura.20 se representa los residuos tipo deviance, en la Figura.21 se
representa los grficos de influencia sobre la estimacin de cada coeficiente y en la
Figura.22 se representa la forma funcional de las variables continuas.

En la Figura.20 no existe ningn individuo que est influenciando en el ajuste
del modelo. En la Figura.21 no existe ningn individuo que est influenciando
sobre la estimacin del coeficiente correspondiente a las variables edad, sexo,
hemoglobina, sodio y NYHA. Y en la Figura.22 la forma funcional de las variables
edad, hemoglobina y sodio parece ser la adecuada.

Figura.20 Residuos tipo deviance

Figura.21 Grficos de influencia sobre la estimacin de cada coeficiente

Fiz Lagoa Labrador
81

81

Figura.22 Forma funcional de las variables continuas

En la Figura.23 comparamos el ajuste del modelo de Cox con el estimador de
Kaplan-Meier, y podemos ver que la funcin de supervivencia ajustada por el
modelo de Cox es sistemticamente superior a la funcin de supervivencia estimada
por el mtodo de Kaplan-Meier.

Figura.23 Comparacin del ajuste del modelo de Cox
con el estimador de Kaplan-Meier

Dependiendo de los propsitos de la investigacin o el estudio pudiera ser ms
adecuado un modelo paramtrico o un modelo de Cox.

Si lo que se pretende es comparar riesgos entre distintos niveles de las
covariables, que suele ser el inters de los estudios mdicos, probablemente sea ms
adecuado utilizar un modelo de Cox.

Si el inters est basado en obtener informaciones asociadas con parmetros
como medias, varianzas, entre otras, como suele ser el inters en el rea de la
industria, probablemente se recomiende el uso de un modelo paramtrico.

Nardi y Schemper (2003) plantean una interesante discusin que probablemente
ayude a la eleccin entre un modelo de Cox y un modelo paramtrico.

Se utiliza la librera (survival), para la representacin de las figuras que aparecen
en esta seccin y para calcular los resultados de la Tabla.8 y de la Tabla.9.
Fiz Lagoa Labrador
82

82

5. CONCLUSIONES

El grupo de no controlados presenta un nmero mayor de individuos que tienen
anemia y un nmero menor de pacientes que tienen ninguna o poca limitacin en la
actividad fsica.

El grupo de los individuos que fallecieron presenta una mayor edad que los que
viven (P<0.05), un menor nivel de glucosa, hemoglobina y sodio que los que viven
(P<0.05) un mayor porcentaje de individuos que presentan anemia (P<0.05) y un
menor porcentaje de pacientes que presentan ninguna o poca limitacin en la
actividad fsica (P<0.001).

Dentro del grupo de los controlados, los individuos que son seguidos hasta la
fecha fin de seguimiento y los que les dan el alta presentan un mayor nivel de sodio
que los que se son perdidos. Los individuos que son seguidos hasta la fecha fin de
seguimiento y los que les dan el alta, tienen un mayor porcentaje de individuos con
ninguna o poca limitacin de la actividad fsica que el grupo muerte.

El estado funcional de los pacientes que fueron seguidos hasta la fecha fin de
seguimiento (30/06/2011) mejora significativamente, por lo que el control hasta la
fecha fin de seguimiento de los pacientes en la consulta especializada implantada en
el servicio de medicina interna, mejora la calidad de vida de estos.

Hay influencia de la edad, hemoglobina, sodio y NYHA en la mortalidad. Un
menor nivel de hemoglobina y sodio, una mayor edad, y tener bastante o mucha
limitacin en la actividad fsica incrementan el riesgo de morir.

Hay influencia de la edad, sodio y NYHA en el motivo de finalizacin de
seguimiento. Un menor nivel de sodio y una mayor edad incrementan el riesgo de
ser perdida respecto de ser seguido. Un menor nivel de sodio y tener bastante o
mucha limitacin en la actividad fsica incrementan el riesgo de ser muerte respecto
de ser seguido. Un menor nivel de sodio incrementa el riesgo de ser alta respecto de
ser seguido.

No hay diferencias significativas en la supervivencia de pacientes con
insuficiencia cardaca (controlados y no controlados) en la consulta especializada
puesta en marcha por el servicio de Medicina Interna.

Hay influencia de la edad, sexo, hemoglobina, sodio y NYHA en la
supervivencia tras ser diagnosticado esta enfermedad (HF). El menor nivel de
hemoglobina y sodio, una mayor edad, ser hombre y tener bastante o mucha
limitacin en la actividad fsica afectan negativamente al tiempo de supervivencia.

Fiz Lagoa Labrador
83

83

Valoracin de las prcticas

El mster en tcnicas estadsticas posee una gran carga terica, por lo que creo, que
un alumno que lo cursa acaba con unos grandes conocimientos de distintas
metodologas estadsticas.

La realizacin de unas prcticas, concretamente en la Unidad de Epidemiologa
Clnica del CHUS, me pareca que podra ser el complemento ideal a mi formacin
acadmica.

Durante la estancia en esta Unidad, adems de perfeccionar las tcnicas vistas en el
mster, he podido aplicar nuevas tcnicas estadsticas como por ejemplo: contrastes en
tablas de contingencia de datos relacionados (Test de McNemar, Test de Bowker y Test
de Stuat y Maxwell), regresin multinomial,etc. Tambin trabaje con bases de datos
que se tuvo que hacer una depuracin previa, antes de realizar un anlisis de los datos.

En las prcticas obtuve una visin ms general a la hora de realizar un estudio. Es
muy importante saber planificar las tareas que se realizarn y tener claro el objetivo
final de dicho estudio. Es tan importante saber resolver los problemas, realizar el
anlisis estadstico, como saber qu problemas resolver, la planificacin del estudio.
Estos son pasos a seguir en los que no tena experiencia o no consideraba competencia
de un estadstico y que con la estancia en la Unidad comprend la importancia que
tienen.

Por lo tanto estas prcticas han sido el complemento ideal a mi formacin acadmica,
tanto por continuar con el aprendizaje metodolgico estadstico como por la experiencia
adquirida.

Fiz Lagoa Labrador
84

84

Tutores:

Da. Carmen Cadarso Surez
Universidade de Santiago de Compostela

Da. Pilar Gayoso Diz
D. Francisco Gude Sampedro
Da. Mara Xos Rodrguez lvarez

Miembros da Unidade de Epidemioloxa Clnica do Complexo Hospitalario
Universitario de Santiago de Compostela

Fiz Lagoa Labrador
85

85

Bibliografa

Aguilera, A. M. (2001). Tablas de contingencia bidimensionales. Hesprides La
Muralla, Salamanca.

Andersen, P.K. , Borgan, Gill, R.D. y Keiding, N. (1993). Statistical Models Based on
Counting Processes. N.Y. Springer-Verlag.

Bowker, A.H. (1948). A test for symmetry in contingency tables. Journal of the
American Statistical Association, 43, 572-574.

Cox, D.R. (1972). Regression models and life tables (with discussion). Journal of the
Royal Statistical Society: Series B, 34: 187-220.

Fisher, R.A. (1934). Statistical Methods for Research Workers. 5th Edition,
Edinburgh: Oliver and Boyd.

Fleming, T.R. y Harrington, D.P. (1991). Counting Processes and Survival Analysis.
N.Y.: John Wiley & Sons, Inc.

Fox, J. (2003). Effect Displays in R for Generalised Linear Models. Journal of
Statistical Software, 8(15), 1-27.
Fox, J. y Hong, J (2009). Effect Displays in R for Multinomial and Proportional-Odds
Logit Models: Extensions to the effects Package. Journal of Statistical Software, 32(1),
1-24.

Greenwood, M. (1926). The natural duration of cancer. Reports on Public Health and
Medical Subjects, 33: 1-26, Londres: Her Majestys Stationery Office.

Hosmer, D.W. y Lemeshow, S. (1989). Applied logistic regression. Wiley.

Kaplan, E.L. y Meier, P. (1958). Nonparametric estimation from incomplete
observations. Journal of the American Statistical Association, 53: 457-481.

Klein, J.P. y Moeschberger, M.L. (1997). Survival Analysis: Techniques for Censored

Levene, H. (1960). Robust Tests for Equality of Variances, in Contributions to
Probability and Statistics, ed. I. Olkin, Palo Alto, CA: Stanford Univ. Press.

Lilliefors, H.W. (1967). On the Kolmogorov-Smirnov Test for normality with mean and
variance unknown. Journal of American Statistical Association, Vol 62, No.318, pp.
399-402.

Fiz Lagoa Labrador
86

86

Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising
in its consideration. Cancer Chemotherapy Reports, 50: 163-170.

Maxwell, A.E. (1970). Comparing the classification of subjects by two independent
judges. British journal of Psychiatry, 116, 651-655.

McNemar, Q. (1947). Note on the sampling error of the difference between correlated
proportions or percentages. Psychometrika, 12, 153-157.

Nardi, A. y Schemper, M (2003). Comparing Cox and parametric models in clinical
studies. Statistics in Medicine, 22:3597-3610.

Peto, R. y Peto, J. (1972). Asymptotically efficient rank invariant test procedures (with
discussion). Journal of the Royal Statistical Society: Series A, 135: 195-206.

Schoenfeld, D. (1982). Partial residuals for the proportional hazard regression model.

Shapiro, S.S. y Wilk, M.B. (1965).An analysis of variance test for normality (complete
samples). Biometrika, Vol.52, No. 3/4, pp. 591-611.

Stuart, A. (1955). A test for homogeneity of the marginal distributions in a two-way
classification. Biometrika, 40, 105-110.

Swets J.A. y Pickett R.M. (1982). Evaluation of diagnostic systems: methods from
signal detection theory. Academic Press,Nueva York.

Therneau, T.M. y Grambsch, P.M. (2000). Modeling Survival Data: Extending the Cox
Model. N.Y. Springer-Verlag.

Therneau, T.M., Grambsch, P.M. y Fleming, T.R. (1990). Martingale-based residuals
for survival models. Biometrika, 77: 147-160.

Yates, F. (1934).Contingency tables involving small numbers and the
2
_ test. Journal
of the Royal Statistical Society, Suppl.1, 217235.

Fiz Lagoa Labrador
87

87

Anexo

En este anexo se muestran los scripts en R de las diferentes funciones mencionadas
anteriormente. No hay que olvidar que para que se puedan ejecutar correctamente estas
funciones hay que descargarse e instalar las libreras: car (para el ANOVA), nortest
(para Lilliefors) y coin (para la extensin Stuart-Maxwell).

# Cargar libreras

library(car)
library(nortest)
library(coin)

# Script de la funcin descriptiva_cuantitativa.R

des.cont <- function(cont) {

cat(paste("Nmero de elementos: ", length(cont)),fill=T)
cat(paste("NAs: ", sum(is.na(cont))), fill=T)
sum <- round(summary(cont),3)
mean.sd <- paste(sum[4], " (", round(sd(cont, na.rm = TRUE),3), ", " ,
round(round(sd(cont,na.rm=TRUE),3)/sqrt(length(na.omit(cont))),2)
,")", sep = "" )
median.quant <- paste(sum[3], " (", sum[2], ", " , sum[5],", " ,
round(sum[5]-sum[2],2),")", sep = "" )
cat(paste("Media"," (sd, se)"), fill=T)
cat(mean.sd, fill=T)
cat("Mediana", "(1st Qu, 3rd Qu, IQR)" ,fill=T)
cat(median.quant, fill=T)

}

# Script de la funcin descriptiva_cualitativa.R

des.cat.def <- function(cat) {

cat(paste("NAs: ", sum(is.na(cat))), fill=T)
t <- table(cat)
m <- matrix(ncol = 1, nrow = length(names(t)))
rownames(m) <- names(t)
m[,1] <- paste(t," (",round(prop.table(t)*100,2), "%)", sep = "")
print(m, quote=F)

}

Fiz Lagoa Labrador
88

88

# Script de la funcin normalidad.R

normalidad <- function(covar){

if(length(covar)>=50){
aux<-lillie.test(covar)
}else {
aux<-shapiro.test(covar)
}
res<-list(p.value=aux$p.value)
res

}

# Script de la funcin bidimensional.R

tablas.bidim<-function(cat1,cat2, datos, paired=F){
cat1.var<-datos[,cat1]
t<-table(cat1.var,cat2.var, dnn = c(cat1, cat2))
cat("**********",fill=T)
cat("Tabla de frecuencias absolutas",fill=T)
cat("**********",fill=T)
print(t)
cat("**********",fill=T)
cat("Tabla de frecuencias relativas",fill=T)
cat("**********",fill=T)
print(prop.table(t))
if(is.factor(na.omit(cat2.var))){
levels=levels(na.omit(cat2.var))
} else{
levels=unique(na.omit(cat2.var))
}

if(is.factor(na.omit(cat1.var))){
levels1=levels(na.omit(cat1.var))
} else{
Levels1=unique(na.omit(cat1.var))
}

for(i in levels){
if(paired==F){
cat("**********",fill=T)
cat(paste("Distribucin ", cat1, "/", cat2, " = ",
i, sep = ""),fill=T)
cat("**********",fill=T)
des.cat.def(cat1.var[cat2.var==i])
}
}

for(j in levels1){
if(paired==T){
cat("**********",fill=T)
cat(paste("Distribucin ", cat2, "/", cat1, " = ",
j, sep = ""),fill=T)
cat("**********",fill=T)
des.cat.def(cat2.var[cat1.var==j])
}
}

}
Fiz Lagoa Labrador
89

89

# Script de la funcin comparacin_cualitativas.R

test.cualitativa<- function(cat1, cat2, datos, paired=F) {
cat("**********",fill=T)
cat(paste("Descriptiva",cat1),fill=T)
cat("**********",fill=T)
des.cat.def(cat1.var)
cat("**********",fill=T)
cat(paste("Descriptiva",cat2),fill=T)
cat("**********",fill=T)
des.cat.def(cat2.var)
t <- table(cat1.var,cat2.var, dnn = c(cat1, cat2))
if(paired==F){
if((nrow(t)==2)&(ncol(t)==2)){
barplot(t,beside=T,ylab="Frecuencia",main="Diagrama de
barras",legend=rownames(t),col=c(1,2),ylim=c(0,max(t)+40),
xlab=cat2)
tablas.bidim(cat1,cat2,datos)
m<-c()
esp<-matrix(,nrow(t),ncol(t))
for(i in 1:nrow(t)){
for(j in 1:ncol(t)){
esp[i,j]<-((rowSums(t)[i])*(colSums(t)[j]))/sum(rowSums(t))
}
m[i]<-sum(esp[i,]<5)
}
if(sum(m)==0){
if(sum(rowSums(t))>30){
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO *****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var,correct=F))
if(chisq.test(cat1.var,cat2.var,correct=F)$p.value>0.05){
cat(" LAS VARIABLES SON INDEPENDIENTES",fill=T)
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)
}
} else{
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO CORREGIDO*****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var))
if(chisq.test(cat1.var,cat2.var)$p.value>0.05){
} else {
}
}
} else{
cat("**************", fill=T)
cat("***** TEST DE FISHER *****",fill=T)
cat("**************", fill=T)
print(fisher.test(cat1.var,cat2.var))
if(fisher.test(cat1.var,cat2.var)$p.value>0.05){
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)}
}
} else {
barplot(t,beside=T,ylab="Frecuencia",legend=rownames(t),main="Diagrama
de barras",col=c(1:nrow(t)),ylim=c(0,max(t)+40),xlab=cat2)
Fiz Lagoa Labrador
90

90

tablas.bidim(cat1,cat2,datos)
if(sum(rowSums(t))>30){
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO *****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var,correct=F))
if(chisq.test(cat1.var,cat2.var,correct=F)$p.value>0.05){
} else {
}
} else{
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO CORREGIDO *****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var))
if(chisq.test(cat1.var,cat2.var)$p.value>0.05){
} else {
}
}
}
} else {
if((nrow(t)==2)){
barplot(t(t),ylab="Frecuencia",main="Diagrama de
barras",legend=colnames(t),col=c(1,2),ylim=c(0,max(t)+40),
xlab=cat2)
tablas.bidim(cat1,cat2,datos,paired=T)
if(((t[1,2]+t[2,1])/2)<5){
cat("**************", fill=T)
cat("***** TEST MC-NEMAR CORREGIDO *****",fill=T)
cat("**************", fill=T)
print(mcnemar.test(cat1.var,cat2.var))
if(mcnemar.test(cat1.var,cat2.var)$p.value>0.05){
cat(" SE ACEPTA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
} else {
cat(" SE RECHAZA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
}
} else {
cat("**************", fill=T)
cat("***** TEST MC-NEMAR *****",fill=T)
cat("**************", fill=T)
print(mcnemar.test(cat1.var,cat2.var,correct=F))
if(mcnemar.test(cat1.var,cat2.var,correct=F)$p.value>0.05){
cat(" SE ACEPTA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
} else {
cat(" SE RECHAZA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
}
}
} else {
barplot(t(t),ylab="Frecuencia",legend=colnames(t),main="Diagrama
de barras",col=c(1:nrow(t)),ylim=c(0,max(t)+40),xlab=cat2)
tablas.bidim(cat1,cat2,datos,paired=T)
cat("**************", fill=T)
cat("***** EXTENSION DE BOWKER AL TEST MC-NEMAR *****",fill=T)
cat("**************", fill=T)
print(mcnemar.test(cat1.var,cat2.var))
if(mcnemar.test(cat1.var,cat2.var)$p.value>0.05){
cat(" SE ACEPTA LA HIPOTESIS DE SIMETRIA",fill=T)
} else {
cat(" SE RECHAZA LA HIPOTESIS DE SIMETRIA",fill=T)
cat("**************", fill=T)
Fiz Lagoa Labrador
91

91

cat("***** EXTENSION DE STUART MAXWELL AL TEST MC-NEMAR
*****",fill=T)
cat("**************", fill=T)
print(mh_test(t))
}
}
}
}

# Script de la funcin comparacin_cuantitativas.R

test.cuantitativa<- function(covar1, covar2, datos, paired=F) {
covar1.var<-datos[,covar1]
covar2.var<-datos[,covar2]
cat("**********",fill=T)
cat(paste("Descriptiva",covar1),fill=T)
cat("**********",fill=T)
des.cont(covar1.var)
cat("**********",fill=T)
cat(paste("Descriptiva",covar2),fill=T)
cat("**********",fill=T)
des.cont(covar2.var)
if(paired==F){
if(length(na.omit(covar1.var))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para",covar1),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar1.var))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para",covar1),fill=T)
cat("**************", fill=T)
}
cat("**************", fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
round(normalidad(na.omit(covar2.var))$p.value,4)),fill=T)
cat("**************", fill=T)
}
if((normalidad(na.omit(covar1.var))$p.value>0.05)&
(normalidad(na.omit(covar2.var))$p.value>0.05)){
cat("**************", fill=T)
cat("***** TEST PARAMTRICOS EN POBLACIONES NORMALES
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de varianzas *****",fill=T)
print(var.test(covar1.var,covar2.var))
cat(paste("p-valor: ", var.test(covar1.var,covar2.var)$p.value),
fill=T)
if(var.test(covar1.var,covar2.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA VARIANZA",fill=T)
cat("***** Comparacin de medias *****",fill=T)
print(t.test(covar1.var,covar2.var))
if(t.test(covar1.var,covar2.var)$p.value<0.05){
Fiz Lagoa Labrador
92

92

cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
} else {
cat(" TIENEN LA MISMA VARIANZA",fill=T)
print(t.test(covar1.var,covar2.var,var.equal=T))
if(t.test(covar1.var,covar2.var,var.equal=T)$p.value<0.05){
} else {
}
}
} else {
cat("**************", fill=T)
cat("***** TEST NO PARAMTRICOS PARA DOS MUESTRAS *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon *****",fill=T)
print(wilcox.test(covar1.var,covar2.var))
if(wilcox.test(covar1.var,covar2.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
} else {
cat("**************", fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)

cat("**************", fill=T)
}
cat("**************", fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat("**************", fill=T)
}
if((normalidad(na.omit(covar1.var))$p.value>0.05)&
(normalidad(na.omit(covar2.var))$p.value>0.05)){
cat("**************", fill=T)
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de medias para muestras relacionadas
*****",fill=T)
print(t.test(covar1.var,covar2.var,paired=TRUE))
if(t.test(covar1.var,covar2.var,paired=TRUE)$p.value<0.05){
} else {
}
Fiz Lagoa Labrador
93

93

} else {
cat("**************", fill=T)
cat("***** TEST NO PARAMTRICOS *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon para muestras apareadas
*****",fill=T)
print(wilcox.test(covar1.var,covar2.var,paired=T))
if(wilcox.test(covar1.var,covar2.var,paired=T)$p.value<0.05){
} else {
}
}
}
l=list(covar1=covar1.var,covar2=covar2.var)
names(l)=c(covar1,covar2)
windows()
boxplot(l,main="Diagrama de Cajas",col="red")
windows()
plot(density(na.omit(covar1.var)),main="Comparacion de
Densidades",ylim=c(0,max(max(density(na.omit(covar1.var))$y),max(density
(na.omit(covar2.var))$y))+0.01))
lines(density(na.omit(covar2.var)),col=2)
legend("topleft",legend=names(l),col=c(1,2),box.lwd=1,lty=c(1,1))
}

# Script de la funcin comparacin_mixta.R

test.mixto <- function(cont, cat, datos, paired=F) {
cont.var<-datos[,cont]
cat.var<-datos[,cat]
cat("**********",fill=T)
cat(paste("Descriptiva",cont),fill=T)
cat("**********",fill=T)
des.cont(cont.var)
cat("**********",fill=T)
cat(paste("Descriptiva",cat),fill=T)
cat("**********",fill=T)
des.cat.def(cat.var)

if(is.factor(cat.var)){
levels=levels(cat.var)
} else{
levels=unique(cat.var)
}
windows()
boxplot(cont.var~cat.var, main="Diagrama de Cajas",
xlab=cat,ylab=cont,col="red")
if(paired==F){
if( nrow(table(cat.var))==2){
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main=
"Estimacin de densidades \n segn variable
categrica",ylim=c(0,max(max((density(na.omit(cont.var[cat.
var==levels[1]]))$y)),max((density(na.omit(cont.var[cat.var
==levels[2]]))$y)))+0.01))
lines(density(na.omit(cont.var[cat.var==levels[2]])),col=2)
legend("topleft",legend=levels,col=c(1,2),box.lwd=1,lty=c(1,1))
for (i in levels){
cat("**********",fill=T)
cat(paste("categrica-nivel:",i),fill=T)
cat("**********",fill=T)
des.cont(cont.var[cat.var==i])
if(length(na.omit(cont.var[cat.var==i]))>=50){
Fiz Lagoa Labrador
94

94

cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para nivel
=",i),fill=T)
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para nivel
=",i),fill=T)
cat("**************", fill=T)
}
}
if((normalidad(na.omit(cont.var[cat.var==levels[1]]))$p.value>0.05)&
(normalidad(na.omit(cont.var[cat.var==levels[2]]))$p.value>0.05)){
cat("**************", fill=T)
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de varianzas *****",fill=T)
cat("**************", fill=T)
if(var.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA VARIANZA",fill=T)
cat("**************", fill=T)
print(t.test(cont.var~cat.var))
if(t.test(cont.var~cat.var)$p.value<0.05){
} else {
}
}else {
cat(" TIENEN LA MISMA VARIANZA",fill=T)
cat("**************", fill=T)
print(t.test(cont.var~cat.var,var.equal=T))
if(t.test(cont.var~cat.var,var.equal=T)$p.value<0.05){
} else {
}
}
} else {
cat("**************", fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon *****",fill=T)
print(wilcox.test(cont.var~cat.var))
if(wilcox.test(cont.var~cat.var)$p.value<0.05){
} else {
}
}
} else {
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main="
Estimacin de densidades \n segn variable
categrica",ylim=c(0,max(density(na.omit(cont.var[cat.var==
levels[1]]))$y)+0.03))
j=1
for (i in levels[-1]){
j=j+1
lines(density(na.omit(cont.var[cat.var==i])),col=j)}
Fiz Lagoa Labrador
95

95

legend("topleft",legend=levels,col=1:j,box.lwd=1,lty=c(1,1))
n<-c()
for (i in levels){
cat("**************", fill=T)
cat("**************", fill=T)
cat("**************", fill=T)
=",i),fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
=",i),fill=T)
cat("**************", fill=T)
}
n[i]<-
normalidad(na.omit(cont.var[cat.var==i]))$p.value<0.05
}
if(sum(n)==0){
cat("***** Comparacin de varianzas entre grupos
*****",fill=T)
print(leveneTest(cont.var~as.factor(cat.var)))
if(leveneTest(cont.var~as.factor(cat.var))[3][1,1]>0.05){
cat("***** Las hiptesis del modelo ANOVA son
vlidas *****",fill=T)
cat("***** ANOVA *****",fill=T)
if(length(na.action(na.omit(cont.var)))==0){
print(summary(aov(cont.var~as.factor(cat.var))))
if(summary(aov(cont.var~as.factor(cat.var)))[1][[1]]
[1,5]>0.05){
cat("***** TIENEN LA MISMA MEDIA
*****",fill=T)
}else {
cat("***** NO TIENEN LA MISMA MEDIA
*****",fill=T)

cat("***** Mtodo de la diferencia
significativa de Tukey *****",fill=T)

HSD<-
TukeyHSD(aov(cont.var~as.factor(cat.var
)),conf.level=0.95)
plot(HSD)
}
} else {
Motivos<-
cat.var[-na.action(na.omit(cont.var))]
print(summary(aov(na.omit(cont.var)~
as.factor(Motivos))))
if(summary(aov(na.omit(cont.var)~as.factor
(Motivos)))[1][[1]][1,5]>0.05){
cat("***** TIENEN LA MISMA MEDIA
*****",fill=T)
}else {
cat("***** NO TIENEN LA MISMA MEDIA
*****",fill=T)
cat("***** Mtodo de la diferencia
significativa de Tukey
*****",fill=T)
Fiz Lagoa Labrador
96

96

HSD<-
TukeyHSD(aov(na.omit(cont.var)~a
s.factor(Motivos)),conf.level=0.
95)
plot(HSD)
}
}
} else{
cat("***** Las hiptesis del modelo ANOVA no son
vlidas *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Kruskal-Wallis para k muestras
independientes *****",fill=T)
cat("**************", fill=T)
print(kruskal.test(cont.var~cat.var))
if(kruskal.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA
DISTRIBUCIN",fill=T)
} else{
}
}
} else{
cat("**************", fill=T)
cat("***** Test de Kruskal-Wallis para k muestras
independientes *****",fill=T)
cat("**************", fill=T)
print(kruskal.test(cont.var~cat.var))
if(kruskal.test(cont.var~cat.var)$p.value<0.05){
} else {
}
}
}
if(paired==T){
if( nrow(table(covar))==2){
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main="
Estimacin de densidades \n segn variable
categrica",ylim=c(0,max(max((density(na.omit(cont.var[cat.
var==levels[1]]))$y)),max((density(na.omit(cont.var[vat.var
==levels[2]]))$y)))+0.01))
lines(density(na.omit(cont.var[cat.var==levels[2]])),col=2)
legend("topleft",legend=levels,col=c(1,2),box.lwd=1,lty=c(1,1))
for (i in levels){
cat("**************", fill=T)
=",i),fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
=",i),fill=T)
}
}
if((normalidad(na.omit(cont.var[cat.var==levels[1]]))$p.value>0.05)&
(normalidad(na.omit(cont.var[cat.var==levels[2]]))$p.value>0.05)){
cat("**************", fill=T)
Fiz Lagoa Labrador
97

97

*****",fill=T)
cat("**************", fill=T)
print(t.test(cont.var~cat.var,paired=T))
if(t.test(cont.var~cat.var,paired=T)$p.value<0.05){
} else {
}
} else {
cat("**************", fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon para dos muestras apareadas
*****",fill=T)
print(wilcox.test(cont.var~cat.var,paired=T))
if(wilcox.test(cont.var~cat.var,paired=T)$p.value<0.05){
} else {
}
}
} else {
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main="Estimacin de
densidades \n segn variable categrica"
,ylim=c(0,max(density(na.omit(marker[covar==1]))$y)+0.03))
j=1
for (i in levels[-1]){
j=j+1
lines(density(na.omit(cont.var[cat.var==i])),col=j)
}
legend("topleft",legend=levels,col=j,box.lwd=1,lty=c(1,1))
for (i in levels){
}
if(length(na.action(na.omit(cont.var)))==0){
cat("**************", fill=T)
cat("***** Test de Friedman para k muestras relacionadas
*****",fill=T)
cat("**************", fill=T)
print(friedman.test(cont.var~cat.var))
if(friedman.test(cont.var~cat.var)$p.value<0.05){
} else {
}
} else{
Motivos<-as.factor(cat.var)[-na.action(na.omit(cont.var))]
cat("**************", fill=T)
cat("***** Test de Friedman para k muestras relacionadas
*****",fill=T)
cat("**************", fill=T)
print(friedman.test(na.omit(cont.var)~Motivos))
if(friedman.test(na.omit(cont.var)~Motivos)$p.value<0.05){
} else{
}
}
}
}
}
}

Utilización de Modelos de Regresión Generalizados y Técnicas de Supervivencia para La Evaluación Del Impacto de Una Consulta Especializada en El Servicio de Medicina Interna (USC)

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Utilización de Modelos de Regresión Generalizados y Técnicas de Supervivencia para La Evaluación Del Impacto de Una Consulta Especializada en El Servicio de Medicina Interna (USC)

Загружено:

Авторское право:

Доступные форматы

Mster en Tcnicas Estadsticas

Memoria de las prcticas realizadas en

= razn de verosimilitud para resultados

Вам также может понравиться