Академический Документы
Профессиональный Документы
Культура Документы
cuyo
complementario es
1 sen
RV
esp
|
= = ~
|
|
\ .
, si
0
H es cierta.
Se rechaza
0
H si el p-valor calculado para el valor de E en la muestra es
menor que o .
Prueba t de comparacin de medias para muestras independientes
Sea ( )
1 2
, ,...,
n
X X X una muestra de tamao n procedente de una distribucin
normal, ( ) ,
X X
X N o ~ y sea ( )
1 2
, ,...,
m
Y Y Y una muestra de tamao m de otra
poblacin normal ( ) ,
Y Y
Y N o ~ , independiente de la anterior. Para contrastar
la igualdad de medias,
0 1
: 0 vs : 0
X Y X Y
H H = = , el estadstico cambia dependiendo de
que se asuman varianzas poblaciones iguales o distintas.
( )
( )
X Y
v
X Y
E t
X Y
o
= ~
, si
0
H es cierta
En el caso de varianzas iguales 2 v n m = + .
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
45
45
En el caso de varianzas distintas v , adems de depender de n y m, depende
de las varianzas muestrales:
( )
2
2
1
1
n
i
X
i
X X
S
n
=
y
( )
2
2
1
1
m
j
Y
j
Y Y
S
m
=
. Para el
valor de E en la muestra, se calcula su p-valor y se rechaza si es menor que o .
Prueba t de comparacin de medias para muestras dependientes.
En este caso se considera una muestra( )
1 2
, ,...,
n
X X X de tamao n
procedente de una distribucin normal ( ) ,
X X
X N o ~ y una muestra
( )
1 2
, ,...,
n
Y Y Y de tamao tambin n , de otra poblacin normal ( ) ,
Y Y
Y N o ~ . Se
pueden reducir los datos a una sola muestra ( )
1 2
, ,...,
n
D D D , donde cada
i i i
D X Y = , tendr tambin distribucin normal con media
D X Y
= . Este
caso es habitual cuando se toman medidas repetidas en los individuos de una
poblacin.
Para contrastar
0
: 0
X Y
H = se utiliza el estadstico de contraste
1
D
n
D
D
E t
S
n
= ~ , si
0
H es cierta.
Se rechaza
0
H si el p-valor calculado para el valor de E en la muestra es
menor que o .
3.2. TEST PARAMTRICO EN MS DE DOS POBLACIONES NORMALES
Anova de un factor
Adems de que las 2 k > variables sean normales tiene que cumplirse que las
k varianzas sean homogneas, esto se evala realizando el Test de Levene
(Levene, H. (1960)).
En un anlisis de varianza (ANOVA) de un factor el objetivo que se busca es
evaluar si los valores medios de una variable continua varan en funcin de las
categoras, en nuestro caso los diferentes motivos del fin de seguimiento, de una
variable cualitativa. Esta prueba es la extensin de la prueba t para ms de dos
categoras. Queremos contrastar:
0 1 2 1
: ... vs : para algn i e j.
K i j
H H = = = = =
La hiptesis nula nos indica que no hay diferencias en las medias en los
distintos motivos y la alternativa nos indica que al menos las medias en dos de
los motivos no son iguales. Para contrastar la hiptesis anterior contaremos con
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
46
46
una muestra (o 4 k =
muestras si consideramos por separado cada uno de los
motivos), que representaremos de la siguiente manera:
Motivo Muestra Tamao de muestra Media
1
1
11 12 1
Y , Y ,..., Y
n
1
n
1
1
1
1.
1
n
j
j
Y
Y
n
=
=
2
2
21 22 2
Y , Y ,..., Y
n
2
n
2
2
1
2.
2
n
j
j
Y
Y
n
=
=
3
3
31 32 3
Y , Y ,..., Y
n
3
n
3
3
1
3.
3
n
j
j
Y
Y
n
=
=
4
4
41 42 4
Y , Y ,..., Y
n
4
n
4
4
1
4.
4
n
j
j
Y
Y
n
=
=
Global
1 2 3 4
n n n n n = + + +
4
1 1
..
i
n
ij
i j
Y
Y
n
= =
=
Cada una de las observaciones de nuestra muestra
ij
Y puede ser representada
de la siguiente manera:
( )
ij i ij i i ij
Y Y e = + = + ,
donde
ij
e representa el error de la observacin j del motivo i con respecto a
la media en ese motivo. Adems,
( )
ij i ij i ij i ij
Y e e e o = + = + + = + +
Por lo tanto cada observacin la podemos descomponer en:
1. , que es la media global
2.
i
o , que es la desviacin entre la media global y la media en el
motivo i (efecto del motivo i).
3.
ij
e , que es el error experimental.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
47
47
El estadstico de contraste en el ANOVA de un factor, se basa en comparar la
variabilidad entre motivos (diferencias en las medias) y la variabilidad de la
respuesta dentro de cada motivo (
2
o ).
Variabilidad entre motivos
.
Variabilidad dentro de los motivos
Si el cociente anterior es grande, entonces cabe esperar que s existan
diferencias entre los motivos.
Teniendo en cuenta que,
( ) ( )
,
ij i ij i ij i
Y e Y o = + + = + +
substituimos los correspondientes valores poblacionales y
i i
por los
correspondientes valores muestrales,
( ) ( )
.. . .. .
,
ij i ij i
Y Y Y Y Y Y = + +
llegando a la siguiente igualdad,
( ) ( ) ( )
.. . .. .
.
ij i ij i
Y Y Y Y Y Y = +
A partir de esta ltima expresin, se obtiene la siguiente suma de cuadrados,
( ) ( ) ( )
4 4 4
2 2 2
.. . .. .
1 1 1 1 1
.
i i
n n
ij i i ij i
i j i i j
Y Y n Y Y Y Y
= = = = =
= +
En la igualdad anterior, podemos identificar 3 componentes:
1. Variabilidad total o suma total de cuadrados
( )
4
2
..
1 1
.
i
n
Total ij
i j
SC Y Y
= =
=
Medida de la variabilidad de los datos con respecto a la media global.
2. Variabilidad explicada o suma de cuadrados de los motivos
( )
4
2
. ..
1
.
Motivo i i
i
SC n Y Y
=
=
Medida de la variabilidad de las medias en cada motivo con respecto a
la media global. (Variabilidad entre motivos).
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
48
48
3. Variabilidad no explicada o suma de cuadrados del error
( )
4
2
.
1 1
.
i
n
Error ij i
i j
SC Y Y
= =
=
Medida de la variabilidad en la respuesta entre observaciones del
mismo motivo. (Variabilidad dentro de cada tratamiento).
Por lo que el estadstico de contraste es de la siguiente manera:
3
0 3, 4
4
Motivo
Error
SC
n SC
n
F F
= ~ , si
0
H es cierta.
Se rechaza
0
H si el p-valor calculado para el valor de
0
F en la muestra es
menor que o . En este caso el objetivo ser evaluar que motivos son distintos
y que motivos son iguales. En trminos de un contraste, lo que buscamos es:
0 1
: vs :
i j i j
H H = = , para cada par de motivos i e j.
Existen diferentes mtodos para realizar el anterior contraste, entre ellos:
Mtodo de la mnima diferencia significativa.
Mtodo de Bonferroni.
Mtodo de la diferencia significativa de Tukey.
3.3. TEST NO PARAMTRICO EN DOS MUESTRAS
Test de Wilcoxon para muestras independientes
Sea ( )
1 2
, ,...,
n
X X X una muestra de tamao n procedente de una poblacin
con distribucin de tipo continuo
X
F y sea ( )
1 2
, ,...,
m
Y Y Y una muestra de tamao
m de otra poblacin con distribucin de tipo continuo
Y
F .
Se trata de contrastar
0 1
: vs :
X Y X Y
H F F H F F = = . Este test se basa en los
rangos de las observaciones y utiliza la idea de que, si
0
H es cierta, se espera
que los rangos correspondientes a los valores de una y otra muestra estn
entremezclados o dispersos, mientras que en otro caso, debe esperarse que los
rangos de las observaciones de cada muestra estn muy agrupados en los
extremos.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
49
49
Llamando R a la suma de los rangos asociados a las observaciones de una
cualquiera de las dos muestras (por ejemplo, la de menor tamao), la
distribucin del estadstico R est tabulada. El estadstico R est perfectamente
relacionado con el estadstico U de Mann-Whitney, de manera que ambos
proporcionan la misma prueba.
3.3.1. Test de Wilcoxon para muestras dependientes
La hiptesis a contrastar es la misma que la del anterior,
0
: ,
X
H F F = pero en
este caso se considera una muestra de tamao n de una poblacin bivariante, es
decir n pares de observaciones muestrales ( ) ( )
1 1
, ,..., ,
n n
X Y X Y correspondientes
a dos variables aleatorias X e Y con distribucin de tipo continuo, pero no
necesariamente independientes.
Como ya se coment anteriormente, esta situacin aparece frecuentemente al
tomar medidas repetidas sobre un mismo individuo.
Si reducimos los datos a una sola muestra
1 2
, ,..., ,
n
D D D donde cada
,
i i i
D X Y = pasamos a trabajar con una muestra de tamao n de la variable
aleatoria D X Y = .
Bajo la hiptesis nula, esta variable diferencia estar distribuida de forma
simtrica respecto al 0, por lo que las diferencias positivas y negativas de igual
magnitud absoluta sern equiprobables. Los estadsticos de Wilcoxon se basan
en esta idea y calculan la suma de los rangos de las diferencias positivas, , T + y
de las diferencias negativas, , T habindose asignado los rangos a los valores
absolutos de las diferencias observadas.
La distribucin de los estadsticos de Wilcoxon (por ejemplo del T + ) est
tabulada.
3.4. TEST NO PARAMTRICO PARA MS DE DOS MUESTRAS
Test de Kruskal-Wallis para k muestras independientes
Se trata de una generalizacin del test de Wilcoxon al caso de k muestras.
Sean
( )
1
11 12 1
, ,..., ,
n
X X X
( )
2
21 22 2
, ,..., ,
n
X X X
( )
1 2
..., , ,..., ,
k
k k kn
X X X k muestras
de tamaos
1 2
, ,..., ,
k
n n n respectivamente, de sendas distribuciones continuas.
Se quiere contrastar la hiptesis nula de que las k distribuciones son idnticas
frente a la alternativa de que difieren en su tendencia central.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
50
50
A cada una de las
1 2
...
k
N n n n = + + + observaciones conjuntamente
ordenadas, se les asigna un rango y se determina la suma de los rangos
j
R de las
observaciones de cada una de las muestras, 1,..., j k = .
En esencia, el contraste determina si la disparidad entre las
j
R con respecto a
los tamaos muestrales
j
n de las muestras es suficientemente significativa para
llevar al rechazo de la hiptesis nula.
Si
0
H es cierta y para tamaos muestrales suficientemente grandes, el
estadstico
( )
( )
2
1
1
12
3 1 ,
1
k
j
k
j
j
R
H N
n
N N
_
=
| |
| |
= + ~
|
|
+
\ .
\ .
Por lo que para un nivel de significacin , o se rechazar
0
H si el estadstico
H > el percentil 1 o de una
2
1 k
_
.
3.5. INDEPENDENCIA EN TABLAS DE CONTINGENCIA
Nuestro objetivo ser contrastar la hiptesis de independencia poblacional entre
dos factores basndonos en la informacin proporcionada por las frecuencias
observadas contenidas en la tabla de contingencia.
Tabla.1. (Notacin para una tabla de contingencia I J )
Factor B
1
B
1
B
J
B
1
A
11
n
1 j
n
1J
n
1.
n
Factor A
i
A
1 i
n
ij
n
iJ
n
. i
n
I
A
1 I
n
Ij
n
IJ
n
. I
n
.1
n
. j
n
.J
n
n
A partir de la Tabla.1 se obtienen las siguientes distribuciones de frecuencias
marginales y condicionales:
Distribuciones marginales:
Factor A:
.
1
( 1,..., ),
J
i ij
j
n n i I
=
= =
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
51
51
Factor B:
.
1
(j 1,..., ),
I
j ij
i
n n J
=
= =
verificando
. .
1 1 1
.
I J I J
ij i j
i j i j
n n n n
= = = =
= = =
Distribuciones condicionadas:
Factor A condicionado a ( 1,..., ):
j
B B j J = =
| .
n 1,...,
i j ij j
n n i I = =
Factor B condicionado a A (i 1,..., ):
i
A I = =
| .
n j 1,...,
j i ij i
n n J = =
Tabla.2. (Notacin para una tabla I J de probabilidades poblacionales)
Factor B
1
B
1
B
J
B
1
A
11
p
1 j
p
1J
p
1.
p
Factor A
i
A
1 i
p
ij
p
iJ
p
. i
p
I
A
1 I
p
Ij
p
IJ
p
. I
p
.1
p
. j
p
. J
p 1
De igual forma que para las frecuencias observadas, se definen las distribuciones
de probabilidad marginales y condicionadas asociadas de la siguiente manera:
Distribuciones marginales:
Factor A:
.
1
( 1,..., ),
J
i ij
j
p p i I
=
= =
Factor B:
.
1
(j 1,..., ),
I
j ij
i
p p J
=
= =
verificando
. .
1 1
1
I J
i j
i j
p p
= =
= =
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
52
52
Distribuciones condicionadas:
Factor A condicionado a ( 1,..., ):
j
B B j J = =
| .
1,...,
i j ij j
p p p i I = =
Factor B condicionado a A (i 1,..., ):
i
A I = =
| .
j 1,...,
j i ij i
p p p J = =
Contraste de independencia Chi-cuadrado.
Consideremos una tabla de contingencia I J generada por muestreo
multinomial. Esto significa que la distribucin conjunta del vector aleatorio que
genera a las frecuencias observadas es una multinomial de parmetros las
probabilidades poblacionales.
Supongamos que queremos contrastar la hiptesis nula de independencia
0 . .
:
ij i j
H p p p = 1,..., ; 1,..., i I j J = =
Sean
. .
/
ij i j
m n n n = los estimadores de mxima verosimilitud de las frecuencias
esperadas bajo la hiptesis de independencia. Para llevar a cabo este contraste, se
define el estadstico de Pearson de la siguiente manera:
2
2
( )
,
ij ij
i j ij
n m
X
m
que bajo la hiptesis nula de independencia, tiene distribucin de probabilidad
asinttica (para tamaos muestrales grandes)
2
( 1)( 1) I J
_
.
Se rechaza la hiptesis de independencia al nivel o cuando
2 2
( 1)( 1); I J
X
o
_
>
Correcin por continuidad del estadstico
2
X
Los contrastes de independencia basados en la distribucin chi-cuadrado
aproximan una distribucin discreta (la del estadstico del contraste que es funcin
de la multinomial) por una continua (la distribucin chi-cuadrado).
Esto da lugar a un error considerable cuando el tamao muestral no es
demasiado grande. Los mtodos que disminuyen este error se llaman correcciones
por continuidad.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
53
53
Para mejorar esta aproximacin en el caso de tamaos muestrales pequeos,
Yates (Yates, 1934) propuso un mtodo que se llama correccin por continuidad de
Yates para el estadstico
2
X en una tabla 2 2.
Esta correccin consiste en restar 1/2 a las desviaciones positivas y sumar 1/2 a
las desviaciones negativas. Por lo tanto, el estadstico
2
X corregido es de la forma:
( )
( )
2
2
1/ 2
.
ij ij
C
i j ij
n m
X
m
=
Existe mucha polmica sobre la aplicacin de la correccin de Yates porque hay
casos prcticos en los que con el estadstico corregido se rechaza la independencia
con bastante menor significacin que con el test no corregido. Es decir, el p-valor
corregido es bastante mayor que el no corregido y el test corregido es ms
conservativo. En caso de tamaoo muestral grande la correccin tiene efecto
pequeo sobre el valor del estadstico
2
X .
Test exacto de Fisher para tablas 2x2
Consideremos una tabla 2 2 con los totales marginales ( )
1. 2. .1 .2
, , , n n n n de
ambas variables fijos.
Supongamos que queremos contrastar la hiptesis de independencia poblacional
que para una tabla 2 2 se puede expresar como:
0 1|1 1|2
: H p p =
La distribucin exacta bajo
0
H de cualquier distribucin de frecuencias
observadas cuyos totales marginales coincidan con los fijados de antemano, es la
hipergeomtrica de parmetros ( )
.1 1.
, , n n n dada por
1. 1.
.1 11 11 1. 2. .1 .2
11 12 21 22
.1
! ! ! !
,
! ! ! ! !
n n n
n n n n n n n
n n n n n n
n
| | | |
| |
\ .\ .
=
| |
|
\ .
que bajo la hiptesis de independencia no depende de ningn parmetro
desconocido, y expresa la distribucin de las cuatro casillas de la tabla en trminos
del elemento
11
n debido a que, dados los totales marginales, su valor determina las
otras tres casillas de la tabla.
El rango para los posibles valores de
11
n ( ) { } { }
.1 1. 11 .1 1.
max 0, min , . n n n n n n s s
Dado que aparecen en la frmula de la distribucin hipergeomtrica un total de
IJ I J 1 + + + factoriales, el clculo de las probabilidades de todas las posibles tablas
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
54
54
es complicado y laborioso. Este proceso se simplifica aplicando la frmula de
Feldman y Kinger que calcula una de estas probabilidades, por ejemplo la de la
tabla observada, y las dems se obtienen a partir de ella. Si denotamos por
11
n
p a la
probabilidad que asigna la distribucin hipergeomtrica a una tabla con frecuencia
11
n en la casilla (1,1), la expresin para la probabilidad de las dems tablas es:
( )( )
11 11
12 21
1
11 22
,
1 1
n n
n n
p p
n n
+
=
+ +
( )( )
11 11
11 22
1
12 21
.
1 1
n n
n n
p p
n n
=
+ +
El paso siguiente es fijar una hiptesis alternativa, fijemos
1 1|1 1|2
: H p p = . Como
bajo
0
H se tiene que verificar
11 11 1. .1
, n m n n n = = se rechazar
0
H cuando la
distancia
11 11 11
d n m = sea suficientemente grande. Por lo tanto el p-valor del test
es:
11 11 11 11 11 11
: definiendo .
Obs Obs Obs
p P n d d d n m = > ( =
Si
11 11
Obs
n m > entonces
( ) { }
11
11 11 11 11 11
: 2 ,
.
Obs Obs
n
n n n m n
p p
e +
=
Si
11 11
Obs
n m < entonces
( ) { }
11
11 11 11 11 11
: , 2
.
Obs Obs
n
n n n n m
p p
e +
=
El test resulta significativo para rechazar la independencia si p o s siendo o el
nivel de significacin previamente fijado para el contraste.
Para ms informacin sobre este test puede consultarse (Aguilera, 2001).
Los test vistos anteriormente sirven para contrastar si dos variables cualitativas
son independientes, pero en ocasiones tenemos variables cualitativas tomadas de un
mismo individuo, por ejemplo en nuestro caso anemia0 (basal) y anemia_fin
(final), por lo que el estudio de la independencia no tiene inters. Las tablas que
resultan de la representacin de estos datos (relacionados o dependientes) son
cuadradas y adems con las mismas categoras para filas y columnas.
Las hiptesis de inters en este tipo de tablas sern (debido a su interpretacin en
relacin a si existen cambios significativos de la variable de inters en el tiempo o
bajo los tratamientos considerados): la simetra y la homogeneidad marginal.
- Simetra:
ij ji
p p = ( ) i j =
- Homogeneidad marginal:
. . i i
p p = ( 1,..., ) i I =
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
55
55
En una tabla 2 2 ambos conceptos son equivalentes. Sin embargo, en general,
la simetra implica homogeneidad marginal pero el recproco no es cierto.
Test de Mc-Nemar para una tabla 2x2.
La estructura de una tabla 2 2 procedente de datos dependientes binarios
(clasificados segn una variable dicotmica) es la siguiente:
Caso2
Caso1 A1 A2
A1
11
n
12
n
A2
21
n
22
n
Contiene en cada una de sus casillas las frecuencias observadas
ij
n .
Vamos a obtener en primer lugar un test aproximado (basado en la distribucin
chi-cuadrado) para contrastar la hiptesis nula:
0 1. .1 12 21 1 1. .1 12 21
: vs : H p p p p H p p p p = = = =
0
H significa que la probabilidad de clasificarse en la categora A1 es la misma en
los dos casos considerados. Es decir, se contrasta que no hay cambios significativos
de la clasificacin en los dos casos frente a la existencia de cambios. Por ello el test
se suele llamar, tambin, test de significacin de cambios.
El test es debido a McNemar (McNemar, 1947) y se obtiene como sigue. Bajo
0
H los EMV (suponiendo muestreo multinomial para la tabla 2 2) de las
probabilidades poblacionales son:
11 11
/ p n n =
22 22
/ p n n =
12 21 12 21
( ) / 2 p p n n n = = +
Por lo tanto, los EMV de las frecuencias esperadas bajo
0
H son:
11 11
m n =
22 22
m n =
12 21 12 21
( ) / 2 m m n n = = +
Entonces, substituyendo en el estadstico
2
X de bondad de ajuste se tiene la
expresin:
2
2 12 21
12 21
( )
( )
n n
X
n n
=
+
que tiene, bajo
0
H distribucin asinttica
2
_ con 1 grado de libertad, y es
conocido como estadstico de McNemar.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
56
56
El nmero de parmetros libres de la tabla es 3. El nmero de parmetros
estimados es dos. Por lo tanto la diferencia es el nmero de grados de libertad igual
a 1.
Por lo tanto, el test resultar significativo para rechazar la hiptesis de
independencia al nivel o si se verifica:
2 2
1;
X
o
_ >
Se puede comprobar que la correccin de Yates del estadstico de McNemar es
de la forma:
( )
( )
2
12 21 2
12 21
1
C
n n
X
n n
=
+
La correccin de Yates es aconsejable cuando las frecuencias esperadas en el
caso de simetra (u homogeneidad marginal) son menores que 5, es decir,
( )
12 21
5
2
n n +
< .
En nuestro estudio no tenemos variables cualitativas dependientes con ms de
dos categoras, si las tuvisemos para contrastar la simetra tendramos que utilizar
la extensin de Bowker (Bowker, 1948) para al test de McNemar. Si la simetra se
rechaza, como no estamos en tablas 2x2 la simetra y la homogeneidad marginal no
son equivalentes por lo que puede ser de inters utilizar la extensin de Stuart
(Stuart, 1955) y Maxwell (Maxwell, 1970) al test de McNemar para contrastar la
homogeneidad marginal.
3.6. REGRESIN LOGSTICA
Consideremos una variable respuesta Y, que slo puede tomar dos valores, que
codificaremos como 0 y 1. Diremos que Y es una variable binaria (o dicotmica), y
queremos estudiar su relacin con otras variables explicativas X mediante un
anlisis de regresin. Por ser la variable respuesta binaria, su distribucin ser
Bernoulli y su media una probabilidad de xito.
Nuestro propsito es construir un modelo para
( ) ( ) 1/ x P Y X x t = = =
esto es, para la probabilidad de xito condicionada a cada valor de la variable
explicativa. Podemos aplicar a ( ) x t una funcin que transforme el intervalo [0,1]
en toda la recta real. As, se tratara de expresar
'
( ( , )) g x x t | | =
donde a la funcin g se le conoce como funcin enlace o funcin link, x es el vector
que contiene los valores de las variables explicativas y | el vector de los
coeficientes.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
57
57
En esta situacin donde la variable respuesta es dicotmica, es comn considerar
como funcin link la funcin logstica o funcin logit:
( ) [0,1]
1
p
g p p
p
= e
Como el argumento p ser sustituido por la probabilidad de xito, la funcin
logstica consiste en efectuar un logaritmo al cociente entre la probabilidad de
xito, p, y la probabilidad de fracaso, (1- p). A este cociente se le conoce como
odds:
( 1)
( )
( 0)
P Y
Odds Y
P Y
=
=
=
Ahora que la odds se mueve en el intervalo [0, ] + , slo falta aplicar un
logaritmo para transformarlo en una cantidad situada en toda la recta real. En
definitiva el modelo consistir en expresar el logaritmo de la odds de la variable
respuesta como funcin lineal de la variable explicativa:
'
( , )
log
1 ( , )
x
x
x
t |
|
t |
=
Veamos ahora que forma adopta este modelo si lo pensamos como
representacin de la probabilidad de xito. Para ello habr que invertir la funcin
logit, que viene dada de la siguiente manera
1
( )
1
x
x
e
g x
e
=
+
Finalmente, el modelo logstico consiste en expresar la probabilidad de xito de
la siguiente manera:
'
'
1 '
( , ) ( )
1
x
x
e
x g x
e
|
|
t | |
= =
+
Se define la Odds Ratio (OR), como el cociente de la odds en una y otra
poblacin y se representa como OR e
|
= . Cuantifica la magnitud de la asociacin
entre la respuesta y el factor de inters.
3.7. REGRESIN MULTINOMIAL
La regresin logstica multinomial (Hosmer y Lemeshow, 1989) se utiliza en
modelos con variable dependiente de tipo nominal con ms de dos categoras
(policotmica) y es una extensin multivariante de la regresin logstica binaria.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
58
58
En el modelado de una respuesta policotmica nominal con k categoras, se
deben definir k-1 logits, cada uno de ellos comparando una determinada categora
de k de respuesta con la categora de referencia, codificada con un 0. Por tanto, el
modelo de regresin logstica multinomial plantea un conjunto de k-1 ecuaciones
de regresiones simultanas:
0 1
( )
logit( ) ln siendo 1,..., 1
( 0)
s s
P Y s
Y s x s k
P Y
| |
| | =
= = = + =
|
=
\ .
3.8. ANLISIS DE SUPERVIVENCIA
Introduccin
El anlisis de supervivencia consiste en un conjunto de tcnicas para analizar
el tiempo de seguimiento hasta la ocurrencia de un evento de inters (en nuestro
caso muerte). En la prctica, es muy frecuente encontrarse con situaciones que
se cuenten con observaciones incompletas de los perodos que transcurren entre
el tiempo inicial y el tiempo final. Esto puede darse por censura o por
truncamiento, y es precisamente bajo censura o truncamiento que el anlisis de
supervivencia cobra una mayor importancia. Los mecanismos de censura y
truncamiento ms frecuentes son los siguientes:
i. Censura por la derecha: Se presenta cuando hasta la ltima observacin
que se le hace al individuo, an no ha ocurrido el evento que se desea
observar. Existen varias razones para que se presente este tipo de censura:
- Que hasta el momento de finalizacin del estudio no haya ocurrido
el evento, esto ocurrira en el caso de que el perodo de seguimiento
sea finito.
- Que el individuo haya abandonado el estudio.
- Que haya ocurrido en el individuo otro evento que imposibilite la
ocurrencia del evento que se desea observar.
ii. Censura por la izquierda: Es poco comn en el anlisis de supervivencia,
se presenta cuando para la primera observacin que se realiza sobre el
individuo ya ha ocurrido el evento de inters. Este tipo de censura suele
confundirse con el truncamiento por la izquierda o la entrada tarda.
iii. Censura por intervalos: Se presenta cuando solo se sabe que al individuo le
ocurre el evento de inters entre un instante
i
t y un tiempo
j
t .
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
59
59
iv. Entrada tarda al estudio (truncamiento por la izquierda): Se presenta
cuando el individuo comienza a observarse posteriormente al verdadero
evento inicial.
v. Truncamiento por la derecha: Se presenta cuando slo se incluyen los
individuos que presentan el evento de inters.
Para obtener un panorama general de los distintos tipos de censura puede
verse el libro de (Andersen et al., 1993) o el de (Klein y Moeschberger, 1997).
Definiciones bsicas
Funcin de Supervivencia
La funcin de supervivencia se define como la probabilidad de que una
persona sobreviva (no le ocurra el evento de inters) al menos hasta el tiempo t.
Una definicin ms formal puede darse de la siguiente manera: sea T una
variable aleatoria positiva con funcin de distribucin ( ) F t y funcin de
densidad ( ) f t . La funcin de de supervivencia ( ) S t es:
( ) 1 ( ) [ ] S t F t P T t = = >
Funciones de Riesgos
La funcin de razn de riesgos ( ) t se define como el cociente entre la
funcin de densidad y la funcin de supervivencia:
( )
( )
( )
f t
t
S t
=
Se interpreta como la probabilidad de que a un individuo le ocurra el evento
de inters en la siguiente unidad de tiempo t A dado que ha sobrevivido al
tiempo t.
La funcin de riesgo acumulada ( ) t A se define como:
0
( ) ( ) log ( )
t
t u du S t A = =
}
Como habamos planteado anteriormente, lo que distingue el anlisis de
supervivencia es la presencia de censura, que en nuestro caso ser la de censura
por la derecha.
Los datos de supervivencia suelen presentarse de la forma ( , )
i i
t o , donde
i
t es
el tiempo de observacin y, 0
i
o = si la observacin es censurada y 1
i
o =
cuando se observa la ocurrencia del evento de inters.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
60
60
Estimador de Kaplan-Meier
La presencia de datos censurados o truncados hace que la funcin de
supervivencia no pueda ser obtenida directamente a travs de argumentos
probabilsticos hacindose necesario el uso de algunos estimadores. Existen
varias formas de estimar la funcin de supervivencia, entre los ms conocidos
son los basados en tablas de vida, entre el que se incluye el estimador actuarial y
el estimador de Kaplan-Meier, que es ms prctico, ya que no es necesario
trabajar con perodos de tiempos, sino que los mismos tiempos de observacin
van contribuyendo a la estimacin de la funcin de supervivencia.
El estimador de Kaplan-Meier (Kaplan-Meier, 1958) es el estimador de la
funcin de supervivencia ms utilizado y se define para el caso en que los datos
puedan presentar censura por la derecha como:
( ) ( )
( )
( )
i
i i
KM
t t i
r t d t
S t
r t
s
=
[
donde ( )
i
r t y ( )
i
d t
son el nmero de individuos en riesgo y el nmero de
muertes en el momento
i
t .
La varianza del estimador de Kaplan-Meier se obtiene a travs de la frmula
de Greenwood (1926):
| |
2
( )
( ( )) ( )
( ) ( ) ( )
i
i
KM KM
t t
i i i
d t
V S t S t
r t r t d t
s
=
El intervalo de confianza al 95% se obtiene mediante:
( )
( ) 1.96 ( )
KM KM
S t ee S t
donde
( )
( )
KM
ee S t es el error estndar de estimacin del estimador de Kaplan-
Meier.
Comparacin de las funciones de supervivencia
La comparacin de curvas se efecta a travs de contrastes basados en tablas
de contingencia, en nuestro caso, la tabla es de la siguiente forma:
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
61
61
Tabla.1
Grupo
Evento 1 0 Total
Muerte
1
( )
i
d t
0
( )
i
d t ( )
i
d t
No Muerte
1 1
( ) ( )
i i
r t d t
0 0
( ) ( )
i i
r t d t ( ) ( )
i i
r t d t
En riesgo
1
( )
i
r t
0
( )
i
r t ( )
i
r t
Se han definido los grupos, como 1 (Controlado) y 0 (No controlado),
correspondiendo estos grupos a cada una de las curvas de supervivencia.
Para construir el estadstico de contraste basta con calcular el nmero
esperado de muertes y la varianza estimada del nmero de muertes para cada
uno de los grupos; por ejemplo, para el grupo 1. El nmero esperado de muertes
se calcula de la siguiente manera:
1
1
( ) ( )
( )
( )
i i
i
i
r t d t
e t
r t
=
La varianza estimada de ( )
i i
d t est basada en la distribucin hipergeomtrica
y para el grupo 1 est definida como:
( ) ( )
( )
( )
1 0
1 2
( ) ( ) ( ) ( )
( ) ( ) 1
i i i i
i
i i
r t r t r t d t
V d t
r t r t
=
Finalmente, el estadstico de contraste se define de la siguiente manera:
( )
( ) ( )
2
1 1
1
2
1
1
( ) ( )
m
i i i
i
m
i i
i
w d t e t
Q
w V d t
=
=
(
(
=
Este estadstico se puede aproximar mediante una chi-cuadrado de un grado
de libertad si el nmero de ocurrencias de eventos es grande.
Bajo la hiptesis nula, se asume que las dos funciones de supervivencia son
iguales. En esta frmula m es el nmero de tiempos de ocurrencia de eventos en
ambos grupos y
i
w denota los pesos, que toman valores distintos dependiendo
del test utilizado. Utilizaremos el ms comn de los tests, que es el de Mantel y
Haenzel (o long-rank). Este test est diseado para verificar igualdad o
diferencia en la funcin de supervivencia en todos los tiempos. En este test los
pesos son iguales a 1, es decir, 1.
i
w = (Mantel, 1966).
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
62
62
Otro test comnmente utilizado es el de Peto y Peto (1972). Este test permite
verificar igualdad o diferencia de las funciones de supervivencia en los tiempos
iniciales. Para una enumeracin muy completa de los distintos test, basados en
procesos de conteo (Andersen et al, 1993) y (Fleming y Harrigton, 1991).
Supervivencia media y mediana
Supervivencia media
La supervivencia media puede ser estimada mediante la siguiente expresin:
0
( )
T
KM
S t dt =
}
donde T es tiempo mximo de seguimiento observado durante el estudio.
Supervivencia mediana
La supervivencia mediana se define como el primer tiempo t que satisface la
siguiente condicin:
( ) 0.5
KM
S t s
Modelo de regresin de Cox
El modelo de regresin de Cox (Cox, 1972) es el modelo de regresin ms
utilizado para datos de supervivencia en el rea mdica.
En el modelo de regresin de Cox, el riesgo para el i-simo individuo se
define mediante la siguiente expresin:
( )
'
( )
0
; ( ) ( )
i
Z t
i
t Z t t e
|
=
donde ( )
i
Z t es el vector de covariables para el i-simo individuo en el tiempo t.
El modelo de Cox establecido anteriormente se dice que es un modelo
semiparamtrico debido a que incluye una parte paramtrica y otra no
paramtrica.
i. La parte paramtrica es
'
( )
( )
i
Z t
i
r t e
|
= , llamada puntuaje de riesgo (risk score),
y | es el vector de parmetros de la regresin.
ii. La parte no paramtrica es
0
( ) t que es llamada funcin de riesgo base, es
una funcin arbitraria y no especificada.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
63
63
El modelo de regresin de Cox se llama tambin modelo de riesgos
proporcionales debido a que el cociente entre el riesgo para dos sujetos con el
mismo vector de covariables es constante en el tiempo, es decir:
( )
( )
' '
' '
( ) ( )
0
( ) ( )
0
; ( ) ( )
; ( )
( )
i i
j j
Z t Z t
i
Z t Z t
j
t Z t t e e
t Z t
t e e
| |
| |
= =
Suponiendo que una muerte ha ocurrido en el tiempo
*
t , entonces la
verosimilitud de que la muerte le ocurra al individuo i-simo y no a otro
individuo es:
* * *
* * * * *
0
( ) ( ) ( )
( )
( ) ( ) ( ) ( ) ( )
o i i
i
j j j j
j j
t r t r t
L
Y t t r t Y t r t
= =
El producto de los trminos de la expresin anterior ( ) ( )
i
i
L L | | =
[
se
denomina la verosimilitud parcial y fue introducida por Cox.
La maximizacin de ( ) log ( ) L | da una estimacin para | sin necesidad de
estimar el parmetro de ruido o funcin de riesgo base
0
( ) t .
Contrastes de hiptesis para el modelo de Cox.
Una vez que se ha ajustado el modelo Cox, existen tres contrastes de hiptesis
para verificar la significacin del modelo, estos tests son asintticamente
equivalentes, pero no siempre sucede lo mismo en la prctica. Estos tres
contrastes son el test de razn de verosimilitudes, es el que presenta una mayor
confiabilidad, el test de Wald, es quizs el ms natural debido a que proporciona
un contraste por variables en vez de una medida de significacin global, y el test
de puntuajes (score test).
Modelos de Cox estratificados
Una extensin del modelo de Cox permite obtener la estimacin de los
modelos para distintos grupos disjuntos o estratos. El modelo obtenido se conoce
como modelo de Cox estratificado y est definido para el estrato j-simo como:
( )
'
( )
; ( ) ( )
i
Z t
i j
t Z t t e
|
=
Este modelo permite obtener la estimacin del modelo en presencia de una
variable de estratificacin sobre la cual se desean obtener funciones de
supervivencia por cada uno de los distintos grupos y probablemente poder
estudiar la existencia o no de las funciones de supervivencia entre los grupos.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
64
64
El modelo de Cox estratificado tambin constituye una de las maneras de
corregir el modelo de Cox cuando no se cumple el supuesto de riesgos
proporcionales para alguna de las covariables. En este caso suele correrse el
modelo estratificando por la covariable que no cumple con el supuesto de riesgo
proporcional. Este procedimiento permite corregir el sesgo en la estimacin del
parmetro que puede presentarse cuando se viola el supuesto de riesgo
proporcional. Sin embargo, presenta una desventaja y es que no existe ningn
que permita estimar el efecto de la covariable de estratificacin.
Estudio de residuos en el anlisis de supervivencia
Una de las ventajas que han surgido del enfoque del anlisis de supervivencia
es la posibilidad de efectuar anlisis de residuos (Andersen et al., 1993, Fleming
y Harrington, 1991, Therneau y Grambsch, 2000, Therneau et al., 1990).
Los residuos se pueden utilizar para:
1. Descubrir la forma funcional correcta de un predictor continuo.
2. Identificar los sujetos que estn pobremente predichos por el modelo.
3. Identificar los puntos o individuos de influencia.
4. Verificar el supuesto de riesgo proporcional.
Existen cuatro tipos de residuos de inters en el modelo de Cox: los residuos
de martingala, los de desvos (deviance), los de puntuaje (score) y los de
Schoenfeld.
Residuos de Martingala
Los residuos de martingala se usan para estudiar la forma funcional de una
covariable.
Residuos de desvos (deviance)
Los residuos de desvos se utilizan para la deteccin de valores atpicos
(outliers).
Residuos de puntuajes (scores)
Los residuos de puntuajes se utilizan para verificar la influencia individual y
para la estimacin robusta de la varianza.
Residuos de Schoenfeld
Los residuos de Schoenfeld (Schoenfeld, 1982) son tiles para la verificacin
del supuesto de riesgo proporcional en el modelo de Cox.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
65
65
4. RESULTADOS
4.1. Caractersticas clnicas de los individuos segn el control
En la Figura.1 se explica mediante un diagrama como se definen los pacientes
controlados y los no controlados en la consulta implantada en el servicio de
Medicina interna. En la Tabla.1 se muestra las caractersticas clnicas de los
pacientes controlados (que adems de la primera consulta asistieron al menos a la
segunda consulta) y de los no controlados (que asistieron solamente a la primera
consulta). El grupo no controlado contiene: un nmero mayor de individuos que
presentan anemia (P<0.05) y un nmero menor de pacientes que presentan ninguna
o poca limitacin en la actividad fsica (P<0.05). Los resultados de la Tabla.1 se
obtuvieron utilizando la funcin test.mixto y la funcin test.cualitativa definida en
el Captulo3.
Figura.1 Control de los individuos en la consulta especializada
Tabla.1 Caractersticas clnicas de los pacientes
Controlados
(n=255)
No controlados
(n=22)
P-valor
Edad (aos) 79 8 80 6
0.8755
Sexo (Hombre)
117(46%) 11(50%) 0.7101
Hipertensin (Si)
212(83%) 14(64%) 0.0396
Diabetes (Si)
81(32%) 10(45%) 0.1896
EPOC (Si)
75(29%) 10(45%) 0.1175
FA (Si)
140(55%) 15(68%) 0.2287
Glucemia (mg/dl) 114 38 142 74
0.0661
Hemoglobina (g/dl) 13 2 12 2
0.0803
Sodio (mMol/l) 139 3 138 4
0.2502
GFR (ml/min) 57 21 56 19
0.9315
Hiponatremia (Si)
27(11%) 4(18%) 0.2867
Anemia (Si)
43(17%) 9(41%) 0.0102
ERC (Si)
148(58%) 10(45%) 0.2526
NYHA (1)
180(71%) 11(50%) 0.0389
En cada grupo para las variables cuantitativas se representa
la media y su desviacin tpica y para las variables cualitativas
las frecuencias y sus porcentajes. La variable NYHA=1 indica
ninguna o poca limitacin en la actividad fsica.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
66
66
4.2. Caractersticas clnicas de los individuos segn el status
En la Tabla.2 se muestra las caractersticas clnicas de los individuos segn el
status, es decir de los pacientes muertos y de los vivos. El grupo de los individuos
que fallecieron presenta una mayor edad que los que viven (P<0.05), un menor
nivel de glucosa, hemoglobina y sodio que los que viven (P<0.05) un mayor
porcentaje de individuos que presentan anemia (P<0.05) y un menor porcentaje de
pacientes que presentan ninguna o poca limitacin en la actividad fsica (P<0.001).
En las Figura.2, Figura.3, Figura.4 y Figura.5 se representan los diagramas de
cajas y las estimaciones de las densidades de las variables edad, glucemia,
hemoglobina y sodio respectivamente segn la variable categrica status
(muerte=1, vivo=0).
En la Figura.6 se representa los diagramas de barra de las frecuencias absolutas
de anemia y NYHA segn la variable categrica status.
Los resultados de la Tabla.2 y todas las figuras de esta seccin 4.2 se obtuvieron
utilizando las funciones test.mixto y test.cualitativa definidas en el Captulo3.
Tabla.2 Caractersticas clnicas de los pacientes segn el status
Grupo Muerto
(n=105)
Grupo Vivo
(n=172)
P-valor
Edad (aos) 81 7 78 8
0.0001
Sexo (Hombre)
52(49%) 76(44%) 0.3873
Hipertensin (Si)
88(84%) 138(80%) 0.4561
Diabetes (Si)
29(28%) 62(36%) 0.1896
EPOC (Si)
39(37%) 46(27%) 0.0687
FA (Si)
62(59%) 93(54%) 0.4181
Glucemia (mg/dl) 109 31 121 48
0.0426
Hemoglobina (g/dl) 12 2 13 2
0.0012
Sodio (mMol/l) 138 3 139 3
0.0030
GFR (ml/min) 55 20 58 22
0.2294
Hiponatremia (Si)
14(13%) 17(10%) 0.3770
Anemia (Si)
28(27%) 24(14%) 0.0086
ERC (Si)
63(60%) 95(55%) 0.4368
NYHA (1)
52(50%) 139(81%) 0.0000
En cada grupo para las variables cuantitativas se representa
la media y su desviacin tpica y para las variables cualitativas
las frecuencias y sus porcentajes. La variable NYHA=1 indica
ninguna o poca limitacin en la actividad fsica.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
67
67
Figura.2 Diagrama de cajas y las diferentes densidades
de la Edad en ambos grupos
Figura.3 Diagrama de cajas y las diferentes densidades
de Glucemia en ambos grupos
Figura.4 Diagrama de cajas y las diferentes densidades
de Hemoglobina en ambos grupos
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
68
68
Figura.5 Diagrama de cajas y las diferentes densidades
de Sodio en ambos grupos
Figura.6 Diagrama de barras de las frecuencias absolutas
de Anemia y NYHA en ambos grupos
4.3. Caractersticas clnicas de los individuos controlados segn los motivos de
finalizacin del seguimiento
En la Figura.7 se explica mediante un diagrama como se definen los motivos de
finalizacin del seguimiento en la consulta especializada. Se diferencian cuatro
motivos:
- Seguido: El individuo se controlo hasta la fecha fin de seguimiento
(30/06/2011).
- Perdida: El individuo dej de asistir a la consulta por causas ajenas a la
HF.
- Muerte: El individuo dej de asistir a la consulta porque falleci.
- Alta: El individuo dej de asistir a la consulta porque se deriv a
atencin primaria.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
69
69
En la Tabla.3 se muestra las caractersticas clnicas segn los motivos de
finalizacin del seguimiento. Los individuos que son seguidos y los que les dan alta
presentan una mayor cantidad de sodio que los que se son perdidos. El grupo de
seguidos y de altas tienen un mayor porcentaje de individuos con ninguna o poca
limitacin de la actividad fsica que el grupo muerte.
En la Figura.8 y la Figura.9 se representa el diagrama de cajas junto con la
estimacin de la densidad de la variable sodio y el diagrama de barras de las
frecuencias absolutas de la variable NYHA respectivamente, segn la variable
categrica motivo.
Los resultados de la Tabla.3 y todas las figuras de esta seccin 4.3 se obtuvieron
utilizando las funciones test.mixto y test.cualitativa definidas en el Captulo3.
Figura.7 Motivos finalizacin del seguimiento
Tabla.3 Caractersticas clnicas segn los motivos
de finalizacin de seguimiento
Seguido
(n=96)
Perdida
(n=71)
Muerte
(n=34)
Alta
(n=54)
P-valor
Edad (aos) 78 7 80 9 80 7 79 7
0.1
Sexo (Hombre)
39(41%) 35(49%) 17(50%) 26(48%) 0.6268
Hipertensin (Si)
81(84%) 59(83%) 29(85%) 43(80%) 0.8752
Diabetes (Si)
31(32%) 20(28%) 10(29%) 20(37%) 0.7494
EPOC (Si)
27(28%) 17(24%) 14(41%) 17(31%) 0.3237
FA (Si)
55(57%) 37(52%) 23(68%) 25(46%) 0.2318
Glucemia (mg/dl) 117 42 111 36 113 40 112 32
0.593
Hemoglobina (g/dl) 13 2 13 2 12 2 13 2
0.6075
Sodio (mMol/l) 140 3 138 3 139 3 139 3
0.0016
GFR (ml/min) 56 19 58 24 57 18 59 23
0.7668
Hiponatremia (Si)
6(6%) 13(18%) 4(12%) 4(7%) 0.0717
Anemia (Si)
11(11%) 14(20%) 7(21%) 11(20%) 0.3584
ERC (Si)
55(57%) 43(61%) 19(56%) 31(57%) 0.9635
NYHA (1)
73(76%) 46(66%) 18(55%) 43(80%) 0.0376
En cada grupo para las variables cuantitativas se representa
la media y su desviacin tpica y para las variables cualitativas
las frecuencias y sus porcentajes. La variable NYHA=1 indica
ninguna o poca limitacin en la actividad fsica.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
70
70
Figura.8 Diagrama de cajas y las diferentes densidades
de Sodio en ambos motivos
Figura.9 Diagrama de barras de las frecuencias absolutas
de la NYHA en ambos motivos
4.4. Repercusin del seguimiento
En la Tabla.4 se comparan las variables basales con las finales en pacientes que
se controlaron hasta la fecha fin de seguimiento (30/06/2011). Estos pacientes son
los definidos como los 96 seguidos de la seccin 4.3.
De la Tabla.4 se observa que el porcentaje de enfermos renales crnicos aumenta
significativamente y que el estado funcional de esos pacientes que se controlaron
hasta la fecha fin de seguimiento mejora significativamente.
Los resultados de la Tabla.4 y las figuras de esta seccin 4.4 se obtuvieron
utilizando las funciones: test.cuantitativa y test.cualitativa del Captulo3.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
71
71
Tabla.4 Comparacin basal y final
Basal
Final
P-valor
Glucemia (mg/dl) 117 42 114 34
0.3261
Hemoglobina (g/dl) 13 2 13 2
0.6462
Sodio (mMol/l) 140 3 141 3
0.0561
GFR (ml/min) 56 19 52 17
0.0648
Hiponatremia (Si)
6(6%) 2(2%) 0.1336
Anemia (Si)
11(11%) 9(9%) 0.7237
ERC (Si)
55(57%) 65(68%) 0.0499
NYHA (1)
73(76%) 90(94%) 0.0007
En cada grupo para las variables cuantitativas se representa
la media y su desviacin tpica y para las variables cualitativas
las frecuencias y sus porcentajes. La variable NYHA=1 indica
ninguna o poca limitacin en la actividad fsica.
Figura.10 Diagrama de barras de las frecuencias absolutas
basal y final de ERC y NYHA
El diagrama de la izquierda de la Figura.10, representa el cambio que se produce
en la variable ERC. De los 55 enfermos renales crnicos que haba al principio, 47
siguieron enfermos y 8 no siguieron enfermos al final, mientras que de los 40 que
no eran enfermos renales crnicos al principio, 22 siguen sin serlo y 18 pasan a
serlo al final. Por lo que el porcentaje de enfermos renales crnicos aumenta
significativamente.
El diagrama de la derecha de la Figura.10, representa el cambio que se produce
en la variable NYHA. De los 73 individuos que haba al principio con ninguna o
poca limitacin en la actividad fsica, 69 siguieron igual y 4 pasaron a tener
bastante o mucha limitacin al final, mientras que de los 23 individuos que haba al
principio con bastante o mucha limitacin en la actividad fsica, 2 siguieron
tenindola y 21 pasaron a tener ninguna o poca bastante limitacin. Esto indica que
los pacientes que se controlaron hasta la fecha fin de estudio, su estado funcional
mejora significativamente por lo que el seguimiento mejora la calidad de vida.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
72
72
4.5. Factores pronstico de la mortalidad
En la Tabla.5 se muestra los coeficientes estimados del modelo, el error estndar
de estas estimaciones, el p-valor y el riesgo relativo con sus intervalos de confianza
al 95%. En la Figura.11 representamos los efectos que tienen las variables del
modelo en la mortalidad, para ello utilizamos la librera effects (John Fox, 2003).
Tabla.5 Estimacin de los coeficientes del modelo
Coeficientes
SE P-valor Riesgo Relativo (RR) I.C. 95% del R.R
Constante 11.45 6.02 0.0574
Edad 0.09 0.02 0.0001 1.09 (1.04,1.14)
Sexo (Mujer) -0.55 0.30 0.0653 0.58 (0.32,1.03)
Hipertension (Si) 0.65 0.39 0.0925 1.91 (0.91,4.18)
Glucemia -0.01 0.00 0.0647 0.99 (0.98,1.00)
Hemoglobina -0.14 0.07 0.0471 0.87 (0.75,0.99)
Sodio -0.12 0.04 0.0062 0.89 (0.81,0.96)
NYHA (3) 1.40 0.30 0.0000 4.05 (2.25,7.42)
En esta tabla se muestra los coeficientes estimados del modelo, el error
estndar (SE), el P-valor y el riesgo relativo con sus intervalos de confianza
al 95%. La variable NYHA=3 indica bastante o mucha limitacin en la actividad
fsica.
La estimacin del RR respecto a la edad es 1.09, con un I.C. al 95% (1.04, 1.14).
Por cada ao que aumenta la edad se multiplica por 1.09 la probabilidad de morir.
Esta relacin es significativa, pues el intervalo de confianza no contiene al 1 y
(P<0.05).
La estimacin del RR por cada unidad que aumenta el nivel de hemoglobina es
0.87, es decir, por cada unidad menos en el nivel de hemoglobina se multiplica por
1.15 la probabilidad de morir. El intervalo de confianza para este RR es (0.75, 0.99)
como podemos observar no contiene el valor 1 y por tanto refleja una relacin
significativa. Este hecho lo confirma (P<0.05).
La estimacin del RR por cada unidad que aumenta el nivel de sodio es 0.89, es
decir, por cada unidad menos en el nivel de sodio se multiplica por 1.13 la
probabilidad de morir. El intervalo de confianza para este RR es (0.81, 0.96) como
podemos observar no contiene el valor 1 y por tanto refleja una relacin
significativa. Este hecho lo confirma (P<0.05).
El RR de NYHA, bastante o mucha limitacin en la actividad fsica respecto con
ninguna o poca limitacin en la actividad fsica es 4.048, por lo que los individuos
que tengan bastante o mucha limitacin tienen 4 veces ms riesgo de morir que los
que tienen poca o ninguna limitacin. El intervalo de confianza es (2.25, 7.42). Este
intervalo no contiene el valor 1 por lo que la relacin es significativa hecho que
tambin indica (P<0.01).
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
73
73
Figura.11 Efectos de las variables del modelo
4.6. Factores pronstico de los motivos de finalizacin del seguimiento
Los motivos de finalizacin de seguimiento son: Seguido (1), Prdida (2),
Muerte (3) y Alta (4). Son los que hemos visto en la seccin 4.3. Definimos 3
logits, cada uno de ellos comparando un determinado motivo de la respuesta con el
motivo de referencia, Seguido (1). En la Tabla.6 se muestra los coeficientes
estimados del modelo, el error estndar de estas estimaciones y el riesgo relativo
con sus intervalos de confianza al 95% para cada uno de los 3 logits. En la Tabla.7
se muestra las probabilidades estimadas en cada uno de los motivos para la variable
NYHA.
En la Figura.12, Figura.13 y en la Figura.14 se representa las probabilidades
estimadas de cada motivo para las variables edad, sodio y NYHA.
La representacin de las figuras y los resultados de las tablas se obtienen,
utilizando la librera effects, mencionada en la seccin 4.5 y la funcin multinom de
la librera. (Fox y Jangman, 2009).
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
74
74
Tabla.6 Estimacin de los coeficientes del modelo
de regresin logstica multinomial
Coeficientes
SE Riesgo Relativo (RR) IC 95% del R.R
2:Constante 22.60 4.31
3:Constante 11.19 1.06
4:Constante 6.33 2.38
2:Edad_entrada 0.06 0.02 1.06 (1.02,1.11)
3:Edad_entrada 0.05 0.03 1.05 (0.99,1.11)
4:Edad_entrada 0.02 0.02 1.02 (0.98,1.07)
2:Sexo (Mujer) -0.51 0.32 0.60 (0.32,1.12)
3:Sexo (Mujer) -0.63 0.42 0.53 (0.23,1.22)
4:Sexo (Mujer) -0.36 0.35 0.69 (0.35,1.39)
2:Sodio -0.20 0.03 0.82 (0.77,0.88)
3:Sodio -0.11 0.02 0.89 (0.86,0.92)
4:Sodio -0.06 0.02 0.94 (0.90,0.98)
2:NYHA (3) 0.49 0.34 1.63 (0.84,3.16)
3:NYHA (3) 0.88 0.43 2.40 (1.03,5.60)
4:NYHA (3) -0.26 0.42 0.77 (0.34,1.75)
En esta tabla se muestra los coeficientes estimados del modelo, el
error estndar (SE), el P-valor y el riesgo relativo con sus
intervalos de confianza al 95% para los 3 logits, siendo el motivo de
referencia, Perdida(1). La variable NYHA=3 indica bastante o mucha
limitacin en la actividad fsica.
La estimacin del RR respecto a la edad, cuando el motivo es Perdida, es 1.06,
con un I.C. al 95% (1.02, 1.11). Por cada ao que aumenta la edad se multiplica por
1.06 la probabilidad de ser Perdida respecto de ser Seguido.
La estimacin del RR por cada unidad que aumenta el nivel de sodio, cuando el
motivo es Perdida, es 0.82, es decir, por cada unidad menos en el nivel de sodio se
multiplica por 1.22 la probabilidad de ser Perdida respecto de ser Seguido. El
intervalo de confianza para este RR es (0.77, 0.88) como podemos observar no
contiene el valor 1 y por tanto refleja una relacin significativa.
La estimacin del RR por cada unidad que aumenta el nivel de sodio, cuando el
motivo es Muerte, es 0.89, es decir, por cada unidad menos en el nivel de sodio se
multiplica por 1.12 la probabilidad de ser Muerte respecto de ser Seguido. El
intervalo de confianza para este RR es (0.86, 0.92).
La estimacin del RR por cada unidad que aumenta el nivel de sodio, cuando el
motivo es Alta, es 0.94, es decir, por cada unidad menos en el nivel de sodio se
multiplica por 1.06 la probabilidad de ser Alta respecto de ser Seguido. El intervalo
de confianza para este RR es (0.90, 0.98).
La estimacin de RR de NYHA, es 2.40, por lo que los individuos que tengan
bastante o mucha limitacin, multiplica por 2.40 la probabilidad de ser Muerte
respecto de ser Seguido. El intervalo de confianza es (1.03, 5.60). Este intervalo no
contiene el valor 1 por lo que la relacin es significativa
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
75
75
Figura.13 Efecto de la variable Edad
en el motivo de finalizacin del seguimiento
Figura.14 Efecto de la variable Sodio
en el motivo de finalizacin del seguimiento
Figura.15 Efecto de la variable NYHA
en el motivo de finalizacin del seguimiento
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
76
76
Tabla.7 Probabilidades estimadas en cada uno de los motivos de finalizacin
del seguimiento para la variable NYHA
Ninguna/Poca Limitacin en la
Actividad Fsica
Bastante/Mucha Limitacin en la
Actividad Fsica
P(Motivo=Seguido) 0.363 0.284
P(Motivo=Perdida) 0.305 0.389
P(Motivo=Muerte) 0.099 0.186
P(Motivo=Alta) 0.233 0.141
4.7. Valoracin de la supervivencia
En la Figura.16 se representa la estimacin de la funcin de Supervivencia y
cmo podemos observar, la probabilidad de supervivencia disminuye a medida que
pasa el tiempo. En la Figura.17 se representa la supervivencia de una cohorte de
pacientes con insuficiencia cardaca controlados en una consulta especializada.
Figura.16 Estimacin de la funcin de Supervivencia utilizando
el mtodo de Kaplan-Meier
Figura.17 Comparacin de funciones de Supervivencia
para controlados y no controlados
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
77
77
Aparentemente ambas funciones de supervivencia parecen distintas, para
verificar igualdad o diferencia en la funcin de supervivencia en todos los tiempos
utilizamos el test de Mantel y Haenzel (o long-rank). Como p=0.118 > 0.05, no hay
evidencias significativas para rechazar la hiptesis nula de igualdad de funciones de
supervivencia (para un nivel de significacin del 5%).
Como el estimador de Kaplan-Meier es un estimador no paramtrico univariante
es interesante tambin verificar igualdad o diferencia en la funcin de
supervivencia para las variables NYHA, sexo, y anemia.
Figura.18 Comparacin de funciones de Supervivencia para
las variables NYHA, sexo y anemia
Para las variables NYHA, y anemia hay evidencias significativas para rechazar
la hiptesis nula de igualdad de funciones de supervivencia (para un nivel de
significacin del 5%). Tener bastante o mucha limitacin en la actividad fsica
afecta negativamente a la supervivencia. Tener anemia afecta negativamente a la
supervivencia.
Mientras que para la variable sexo no hay evidencias estadsticamente
significativas para rechazar igualdad de funciones de supervivencia para hombres y
mujeres.
La regresin de Cox modeliza la funcin de riesgo, y es una generalizacin del
anlisis de Kaplan-Meier. Mientras que con este ltimo mtodo podemos realizar
comparaciones entre grupos diferentes definidos por un factor simple, la regresin
de Cox ofrece la posibilidad de introducir en el modelo un conjunto de covariables,
categricas o continuas. As, la regresin de Cox, consiste en obtener una funcin
lineal de las variables independientes que permita estimar, en funcin del tiempo, la
probabilidad de que ocurra el evento de inters (muerte).
En la Tabla.8 se muestra los coeficientes estimados del modelo, el error
estndar de estas estimaciones, el p-valor y el riesgo relativo con sus intervalos de
confianza al 95%.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
78
78
Tabla.8 Estimacin de los coeficientes del modelo
de regresin de Cox
Coeficientes
SE P-valor Riesgo Relativo (RR) I.C. 95% del R.R
Edad 0.08 0.02 0.0000 1.08 (1.05,1.12)
Sexo (Mujer) -0.59 0.20 0.0036 0.55 (0.37,0.82)
Hemoglobina -0.14 0.05 0.0088 0.87 (0.78,0.97)
Sodio -0.06 0.03 0.0481 0.94 (0.88,0.99)
NYHA (3) 0.74 0.20 0.0003 2.09 (1.41,3.11)
En esta tabla se muestra los coeficientes estimados del modelo, el error
estndar (SE), el P-valor y el riesgo relativo con sus intervalos de confianza
al 95%. La variable NYHA=3 indica bastante o mucha limitacin en la actividad
fsica.
La estimacin del RR respecto a la edad es 1.08, con un I.C. al 95% (1.05, 1.12).
Por cada ao que aumenta la edad se multiplica por 1.08 la probabilidad de morir.
Esta relacin es significativa, pues el intervalo de confianza no contiene al 1 y
(P<0.01).
El RR de mujeres respecto a hombres es 0.55, por lo que mujeres tienen menos
riesgo de morir que los hombres (los hombres tienen 1.81 veces ms riesgo que las
mujeres). El intervalo de confianza es (0.37, 0.82). Este intervalo no contiene el
valor 1 por lo que la relacin es significativa hecho que tambin indica (P<0.01).
La estimacin del RR por cada unidad que aumenta el nivel de hemoglobina es
0.87, es decir, por cada unidad menos en el nivel de hemoglobina se multiplica por
1.15 la probabilidad de morir. El intervalo de confianza para este RR es (0.78, 0.97)
como podemos observar no contiene el valor 1 y por tanto refleja una relacin
significativa. Este hecho lo confirma (P<0.01).
La estimacin del RR por cada unidad que aumenta el nivel de sodio es 0.94, es
decir, por cada unidad menos en el nivel de sodio se multiplica por 1.07 la
probabilidad de morir. El intervalo de confianza para este RR es (0.88, 0.99) como
podemos observar no contiene el valor 1 y por tanto refleja una relacin
significativa. Este hecho lo confirma (P<0.05).
El RR de NYHA, bastante o mucha limitacin en la actividad fsica respecto con
ninguna o poca limitacin en la actividad fsica es 2.09, por lo que los individuos
que tengan bastante o mucha limitacin tienen 2 veces ms riesgo de morir que los
que tienen poca o ninguna limitacin. El intervalo de confianza es (1.41, 3.11). Este
intervalo no contiene el valor 1 por lo que la relacin es significativa hecho que
tambin indica (P<0.01).
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
79
79
Podemos concluir que hay influencia de la edad, sexo, hemoglobina, sodio y
NYHA en la supervivencia tras ser diagnosticado esta enfermedad (Insuficiencia
Cardaca). El menor nivel de hemoglobina y sodio, una mayor edad, ser hombre y
tener bastante o mucha limitacin en la actividad fsica afectan negativamente al
tiempo de supervivencia.
Los p-valores para el test de razn de verosimilitud, test de Wald y test de los
puntuajes son menores que 0.05, con lo cual el modelo es significativo.
En la Tabla.9 se representa la verificacin del supuesto de riesgos
proporcionales del modelo de Cox.
Tabla.9 Verificacin de los supuestos del modelo de Cox
rho chisq P
Edad_entrada
0.1058 1.242 0.265
Sexo
-0.0909 0.840 0.359
Hemoglobina
-0.1124 1.581 0.209
Sodio
0.0431 0.222 0.637
NYHA
-0.0719 0.536 0.464
Global
NA 4.158 0.527
De donde se concluye de que no existe evidencia significativa al 5% de que se
viole el supuesto de riesgos proporcionales, ni desde el punto de vista global, ni
para cada covariable.
Figura.19 Grficos de los betas para cada una de las covariables
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
80
80
En la Figura.20 se representa los residuos tipo deviance, en la Figura.21 se
representa los grficos de influencia sobre la estimacin de cada coeficiente y en la
Figura.22 se representa la forma funcional de las variables continuas.
En la Figura.20 no existe ningn individuo que est influenciando en el ajuste
del modelo. En la Figura.21 no existe ningn individuo que est influenciando
sobre la estimacin del coeficiente correspondiente a las variables edad, sexo,
hemoglobina, sodio y NYHA. Y en la Figura.22 la forma funcional de las variables
edad, hemoglobina y sodio parece ser la adecuada.
Figura.20 Residuos tipo deviance
Figura.21 Grficos de influencia sobre la estimacin de cada coeficiente
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
81
81
Figura.22 Forma funcional de las variables continuas
En la Figura.23 comparamos el ajuste del modelo de Cox con el estimador de
Kaplan-Meier, y podemos ver que la funcin de supervivencia ajustada por el
modelo de Cox es sistemticamente superior a la funcin de supervivencia estimada
por el mtodo de Kaplan-Meier.
Figura.23 Comparacin del ajuste del modelo de Cox
con el estimador de Kaplan-Meier
Dependiendo de los propsitos de la investigacin o el estudio pudiera ser ms
adecuado un modelo paramtrico o un modelo de Cox.
Si lo que se pretende es comparar riesgos entre distintos niveles de las
covariables, que suele ser el inters de los estudios mdicos, probablemente sea ms
adecuado utilizar un modelo de Cox.
Si el inters est basado en obtener informaciones asociadas con parmetros
como medias, varianzas, entre otras, como suele ser el inters en el rea de la
industria, probablemente se recomiende el uso de un modelo paramtrico.
Nardi y Schemper (2003) plantean una interesante discusin que probablemente
ayude a la eleccin entre un modelo de Cox y un modelo paramtrico.
Se utiliza la librera (survival), para la representacin de las figuras que aparecen
en esta seccin y para calcular los resultados de la Tabla.8 y de la Tabla.9.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
82
82
5. CONCLUSIONES
El grupo de no controlados presenta un nmero mayor de individuos que tienen
anemia y un nmero menor de pacientes que tienen ninguna o poca limitacin en la
actividad fsica.
El grupo de los individuos que fallecieron presenta una mayor edad que los que
viven (P<0.05), un menor nivel de glucosa, hemoglobina y sodio que los que viven
(P<0.05) un mayor porcentaje de individuos que presentan anemia (P<0.05) y un
menor porcentaje de pacientes que presentan ninguna o poca limitacin en la
actividad fsica (P<0.001).
Dentro del grupo de los controlados, los individuos que son seguidos hasta la
fecha fin de seguimiento y los que les dan el alta presentan un mayor nivel de sodio
que los que se son perdidos. Los individuos que son seguidos hasta la fecha fin de
seguimiento y los que les dan el alta, tienen un mayor porcentaje de individuos con
ninguna o poca limitacin de la actividad fsica que el grupo muerte.
El estado funcional de los pacientes que fueron seguidos hasta la fecha fin de
seguimiento (30/06/2011) mejora significativamente, por lo que el control hasta la
fecha fin de seguimiento de los pacientes en la consulta especializada implantada en
el servicio de medicina interna, mejora la calidad de vida de estos.
Hay influencia de la edad, hemoglobina, sodio y NYHA en la mortalidad. Un
menor nivel de hemoglobina y sodio, una mayor edad, y tener bastante o mucha
limitacin en la actividad fsica incrementan el riesgo de morir.
Hay influencia de la edad, sodio y NYHA en el motivo de finalizacin de
seguimiento. Un menor nivel de sodio y una mayor edad incrementan el riesgo de
ser perdida respecto de ser seguido. Un menor nivel de sodio y tener bastante o
mucha limitacin en la actividad fsica incrementan el riesgo de ser muerte respecto
de ser seguido. Un menor nivel de sodio incrementa el riesgo de ser alta respecto de
ser seguido.
No hay diferencias significativas en la supervivencia de pacientes con
insuficiencia cardaca (controlados y no controlados) en la consulta especializada
puesta en marcha por el servicio de Medicina Interna.
Hay influencia de la edad, sexo, hemoglobina, sodio y NYHA en la
supervivencia tras ser diagnosticado esta enfermedad (HF). El menor nivel de
hemoglobina y sodio, una mayor edad, ser hombre y tener bastante o mucha
limitacin en la actividad fsica afectan negativamente al tiempo de supervivencia.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
83
83
Valoracin de las prcticas
El mster en tcnicas estadsticas posee una gran carga terica, por lo que creo, que
un alumno que lo cursa acaba con unos grandes conocimientos de distintas
metodologas estadsticas.
La realizacin de unas prcticas, concretamente en la Unidad de Epidemiologa
Clnica del CHUS, me pareca que podra ser el complemento ideal a mi formacin
acadmica.
Durante la estancia en esta Unidad, adems de perfeccionar las tcnicas vistas en el
mster, he podido aplicar nuevas tcnicas estadsticas como por ejemplo: contrastes en
tablas de contingencia de datos relacionados (Test de McNemar, Test de Bowker y Test
de Stuat y Maxwell), regresin multinomial,etc. Tambin trabaje con bases de datos
que se tuvo que hacer una depuracin previa, antes de realizar un anlisis de los datos.
En las prcticas obtuve una visin ms general a la hora de realizar un estudio. Es
muy importante saber planificar las tareas que se realizarn y tener claro el objetivo
final de dicho estudio. Es tan importante saber resolver los problemas, realizar el
anlisis estadstico, como saber qu problemas resolver, la planificacin del estudio.
Estos son pasos a seguir en los que no tena experiencia o no consideraba competencia
de un estadstico y que con la estancia en la Unidad comprend la importancia que
tienen.
Por lo tanto estas prcticas han sido el complemento ideal a mi formacin acadmica,
tanto por continuar con el aprendizaje metodolgico estadstico como por la experiencia
adquirida.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
84
84
Tutores:
Da. Carmen Cadarso Surez
Universidade de Santiago de Compostela
Da. Pilar Gayoso Diz
D. Francisco Gude Sampedro
Da. Mara Xos Rodrguez lvarez
Miembros da Unidade de Epidemioloxa Clnica do Complexo Hospitalario
Universitario de Santiago de Compostela
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
85
85
Bibliografa
Aguilera, A. M. (2001). Tablas de contingencia bidimensionales. Hesprides La
Muralla, Salamanca.
Andersen, P.K. , Borgan, Gill, R.D. y Keiding, N. (1993). Statistical Models Based on
Counting Processes. N.Y. Springer-Verlag.
Bowker, A.H. (1948). A test for symmetry in contingency tables. Journal of the
American Statistical Association, 43, 572-574.
Cox, D.R. (1972). Regression models and life tables (with discussion). Journal of the
Royal Statistical Society: Series B, 34: 187-220.
Fisher, R.A. (1934). Statistical Methods for Research Workers. 5th Edition,
Edinburgh: Oliver and Boyd.
Fleming, T.R. y Harrington, D.P. (1991). Counting Processes and Survival Analysis.
N.Y.: John Wiley & Sons, Inc.
Fox, J. (2003). Effect Displays in R for Generalised Linear Models. Journal of
Statistical Software, 8(15), 1-27.
Fox, J. y Hong, J (2009). Effect Displays in R for Multinomial and Proportional-Odds
Logit Models: Extensions to the effects Package. Journal of Statistical Software, 32(1),
1-24.
Greenwood, M. (1926). The natural duration of cancer. Reports on Public Health and
Medical Subjects, 33: 1-26, Londres: Her Majestys Stationery Office.
Hosmer, D.W. y Lemeshow, S. (1989). Applied logistic regression. Wiley.
Kaplan, E.L. y Meier, P. (1958). Nonparametric estimation from incomplete
observations. Journal of the American Statistical Association, 53: 457-481.
Klein, J.P. y Moeschberger, M.L. (1997). Survival Analysis: Techniques for Censored
Levene, H. (1960). Robust Tests for Equality of Variances, in Contributions to
Probability and Statistics, ed. I. Olkin, Palo Alto, CA: Stanford Univ. Press.
Lilliefors, H.W. (1967). On the Kolmogorov-Smirnov Test for normality with mean and
variance unknown. Journal of American Statistical Association, Vol 62, No.318, pp.
399-402.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
86
86
Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising
in its consideration. Cancer Chemotherapy Reports, 50: 163-170.
Maxwell, A.E. (1970). Comparing the classification of subjects by two independent
judges. British journal of Psychiatry, 116, 651-655.
McNemar, Q. (1947). Note on the sampling error of the difference between correlated
proportions or percentages. Psychometrika, 12, 153-157.
Nardi, A. y Schemper, M (2003). Comparing Cox and parametric models in clinical
studies. Statistics in Medicine, 22:3597-3610.
Peto, R. y Peto, J. (1972). Asymptotically efficient rank invariant test procedures (with
discussion). Journal of the Royal Statistical Society: Series A, 135: 195-206.
Schoenfeld, D. (1982). Partial residuals for the proportional hazard regression model.
Shapiro, S.S. y Wilk, M.B. (1965).An analysis of variance test for normality (complete
samples). Biometrika, Vol.52, No. 3/4, pp. 591-611.
Stuart, A. (1955). A test for homogeneity of the marginal distributions in a two-way
classification. Biometrika, 40, 105-110.
Swets J.A. y Pickett R.M. (1982). Evaluation of diagnostic systems: methods from
signal detection theory. Academic Press,Nueva York.
Therneau, T.M. y Grambsch, P.M. (2000). Modeling Survival Data: Extending the Cox
Model. N.Y. Springer-Verlag.
Therneau, T.M., Grambsch, P.M. y Fleming, T.R. (1990). Martingale-based residuals
for survival models. Biometrika, 77: 147-160.
Yates, F. (1934).Contingency tables involving small numbers and the
2
_ test. Journal
of the Royal Statistical Society, Suppl.1, 217235.
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
87
87
Anexo
En este anexo se muestran los scripts en R de las diferentes funciones mencionadas
anteriormente. No hay que olvidar que para que se puedan ejecutar correctamente estas
funciones hay que descargarse e instalar las libreras: car (para el ANOVA), nortest
(para Lilliefors) y coin (para la extensin Stuart-Maxwell).
# Cargar libreras
library(car)
library(nortest)
library(coin)
# Script de la funcin descriptiva_cuantitativa.R
des.cont <- function(cont) {
cat(paste("Nmero de elementos: ", length(cont)),fill=T)
cat(paste("NAs: ", sum(is.na(cont))), fill=T)
sum <- round(summary(cont),3)
mean.sd <- paste(sum[4], " (", round(sd(cont, na.rm = TRUE),3), ", " ,
round(round(sd(cont,na.rm=TRUE),3)/sqrt(length(na.omit(cont))),2)
,")", sep = "" )
median.quant <- paste(sum[3], " (", sum[2], ", " , sum[5],", " ,
round(sum[5]-sum[2],2),")", sep = "" )
cat(paste("Media"," (sd, se)"), fill=T)
cat(mean.sd, fill=T)
cat("Mediana", "(1st Qu, 3rd Qu, IQR)" ,fill=T)
cat(median.quant, fill=T)
}
# Script de la funcin descriptiva_cualitativa.R
des.cat.def <- function(cat) {
cat(paste("NAs: ", sum(is.na(cat))), fill=T)
t <- table(cat)
m <- matrix(ncol = 1, nrow = length(names(t)))
rownames(m) <- names(t)
m[,1] <- paste(t," (",round(prop.table(t)*100,2), "%)", sep = "")
print(m, quote=F)
}
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
88
88
# Script de la funcin normalidad.R
normalidad <- function(covar){
if(length(covar)>=50){
aux<-lillie.test(covar)
}else {
aux<-shapiro.test(covar)
}
res<-list(p.value=aux$p.value)
res
}
# Script de la funcin bidimensional.R
tablas.bidim<-function(cat1,cat2, datos, paired=F){
cat1.var<-datos[,cat1]
cat2.var<-datos[,cat2]
t<-table(cat1.var,cat2.var, dnn = c(cat1, cat2))
cat("**********",fill=T)
cat("Tabla de frecuencias absolutas",fill=T)
cat("**********",fill=T)
print(t)
cat("**********",fill=T)
cat("Tabla de frecuencias relativas",fill=T)
cat("**********",fill=T)
print(prop.table(t))
if(is.factor(na.omit(cat2.var))){
levels=levels(na.omit(cat2.var))
} else{
levels=unique(na.omit(cat2.var))
}
if(is.factor(na.omit(cat1.var))){
levels1=levels(na.omit(cat1.var))
} else{
Levels1=unique(na.omit(cat1.var))
}
for(i in levels){
if(paired==F){
cat("**********",fill=T)
cat(paste("Distribucin ", cat1, "/", cat2, " = ",
i, sep = ""),fill=T)
cat("**********",fill=T)
des.cat.def(cat1.var[cat2.var==i])
}
}
for(j in levels1){
if(paired==T){
cat("**********",fill=T)
cat(paste("Distribucin ", cat2, "/", cat1, " = ",
j, sep = ""),fill=T)
cat("**********",fill=T)
des.cat.def(cat2.var[cat1.var==j])
}
}
}
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
89
89
# Script de la funcin comparacin_cualitativas.R
test.cualitativa<- function(cat1, cat2, datos, paired=F) {
cat1.var<-datos[,cat1]
cat2.var<-datos[,cat2]
cat("**********",fill=T)
cat(paste("Descriptiva",cat1),fill=T)
cat("**********",fill=T)
des.cat.def(cat1.var)
cat("**********",fill=T)
cat(paste("Descriptiva",cat2),fill=T)
cat("**********",fill=T)
des.cat.def(cat2.var)
t <- table(cat1.var,cat2.var, dnn = c(cat1, cat2))
if(paired==F){
if((nrow(t)==2)&(ncol(t)==2)){
barplot(t,beside=T,ylab="Frecuencia",main="Diagrama de
barras",legend=rownames(t),col=c(1,2),ylim=c(0,max(t)+40),
xlab=cat2)
tablas.bidim(cat1,cat2,datos)
m<-c()
esp<-matrix(,nrow(t),ncol(t))
for(i in 1:nrow(t)){
for(j in 1:ncol(t)){
esp[i,j]<-((rowSums(t)[i])*(colSums(t)[j]))/sum(rowSums(t))
}
m[i]<-sum(esp[i,]<5)
}
if(sum(m)==0){
if(sum(rowSums(t))>30){
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO *****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var,correct=F))
if(chisq.test(cat1.var,cat2.var,correct=F)$p.value>0.05){
cat(" LAS VARIABLES SON INDEPENDIENTES",fill=T)
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)
}
} else{
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO CORREGIDO*****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var))
if(chisq.test(cat1.var,cat2.var)$p.value>0.05){
cat(" LAS VARIABLES SON INDEPENDIENTES",fill=T)
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)
}
}
} else{
cat("**************", fill=T)
cat("***** TEST DE FISHER *****",fill=T)
cat("**************", fill=T)
print(fisher.test(cat1.var,cat2.var))
if(fisher.test(cat1.var,cat2.var)$p.value>0.05){
cat(" LAS VARIABLES SON INDEPENDIENTES",fill=T)
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)}
}
} else {
barplot(t,beside=T,ylab="Frecuencia",legend=rownames(t),main="Diagrama
de barras",col=c(1:nrow(t)),ylim=c(0,max(t)+40),xlab=cat2)
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
90
90
tablas.bidim(cat1,cat2,datos)
if(sum(rowSums(t))>30){
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO *****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var,correct=F))
if(chisq.test(cat1.var,cat2.var,correct=F)$p.value>0.05){
cat(" LAS VARIABLES SON INDEPENDIENTES",fill=T)
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)
}
} else{
cat("**************", fill=T)
cat("***** TEST CHI-CUADRADO CORREGIDO *****",fill=T)
cat("**************", fill=T)
print(chisq.test(cat1.var,cat2.var))
if(chisq.test(cat1.var,cat2.var)$p.value>0.05){
cat(" LAS VARIABLES SON INDEPENDIENTES",fill=T)
} else {
cat(" LAS VARIABLES SON DEPENDIENTES",fill=T)
}
}
}
} else {
if((nrow(t)==2)){
barplot(t(t),ylab="Frecuencia",main="Diagrama de
barras",legend=colnames(t),col=c(1,2),ylim=c(0,max(t)+40),
xlab=cat2)
tablas.bidim(cat1,cat2,datos,paired=T)
if(((t[1,2]+t[2,1])/2)<5){
cat("**************", fill=T)
cat("***** TEST MC-NEMAR CORREGIDO *****",fill=T)
cat("**************", fill=T)
print(mcnemar.test(cat1.var,cat2.var))
if(mcnemar.test(cat1.var,cat2.var)$p.value>0.05){
cat(" SE ACEPTA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
} else {
cat(" SE RECHAZA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
}
} else {
cat("**************", fill=T)
cat("***** TEST MC-NEMAR *****",fill=T)
cat("**************", fill=T)
print(mcnemar.test(cat1.var,cat2.var,correct=F))
if(mcnemar.test(cat1.var,cat2.var,correct=F)$p.value>0.05){
cat(" SE ACEPTA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
} else {
cat(" SE RECHAZA LA HIPOTESIS DE HOMOGENEIDAD
MARGINAL",fill=T)
}
}
} else {
barplot(t(t),ylab="Frecuencia",legend=colnames(t),main="Diagrama
de barras",col=c(1:nrow(t)),ylim=c(0,max(t)+40),xlab=cat2)
tablas.bidim(cat1,cat2,datos,paired=T)
cat("**************", fill=T)
cat("***** EXTENSION DE BOWKER AL TEST MC-NEMAR *****",fill=T)
cat("**************", fill=T)
print(mcnemar.test(cat1.var,cat2.var))
if(mcnemar.test(cat1.var,cat2.var)$p.value>0.05){
cat(" SE ACEPTA LA HIPOTESIS DE SIMETRIA",fill=T)
} else {
cat(" SE RECHAZA LA HIPOTESIS DE SIMETRIA",fill=T)
cat("**************", fill=T)
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
91
91
cat("***** EXTENSION DE STUART MAXWELL AL TEST MC-NEMAR
*****",fill=T)
cat("**************", fill=T)
print(mh_test(t))
}
}
}
}
# Script de la funcin comparacin_cuantitativas.R
test.cuantitativa<- function(covar1, covar2, datos, paired=F) {
covar1.var<-datos[,covar1]
covar2.var<-datos[,covar2]
cat("**********",fill=T)
cat(paste("Descriptiva",covar1),fill=T)
cat("**********",fill=T)
des.cont(covar1.var)
cat("**********",fill=T)
cat(paste("Descriptiva",covar2),fill=T)
cat("**********",fill=T)
des.cont(covar2.var)
if(paired==F){
if(length(na.omit(covar1.var))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para",covar1),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar1.var))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para",covar1),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar1.var))$p.value,4)), fill=T)
cat("**************", fill=T)
}
if(length(na.omit(covar2.var))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para",covar2),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar2.var))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para",covar2),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar2.var))$p.value,4)),fill=T)
cat("**************", fill=T)
}
if((normalidad(na.omit(covar1.var))$p.value>0.05)&
(normalidad(na.omit(covar2.var))$p.value>0.05)){
cat("**************", fill=T)
cat("***** TEST PARAMTRICOS EN POBLACIONES NORMALES
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de varianzas *****",fill=T)
print(var.test(covar1.var,covar2.var))
cat(paste("p-valor: ", var.test(covar1.var,covar2.var)$p.value),
fill=T)
if(var.test(covar1.var,covar2.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA VARIANZA",fill=T)
cat("***** Comparacin de medias *****",fill=T)
print(t.test(covar1.var,covar2.var))
if(t.test(covar1.var,covar2.var)$p.value<0.05){
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
92
92
cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
} else {
cat(" TIENEN LA MISMA VARIANZA",fill=T)
cat("***** Comparacin de medias *****",fill=T)
print(t.test(covar1.var,covar2.var,var.equal=T))
if(t.test(covar1.var,covar2.var,var.equal=T)$p.value<0.05){
cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
}
} else {
cat("**************", fill=T)
cat("***** TEST NO PARAMTRICOS PARA DOS MUESTRAS *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon *****",fill=T)
print(wilcox.test(covar1.var,covar2.var))
if(wilcox.test(covar1.var,covar2.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
} else {
if(length(na.omit(covar1.var))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para",covar1),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar1.var))$p.value,4)),fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para",covar1),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar1.var))$p.value,4)),fill=T)
cat("**************", fill=T)
}
if(length(na.omit(covar2.var))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para",covar2),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar2.var))$p.value,4)),fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para",covar2),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(covar2.var))$p.value,4)),fill=T)
cat("**************", fill=T)
}
if((normalidad(na.omit(covar1.var))$p.value>0.05)&
(normalidad(na.omit(covar2.var))$p.value>0.05)){
cat("**************", fill=T)
cat("***** TEST PARAMTRICOS EN POBLACIONES NORMALES
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de medias para muestras relacionadas
*****",fill=T)
print(t.test(covar1.var,covar2.var,paired=TRUE))
if(t.test(covar1.var,covar2.var,paired=TRUE)$p.value<0.05){
cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
93
93
} else {
cat("**************", fill=T)
cat("***** TEST NO PARAMTRICOS *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon para muestras apareadas
*****",fill=T)
print(wilcox.test(covar1.var,covar2.var,paired=T))
if(wilcox.test(covar1.var,covar2.var,paired=T)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
}
l=list(covar1=covar1.var,covar2=covar2.var)
names(l)=c(covar1,covar2)
windows()
boxplot(l,main="Diagrama de Cajas",col="red")
windows()
plot(density(na.omit(covar1.var)),main="Comparacion de
Densidades",ylim=c(0,max(max(density(na.omit(covar1.var))$y),max(density
(na.omit(covar2.var))$y))+0.01))
lines(density(na.omit(covar2.var)),col=2)
legend("topleft",legend=names(l),col=c(1,2),box.lwd=1,lty=c(1,1))
}
# Script de la funcin comparacin_mixta.R
test.mixto <- function(cont, cat, datos, paired=F) {
cont.var<-datos[,cont]
cat.var<-datos[,cat]
cat("**********",fill=T)
cat(paste("Descriptiva",cont),fill=T)
cat("**********",fill=T)
des.cont(cont.var)
cat("**********",fill=T)
cat(paste("Descriptiva",cat),fill=T)
cat("**********",fill=T)
des.cat.def(cat.var)
if(is.factor(cat.var)){
levels=levels(cat.var)
} else{
levels=unique(cat.var)
}
windows()
boxplot(cont.var~cat.var, main="Diagrama de Cajas",
xlab=cat,ylab=cont,col="red")
if(paired==F){
if( nrow(table(cat.var))==2){
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main=
"Estimacin de densidades \n segn variable
categrica",ylim=c(0,max(max((density(na.omit(cont.var[cat.
var==levels[1]]))$y)),max((density(na.omit(cont.var[cat.var
==levels[2]]))$y)))+0.01))
lines(density(na.omit(cont.var[cat.var==levels[2]])),col=2)
legend("topleft",legend=levels,col=c(1,2),box.lwd=1,lty=c(1,1))
for (i in levels){
cat("**********",fill=T)
cat(paste("categrica-nivel:",i),fill=T)
cat("**********",fill=T)
des.cont(cont.var[cat.var==i])
if(length(na.omit(cont.var[cat.var==i]))>=50){
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
94
94
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para nivel
=",i),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para nivel
=",i),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
cat("**************", fill=T)
}
}
if((normalidad(na.omit(cont.var[cat.var==levels[1]]))$p.value>0.05)&
(normalidad(na.omit(cont.var[cat.var==levels[2]]))$p.value>0.05)){
cat("**************", fill=T)
cat("***** TEST PARAMTRICOS EN POBLACIONES NORMALES
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de varianzas *****",fill=T)
cat("**************", fill=T)
if(var.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA VARIANZA",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de medias *****",fill=T)
print(t.test(cont.var~cat.var))
if(t.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
}else {
cat(" TIENEN LA MISMA VARIANZA",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de medias *****",fill=T)
print(t.test(cont.var~cat.var,var.equal=T))
if(t.test(cont.var~cat.var,var.equal=T)$p.value<0.05){
cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
}
} else {
cat("**************", fill=T)
cat("***** TEST NO PARAMTRICOS PARA DOS MUESTRAS *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon *****",fill=T)
print(wilcox.test(cont.var~cat.var))
if(wilcox.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
} else {
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main="
Estimacin de densidades \n segn variable
categrica",ylim=c(0,max(density(na.omit(cont.var[cat.var==
levels[1]]))$y)+0.03))
j=1
for (i in levels[-1]){
j=j+1
lines(density(na.omit(cont.var[cat.var==i])),col=j)}
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
95
95
legend("topleft",legend=levels,col=1:j,box.lwd=1,lty=c(1,1))
n<-c()
for (i in levels){
cat("**************", fill=T)
cat(paste("categrica-nivel:",i),fill=T)
cat("**************", fill=T)
des.cont(cont.var[cat.var==i])
if(length(na.omit(cont.var[cat.var==i]))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para nivel
=",i),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para nivel
=",i),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
cat("**************", fill=T)
}
n[i]<-
normalidad(na.omit(cont.var[cat.var==i]))$p.value<0.05
}
if(sum(n)==0){
cat("***** Comparacin de varianzas entre grupos
*****",fill=T)
print(leveneTest(cont.var~as.factor(cat.var)))
if(leveneTest(cont.var~as.factor(cat.var))[3][1,1]>0.05){
cat("***** Las hiptesis del modelo ANOVA son
vlidas *****",fill=T)
cat("***** ANOVA *****",fill=T)
if(length(na.action(na.omit(cont.var)))==0){
print(summary(aov(cont.var~as.factor(cat.var))))
if(summary(aov(cont.var~as.factor(cat.var)))[1][[1]]
[1,5]>0.05){
cat("***** TIENEN LA MISMA MEDIA
*****",fill=T)
}else {
cat("***** NO TIENEN LA MISMA MEDIA
*****",fill=T)
cat("***** Mtodo de la diferencia
significativa de Tukey *****",fill=T)
HSD<-
TukeyHSD(aov(cont.var~as.factor(cat.var
)),conf.level=0.95)
plot(HSD)
}
} else {
Motivos<-
cat.var[-na.action(na.omit(cont.var))]
print(summary(aov(na.omit(cont.var)~
as.factor(Motivos))))
if(summary(aov(na.omit(cont.var)~as.factor
(Motivos)))[1][[1]][1,5]>0.05){
cat("***** TIENEN LA MISMA MEDIA
*****",fill=T)
}else {
cat("***** NO TIENEN LA MISMA MEDIA
*****",fill=T)
cat("***** Mtodo de la diferencia
significativa de Tukey
*****",fill=T)
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
96
96
HSD<-
TukeyHSD(aov(na.omit(cont.var)~a
s.factor(Motivos)),conf.level=0.
95)
plot(HSD)
}
}
} else{
cat("***** Las hiptesis del modelo ANOVA no son
vlidas *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Kruskal-Wallis para k muestras
independientes *****",fill=T)
cat("**************", fill=T)
print(kruskal.test(cont.var~cat.var))
if(kruskal.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA
DISTRIBUCIN",fill=T)
} else{
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
} else{
cat("**************", fill=T)
cat("***** Test de Kruskal-Wallis para k muestras
independientes *****",fill=T)
cat("**************", fill=T)
print(kruskal.test(cont.var~cat.var))
if(kruskal.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
}
if(paired==T){
if( nrow(table(covar))==2){
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main="
Estimacin de densidades \n segn variable
categrica",ylim=c(0,max(max((density(na.omit(cont.var[cat.
var==levels[1]]))$y)),max((density(na.omit(cont.var[vat.var
==levels[2]]))$y)))+0.01))
lines(density(na.omit(cont.var[cat.var==levels[2]])),col=2)
legend("topleft",legend=levels,col=c(1,2),box.lwd=1,lty=c(1,1))
for (i in levels){
cat(paste("categrica-nivel:",i),fill=T)
des.cont(cont.var[cat.var==i])
if(length(na.omit(cont.var[cat.var==i]))>=50){
cat("**************", fill=T)
cat(paste("TEST DE LILLIEFORS para nivel
=",i),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
cat("**************", fill=T)
}else {
cat("**************", fill=T)
cat(paste("TEST DE SHAPIRO-WILK para nivel
=",i),fill=T)
cat(paste("p-valor: ",
round(normalidad(na.omit(cont.var[cat.var==i]
))$p.value,4)), fill=T)
}
}
if((normalidad(na.omit(cont.var[cat.var==levels[1]]))$p.value>0.05)&
(normalidad(na.omit(cont.var[cat.var==levels[2]]))$p.value>0.05)){
cat("**************", fill=T)
Informe de las prcticas realizadas en el CHUS
Fiz Lagoa Labrador
97
97
cat("***** TEST PARAMTRICOS EN POBLACIONES NORMALES
*****",fill=T)
cat("**************", fill=T)
cat("***** Comparacin de medias *****",fill=T)
print(t.test(cont.var~cat.var,paired=T))
if(t.test(cont.var~cat.var,paired=T)$p.value<0.05){
cat(" NO TIENEN LA MISMA MEDIA",fill=T)
} else {
cat(" TIENEN LA MISMA MEDIA",fill=T)
}
} else {
cat("**************", fill=T)
cat("***** TEST NO PARAMTRICOS PARA DOS MUESTRAS *****",fill=T)
cat("**************", fill=T)
cat("***** Test de Wilcoxon para dos muestras apareadas
*****",fill=T)
print(wilcox.test(cont.var~cat.var,paired=T))
if(wilcox.test(cont.var~cat.var,paired=T)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
} else {
windows()
plot(density(na.omit(cont.var[cat.var==levels[1]])),main="Estimacin de
densidades \n segn variable categrica"
,ylim=c(0,max(density(na.omit(marker[covar==1]))$y)+0.03))
j=1
for (i in levels[-1]){
j=j+1
lines(density(na.omit(cont.var[cat.var==i])),col=j)
}
legend("topleft",legend=levels,col=j,box.lwd=1,lty=c(1,1))
for (i in levels){
cat(paste("categrica-nivel:",i),fill=T)
des.cont(cont.var[cat.var==i])
}
if(length(na.action(na.omit(cont.var)))==0){
cat("**************", fill=T)
cat("***** Test de Friedman para k muestras relacionadas
*****",fill=T)
cat("**************", fill=T)
print(friedman.test(cont.var~cat.var))
if(friedman.test(cont.var~cat.var)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else {
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
} else{
Motivos<-as.factor(cat.var)[-na.action(na.omit(cont.var))]
cat("**************", fill=T)
cat("***** Test de Friedman para k muestras relacionadas
*****",fill=T)
cat("**************", fill=T)
print(friedman.test(na.omit(cont.var)~Motivos))
if(friedman.test(na.omit(cont.var)~Motivos)$p.value<0.05){
cat(" NO TIENEN LA MISMA DISTRIBUCIN",fill=T)
} else{
cat(" TIENEN LA MISMA DISTRIBUCIN",fill=T)
}
}
}
}
}
}