Академический Документы
Профессиональный Документы
Культура Документы
Introduccin a R: Sesin 4
1 / 38
En esta sesin:
1.- Introduccin.
2.- Inferencia en problemas univariantes.
3.- Inferencia en problemas de dos muestras.
4.- Anlisis de datos categricos.
5.- Anlisis de la Varianza.
6.- Regresin lineal simple.
7.- Anlisis de supervivencia.
Introduccin a R: Sesin 4
2 / 38
1.- Introduccin.
Introduccin a R: Sesin 4
3 / 38
Ejemplo
library(foreign)
ambiente<-read.spss(file="ambiente.sav", to.data.frame=TRUE)
attach(ambiente)
# Anlisis descriptivo numrico
summary(ambiente)
by(OZONO,OZONO,length) # No de lugares clasf. por ozono
by(SULFATO, OZONO, mean) # Media de sulfato por grupo de ozono
by(PH, PROVIN, summary) # Est. resumen de PH por provincia
# Diagrama de cajas por factores
boxplot(SULFATOPROVIN)
boxplot(PHOZONO)
# Grficos
hist(SULFATO, main="Histograma del SULFATO")
boxplot(PH, main="Diagrama de cajas del PH")
#Grficos por grupos
par(mfrow=c(2,2))
hist(PH, main="Histograma del PH")
by(PH, PROVIN, function(X, xlim){hist(X, xlim=xlim)},xlim=range(PH))
Introduccin a R: Sesin 4
4 / 38
Contrastes estadsticos
Cuando utilizamos los contrastes?
Utilizamos un contraste estadstico para verificar si se cumple una
hiptesis de trabajo a partir de unos datos o hay evidencias estadsticas de
lo contrario.
Elementos de un contraste
Datos (obtenidos de forma muy diversa)
Hiptesis nula (H0 )
Hiptesis alternativa (HA )
Estadstico de contraste T (y su distribucin bajo H0 )
Valor observado del est. de contraste: t
P-valor: Prob. si H0 es cierta de que el valor de T sea ms extremo
que t en la direccin de la hip. alternativa
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
5 / 38
Tipos de contrastes
Contrastes Paramtricos
Asumen que los datos tienen una determinada distribucin
El contraste es sobre alguno de los parmetros de una distribucin
Ejemplo: Test de la t de Student para una muestra
Contrastes No Paramtricos
No asumen ninguna distribucin para los datos
En principio, son ms flexibles
Entonces, cul usamos?
Paramtricos, si se cumplen las hiptesis sobre los datos
No paramtricos, en otro caso
OJO: Param./No param. no contrastan exactamente lo mismo!!
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
6 / 38
H0 : = 0
HA : =
6 0
Estad. contraste: T = x 0
var (x)/n
t(n 1)
Ejemplo
t.test(PH, mu=4)
t.test(SULFATO, mu=4)
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
7 / 38
Introduccin a R: Sesin 4
8 / 38
Introduccin a R: Sesin 4
9 / 38
Descripcin
Contraste sobre el ratio de varianzas
Poblaciones normales
Contraste
H0 : 12 /22 = 1
HA : 12 /22 6= 1
T =
var (x1 )
var (x2 )
F (n1 1, n2 1)
Ejemplo
glucosa$DIF2<-G2DES-G2ANTES
var.test(glucosa$DIF2 EMBARAZO) # test de Fisher
Introduccin a R: Sesin 4
10 / 38
T =
H0 : 1 = 2
HA : 1 =
6 2
x1 x2
var (x1 , x2 )( n1
1
var (x1 , x2 ) =
t(n1 + n2 2)
n2 1
var (x2 )
n1 + n2 2
1
)
n2
n1 1
var (x1 )
n1 + n2 2
Ejemplo
x <- c(0.80,0.83,1.89,1.04,1.45,1.38,1.91,1.64,0.73,1.46)
y <- c(1.15,0.88,0.90,0.74,1.21)
var.test(x,y); t.test(x, y, alternative="greater")
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
11 / 38
Introduccin a R: Sesin 4
12 / 38
H0 : 1 2 = 0
H1 : 1 2 6= 0
Estad. contraste: T = y 0
var (y)/n
t(n 1)
Ejemplo
x <- c(1.83, 0.50,1.62,2.48,1.68,1.88,1.55,3.06,1.30)
y <- c(0.878,0.647,0.598,2.05,1.06,1.29,1.06,3.14,1.29)
t.test(x, y, paired=TRUE, alternative="greater")
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
13 / 38
Introduccin a R: Sesin 4
14 / 38
T =
(Oij Eij )2
Ei
i,j
Ejemplo
t<-table(ambiente[, c("OZONO", "PROVIN")]) # Homogeneidad?
chisq.test(t)
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
15 / 38
Introduccin a R: Sesin 4
16 / 38
Introduccin a R: Sesin 4
17 / 38
Introduccin a R: Sesin 4
18 / 38
Introduccin a R: Sesin 4
19 / 38
Suma
P Cuadrados 2
SE = P i P
ni (y i y )
SR = i j (yij y i )2
P P
(y y )2
i
j ij
g.l.
p1
np
n1
Varianza
VE=SE/(p-1)
VR=SR/(n-p)
F
VE/VR
Ejemplo
boxplot(PH PROVIN)
anovaph<-lm(PH PROVIN)
anova(anovaph); summary(anovaph)
# tambin
anovaph2 <- aov(PH PROVIN)
summary(anovaph2)
Introduccin a R: Sesin 4
20 / 38
Descripcin
Extensin del Test de Mann-Whitney para 3 ms grupos
Comparamos las medianas de p grupos
Contraste
H0 : Mediana1 = . . . = Medianap
HA : No H0
Ejemplo
boxplot(SULFATO PROVIN)
kruskal.test(SULFATO PROVIN)
Introduccin a R: Sesin 4
21 / 38
Introduccin a R: Sesin 4
22 / 38
Caractersticas
yi , i = 1, . . . , n: variable respuesta
xi , i = 1, . . . , n: covariable, variable explicativa
i N(0, 2 ), i = 1, . . . , n: error, variacin aleatoria
yi = + xi + i , i = 1, . . . , n
Entonces...
yi y yj son independientes
yi y xi tienen una relacin lineal
Los errores i son independientes
Introduccin a R: Sesin 4
23 / 38
Valores estimados
= y x
2
i )2
X (yi
x
i
n2
i (xi
x )(yi y )
cov (x , y )
=
2
var (x )
i (xi x )
Introduccin a R: Sesin 4
24 / 38
Introduccin a R: Sesin 4
25 / 38
El objecto lm
El comando lm devuelve un objeto de tipo lm, que es una lista con
diversos elementos
Algunos elementos importantes
coefficients: Valores de
y
fitted.values: Valores de yi
residuals: Valores de los residuos (no tipificados)
call: Llamada a la funcin lm que gener el objeto
model: Informacin sobre el modelo (datos, etc.)
Funciones para acceder a estos elementos
R tiene una serie de funciones que permiten acceder a estos elementos
individualmente: coef(lm, ...), fitted(lm, ...), residuals(lm,
...), vcov(lm, ...).
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
26 / 38
i ri
=0
Introduccin a R: Sesin 4
27 / 38
Introduccin a R: Sesin 4
28 / 38
Definicin
El Coeficiente de determinacin R 2 mide la proporcin de variabilidad
en los datos explicada por el modelo:
R2 = 1
P
2
(y
x
)
yi y )2
i
i i
i (
P
=P
2
2
i (yi y )
i (yi y )
Introduccin a R: Sesin 4
29 / 38
Prediccin
A veces interesa predecir la respuesta para cierto valor de una covariable
La prediccin es
pred
ypred
=
+ x
Ejemplo
ndatos<-data.frame(CUERPO=c(2, 25, 75, 1000)) #Nuevos datos
ndatos$CEREBROpred<-predict(reglin, ndatos)
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
30 / 38
Transformaciones de datos
Problemtica
A veces la relacin entre las variables no es lineal
O las varianzas no son iguales
Por medio de una transformacin podemos mejor la linealidad de los
datos
Hay que tener en cuenta que...
La transformacin ha de ser 1 a 1
Los resultados hay que interpretarlos en trminos de las variables
transformadas
Ejemplo
Transformar (log) los datos del banco de datos cerebros.sav y eliminar
los datos aberrantes (identify(log(CUERPO), log(CEREBRO),
labels=ANIMAL)) necesarios hasta conseguir un buen ajuste.
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
31 / 38
Introduccin a R: Sesin 4
32 / 38
Curvas de Kaplan-Meier
Ejemplo
# cargo paquete y datos
library{survival}
data(lung)
attach(lung)
# defino objeto de supervivencia
lung.surv <- Surv(time, status)
# calculo curvas KM
lung.KM <- survfit(lung.surv 1)
lung_sex.KM <- survfit(lung.surv sex)
# pinto resultados
plot(lung.KM)
plot(lung_sex.KM, lty=2:3, , xlab="Tiempo (das)")
title("Supervivencia por sexo")
legend("topright", c("Hombres", "Mujeres"), lty=2:3)
Introduccin a R: Sesin 4
33 / 38
Contrastes de supervivencia
Funcin survdiff
survdiff(formula, subset, rho, . . . )
Contrasta si hay diferencia entre dos o ms curvas de supervivencia,
determinadas por la formula
Se puede restringir el conjunto de casos con subset
El parmetro rho controla el tipo de test (def: 0 = log-rank test)
Ms ayuda: ?survdiff
Ejemplo
survdiff(lung.surv sex)
survdiff(lung.surv sex, subset = meal.cal > 1000)
Introduccin a R: Sesin 4
34 / 38
Introduccin a R: Sesin 4
35 / 38
Modelo de Cox
Funcin coxph
Ajusta un modelo de Cox de riesgos proporcionales.
La funcin cox.zph contrasta la hiptesis de riesgos proporcionales.
Se puede estratificar utilizando la funcin strata sobre la variable
categrica correspondiente.
Ejemplo
# ajusto modelo de Cox
lung.cox <- coxph(lung.surv age)
summary(lung.cox)
cox.zph(lung.cox)
# Modelo de Cox estratificado
lung.stcox <- coxph(lung.surv age + strata(sex))
summary(lung.stcox)
cox.zph(lung.cox)
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
36 / 38
Modelo de Cox
Curvas de supervivencia
Al modelo ajustado se le puede aplicar directamente la funcin
survfit, para calcular las curvas de supervivencia, para un individuo
medio en las covariables.
Para calcular las curvas en unos valores especficos, utilizar el
parmetro newdata.
Ejemplo
plot(survfit(lung.cox)) # individuo medio
plot(survfit(lung.cox, newdata = 60)) # individuo de 60 aos
plot(survfit(lung.cox, newdata = data.frame(age=c(35, 55))),
lty=2:3) # individuos de 35 y 55 aos
legend("topright", c("35 aos", "55 aos"), lty=2:3)
plot(survfit(lung.stcox, newdata = 40), lty=2:3)
legend("topright", c("Hombres", "Mujeres"), lty=2:3)
David Conesa, GEei tEma (UV)
Introduccin a R: Sesin 4
37 / 38
Introduccin a R: Sesin 4
38 / 38