Академический Документы
Профессиональный Документы
Культура Документы
Contenido
Introducción
¿Por qué estudiar Estadı́stica?
Depuración de la información.
1. Nominal. Este nivel se utiliza cuando los valores en los que se mide la
variable son códigos que representan la pertenencia a una categorı́a. Por
ejemplo, en un estudio de una cierta enfermedad, el 1 puede representar
su presencia y el 0 su ausencia. Otro ejemplo puede ser estado civil,
1=Casado, 2=Soltero, 3=Unión libre. Observe que no se puede decir
que 3 ¿2. Las variables de tipo nominal no admiten medidas básicas de
resumen.
Actividades
manal (en pesos), tiene novia(o) (Si o NO), Graduado de colegio públi-
co, privado, otro. Se elaboran algunos resúmenes estadı́sticos usando
el paquete SAS. Se explica sobre la naturaleza de las caracterı́sticas
registradas.
Frecuencia de clase
FR = .
Número total de observaciones
La elección del número de clases o intervalos, constituye un proceso de
ensayo y error. Algunas propuestas empı́ricas se han planteado, bus-
cando una selección más o menos adecuada del número de clases. No
se puede establecer que una es superior a otra, sólo pueden utilizarse
como puntos de referencia.
EDAD SEXO PESO ESTA CINT PECH MUNE EDAD SEXO PESO ESTA CINT PECH MUNE
25 F 48 160 63 81 14 32 M 70 180 76 99 17
25 F 55 160 68 88 14 29 M 75 180 87 101 17
30 M 57 160 83 87 16 32 F 47 154 72 87 14
33 M 80 180 92 104 17 25 F 56 160 62 92 15
23 F 57 160 72 96 15 24 M 60 168 82 94 15
23 F 44 159 60 85 14 29 F 69 170 79 100 16
27 F 58 172 67 87 15 24 F 83 167 95 109 16
27 M 70 163 88 108 15 28 M 81 176 92 111 17
22 F 57 160 72 92 15 27 M 85 184 97 102 17
26 F 48 152 70 92 14 28 M 11 79 168 104 16
41 M 82 182 98 103 17 38 F 57 156 74 97 14
26 M 50 169 70 82 16 43 M 66 169 84 90 17
45 M 72 168 96 98 16 23 M 60 182 84 82 17
Solución
En SAS.
Procedimiento FREQ
En R.
Para la variable Edad. Observe que esta aparece en una escala de razón,
pero con valores enteros. Veamos varias formas de agrupar.
En R
> dat <- read.table(file.choose(), header=T)
> dat
EDAD SEXO PESO ESTA CINT PECH MUNE
1 25 F 48 160 63 81 14
2 25 F 55 160 68 88 14
3 30 M 57 160 83 87 16
4 33 M 80 180 92 104 17
5 23 F 57 160 72 96 15
.
.
> b <- table(dat[,1])
> b
22 23 24 25 26 27 28 29 30 32 33 38 41 43 45
1 3 2 3 2 3 2 2 1 2 1 1 1 1 1
(150, 156], (156, 162], (162, 168], (168, 174], (174, 180], (180, 186] .
Actividad 3
Usando los datos recopilados en clase, elaborar para las variables Es-
trato, Masa y Gasto semanal, gráficos que permitan indagar el com-
portamiento de estas tres caracterı́sticas. Debe justificar la elección del
número de clases, elaborar la respectiva tabla de frecuencias y el gráfico
respectivo (ya sea un diagrama de barras o un histograma). Comente
sus resultados.
Representaciones Gráficas
Ejemplo
Se tiene información acerca de un grupo de estudiantes del una uni-
versidad. A cada sujeto se le registra información sobre Estrato socio-
económico, horas dedicadas semanalmente a estudiar, edad, si trabaja
o no y promedio obtenido en el semestre inmediatamente anterior.
Los datos están guardados en el archivo ”induc.txt”. Usando el pa-
quete R se pueden generar diversidad de gráficos dependiendo de las
necesidades del usuario. Algunos son:
Diagramas de barras e histogramas
R.
a=table(xm[,4])
a
1 2 3 4 5 6
76 299 389 106 84 46
par(mfrow=c(2,2), new=T)
hist(ind[,2], col=’blue’, main=’Histograma No Horas’, xlab="N_Horas")
hist(ind[,3], col=’red’, main=’Histograma Edad’, xlab="Edad")
hist(ind[,5], col=’cyan’, main=’Histograma promedios’, xlab="Promedio")
barplot(a, xlab="Estrato", main=’Diagrama Estrato’,
col=c(’blue’,’red’,’yellow’,’green’, ’brown’, ’gray’))
Boxplot
18
par(mfrow=c(2,3), new=T)
boxplot(ind[,2], xlab="N_Horas")
boxplot(ind[,3], xlab="Edad")
boxplot(ind[,5], xlab="Promedio")
boxplot(ind[,2]~ ind[,1], xlab="Estrato", main="N_Horas por Estrato")
boxplot(ind[,3]~ ind[,1], xlab="Estrato", main="Edad por Estrato")
boxplot(ind[,5]~ ind[,1], xlab="Estrato", main="Promedio por Estrato")
par(mfrow=c(1,3), new=T)
plot(ind[,5],ind[,2], xlab="N_Horas", ylab="Promedio", type="p", pch=20)
plot(ind[,5],ind[,3], xlab="Edad", ylab="Promedio", type="p", pch=20)
plot(ind[,3],ind[,2], xlab="N_Horas", ylab="Edad", type="p", pch=20)
par(new=F)
pairs(ind[,c(2,3,5)], main="Matrı́z de Dispersión",
labels=c("N_Horas","Edad", "Promedio"))
Gráficos tridimensionales.
20
Caras de Chernoff
Podemos realizar este tipo de gráficos usando dos paquetes: aplpack y
TeachingDemos.
Para el primer paquete la función usada es faces
%macro bivanorm(mu1,mu2,sigma1,sigma2,rho,xmin,xmax,ymin,ymax);
goptions cback=white colors=(black black cyan red lilg rose);
data bivanor;
Pi=3.14159;
sigma1=&sigma1;
sigma2=&sigma2;
mu1=&mu1;
mu2=&mu2;
rho=ρ
xmin=&xmin;
xmax=&xmax;
ymin=&ymin;
ymax=&ymax;
do x=xmin to xmax by 0.09;
do y=ymin to ymax by 0.09;
z=exp((-1/(2*(1-rho*rho)))*(((x-mu1)/sigma1)*((x-mu1)/sigma1)-
2*rho*(x-mu1)*(y-mu2)/(sigma1*sigma2)+((y-mu2)/sigma2)*((y-mu2)/sigma2)))
/(2*Pi*sigma1*sigma2*sqrt(1-rho*rho));
output;
end;
end;
run;
title c=blue f=xswiss ’Normal Bivariada’;
proc g3d data=bivanor;
plot y*x=z / ctop=black tilt=30;
run;
proc gcontour data=bivanor;
plot y*x=z;
run;
quit;
%mend bivanorm;
%bivanorm(0,0,1,1,0,-3,3,-3,3); %bivanorm(0,0,1,1,0.75,-3,3,-3,3);
%bivanorm(0,0,1,1,-0.75,-3,3,-3,3);
23
2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2
4.5 3.3 3.6 4.4 2.6 3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0
3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5
L = 3.39
n = 40
f = 11
a = 19
h = 0.46
b = 50
27
Ası́
(20 − 19) × 0.46
P50 = 3.39 + = 3.43 .
11
Calcular P10 , P25 , P60 , P75 , P90 .
Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentual-
mente iguales. Estos percentiles son llamados Cuartiles y se denotan Q1 , Q2
y Q3 , respectivamente.
La mediana
Medidas de dispersión
Esta medida indica que tanto se alejan los datos respecto de la media. Se
2
denota Sagrup . Se calcula por medio de la siguiente fórmula,
Pk 2
2 i=1 mi − X agrup × fi
Sagrup = .
n
28
Rango intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere
decir que el 50 % de los datos más centrales se encuentra muy disperso.
Media muestral
. Se define como la suma de todos los elementos de la muestra dividido por el
número de elementos. Cuando la distribución de la cual provienen los datos es
simétrica y no hay presencia de valores extremos, la media muestral se puede
interpretar como un buen representante del conjunto de datos. La media no
necesariamente es un valor del conjunto de observaciones. Se denota con el
sı́mbolo X. Se calcula con la siguiente fórmula,
Pn
Xi
X = i=1 , i = 1, 2, . . . , n
n
Ejemplo (La media es sensible a valores extremos). Considere los ingresos
mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700, 2000,
550, 550. Calcule el ingreso mensual medio.
29
Solución
500 + . . . + 550
x= = 775 .
8
Observe que este valor es mayor a la mayorı́a de las cifras del conjunto de
datos y por lo tanto no es un buen representante de él.
ejemplo Se registra el número de tasas de café consumidas por un empleado
de oficina en un perı́odo de 20 dias:
4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6
82
X̄ = = 4.1
20
dato 18 19 20 21 22 23 24
f 1 3 3 3 2 1 2
n
1X
X̄ = fi Xi
n i=1
30
313+35 348
La nueva media muestral es X̄ = 16
= 16
= 21.8
Solución
Se puede observar que el conjunto de datos tiene dos modas que son respec-
tivamente: 550 y 750.
donde [[ k×n
100
]] representa la parte entera del cociente.
Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500,
32
750, 600, 550, 700, 2000, 550, 550. La muestra ordenada es 500, 550, 550,
550, 600, 700, 750, 2000. Calcule la mediana. Solución Como n es par
500, 550, 550, 600, 700, 750, 750, 800, 900, 950
PK = X(8) = 800
18 19 19 19 20 20 20 21 21 21 22 22 23 24 24
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
X8 = 21
Ası́ X̃ = 21
Ahora supongamos que los datos son los siguientes:
18 19 19 19 20 20 20 21 24 25 25 25 25 26 30
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
33
X8 + X9 21 + 24
X̃ = 2
= 2
= 22.5
Note que a medida que aumenta la diferencia entre los datos del centro,
también aumenta la mediana.
X̃ = X8 = 21.
Ası́
Q1 deja el 25 % de la información por debajo de él
ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Solución
34
La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores
grandes de la varianza indican una gran dispersión. Se denota por S 2 . Se
calcula con la siguiente fórmula,
Pn 2
2 i=1 Xi − X
S =
n−1
Interpretar la varianza puede resultar un poco complicado ya que esta expre-
sada en unidades cuadradas; por ejemplo, la varianza podrı́a estar en minutos
cuadrados o en kilogramos cuadrados. Por esta razón se acostumbra reportar
la raı́z cuadrada de la varianza, que recibe el nombre de Desviación estándar.
Si por ejemplo un investigador toma mediciones de temperatura en una re-
gión durante cierto tiempo y al final reporta: ‘Se observó una temperatura
promedio de 28o C con una desviación estándar de 1o C ’quiere decir que al-
gunas veces la temperatura puede bajar hasta 27o C y algunas veces puede
subir hasta 29o C.
Ejemplo
Para los P
datos de las edades, se tiene que:
2 (Xi − 20.9)2
S = 15 − 1
= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85
años.
35
El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan
disperso está el 50 % de los datos más centrales. Se calcula ası́
RANGO INTERCUARTIL = Q3 − Q1 = P75 − P25
Coeficiente de variación
El coeficiente de variación que se define como
S
C.V =
X
Es una fracción de la media muestral. Se usa para comparar la variabilidad
de dos o más conjuntos de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de
hombres de 25 años y otra de niños de 11 años. Tales medidas son,
X adultos = 66 kgs
Sadultos = 4.5 kgs
X niños = 36 kgs
Sniños = 4.5 kgs