Estadistica Descriptiva

1
Notas sobre el Curso

Introducción al Manejo de Datos
Estadı́sticos
P rof esor : René Iral Palomino
Of icina : 43 − 320
Correo : riral@unal.edu.co
Contenido
Introducción a la disciplina Estadı́stica

Análisis Exploratorio
Probabilidad
Modelamiento estadı́stico
Evaluación Debido a que el curso tendrá un carácter primordialmente

experimental, un 70 % corresponde a actividades o talleres para realizar en
hora de clase o por fuera (las cuales pueden incluir el uso de alguna he-
rramienta computacional y/o paquete estadı́stico. El restante 30 % será una
evaluación al final del curso.
Introducción
¿Por qué estudiar Estadı́stica?
El estudio de la Estadı́stica permite, entre otras cosas

2
Aprender las reglas y métodos usados en el tratamiento de información
Evaluar y cuantificar la importancia de los resultados estadı́sticos ob-

tenidos
Entender mejor algunos fenómenos de interés (Sociales, Económicos,

Biológicos, Educacionales, etc.)
Dar una visión más clara acerca de la información proveniente de di-

versas fuentes.
Algunos aspectos estadı́sticos manejados en la información obtenida de la

radio, la televisión u otro medio, influencian fuertemente a gran cantidad
de personas pero a veces no proporcionan una descripción cabal de lo que
pretenden mostrar.
Como una de las tareas de la Estadı́stica es el estudio de fenómenos aleatorios,

esto hace muy pertinente el tratar de explicar la manera como se comportan
(Variabilidad).
Entre otras cosas la Estadı́stica se ocupa del manejo de la información que
pueda ser cuantificada. Implica esto la descripción de conjuntos de datos y la
inferencia a partir de la información recolectada de un fenómeno de interés.
La función principal de la estadı́stica abarca:
Resumir Simplificar Comparar Relacionar Proyectar.
Entre las tareas que debe enfrentar un estudio estadı́stico están:
Delimitar con precisión la población de referencia o el conjunto de datos

en estudio, las unidades que deben ser observadas, las caracterı́sticas o
variables que serán medidas u observadas.
Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.
Recolección y Registro de la información.
Depuración de la información.
Producción de resúmenes estadı́sticos (gráficos y/o numéricos).

3
Interpretación de los resultados.
Algunos tópicos fundamentales de la Estadı́stica se presentan brevemente,

los cuales se usan frecuentemente en investigación. Durante el transcurso del
curso se estudiarán algunos de ellos.
Diseño de experimentos. Esta relacionado con la etapa de obtención de

información. Permite la determinación del tipo de datos a incluir en el
estudio, la cantidad de datos. La determinación de cuantas unidades se
deben incluir en el estudio es crucial ya que con esto se ahorra tiempo
y dinero.
Estadı́stica descriptiva. Permite obtener un resumen de la información

contenida en los datos por medio de funciones especı́cas llamadas es-
tadı́sticos muestrales las cuales sirven para obtener valores numéricos
que representan caracterı́sticas sobresalientes que pudieran estar pre-
sentes. También permite la construcción de gráficos que permiten mirar
en conjunto la totalidad de los datos y detectar comportamientos in-
teresantes de ellos.
Inferencia estadı́stica. Permite evaluar la información de manera que

se puedan obtener conclusiones generales del fenómeno bajo estudio.
Estadı́stica no parámetrica. Permite realizar pruebas estadı́sticas e im-

plementar modelos donde no es posible asumir algunos supuestos pre-
vios.
Elementos de regresión. Sirven para explorar la posible relación entre

variables de respuesta y variables explicativas.
Niveles de medición y tipos de variables

Los siguientes ejemplos servirán para introducir algunas deficiones importan-
tes.
Un investigador está interesado en determinar el caudal promedio de

un rı́o; para esto decide medir y registar tal caudal durante 30 dı́as.
4
Un investigador está interesado en determinar la proporción de perso-

nas que están a favor de una cierta ley de impuestos; para esto decide
elaborar un cuestionario, selecciona adecuadamente una muestra al azar
y registra la respuesta de los individuos que puede ser SI, NO, No sabe
No responde (NS/NR), las cuales pueden ser codificadas ası́: SI=1,
NO=2, NS/NR=3.
Un ingeniero esta interesado en determinar el número promedio de

artı́culos defectuosos de una linea de producción; para esto decide con-
tar y registrar diariamente y durante 30 dı́as el numero de defectuosos.
Los tres experimentos expuestos tiene en común tres caracterı́sticas:
1. Cada uno de ellos generan datos.
2. Cada uno de ellos tiene un factor de incertidumbre, pues en el momento

de realizar cualquiera de ellos el investigador no sabe que resultado va
a obtener.
3. Cada uno de ellos tiene un factor de variabilidad ya que en repeticiones

sucesivas del experimento se pueden presentar resultados diferentes.
De los tres experimentos se puede observar que el primero de ellos (el de

la medición de caudales) genera datos que son producto de mediciones. El
segundo de ellos (el de la ley de impuestos) genera datos que representan ca-
tegorı́as de respuesta y el tercero (el de la lı́nea de producción) genera datos
que son producto de conteos. Con lo anterior, podemos ahora dar algunas
deficiones.
Variable. Es una caracterı́stica que varı́a de un objeto o individuo a otro (por

ejemplo la estatura, la dureza o el tiempo de duración de un componente)
o en el mismo individuo (por ejemplo, la presión sanguinea). En estadı́stica,
los tipos más comunes de variables son Continuas, Discretas y Categóricas.
Variables continuas. Son aquellas que provienen de procesos que

involucran mediciones. Por ejemplo las estaturas de los estudiantes de
primer año en una universidad.
5
Variables discretas. Son aquellas que provienen de procesos que in-

volucran conteos. Por ejemplo el número de vehı́culos que llegan a un
semáforo en un intervalo de tiempo.
Variables categóricas. Son aquellas que provienen de procesos que

involucran clasifiaciones. Por ejemplo la variable sexo o estrato socio-
económico.
Observe que la variable que se genera en un experimento de medición de

presión sanguinea es de naturaleza diferente a la de clasificar personas por
su sexo. La primera se registra en milı́metros de mercurio y además valores
grandes dan la idea de mayor presión sangunı́ea mientra que la segunda se
mide por medio de valores que representan la pertenencia a una categorı́a,
por ejemplo 1=Masculino, 2=femenino, pero el 2 no es mayor que el 1.
La diferencia en la información obtenida permite identificar cuatro niveles
básicos de medición que son:
1. Nominal. Este nivel se utiliza cuando los valores en los que se mide la
variable son códigos que representan la pertenencia a una categorı́a. Por
ejemplo, en un estudio de una cierta enfermedad, el 1 puede representar
su presencia y el 0 su ausencia. Otro ejemplo puede ser estado civil,
1=Casado, 2=Soltero, 3=Unión libre. Observe que no se puede decir
que 3 ¿2. Las variables de tipo nominal no admiten medidas básicas de
resumen.
2. Ordinal. Se usa cuando los valores de una variable informan acerca

de un orden o jerarquı́a. Por ejemplo, se pueden usar los valores 1, 2
y 3 para representar distintas quemaduras, es decir, 1=leve, 2=severa,
3=muy severa. Con este tipo de variables ya tiene sentido establecer
una relación de orden y afirmar que 3 > 2 > 1.
3. Intervalo. Se usa para mediciones de naturaleza cuantitativa que se

hacen con escalas que tienen como base un valor de cero arbitrario. Por
ejemplo un registro de 0 ± C no indica la ausencia de temperatura.
4. Razón. Se usa para mediciones de naturaleza cuantitativa que se hacen

con escalas que tienen como base un valor de cero absoluto. Por ejemplo,
longitud del brazo, estatura, tiempo de duración, número de artı́culos
defectuosos en una linea de producción, presión sanguı́nea.
6
El papel de los computadores en la Estadı́stica

Hace algunos años el trabajo estadı́stico era supremamente difı́cil ya que los
cálculos se debian hacer a mano o usando calculadoras con muchas limitacio-
nes de operatividad; la posibilidad de error humano era alta y era un proceso
tedioso. la construcción de tablas y gráficos se hacia imposible si la base de
datos era muy grande y la imposibilidad de simular procesos estancaron el
desarrollo estadı́stico durante algún tiempo. El advenimiento de los compu-
tadores le dı́o un impulso decisivo y firme a la estadı́stica ya que los procesos
se podian ejecutar más rápido e incluso repetir infinidad de veces. La or-
ganización automatizada de la información ha ubicado a la Estadı́stica en
uno de los peldaños más altos de la investigación hasta tal punto que existen
procesos donde es imprecindible su utilización.
A la par con el desarrollo de las herramientas computacionales se ha crea-

do software altamente especializado; algunos ejemplos son SAS, S-plus y R;
estos programas permiten la ejecución de complejos modelos, la creación de
tablas, la simulación de procesos ası́ como la creación de gráficos de gran
calidad.
El gran crecimiento de Internet permite el intercambio rápido de ideas con
otros grupos de investigación y también el acceso a información de primera
mano ya sea por medio de artı́culos, libros o revistas electrónicas especiali-
zadas.
Actividades
1. Se selecciona de manera aleatoria una persona del grupo. Se le pide que

pase al frente de sus compañeros. Seguidamente el profesor le pregunta
a los demás que den un estimativo de varias carácterı́sticas del sujeto:
Estatura (en cms), Masa (en Kgr), Edad (en años), Perı́metro de su
cintura, Si tiene novia(o). Se anotan una a una las respuestas de los
sujetos. Seguidamente se le preguntan los datos reales al sujeto de expe-
rimentación. Se realizan algunos resúmenes descriptivos y se muestran
algunos gráficos que den cuenta del aspecto de aleatoriedad y error de
estimación.
2. Cada estudiante registra en el computador la siguiente información:
Estatura (en cms), Masa (en Kgr), Edad(en años), Estrato, Gasto se-
7
manal (en pesos), tiene novia(o) (Si o NO), Graduado de colegio públi-
co, privado, otro. Se elaboran algunos resúmenes estadı́sticos usando
el paquete SAS. Se explica sobre la naturaleza de las caracterı́sticas
registradas.
Conceptos básicos de Estadı́stica Descrip-

tiva
Un aspecto importante en Estadı́stica está relacionado con a manera
como la información es presentada y analizada. De este análisis pre-
vio pueden desprenderse diferentes formas de abordar la solución a
determinada pregunta de investigación. Una primera parte consiste en
realizar un adecuado resumen de la información disponible y presen-
tarla en términos de algunas medidas puntuales o de gráficos.
Aspectos principales a tener en cuenta en la descripción de

un conjunto de datos
a) Resumen y descripción de diferentes patrones en los datos por
medio de:
• Presentación de tablas y graficos.
• Examinar de todas las formas posibles los gráficos en busca
de caracterı́sticas de interés.
• Buscar en los datos graficados observaciones inusuales, que se
alejan del grueso de observaciones graficadas.
b) Cálculo de medidas numéricas.
• Valores tı́picos o representativos que den idea de centralidad
o localización.
• La variabilidad presente en los datos.
Descripción de Datos por tablas o gráficos

Distribuciones de frecuencia
8
Cuando se tiene un número considerable de datos, una manera de re-

presentarlos es a través de un agrupamiento en clases. Si los datos son
de tipo discreto o categórico, las clases estarán determinadas por las
escalas de medición de la variable de interés. Sinembargo, si el número
de valores que asume la variable es muy grande, es necesario agrupar
dichos valores en clases. En el caso de variables continuas, es imperati-
vo realizar un agrupamiento de los datos, considerando observaciones
cercanas, en clases o intervalos. El resultado de este agrupamiento es
resumido en una tabla, que usualmente se denomina Tabla de Frecuen-
cias. El procedimiento a seguir ara este proceso es como sigue:
a) Encuentre el mı́nimo y máximo de los valores registrados.

b) Escoja un número de subintervalos o clases de igual longitud, de
manera que cubran el rango de los datos, sin traslaparsen (aunque
es posible construir clases o intervalos de longitudes variables).
Estos intervalos son llamados Intervalos de Clase.
c) Cuente cuantas observaciones están en cada subintervalo. Este
conteo es llamado Frecuencia de Clase.
d) Calcule, para cada clase, la frecuencia relativa. Esta se calcula co-
mo:
Frecuencia de clase
FR = .
Número total de observaciones
La elección del número de clases o intervalos, constituye un proceso de
ensayo y error. Algunas propuestas empı́ricas se han planteado, bus-
cando una selección más o menos adecuada del número de clases. No
se puede establecer que una es superior a otra, sólo pueden utilizarse
como puntos de referencia.
Sturges (1926), establece que el número de clases es K puede ob-

tenerse como K = 1 + 3.33 log10 (n), siendo n el número de datos.
Esta propuesta subestima el número de intervalos.
√
Velleman (1976), K = 2 n, recomendada cuando n es pequeño
(n ≤ 50)
Dixon y Kronmal (1965), K = 10log10 (n), para n grande (n > 50).
9
En general, se sugiere que entre 5 y 15 clases es un número adecuado

para agrupar los datos. Sinembargo, debe tenerse especial cuidado en
esta selección. Es importante anotar que al agrupar los datos en clases,
se sacrifica la información relacionada con cómo se distribuyen los datos
en cada clase, y se reemplaza por la frecuencia en dicha clase. Si se
tienen pocas clases, la pérdida de información es muy grande. Si se
tienen pocos datos y muchas clases, no se evidenciará ningún tipo de
comportamiento de interés en los datos.
Cuando se tiene un número considerable de datos, es importante esta-
blecer algún tipo de técnica para identificar datos en cada clase (una
puede ser organizando los datos de menor a mayor). Los avances compu-
tacionales han permitido obviar este aspecto.
Ejemplo Se tiene información de un grupo de estudiantes del Curso

Métodos estadı́sticos, donde se registraron, para cada sujeto, la Edad
(en años), el Sexo (M o F), su Masa (en Kgr), su Estatura(en cms),
su Perı́metro en la cintura(en cms), perı́mtro de Pecho(en cms) y el
perı́mtro de la Muñeca. Los datos se muestran a continuación:
EDAD SEXO PESO ESTA CINT PECH MUNE EDAD SEXO PESO ESTA CINT PECH MUNE
25 F 48 160 63 81 14 32 M 70 180 76 99 17
25 F 55 160 68 88 14 29 M 75 180 87 101 17
30 M 57 160 83 87 16 32 F 47 154 72 87 14
33 M 80 180 92 104 17 25 F 56 160 62 92 15
23 F 57 160 72 96 15 24 M 60 168 82 94 15
23 F 44 159 60 85 14 29 F 69 170 79 100 16
27 F 58 172 67 87 15 24 F 83 167 95 109 16
27 M 70 163 88 108 15 28 M 81 176 92 111 17
22 F 57 160 72 92 15 27 M 85 184 97 102 17
26 F 48 152 70 92 14 28 M 11 79 168 104 16
41 M 82 182 98 103 17 38 F 57 156 74 97 14
26 M 50 169 70 82 16 43 M 66 169 84 90 17
45 M 72 168 96 98 16 23 M 60 182 84 82 17
Se elaboran tablas de frecuencias para las variables Edad, Sexo y Es-

tatura.
Solución
Para la variable Sexo. Se elabora una tabla de frecuencias, indicando

el número de hombres y mujeres.
10
En SAS.
Procedimiento FREQ
SEXO Frecuencia Porcentaje

_________________________________
F 12 46.15
M 14 53.85
Fig. 1: Distribución para Sexo
En R.
dat <- read.table(file.choose(), header=T)
> c <- table(dat[,2])

> c
F M
12 14
> barplot(c, col=(’blue’))
11
Fig. 2: Distribución para Sexo
Para la variable Edad. Observe que esta aparece en una escala de razón,
pero con valores enteros. Veamos varias formas de agrupar.
1. Cada valor diferente de la variable Edad es tomado como una clase.
Edad Frecuencia F. Relativa

22 1 0.0384
23 3 0.1154
24 2 0.077
25 3 0.1154
26 2 0.077
27 3 0.1154
28 2 0.077
29 2 0.077
30 1 0.0384
32 2 0.077
33 1 0.0384
38 1 0.0384
41 1 0.0384
43 1 0.0384
45 1 0.0384
Debido a que cada clase representa un valor de la variable, un gráfico

adecuado para este caso consiste en un
Diagrama de Barras (Bar Plot). Los resultados en SAS y R son los
siguientes.
En SAS, usando la parte interactiva.

12
Fig. 3: Distribución para Edad
En R
> dat <- read.table(file.choose(), header=T)
> dat
EDAD SEXO PESO ESTA CINT PECH MUNE
1 25 F 48 160 63 81 14
2 25 F 55 160 68 88 14
3 30 M 57 160 83 87 16
4 33 M 80 180 92 104 17
5 23 F 57 160 72 96 15
.
.
> b <- table(dat[,1])
> b
22 23 24 25 26 27 28 29 30 32 33 38 41 43 45
1 3 2 3 2 3 2 2 1 2 1 1 1 1 1
> barplot(b, col=c(’blue’,’red’,’yellow’,’green’, ’brown’, ’gray’))

13
2. Se agrupa la información por rangos (8 clases).

< 24 4 0.1538
24-25 5 0.1923
26-27 5 0.1923
28-29 4 0.1538
30-32 3 0.1154
33-35 1 0.038
36-40 1 0.038
> 40 3 0.1154
3. Se agrupa la información por rangos (6 clases).

< 24 4 0.1538
24-25 5 0.1923
26-27 5 0.1923
28-29 4 0.1538
30-35 4 0.1538
> 35 4 0.1538
14
Para la variable estatura. Usando la regla de Sturges se obtiene

K = 1 + 3.33 log10 (n) = 1 + 3.33 ∗ log10 (26) = 5.71 ≈ 6. Ası́, se consi-
deran 6 clases o intervalos. La mı́nima estatura es 152 y la máxima de
184. Con esto el rango de las estaturas es 32, que dividido por 6, nos
da la amplitud de los intervalos (A = 5.333 ≈ 6). Con esto, el nuevo
rango será de 6 ∗ 6 = 36.
Una propuesta para considerar las nuevas clases se muestra en la figura
7.
Fig. 7: Número de clases para Estatura
Los intervalos de clase que se conforman son:
(150, 156], (156, 162], (162, 168], (168, 174], (174, 180], (180, 186] .
La respectiva tabla de frecuencias está dada por:
Esta Frecuencia F. Relativa

(150, 156] 4 0.1538
(156, 162] 5 0.1923
(162, 168] 5 0.1923
(168, 174] 4 0.1538
(174, 180] 3 0.1154
(180, 186] 1 0.038
15
Fig. 8: Histograma para Estatura
Histogramas hechos con paquetes SAS y R.
Fig. 9: Histograma para Estatura
Aunque no es una regla general una tabla de frecuencias deberia poseer

las siguientes caracteristicas:
a) UNIFORMIDAD: Clases de igual amplitud o de amplitud va-

riable que dependen del tipo de datos.
b) UNICIDAD: Clases no traslapadas.
c) COMPLETEZ: Cada dato pertenece a una y sólo una clase.
16
Actividad 3
Usando los datos recopilados en clase, elaborar para las variables Es-
trato, Masa y Gasto semanal, gráficos que permitan indagar el com-
portamiento de estas tres caracterı́sticas. Debe justificar la elección del
número de clases, elaborar la respectiva tabla de frecuencias y el gráfico
respectivo (ya sea un diagrama de barras o un histograma). Comente
sus resultados.
Representaciones Gráficas
Ejemplo
Se tiene información acerca de un grupo de estudiantes del una uni-
versidad. A cada sujeto se le registra información sobre Estrato socio-
económico, horas dedicadas semanalmente a estudiar, edad, si trabaja
o no y promedio obtenido en el semestre inmediatamente anterior.
Los datos están guardados en el archivo ”induc.txt”. Usando el pa-
quete R se pueden generar diversidad de gráficos dependiendo de las
necesidades del usuario. Algunos son:
Diagramas de barras e histogramas
> ind <- read.table(file.choose(), header=T)

> dim(ind)
[1] 215 5
> ind[1:10,]
Estrato Horas edad trab prom
1 1 28 20 1 3.8
2 1 24 21 1 3.7
3 1 18 19 1 3.9
4 1 20 20 2 3.7
5 1 23 25 2 3.7
6 1 26 18 2 3.6
7 2 12 35 1 3.0
8 2 30 26 1 3.2
9 2 4 32 1 2.9
10 2 9 26 1 3.4
Histogramas para las variables HORAS, EDAD, PROM y un diagrama

de barras para la variable ESTRATO. Algunos comandos del paquete
17
R.
a=table(xm[,4])
a
1 2 3 4 5 6
76 299 389 106 84 46
par(mfrow=c(2,2), new=T)
hist(ind[,2], col=’blue’, main=’Histograma No Horas’, xlab="N_Horas")
hist(ind[,3], col=’red’, main=’Histograma Edad’, xlab="Edad")
hist(ind[,5], col=’cyan’, main=’Histograma promedios’, xlab="Promedio")
barplot(a, xlab="Estrato", main=’Diagrama Estrato’,
col=c(’blue’,’red’,’yellow’,’green’, ’brown’, ’gray’))
Los gráficos resultantes se muestran en la figura 10.
Fig. 10: Histogramas y diagrama de barras
Boxplot
18
boxplot(ind[,2], xlab="N_Horas")
boxplot(ind[,3], xlab="Edad")
boxplot(ind[,5], xlab="Promedio")
boxplot(ind[,2]~ ind[,1], xlab="Estrato", main="N_Horas por Estrato")
boxplot(ind[,3]~ ind[,1], xlab="Estrato", main="Edad por Estrato")
boxplot(ind[,5]~ ind[,1], xlab="Estrato", main="Promedio por Estrato")
Fig. 11: Box Plot
Gráficos bidimensionales y tridimensionales
Diagramas de dispersión. Los siguientes comandos permiten obtener

gráficos de dispersión por pares y para las tres variables.
19
plot(ind[,5],ind[,2], xlab="N_Horas", ylab="Promedio", type="p", pch=20)
plot(ind[,5],ind[,3], xlab="Edad", ylab="Promedio", type="p", pch=20)
plot(ind[,3],ind[,2], xlab="N_Horas", ylab="Edad", type="p", pch=20)
par(new=F)
pairs(ind[,c(2,3,5)], main="Matrı́z de Dispersión",
labels=c("N_Horas","Edad", "Promedio"))
Los gráficos resultantes se muestran en las figuras 12 y 13.
Fig. 12: Gráficos de Dispersión
Fig. 13: Matriz de Dispersión
Gráficos tridimensionales.
20
Usando SAS se elabora un grafico de dispersión tridimensional Usando

las Variables Horas, Edad y Prom, uno de contornos y una superficie
ajustada. Los graficos respectivos se muestran en la figura 14.
Fig. 14: Graficos Tridimensionales y de contornos
Caras de Chernoff
Podemos realizar este tipo de gráficos usando dos paquetes: aplpack y
TeachingDemos.
Para el primer paquete la función usada es faces
faces(ind[1:16,c(2,3,5)], plot.faces=T, fill=T, face.type=0)

Los gráficos obtenidos se muestran en la figura 15.

21
Fig. 15: Caras de Chernoff
Explicación de los parámetros.

1: altura de la cara, 2: de ancho de la cara, 3: forma de la cara, 4:
altura de la boca, 5: ancho de la boca, 6: curva de la sonrisa, 7: altura
de los ojos, 8: ancho de los ojos, 9: altura del pelo, 10: ancho del pelo,
11: estilo del cabello, 12: altura de la nariz, 13: ancho de la nariz, 14:
ancho de las orejas, 15: altura de las orejas.
Usando el paquete TeachingDemos: faces2(ind[1:12,c(2,3,5)], fill=T) .

El gráfico obtenido se muestra en la figura 16.
22
Fig. 16: Caras de Chernoff
Distribuciones Multivariadas El siguiente código en SAS permite

graficar distribuciones normales bivariadas y algunos contornos.
Macro para graficar normales bivariadas
%macro bivanorm(mu1,mu2,sigma1,sigma2,rho,xmin,xmax,ymin,ymax);
goptions cback=white colors=(black black cyan red lilg rose);
data bivanor;
Pi=3.14159;
sigma1=&sigma1;
sigma2=&sigma2;
mu1=&mu1;
mu2=&mu2;
rho=ρ
xmin=&xmin;
xmax=&xmax;
ymin=&ymin;
ymax=&ymax;
do x=xmin to xmax by 0.09;
do y=ymin to ymax by 0.09;
z=exp((-1/(2*(1-rho*rho)))*(((x-mu1)/sigma1)*((x-mu1)/sigma1)-
2*rho*(x-mu1)*(y-mu2)/(sigma1*sigma2)+((y-mu2)/sigma2)*((y-mu2)/sigma2)))
/(2*Pi*sigma1*sigma2*sqrt(1-rho*rho));
output;
end;
end;
run;
title c=blue f=xswiss ’Normal Bivariada’;
proc g3d data=bivanor;
plot y*x=z / ctop=black tilt=30;
run;
proc gcontour data=bivanor;
plot y*x=z;
run;
quit;
%mend bivanorm;
%bivanorm(0,0,1,1,0,-3,3,-3,3); %bivanorm(0,0,1,1,0.75,-3,3,-3,3);
%bivanorm(0,0,1,1,-0.75,-3,3,-3,3);
23
Fig. 17: Gráfico de Normales Bivariadas

24
Análisis descriptivo de un conjunto de n

datos
Suponga que se tienen n datos recopilados sobre una variable y que pue-
den representar los tiempos de duración de una baterı́as para vehı́culo.
Estos datos pueden ser los que aparece a continuación:
2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2
4.5 3.3 3.6 4.4 2.6 3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0
3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5
Este conjunto de datos por si solo no muestra ninguna faceta intere-

sante. A simple vista se puede apreciar un valor mı́nimo y un valor
máximo y que hay algunos valores que se repiten. Por lo tanto es su-
premamente difı́cil tratar de determinar alguna caracterı́stica de interés
de la población de la cual provienen; si el número de datos aumenta es
todavı́a más difı́cil detectar caracterı́sticas importantes. Existen técni-
cas estadı́sticas que permiten extraer información que puede resultar
de algún modo importante para tomar decisiones en un determinado
momento.
Hay dos maneras de analizar estos datos:
a) Datos agrupados: Consiste básicamente en la conformación de
clases de una cierta longitud donde la pertenencia de un dato a
cada clase estará determinada por su valor. Con esta técnica es
posible experimentar perdida de información.
b) Datos sin agrupar: Consiste en manipular los datos tal y como
fueron recopilados.
Medidas numéricas en datos agrupados

Las medidas numéricas descriptivas se dividen en dos: Medidas de
localización y Medidas de dispersión. En las medidas de localiza-
ción se circunscriben las medidas de tendencia central.
25
Medidas de localización y de tendencia central
Estas medidas permiten cuantificar numéricamente, caracterı́sticas de

la población de la cual fueron tomados los datos. Entre las más comunes
se encuentran:
La media muestral para datos agrupados

Es un valor que trata de representar el comportamiento promedio del
onjunto de datos. Corresponde a una estimación de la media poblacio-
nal. En el caso de datos agrupados se define como:
k
P #celdas
P
mi f i marca de clase × Frecuencia de clase
i=1 i=1
X Agrup = = .
n Total Frecuencias
Para ejemplificar, considere el ejemplo de las baterı́as,

k
P
mi f i
i=1
X Agrup =
n
= (1.78 × 2) + (2.24 × 1) + (2.7 × 4) + (3.16 × 12)
+ (3.62 × 11) + (4.08 × 6) + (4.54 × 4)
= 3.4245
La moda muestral para datos agrupados

Es el valor que que presenta mayor frecuencia. Se define como la marca
de clase de la clase con mayor frecuencia absoluta.
En el ejemplo de las baterı́as se tiene que, moda = 3.16 .
Percentiles muestrales para datos agrupados

Los percentiles son aquellos valores abajo y arriba de los cuales se
encuentra una cierta proporción de datos del conjunto. Por ejemplo, el
percentil 10 es aquel valor tal que al menos el 10 % de los datos son
26
inferiores a el y al menos el 90 % de los datos son superiores a el. Si

la caracterı́stica de interés está asociada a una variable X, el percentil
100p %, para 0 < p < 1, suele denotarse por xp . Otra manera de denotar
un percentil, es a través del porcentaje que representa. Por ejemplo, el
percentil 25, suele denotarse como P25 .
Para calcularlo se requiere la columna de frecuencias acumuladas, que
se obtiene de la tabla de frecuencias, usando la siguiente fórmula:
nb
( 100 − a) × h
xp = L + ,
f
donde:
L: Lı́mite inferior de la clase que contiene el percentil.

n: Número de datos.
f : Frecuencia de la clase que contiene el percentil.
a: Frecuencia acumulada del intervalo anterior al del percentil.
h: Longitud de la clase del percentil.
nb
100
: proporción del percentil.
nb
Para identificar la clase del percentil se debe calcular 100 y verificar
cual clase tiene una frecuencia acumulada igual o superior a este valor.
ejemplo
Usando los datos de duración de baterı́as calcule el P50 .
Observe que 50100
×40
= 20; de la tabla de frecuencia que ya se construyó,
se observa que en la columna de frecuencias acumuladas el 30 excede a
20, por lo tanto la clase del percentil será [3.39, 3.85). Ahora bien,
L = 3.39
n = 40
f = 11
a = 19
h = 0.46
b = 50
27
Ası́
(20 − 19) × 0.46
P50 = 3.39 + = 3.43 .
11
Calcular P10 , P25 , P60 , P75 , P90 .
Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentual-
mente iguales. Estos percentiles son llamados Cuartiles y se denotan Q1 , Q2
y Q3 , respectivamente.
Fig. 18: Cuartiles
La mediana
Corresponde al percentil 50. Es usualmente denotada X̃. Su cálculo se realiza

con el mismo procedimiento utilizado en la obtención de los percentiles.
Medidas de dispersión
Estas medidas permiten cuantificar numéricamente, que tan dispersos se en-

cuentran los datos ya sea con respecto a la media o con respecto a las unidades
de medición. Entre las más comunes se encuentran:
La varianza muestral para datos agrupados
Esta medida indica que tanto se alejan los datos respecto de la media. Se
2
denota Sagrup . Se calcula por medio de la siguiente fórmula,
Pk 2
2 i=1 mi − X agrup × fi
Sagrup = .
n
28
Rango intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere
decir que el 50 % de los datos más centrales se encuentra muy disperso.
QRANGE = Q3 − Q1 = P75 − P25

Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercer
cuartil. El nombre de cuartil proviene del hecho de que la unidad se divide
en cuatro partes iguales y el de percentil proviene del hecho de que la unidad
se divide en cien partes iguales.
Cálculo de medidas numéricas para datos no

agrupados
Para el cálculo de estas medidas se consideran todos y cada uno de los da-
tos, por lo cual la perdida de información contenida en la muestra se reduce.
También se dividen en dos: Medidas de localización y Medidas de dis-
persión. En las medidas de localización se circunscriben las medidas de
tendencia central.
Medidas de localización y de tendencia central
Media muestral
. Se define como la suma de todos los elementos de la muestra dividido por el
número de elementos. Cuando la distribución de la cual provienen los datos es
simétrica y no hay presencia de valores extremos, la media muestral se puede
interpretar como un buen representante del conjunto de datos. La media no
necesariamente es un valor del conjunto de observaciones. Se denota con el
sı́mbolo X. Se calcula con la siguiente fórmula,
Pn
Xi
X = i=1 , i = 1, 2, . . . , n
n
Ejemplo (La media es sensible a valores extremos). Considere los ingresos
mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700, 2000,
550, 550. Calcule el ingreso mensual medio.
29
Solución
500 + . . . + 550
x= = 775 .
8
Observe que este valor es mayor a la mayorı́a de las cifras del conjunto de
datos y por lo tanto no es un buen representante de él.
ejemplo Se registra el número de tasas de café consumidas por un empleado
de oficina en un perı́odo de 20 dias:
4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6
Calcule el número promedio de tasas de café.

Solución
82
X̄ = = 4.1
20
Un empleado consume en promedio alrededor de 4 tazas por dia.

La media representa el punto de equilibrio de los datos.
ejemplo Se registran las edades de 15 personas en un grupo.
Estas son: 18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en años).
Calcule la edad promedio de las 15 personas.
Solución
La edad promedio de este grupo es
313
X̄ = = 20.86 ≈ 20.9
15
Si resumimos esta información en una tabla de frecuencia
dato 18 19 20 21 22 23 24
f 1 3 3 3 2 1 2
n
1X
X̄ = fi Xi
n i=1
30
Podemos calcular X̄ usando esta tabla de frecuencias:
18(1) + 19(3) + 20(3) + 21(3) + 22(2) + 23(1) + 24(2)

X̄ =
15
313
X̄ = = 20.9
P15 P
xi f i xi f i
X̄ = = P
15 fi
La media muestral es sensible a datos extremos. En el ejemplo anterior,

suponga que otra persona adicional tiene una edad de 35 años.
313+35 348
La nueva media muestral es X̄ = 16
= 16
= 21.8
Si la edad fuera 45 entonces

313 + 45
X̄ = = 22.4
16
Si la edad fuera 55 entonces

313 + 55
X̄ = = 23
16
Observe que la media muestral tiende a modificarse hacia el valor extremo.
La moda en datos sin agrupar

Se define como el dato que presenta mayor frecuencia en la dstribución de los
datos. Para calcularla se recomienda ordenar la muestra de menor a mayor.
Es posible que un conjunto de datos no tenga moda o que tenga varias modas.
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950
Calcule la moda.
31
Solución
Se puede observar que el conjunto de datos tiene dos modas que son respec-
tivamente: 550 y 750.
Percentiles para datos sin agrupar

Una aproximación a los valores de los percentiles se puede obtener por medio
del siguiente algoritmo que muestra como se calcula el percentil de orden p:
1. Ordene la muestra de menor a mayor
2. Calcule el percentil 100p %, xp como


X k×n +X k×n
 ( 100 ) 2 ( 100 ) Si
+1
 k×n

100
es un natural
xp = ,
k×n

 X [[k×n ]]+1
 Si no es un natural
( 100 ) 100
donde [[ k×n
100
]] representa la parte entera del cociente.
La mediana en datos sin agrupar

Es un valor arriba del cual se encuentra el 50 % de los datos y abajo del cual
se encuentra el otro 50 %. No es tan sensible como X a valores extremos.
Se denota X̃. Para hallarla se deben ordenar los datos de menor a mayor.
Suponga que se tiene el siguiente conjunto de datos X1 , X2 , . . . , Xn , si se or-
denan de menor a mayor se obtiene la siguiente sucesión X(1) , X(2) , . . . , X(n) .
X̃ se calcula por medio de,

 X( n+1
 2 )
Si n es impar
X̃ =
 X( n2 ) +X( n2 +1)

2
Si n es par
Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500,
32
750, 600, 550, 700, 2000, 550, 550. La muestra ordenada es 500, 550, 550,
550, 600, 700, 750, 2000. Calcule la mediana. Solución Como n es par
X( n ) + X( n +1) X(4) + X(5) 550 + 600

2 2
X̃ = = = = 575
2 2 2
Este valor de la mediana es una medida más representativa que X. ejemplo

Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950
Halle el percentil 76 usando el método expuesto arriba.

Solución
K×n
La muestra ya esta ordenada, entonces usando el método anterior 100
=
76×10
100
= 7.6 ∈
/ N ; por lo tanto,
PK = X(8) = 800
Para el ejemplo anterior, de las edades, calcular la mediana. Solución

La mediana se denota X̃ y esta dada por:
(
X n + 1 , si n es impar
X̃ = 2
Xn + Xn + 1
2
2
2
, si n es par
En este caso X̃ = X 15 + 1 = X8 , la observación 8 corresponde a:

2
18 19 19 19 20 20 20 21 21 21 22 22 23 24 24
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
X8 = 21
Ası́ X̃ = 21
Ahora supongamos que los datos son los siguientes:
18 19 19 19 20 20 20 21 24 25 25 25 25 26 30
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
33
Suponga que hay un dato adicional X16 = 40 La mediana serı́a,
X8 + X9 21 + 24
X̃ = 2
= 2
= 22.5
Note que a medida que aumenta la diferencia entre los datos del centro,
también aumenta la mediana.
Ahora supongamos que
X15 = 55, entonces
X̃ = X8 = 21.
Note que la mediana no se ve afectada por la introducción de un dato extre-

mo o varios.
En este caso decimos que el 50 % de las personas tienen edades inferiores

o iguales a 21 años.
La mediana permite dividir la información en dos partes porcentualmente

iguales.
Si se desea dividir en 4 partes porcentualmente iguales el respectivo valor
que hace parte de la división es llamado CUARTIL en este caso tenemos tres
cuartiles y se denotan Q1 , Q2 , Q3 .
Ası́
Q1 deja el 25 % de la información por debajo de él
Si dividimos en 100 partes porcentualmente iguales, hablaremos de Percentiles.
ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Solución
34
El primer cuartil es el percentil 25.
0.25 (15) = 3.75. El primer cuartil Q1 , debe dejar al menos 4 valores en

ó por debajo de el y 12 valores en ó por encima de el.
Ası́ Q1 = X4 = 19. El percentil 60. (0.6) (15) = 9. Al menos

9 valores en ó por debajo de él y 6 valores en ó por encima de él. En este
caso dicho percentil corresponderı́a al dato 9 X9 = 21. Pero el dato 10
X10 = 21 cumple la misma condición.
En este caso se promedian ambos valores. Como son iguales, el percentil 60
será 21. El 60 % de las personas tienen edades inferiores o iguales a 21
años.
Medidas de dispersión
La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores
grandes de la varianza indican una gran dispersión. Se denota por S 2 . Se
calcula con la siguiente fórmula,
Pn 2
2 i=1 Xi − X
S =
n−1
Interpretar la varianza puede resultar un poco complicado ya que esta expre-
sada en unidades cuadradas; por ejemplo, la varianza podrı́a estar en minutos
cuadrados o en kilogramos cuadrados. Por esta razón se acostumbra reportar
la raı́z cuadrada de la varianza, que recibe el nombre de Desviación estándar.
Si por ejemplo un investigador toma mediciones de temperatura en una re-
gión durante cierto tiempo y al final reporta: ‘Se observó una temperatura
promedio de 28o C con una desviación estándar de 1o C ’quiere decir que al-
gunas veces la temperatura puede bajar hasta 27o C y algunas veces puede
subir hasta 29o C.
Ejemplo
Para los P
datos de las edades, se tiene que:
2 (Xi − 20.9)2
S = 15 − 1
= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85
años.
35
El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan
disperso está el 50 % de los datos más centrales. Se calcula ası́
RANGO INTERCUARTIL = Q3 − Q1 = P75 − P25
Coeficiente de variación
El coeficiente de variación que se define como
S
C.V =
X
Es una fracción de la media muestral. Se usa para comparar la variabilidad
de dos o más conjuntos de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de
hombres de 25 años y otra de niños de 11 años. Tales medidas son,
X adultos = 66 kgs
Sadultos = 4.5 kgs
X niños = 36 kgs
Sniños = 4.5 kgs
Calcule el coeficiente de variación para los adultos y para los niños.

Con los datos anteriores se puede observar que
4.5
C.Vadultos = = 0.0682
66
4.5
C.Vniños = = 0.125
36
Se puede concluir que los pesos de los niños son más variables que los de los
adultos.
Para los datos del problema de las baterı́as, es posible obtener los resultados
que aparecen resumidos y organizados en las tablas que aparecen a continua-
ción:
N X S S2 M ax Q3 X̃ Q1 M in Rango Q3 − Q1
40 3.41 0.70 0.49 4.7 3.85 3.4 3.1 1.6 3.1 0.75

Estadistica Descriptiva

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadistica Descriptiva

Загружено:

Авторское право:

Доступные форматы

1

Notas sobre el Curso

Introducción a la disciplina Estadı́stica

Evaluación Debido a que el curso tendrá un carácter primordialmente

El estudio de la Estadı́stica permite, entre otras cosas

Aprender las reglas y métodos usados en el tratamiento de información

Evaluar y cuantificar la importancia de los resultados estadı́sticos ob-

Entender mejor algunos fenómenos de interés (Sociales, Económicos,

Dar una visión más clara acerca de la información proveniente de di-

Algunos aspectos estadı́sticos manejados en la información obtenida de la

Como una de las tareas de la Estadı́stica es el estudio de fenómenos aleatorios,

Resumir Simplificar Comparar Relacionar Proyectar.

Entre las tareas que debe enfrentar un estudio estadı́stico están:

Delimitar con precisión la población de referencia o el conjunto de datos

Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.

Recolección y Registro de la información.

Producción de resúmenes estadı́sticos (gráficos y/o numéricos).

Interpretación de los resultados.

Algunos tópicos fundamentales de la Estadı́stica se presentan brevemente,

Diseño de experimentos. Esta relacionado con la etapa de obtención de

Estadı́stica descriptiva. Permite obtener un resumen de la información

Inferencia estadı́stica. Permite evaluar la información de manera que

Estadı́stica no parámetrica. Permite realizar pruebas estadı́sticas e im-

Elementos de regresión. Sirven para explorar la posible relación entre

Niveles de medición y tipos de variables

Un investigador está interesado en determinar el caudal promedio de

Un investigador está interesado en determinar la proporción de perso-

Un ingeniero esta interesado en determinar el número promedio de

Los tres experimentos expuestos tiene en común tres caracterı́sticas:

1. Cada uno de ellos generan datos.

2. Cada uno de ellos tiene un factor de incertidumbre, pues en el momento

3. Cada uno de ellos tiene un factor de variabilidad ya que en repeticiones

De los tres experimentos se puede observar que el primero de ellos (el de

Variable. Es una caracterı́stica que varı́a de un objeto o individuo a otro (por

Variables continuas. Son aquellas que provienen de procesos que

Variables discretas. Son aquellas que provienen de procesos que in-

Variables categóricas. Son aquellas que provienen de procesos que

Observe que la variable que se genera en un experimento de medición de

2. Ordinal. Se usa cuando los valores de una variable informan acerca

3. Intervalo. Se usa para mediciones de naturaleza cuantitativa que se

4. Razón. Se usa para mediciones de naturaleza cuantitativa que se hacen

El papel de los computadores en la Estadı́stica

A la par con el desarrollo de las herramientas computacionales se ha crea-

1. Se selecciona de manera aleatoria una persona del grupo. Se le pide que

Conceptos básicos de Estadı́stica Descrip-

Aspectos principales a tener en cuenta en la descripción de

Descripción de Datos por tablas o gráficos

Cuando se tiene un número considerable de datos, una manera de re-

a) Encuentre el mı́nimo y máximo de los valores registrados.

Sturges (1926), establece que el número de clases es K puede ob-

En general, se sugiere que entre 5 y 15 clases es un número adecuado

Ejemplo Se tiene información de un grupo de estudiantes del Curso

Se elaboran tablas de frecuencias para las variables Edad, Sexo y Es-

Para la variable Sexo. Se elabora una tabla de frecuencias, indicando

SEXO Frecuencia Porcentaje

Fig. 1: Distribución para Sexo

dat <- read.table(file.choose(), header=T)

> c <- table(dat[,2])

Fig. 2: Distribución para Sexo

1. Cada valor diferente de la variable Edad es tomado como una clase.

Edad Frecuencia F. Relativa

Debido a que cada clase representa un valor de la variable, un gráfico

En SAS, usando la parte interactiva.

Fig. 3: Distribución para Edad