Вы находитесь на странице: 1из 35

1

Notas sobre el Curso


Introducción al Manejo de Datos
Estadı́sticos
P rof esor : René Iral Palomino
Of icina : 43 − 320
Correo : riral@unal.edu.co

Contenido

Introducción a la disciplina Estadı́stica


Análisis Exploratorio
Probabilidad
Modelamiento estadı́stico

Evaluación Debido a que el curso tendrá un carácter primordialmente


experimental, un 70 % corresponde a actividades o talleres para realizar en
hora de clase o por fuera (las cuales pueden incluir el uso de alguna he-
rramienta computacional y/o paquete estadı́stico. El restante 30 % será una
evaluación al final del curso.

Introducción
¿Por qué estudiar Estadı́stica?

El estudio de la Estadı́stica permite, entre otras cosas


2

Aprender las reglas y métodos usados en el tratamiento de información

Evaluar y cuantificar la importancia de los resultados estadı́sticos ob-


tenidos

Entender mejor algunos fenómenos de interés (Sociales, Económicos,


Biológicos, Educacionales, etc.)

Dar una visión más clara acerca de la información proveniente de di-


versas fuentes.

Algunos aspectos estadı́sticos manejados en la información obtenida de la


radio, la televisión u otro medio, influencian fuertemente a gran cantidad
de personas pero a veces no proporcionan una descripción cabal de lo que
pretenden mostrar.

Como una de las tareas de la Estadı́stica es el estudio de fenómenos aleatorios,


esto hace muy pertinente el tratar de explicar la manera como se comportan
(Variabilidad).
Entre otras cosas la Estadı́stica se ocupa del manejo de la información que
pueda ser cuantificada. Implica esto la descripción de conjuntos de datos y la
inferencia a partir de la información recolectada de un fenómeno de interés.
La función principal de la estadı́stica abarca:

Resumir Simplificar Comparar Relacionar Proyectar.

Entre las tareas que debe enfrentar un estudio estadı́stico están:

Delimitar con precisión la población de referencia o el conjunto de datos


en estudio, las unidades que deben ser observadas, las caracterı́sticas o
variables que serán medidas u observadas.

Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.

Recolección y Registro de la información.

Depuración de la información.

Producción de resúmenes estadı́sticos (gráficos y/o numéricos).


3

Interpretación de los resultados.

Algunos tópicos fundamentales de la Estadı́stica se presentan brevemente,


los cuales se usan frecuentemente en investigación. Durante el transcurso del
curso se estudiarán algunos de ellos.

Diseño de experimentos. Esta relacionado con la etapa de obtención de


información. Permite la determinación del tipo de datos a incluir en el
estudio, la cantidad de datos. La determinación de cuantas unidades se
deben incluir en el estudio es crucial ya que con esto se ahorra tiempo
y dinero.

Estadı́stica descriptiva. Permite obtener un resumen de la información


contenida en los datos por medio de funciones especı́cas llamadas es-
tadı́sticos muestrales las cuales sirven para obtener valores numéricos
que representan caracterı́sticas sobresalientes que pudieran estar pre-
sentes. También permite la construcción de gráficos que permiten mirar
en conjunto la totalidad de los datos y detectar comportamientos in-
teresantes de ellos.

Inferencia estadı́stica. Permite evaluar la información de manera que


se puedan obtener conclusiones generales del fenómeno bajo estudio.

Estadı́stica no parámetrica. Permite realizar pruebas estadı́sticas e im-


plementar modelos donde no es posible asumir algunos supuestos pre-
vios.

Elementos de regresión. Sirven para explorar la posible relación entre


variables de respuesta y variables explicativas.

Niveles de medición y tipos de variables


Los siguientes ejemplos servirán para introducir algunas deficiones importan-
tes.

Un investigador está interesado en determinar el caudal promedio de


un rı́o; para esto decide medir y registar tal caudal durante 30 dı́as.
4

Un investigador está interesado en determinar la proporción de perso-


nas que están a favor de una cierta ley de impuestos; para esto decide
elaborar un cuestionario, selecciona adecuadamente una muestra al azar
y registra la respuesta de los individuos que puede ser SI, NO, No sabe
No responde (NS/NR), las cuales pueden ser codificadas ası́: SI=1,
NO=2, NS/NR=3.

Un ingeniero esta interesado en determinar el número promedio de


artı́culos defectuosos de una linea de producción; para esto decide con-
tar y registrar diariamente y durante 30 dı́as el numero de defectuosos.

Los tres experimentos expuestos tiene en común tres caracterı́sticas:

1. Cada uno de ellos generan datos.

2. Cada uno de ellos tiene un factor de incertidumbre, pues en el momento


de realizar cualquiera de ellos el investigador no sabe que resultado va
a obtener.

3. Cada uno de ellos tiene un factor de variabilidad ya que en repeticiones


sucesivas del experimento se pueden presentar resultados diferentes.

De los tres experimentos se puede observar que el primero de ellos (el de


la medición de caudales) genera datos que son producto de mediciones. El
segundo de ellos (el de la ley de impuestos) genera datos que representan ca-
tegorı́as de respuesta y el tercero (el de la lı́nea de producción) genera datos
que son producto de conteos. Con lo anterior, podemos ahora dar algunas
deficiones.

Variable. Es una caracterı́stica que varı́a de un objeto o individuo a otro (por


ejemplo la estatura, la dureza o el tiempo de duración de un componente)
o en el mismo individuo (por ejemplo, la presión sanguinea). En estadı́stica,
los tipos más comunes de variables son Continuas, Discretas y Categóricas.

Variables continuas. Son aquellas que provienen de procesos que


involucran mediciones. Por ejemplo las estaturas de los estudiantes de
primer año en una universidad.
5

Variables discretas. Son aquellas que provienen de procesos que in-


volucran conteos. Por ejemplo el número de vehı́culos que llegan a un
semáforo en un intervalo de tiempo.

Variables categóricas. Son aquellas que provienen de procesos que


involucran clasifiaciones. Por ejemplo la variable sexo o estrato socio-
económico.

Observe que la variable que se genera en un experimento de medición de


presión sanguinea es de naturaleza diferente a la de clasificar personas por
su sexo. La primera se registra en milı́metros de mercurio y además valores
grandes dan la idea de mayor presión sangunı́ea mientra que la segunda se
mide por medio de valores que representan la pertenencia a una categorı́a,
por ejemplo 1=Masculino, 2=femenino, pero el 2 no es mayor que el 1.
La diferencia en la información obtenida permite identificar cuatro niveles
básicos de medición que son:

1. Nominal. Este nivel se utiliza cuando los valores en los que se mide la
variable son códigos que representan la pertenencia a una categorı́a. Por
ejemplo, en un estudio de una cierta enfermedad, el 1 puede representar
su presencia y el 0 su ausencia. Otro ejemplo puede ser estado civil,
1=Casado, 2=Soltero, 3=Unión libre. Observe que no se puede decir
que 3 ¿2. Las variables de tipo nominal no admiten medidas básicas de
resumen.

2. Ordinal. Se usa cuando los valores de una variable informan acerca


de un orden o jerarquı́a. Por ejemplo, se pueden usar los valores 1, 2
y 3 para representar distintas quemaduras, es decir, 1=leve, 2=severa,
3=muy severa. Con este tipo de variables ya tiene sentido establecer
una relación de orden y afirmar que 3 > 2 > 1.

3. Intervalo. Se usa para mediciones de naturaleza cuantitativa que se


hacen con escalas que tienen como base un valor de cero arbitrario. Por
ejemplo un registro de 0 ± C no indica la ausencia de temperatura.

4. Razón. Se usa para mediciones de naturaleza cuantitativa que se hacen


con escalas que tienen como base un valor de cero absoluto. Por ejemplo,
longitud del brazo, estatura, tiempo de duración, número de artı́culos
defectuosos en una linea de producción, presión sanguı́nea.
6

El papel de los computadores en la Estadı́stica


Hace algunos años el trabajo estadı́stico era supremamente difı́cil ya que los
cálculos se debian hacer a mano o usando calculadoras con muchas limitacio-
nes de operatividad; la posibilidad de error humano era alta y era un proceso
tedioso. la construcción de tablas y gráficos se hacia imposible si la base de
datos era muy grande y la imposibilidad de simular procesos estancaron el
desarrollo estadı́stico durante algún tiempo. El advenimiento de los compu-
tadores le dı́o un impulso decisivo y firme a la estadı́stica ya que los procesos
se podian ejecutar más rápido e incluso repetir infinidad de veces. La or-
ganización automatizada de la información ha ubicado a la Estadı́stica en
uno de los peldaños más altos de la investigación hasta tal punto que existen
procesos donde es imprecindible su utilización.

A la par con el desarrollo de las herramientas computacionales se ha crea-


do software altamente especializado; algunos ejemplos son SAS, S-plus y R;
estos programas permiten la ejecución de complejos modelos, la creación de
tablas, la simulación de procesos ası́ como la creación de gráficos de gran
calidad.
El gran crecimiento de Internet permite el intercambio rápido de ideas con
otros grupos de investigación y también el acceso a información de primera
mano ya sea por medio de artı́culos, libros o revistas electrónicas especiali-
zadas.

Actividades

1. Se selecciona de manera aleatoria una persona del grupo. Se le pide que


pase al frente de sus compañeros. Seguidamente el profesor le pregunta
a los demás que den un estimativo de varias carácterı́sticas del sujeto:
Estatura (en cms), Masa (en Kgr), Edad (en años), Perı́metro de su
cintura, Si tiene novia(o). Se anotan una a una las respuestas de los
sujetos. Seguidamente se le preguntan los datos reales al sujeto de expe-
rimentación. Se realizan algunos resúmenes descriptivos y se muestran
algunos gráficos que den cuenta del aspecto de aleatoriedad y error de
estimación.
2. Cada estudiante registra en el computador la siguiente información:
Estatura (en cms), Masa (en Kgr), Edad(en años), Estrato, Gasto se-
7

manal (en pesos), tiene novia(o) (Si o NO), Graduado de colegio públi-
co, privado, otro. Se elaboran algunos resúmenes estadı́sticos usando
el paquete SAS. Se explica sobre la naturaleza de las caracterı́sticas
registradas.

Conceptos básicos de Estadı́stica Descrip-


tiva
Un aspecto importante en Estadı́stica está relacionado con a manera
como la información es presentada y analizada. De este análisis pre-
vio pueden desprenderse diferentes formas de abordar la solución a
determinada pregunta de investigación. Una primera parte consiste en
realizar un adecuado resumen de la información disponible y presen-
tarla en términos de algunas medidas puntuales o de gráficos.

Aspectos principales a tener en cuenta en la descripción de


un conjunto de datos
a) Resumen y descripción de diferentes patrones en los datos por
medio de:
• Presentación de tablas y graficos.
• Examinar de todas las formas posibles los gráficos en busca
de caracterı́sticas de interés.
• Buscar en los datos graficados observaciones inusuales, que se
alejan del grueso de observaciones graficadas.
b) Cálculo de medidas numéricas.
• Valores tı́picos o representativos que den idea de centralidad
o localización.
• La variabilidad presente en los datos.

Descripción de Datos por tablas o gráficos


Distribuciones de frecuencia
8

Cuando se tiene un número considerable de datos, una manera de re-


presentarlos es a través de un agrupamiento en clases. Si los datos son
de tipo discreto o categórico, las clases estarán determinadas por las
escalas de medición de la variable de interés. Sinembargo, si el número
de valores que asume la variable es muy grande, es necesario agrupar
dichos valores en clases. En el caso de variables continuas, es imperati-
vo realizar un agrupamiento de los datos, considerando observaciones
cercanas, en clases o intervalos. El resultado de este agrupamiento es
resumido en una tabla, que usualmente se denomina Tabla de Frecuen-
cias. El procedimiento a seguir ara este proceso es como sigue:

a) Encuentre el mı́nimo y máximo de los valores registrados.


b) Escoja un número de subintervalos o clases de igual longitud, de
manera que cubran el rango de los datos, sin traslaparsen (aunque
es posible construir clases o intervalos de longitudes variables).
Estos intervalos son llamados Intervalos de Clase.
c) Cuente cuantas observaciones están en cada subintervalo. Este
conteo es llamado Frecuencia de Clase.
d) Calcule, para cada clase, la frecuencia relativa. Esta se calcula co-
mo:

Frecuencia de clase
FR = .
Número total de observaciones
La elección del número de clases o intervalos, constituye un proceso de
ensayo y error. Algunas propuestas empı́ricas se han planteado, bus-
cando una selección más o menos adecuada del número de clases. No
se puede establecer que una es superior a otra, sólo pueden utilizarse
como puntos de referencia.

Sturges (1926), establece que el número de clases es K puede ob-


tenerse como K = 1 + 3.33 log10 (n), siendo n el número de datos.
Esta propuesta subestima el número de intervalos.

Velleman (1976), K = 2 n, recomendada cuando n es pequeño
(n ≤ 50)
Dixon y Kronmal (1965), K = 10log10 (n), para n grande (n > 50).
9

En general, se sugiere que entre 5 y 15 clases es un número adecuado


para agrupar los datos. Sinembargo, debe tenerse especial cuidado en
esta selección. Es importante anotar que al agrupar los datos en clases,
se sacrifica la información relacionada con cómo se distribuyen los datos
en cada clase, y se reemplaza por la frecuencia en dicha clase. Si se
tienen pocas clases, la pérdida de información es muy grande. Si se
tienen pocos datos y muchas clases, no se evidenciará ningún tipo de
comportamiento de interés en los datos.
Cuando se tiene un número considerable de datos, es importante esta-
blecer algún tipo de técnica para identificar datos en cada clase (una
puede ser organizando los datos de menor a mayor). Los avances compu-
tacionales han permitido obviar este aspecto.

Ejemplo Se tiene información de un grupo de estudiantes del Curso


Métodos estadı́sticos, donde se registraron, para cada sujeto, la Edad
(en años), el Sexo (M o F), su Masa (en Kgr), su Estatura(en cms),
su Perı́metro en la cintura(en cms), perı́mtro de Pecho(en cms) y el
perı́mtro de la Muñeca. Los datos se muestran a continuación:

EDAD SEXO PESO ESTA CINT PECH MUNE EDAD SEXO PESO ESTA CINT PECH MUNE
25 F 48 160 63 81 14 32 M 70 180 76 99 17
25 F 55 160 68 88 14 29 M 75 180 87 101 17
30 M 57 160 83 87 16 32 F 47 154 72 87 14
33 M 80 180 92 104 17 25 F 56 160 62 92 15
23 F 57 160 72 96 15 24 M 60 168 82 94 15
23 F 44 159 60 85 14 29 F 69 170 79 100 16
27 F 58 172 67 87 15 24 F 83 167 95 109 16
27 M 70 163 88 108 15 28 M 81 176 92 111 17
22 F 57 160 72 92 15 27 M 85 184 97 102 17
26 F 48 152 70 92 14 28 M 11 79 168 104 16
41 M 82 182 98 103 17 38 F 57 156 74 97 14
26 M 50 169 70 82 16 43 M 66 169 84 90 17
45 M 72 168 96 98 16 23 M 60 182 84 82 17

Se elaboran tablas de frecuencias para las variables Edad, Sexo y Es-


tatura.

Solución

Para la variable Sexo. Se elabora una tabla de frecuencias, indicando


el número de hombres y mujeres.
10

En SAS.

Procedimiento FREQ

SEXO Frecuencia Porcentaje


_________________________________
F 12 46.15
M 14 53.85

Fig. 1: Distribución para Sexo

En R.

dat <- read.table(file.choose(), header=T)

> c <- table(dat[,2])


> c
F M
12 14
> barplot(c, col=(’blue’))
11

Fig. 2: Distribución para Sexo

Para la variable Edad. Observe que esta aparece en una escala de razón,
pero con valores enteros. Veamos varias formas de agrupar.

1. Cada valor diferente de la variable Edad es tomado como una clase.

Edad Frecuencia F. Relativa


22 1 0.0384
23 3 0.1154
24 2 0.077
25 3 0.1154
26 2 0.077
27 3 0.1154
28 2 0.077
29 2 0.077
30 1 0.0384
32 2 0.077
33 1 0.0384
38 1 0.0384
41 1 0.0384
43 1 0.0384
45 1 0.0384

Debido a que cada clase representa un valor de la variable, un gráfico


adecuado para este caso consiste en un
Diagrama de Barras (Bar Plot). Los resultados en SAS y R son los
siguientes.

En SAS, usando la parte interactiva.


12

Fig. 3: Distribución para Edad

En R
> dat <- read.table(file.choose(), header=T)
> dat
EDAD SEXO PESO ESTA CINT PECH MUNE
1 25 F 48 160 63 81 14
2 25 F 55 160 68 88 14
3 30 M 57 160 83 87 16
4 33 M 80 180 92 104 17
5 23 F 57 160 72 96 15
.
.
> b <- table(dat[,1])
> b

22 23 24 25 26 27 28 29 30 32 33 38 41 43 45
1 3 2 3 2 3 2 2 1 2 1 1 1 1 1

> barplot(b, col=c(’blue’,’red’,’yellow’,’green’, ’brown’, ’gray’))


13

Fig. 4: Distribución para Edad

2. Se agrupa la información por rangos (8 clases).

Edad Frecuencia F. Relativa


< 24 4 0.1538
24-25 5 0.1923
26-27 5 0.1923
28-29 4 0.1538
30-32 3 0.1154
33-35 1 0.038
36-40 1 0.038
> 40 3 0.1154

Fig. 5: Distribución para Edad

3. Se agrupa la información por rangos (6 clases).

Edad Frecuencia F. Relativa


< 24 4 0.1538
24-25 5 0.1923
26-27 5 0.1923
28-29 4 0.1538
30-35 4 0.1538
> 35 4 0.1538
14

Fig. 6: Distribución para Edad

Para la variable estatura. Usando la regla de Sturges se obtiene


K = 1 + 3.33 log10 (n) = 1 + 3.33 ∗ log10 (26) = 5.71 ≈ 6. Ası́, se consi-
deran 6 clases o intervalos. La mı́nima estatura es 152 y la máxima de
184. Con esto el rango de las estaturas es 32, que dividido por 6, nos
da la amplitud de los intervalos (A = 5.333 ≈ 6). Con esto, el nuevo
rango será de 6 ∗ 6 = 36.
Una propuesta para considerar las nuevas clases se muestra en la figura
7.

Fig. 7: Número de clases para Estatura

Los intervalos de clase que se conforman son:

(150, 156], (156, 162], (162, 168], (168, 174], (174, 180], (180, 186] .

La respectiva tabla de frecuencias está dada por:

Esta Frecuencia F. Relativa


(150, 156] 4 0.1538
(156, 162] 5 0.1923
(162, 168] 5 0.1923
(168, 174] 4 0.1538
(174, 180] 3 0.1154
(180, 186] 1 0.038
15

Fig. 8: Histograma para Estatura

Histogramas hechos con paquetes SAS y R.

Fig. 9: Histograma para Estatura

Aunque no es una regla general una tabla de frecuencias deberia poseer


las siguientes caracteristicas:

a) UNIFORMIDAD: Clases de igual amplitud o de amplitud va-


riable que dependen del tipo de datos.
b) UNICIDAD: Clases no traslapadas.
c) COMPLETEZ: Cada dato pertenece a una y sólo una clase.
16

Actividad 3
Usando los datos recopilados en clase, elaborar para las variables Es-
trato, Masa y Gasto semanal, gráficos que permitan indagar el com-
portamiento de estas tres caracterı́sticas. Debe justificar la elección del
número de clases, elaborar la respectiva tabla de frecuencias y el gráfico
respectivo (ya sea un diagrama de barras o un histograma). Comente
sus resultados.

Representaciones Gráficas
Ejemplo
Se tiene información acerca de un grupo de estudiantes del una uni-
versidad. A cada sujeto se le registra información sobre Estrato socio-
económico, horas dedicadas semanalmente a estudiar, edad, si trabaja
o no y promedio obtenido en el semestre inmediatamente anterior.
Los datos están guardados en el archivo ”induc.txt”. Usando el pa-
quete R se pueden generar diversidad de gráficos dependiendo de las
necesidades del usuario. Algunos son:
Diagramas de barras e histogramas

> ind <- read.table(file.choose(), header=T)


> dim(ind)
[1] 215 5
> ind[1:10,]
Estrato Horas edad trab prom
1 1 28 20 1 3.8
2 1 24 21 1 3.7
3 1 18 19 1 3.9
4 1 20 20 2 3.7
5 1 23 25 2 3.7
6 1 26 18 2 3.6
7 2 12 35 1 3.0
8 2 30 26 1 3.2
9 2 4 32 1 2.9
10 2 9 26 1 3.4

Histogramas para las variables HORAS, EDAD, PROM y un diagrama


de barras para la variable ESTRATO. Algunos comandos del paquete
17

R.

a=table(xm[,4])
a
1 2 3 4 5 6
76 299 389 106 84 46
par(mfrow=c(2,2), new=T)
hist(ind[,2], col=’blue’, main=’Histograma No Horas’, xlab="N_Horas")
hist(ind[,3], col=’red’, main=’Histograma Edad’, xlab="Edad")
hist(ind[,5], col=’cyan’, main=’Histograma promedios’, xlab="Promedio")
barplot(a, xlab="Estrato", main=’Diagrama Estrato’,
col=c(’blue’,’red’,’yellow’,’green’, ’brown’, ’gray’))

Los gráficos resultantes se muestran en la figura 10.

Fig. 10: Histogramas y diagrama de barras

Boxplot
18

par(mfrow=c(2,3), new=T)
boxplot(ind[,2], xlab="N_Horas")
boxplot(ind[,3], xlab="Edad")
boxplot(ind[,5], xlab="Promedio")
boxplot(ind[,2]~ ind[,1], xlab="Estrato", main="N_Horas por Estrato")
boxplot(ind[,3]~ ind[,1], xlab="Estrato", main="Edad por Estrato")
boxplot(ind[,5]~ ind[,1], xlab="Estrato", main="Promedio por Estrato")

Los gráficos resultantes se muestran en la figura 11.

Fig. 11: Box Plot

Gráficos bidimensionales y tridimensionales

Diagramas de dispersión. Los siguientes comandos permiten obtener


gráficos de dispersión por pares y para las tres variables.
19

par(mfrow=c(1,3), new=T)
plot(ind[,5],ind[,2], xlab="N_Horas", ylab="Promedio", type="p", pch=20)
plot(ind[,5],ind[,3], xlab="Edad", ylab="Promedio", type="p", pch=20)
plot(ind[,3],ind[,2], xlab="N_Horas", ylab="Edad", type="p", pch=20)
par(new=F)
pairs(ind[,c(2,3,5)], main="Matrı́z de Dispersión",
labels=c("N_Horas","Edad", "Promedio"))

Los gráficos resultantes se muestran en las figuras 12 y 13.

Fig. 12: Gráficos de Dispersión

Fig. 13: Matriz de Dispersión

Gráficos tridimensionales.
20

Usando SAS se elabora un grafico de dispersión tridimensional Usando


las Variables Horas, Edad y Prom, uno de contornos y una superficie
ajustada. Los graficos respectivos se muestran en la figura 14.

Fig. 14: Graficos Tridimensionales y de contornos

Caras de Chernoff
Podemos realizar este tipo de gráficos usando dos paquetes: aplpack y
TeachingDemos.
Para el primer paquete la función usada es faces

faces(ind[1:16,c(2,3,5)], plot.faces=T, fill=T, face.type=0)


faces(ind[1:16,c(2,3,5)], plot.faces=T, fill=T, face.type=1)
faces(ind[1:16,c(2,3,5)], plot.faces=T, fill=T, face.type=2)

Los gráficos obtenidos se muestran en la figura 15.


21

Fig. 15: Caras de Chernoff

Explicación de los parámetros.


1: altura de la cara, 2: de ancho de la cara, 3: forma de la cara, 4:
altura de la boca, 5: ancho de la boca, 6: curva de la sonrisa, 7: altura
de los ojos, 8: ancho de los ojos, 9: altura del pelo, 10: ancho del pelo,
11: estilo del cabello, 12: altura de la nariz, 13: ancho de la nariz, 14:
ancho de las orejas, 15: altura de las orejas.

Usando el paquete TeachingDemos: faces2(ind[1:12,c(2,3,5)], fill=T) .


El gráfico obtenido se muestra en la figura 16.
22

Fig. 16: Caras de Chernoff

Distribuciones Multivariadas El siguiente código en SAS permite


graficar distribuciones normales bivariadas y algunos contornos.
Macro para graficar normales bivariadas

%macro bivanorm(mu1,mu2,sigma1,sigma2,rho,xmin,xmax,ymin,ymax);
goptions cback=white colors=(black black cyan red lilg rose);
data bivanor;
Pi=3.14159;
sigma1=&sigma1;
sigma2=&sigma2;
mu1=&mu1;
mu2=&mu2;
rho=&rho;
xmin=&xmin;
xmax=&xmax;
ymin=&ymin;
ymax=&ymax;
do x=xmin to xmax by 0.09;
do y=ymin to ymax by 0.09;
z=exp((-1/(2*(1-rho*rho)))*(((x-mu1)/sigma1)*((x-mu1)/sigma1)-
2*rho*(x-mu1)*(y-mu2)/(sigma1*sigma2)+((y-mu2)/sigma2)*((y-mu2)/sigma2)))
/(2*Pi*sigma1*sigma2*sqrt(1-rho*rho));
output;
end;
end;
run;
title c=blue f=xswiss ’Normal Bivariada’;
proc g3d data=bivanor;
plot y*x=z / ctop=black tilt=30;
run;
proc gcontour data=bivanor;
plot y*x=z;
run;
quit;
%mend bivanorm;
%bivanorm(0,0,1,1,0,-3,3,-3,3); %bivanorm(0,0,1,1,0.75,-3,3,-3,3);
%bivanorm(0,0,1,1,-0.75,-3,3,-3,3);
23

Los gráficos resultantes se muestran en la figura 17.

Fig. 17: Gráfico de Normales Bivariadas


24

Análisis descriptivo de un conjunto de n


datos
Suponga que se tienen n datos recopilados sobre una variable y que pue-
den representar los tiempos de duración de una baterı́as para vehı́culo.
Estos datos pueden ser los que aparece a continuación:

2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2
4.5 3.3 3.6 4.4 2.6 3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0
3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5

Este conjunto de datos por si solo no muestra ninguna faceta intere-


sante. A simple vista se puede apreciar un valor mı́nimo y un valor
máximo y que hay algunos valores que se repiten. Por lo tanto es su-
premamente difı́cil tratar de determinar alguna caracterı́stica de interés
de la población de la cual provienen; si el número de datos aumenta es
todavı́a más difı́cil detectar caracterı́sticas importantes. Existen técni-
cas estadı́sticas que permiten extraer información que puede resultar
de algún modo importante para tomar decisiones en un determinado
momento.
Hay dos maneras de analizar estos datos:
a) Datos agrupados: Consiste básicamente en la conformación de
clases de una cierta longitud donde la pertenencia de un dato a
cada clase estará determinada por su valor. Con esta técnica es
posible experimentar perdida de información.
b) Datos sin agrupar: Consiste en manipular los datos tal y como
fueron recopilados.

Medidas numéricas en datos agrupados


Las medidas numéricas descriptivas se dividen en dos: Medidas de
localización y Medidas de dispersión. En las medidas de localiza-
ción se circunscriben las medidas de tendencia central.
25

Medidas de localización y de tendencia central

Estas medidas permiten cuantificar numéricamente, caracterı́sticas de


la población de la cual fueron tomados los datos. Entre las más comunes
se encuentran:

La media muestral para datos agrupados


Es un valor que trata de representar el comportamiento promedio del
onjunto de datos. Corresponde a una estimación de la media poblacio-
nal. En el caso de datos agrupados se define como:
k
P #celdas
P
mi f i marca de clase × Frecuencia de clase
i=1 i=1
X Agrup = = .
n Total Frecuencias

Para ejemplificar, considere el ejemplo de las baterı́as,


k
P
mi f i
i=1
X Agrup =
n
= (1.78 × 2) + (2.24 × 1) + (2.7 × 4) + (3.16 × 12)
+ (3.62 × 11) + (4.08 × 6) + (4.54 × 4)
= 3.4245

La moda muestral para datos agrupados


Es el valor que que presenta mayor frecuencia. Se define como la marca
de clase de la clase con mayor frecuencia absoluta.
En el ejemplo de las baterı́as se tiene que, moda = 3.16 .

Percentiles muestrales para datos agrupados


Los percentiles son aquellos valores abajo y arriba de los cuales se
encuentra una cierta proporción de datos del conjunto. Por ejemplo, el
percentil 10 es aquel valor tal que al menos el 10 % de los datos son
26

inferiores a el y al menos el 90 % de los datos son superiores a el. Si


la caracterı́stica de interés está asociada a una variable X, el percentil
100p %, para 0 < p < 1, suele denotarse por xp . Otra manera de denotar
un percentil, es a través del porcentaje que representa. Por ejemplo, el
percentil 25, suele denotarse como P25 .
Para calcularlo se requiere la columna de frecuencias acumuladas, que
se obtiene de la tabla de frecuencias, usando la siguiente fórmula:
nb
( 100 − a) × h
xp = L + ,
f
donde:

L: Lı́mite inferior de la clase que contiene el percentil.


n: Número de datos.
f : Frecuencia de la clase que contiene el percentil.
a: Frecuencia acumulada del intervalo anterior al del percentil.
h: Longitud de la clase del percentil.
nb
100
: proporción del percentil.
nb
Para identificar la clase del percentil se debe calcular 100 y verificar
cual clase tiene una frecuencia acumulada igual o superior a este valor.
ejemplo
Usando los datos de duración de baterı́as calcule el P50 .
Observe que 50100
×40
= 20; de la tabla de frecuencia que ya se construyó,
se observa que en la columna de frecuencias acumuladas el 30 excede a
20, por lo tanto la clase del percentil será [3.39, 3.85). Ahora bien,

L = 3.39
n = 40
f = 11
a = 19
h = 0.46
b = 50
27

Ası́
(20 − 19) × 0.46
P50 = 3.39 + = 3.43 .
11
Calcular P10 , P25 , P60 , P75 , P90 .
Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentual-
mente iguales. Estos percentiles son llamados Cuartiles y se denotan Q1 , Q2
y Q3 , respectivamente.

Fig. 18: Cuartiles

La mediana

Corresponde al percentil 50. Es usualmente denotada X̃. Su cálculo se realiza


con el mismo procedimiento utilizado en la obtención de los percentiles.

Medidas de dispersión

Estas medidas permiten cuantificar numéricamente, que tan dispersos se en-


cuentran los datos ya sea con respecto a la media o con respecto a las unidades
de medición. Entre las más comunes se encuentran:

La varianza muestral para datos agrupados

Esta medida indica que tanto se alejan los datos respecto de la media. Se
2
denota Sagrup . Se calcula por medio de la siguiente fórmula,
Pk 2
2 i=1 mi − X agrup × fi
Sagrup = .
n
28

Rango intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere
decir que el 50 % de los datos más centrales se encuentra muy disperso.

QRANGE = Q3 − Q1 = P75 − P25


Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercer
cuartil. El nombre de cuartil proviene del hecho de que la unidad se divide
en cuatro partes iguales y el de percentil proviene del hecho de que la unidad
se divide en cien partes iguales.

Cálculo de medidas numéricas para datos no


agrupados
Para el cálculo de estas medidas se consideran todos y cada uno de los da-
tos, por lo cual la perdida de información contenida en la muestra se reduce.
También se dividen en dos: Medidas de localización y Medidas de dis-
persión. En las medidas de localización se circunscriben las medidas de
tendencia central.
Medidas de localización y de tendencia central

Media muestral
. Se define como la suma de todos los elementos de la muestra dividido por el
número de elementos. Cuando la distribución de la cual provienen los datos es
simétrica y no hay presencia de valores extremos, la media muestral se puede
interpretar como un buen representante del conjunto de datos. La media no
necesariamente es un valor del conjunto de observaciones. Se denota con el
sı́mbolo X. Se calcula con la siguiente fórmula,
Pn
Xi
X = i=1 , i = 1, 2, . . . , n
n
Ejemplo (La media es sensible a valores extremos). Considere los ingresos
mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700, 2000,
550, 550. Calcule el ingreso mensual medio.
29

Solución
500 + . . . + 550
x= = 775 .
8
Observe que este valor es mayor a la mayorı́a de las cifras del conjunto de
datos y por lo tanto no es un buen representante de él.
ejemplo Se registra el número de tasas de café consumidas por un empleado
de oficina en un perı́odo de 20 dias:

4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6

Calcule el número promedio de tasas de café.


Solución

82
X̄ = = 4.1
20

Un empleado consume en promedio alrededor de 4 tazas por dia.


La media representa el punto de equilibrio de los datos.
ejemplo Se registran las edades de 15 personas en un grupo.
Estas son: 18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en años).
Calcule la edad promedio de las 15 personas.
Solución
La edad promedio de este grupo es
313
X̄ = = 20.86 ≈ 20.9
15

Si resumimos esta información en una tabla de frecuencia

dato 18 19 20 21 22 23 24
f 1 3 3 3 2 1 2

n
1X
X̄ = fi Xi
n i=1
30

Podemos calcular X̄ usando esta tabla de frecuencias:

18(1) + 19(3) + 20(3) + 21(3) + 22(2) + 23(1) + 24(2)


X̄ =
15
313
X̄ = = 20.9
P15 P
xi f i xi f i
X̄ = = P
15 fi

La media muestral es sensible a datos extremos. En el ejemplo anterior,


suponga que otra persona adicional tiene una edad de 35 años.

313+35 348
La nueva media muestral es X̄ = 16
= 16
= 21.8

Si la edad fuera 45 entonces


313 + 45
X̄ = = 22.4
16

Si la edad fuera 55 entonces


313 + 55
X̄ = = 23
16

Observe que la media muestral tiende a modificarse hacia el valor extremo.

La moda en datos sin agrupar


Se define como el dato que presenta mayor frecuencia en la dstribución de los
datos. Para calcularla se recomienda ordenar la muestra de menor a mayor.
Es posible que un conjunto de datos no tenga moda o que tenga varias modas.
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950
Calcule la moda.
31

Solución
Se puede observar que el conjunto de datos tiene dos modas que son respec-
tivamente: 550 y 750.

Percentiles para datos sin agrupar


Una aproximación a los valores de los percentiles se puede obtener por medio
del siguiente algoritmo que muestra como se calcula el percentil de orden p:

1. Ordene la muestra de menor a mayor

2. Calcule el percentil 100p %, xp como



X k×n +X k×n
 ( 100 ) 2 ( 100 ) Si
+1
 k×n

100
es un natural
xp = ,
k×n

 X [[k×n ]]+1
 Si no es un natural
( 100 ) 100

donde [[ k×n
100
]] representa la parte entera del cociente.

La mediana en datos sin agrupar


Es un valor arriba del cual se encuentra el 50 % de los datos y abajo del cual
se encuentra el otro 50 %. No es tan sensible como X a valores extremos.
Se denota X̃. Para hallarla se deben ordenar los datos de menor a mayor.
Suponga que se tiene el siguiente conjunto de datos X1 , X2 , . . . , Xn , si se or-
denan de menor a mayor se obtiene la siguiente sucesión X(1) , X(2) , . . . , X(n) .
X̃ se calcula por medio de,

 X( n+1
 2 )
Si n es impar
X̃ =
 X( n2 ) +X( n2 +1)

2
Si n es par

Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500,
32

750, 600, 550, 700, 2000, 550, 550. La muestra ordenada es 500, 550, 550,
550, 600, 700, 750, 2000. Calcule la mediana. Solución Como n es par

X( n ) + X( n +1) X(4) + X(5) 550 + 600


2 2
X̃ = = = = 575
2 2 2

Este valor de la mediana es una medida más representativa que X. ejemplo


Considere los siguientes datos ordenados de menor a mayor:

500, 550, 550, 600, 700, 750, 750, 800, 900, 950

Halle el percentil 76 usando el método expuesto arriba.


Solución
K×n
La muestra ya esta ordenada, entonces usando el método anterior 100
=
76×10
100
= 7.6 ∈
/ N ; por lo tanto,

PK = X(8) = 800

Para el ejemplo anterior, de las edades, calcular la mediana. Solución


La mediana se denota X̃ y esta dada por:
(
X n + 1 , si n es impar
X̃ = 2
Xn + Xn + 1
2
2
2
, si n es par

En este caso X̃ = X 15 + 1 = X8 , la observación 8 corresponde a:


2

18 19 19 19 20 20 20 21 21 21 22 22 23 24 24
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15

X8 = 21
Ası́ X̃ = 21
Ahora supongamos que los datos son los siguientes:

18 19 19 19 20 20 20 21 24 25 25 25 25 26 30
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
33

Suponga que hay un dato adicional X16 = 40 La mediana serı́a,

X8 + X9 21 + 24
X̃ = 2
= 2
= 22.5

Note que a medida que aumenta la diferencia entre los datos del centro,
también aumenta la mediana.

Ahora supongamos que

X15 = 55, entonces

X̃ = X8 = 21.

Note que la mediana no se ve afectada por la introducción de un dato extre-


mo o varios.

En este caso decimos que el 50 % de las personas tienen edades inferiores


o iguales a 21 años.

La mediana permite dividir la información en dos partes porcentualmente


iguales.
Si se desea dividir en 4 partes porcentualmente iguales el respectivo valor
que hace parte de la división es llamado CUARTIL en este caso tenemos tres
cuartiles y se denotan Q1 , Q2 , Q3 .

Ası́
Q1 deja el 25 % de la información por debajo de él

Q2 deja el 50 % de la información por debajo de él

Q3 deja el 75 % de la información por debajo de él

Si dividimos en 100 partes porcentualmente iguales, hablaremos de Percentiles.

ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Solución
34

El primer cuartil es el percentil 25.

0.25 (15) = 3.75. El primer cuartil Q1 , debe dejar al menos 4 valores en


ó por debajo de el y 12 valores en ó por encima de el.

Ası́ Q1 = X4 = 19. El percentil 60. (0.6) (15) = 9. Al menos


9 valores en ó por debajo de él y 6 valores en ó por encima de él. En este
caso dicho percentil corresponderı́a al dato 9 X9 = 21. Pero el dato 10
X10 = 21 cumple la misma condición.
En este caso se promedian ambos valores. Como son iguales, el percentil 60
será 21. El 60 % de las personas tienen edades inferiores o iguales a 21
años.
Medidas de dispersión

La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores
grandes de la varianza indican una gran dispersión. Se denota por S 2 . Se
calcula con la siguiente fórmula,
Pn 2
2 i=1 Xi − X
S =
n−1
Interpretar la varianza puede resultar un poco complicado ya que esta expre-
sada en unidades cuadradas; por ejemplo, la varianza podrı́a estar en minutos
cuadrados o en kilogramos cuadrados. Por esta razón se acostumbra reportar
la raı́z cuadrada de la varianza, que recibe el nombre de Desviación estándar.
Si por ejemplo un investigador toma mediciones de temperatura en una re-
gión durante cierto tiempo y al final reporta: ‘Se observó una temperatura
promedio de 28o C con una desviación estándar de 1o C ’quiere decir que al-
gunas veces la temperatura puede bajar hasta 27o C y algunas veces puede
subir hasta 29o C.
Ejemplo
Para los P
datos de las edades, se tiene que:
2 (Xi − 20.9)2
S = 15 − 1
= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85
años.
35

El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan
disperso está el 50 % de los datos más centrales. Se calcula ası́
RANGO INTERCUARTIL = Q3 − Q1 = P75 − P25

Coeficiente de variación
El coeficiente de variación que se define como
S
C.V =
X
Es una fracción de la media muestral. Se usa para comparar la variabilidad
de dos o más conjuntos de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de
hombres de 25 años y otra de niños de 11 años. Tales medidas son,
X adultos = 66 kgs
Sadultos = 4.5 kgs
X niños = 36 kgs
Sniños = 4.5 kgs

Calcule el coeficiente de variación para los adultos y para los niños.


Con los datos anteriores se puede observar que
4.5
C.Vadultos = = 0.0682
66
4.5
C.Vniños = = 0.125
36
Se puede concluir que los pesos de los niños son más variables que los de los
adultos.
Para los datos del problema de las baterı́as, es posible obtener los resultados
que aparecen resumidos y organizados en las tablas que aparecen a continua-
ción:
N X S S2 M ax Q3 X̃ Q1 M in Rango Q3 − Q1
40 3.41 0.70 0.49 4.7 3.85 3.4 3.1 1.6 3.1 0.75

Вам также может понравиться