Академический Документы
Профессиональный Документы
Культура Документы
CAPITULO UNO
Estadstica descriptiva
1.1 Clasificacin de las variables
En cualquier disciplina (desde las ciencias y la ingeniera hasta las leyes y la medicina) se recibe
informacin en forma de datos, de los cuales a menudo es necesario obtener alguna conclusin. De
manera especfica, los cientficos e ingenieros deben disear nuevos productos y sistemas, o bien,
perfeccionar los existentes y disear, desarrollar y mejorar los procesos de produccin. La estadstica
ofrece las herramientas que permiten lograr con xito dichos propsitos.
No es fcil una definicin precisa de estadstica, sin embargo, su materia la han dividido en descriptiva e
inferencial, que desempean funciones distintas pero complementarias en el anlisis estadstico.
La estadstica descriptiva consiste en recopilar, organizar y resumir datos, ya sea en forma tabular, grfica
o numrica. El proceso de hacer predicciones acerca de una poblacin o tomar decisiones basndose en la
informacin contenida en una muestra se llama estadstica inferencial o inferencia estadstica, la que a
su vez comprende el contraste de hiptesis y teora de estimacin.
La esencia de la inferencia estadstica se basa en los conceptos de poblacin y muestra. La poblacin es
cualquier coleccin ya sea de un nmero finito o virtualmente infinito de mediciones acerca de algo de
inters. Mientras que, la muestra es un subconjunto representativo seleccionado de una poblacin. Una
buena muestra es aquella que refleja las caractersticas esenciales de la poblacin de la cual se obtuvo.
A toda caracterstica, cuantificable de alguna forma, que posee la poblacin se le conoce como variable,
se representan con letras maysculas , , , y se clasifican en cualitativas y cuantitativas. A su vez,
cada valor particular de la variable se llama dato, corresponde a nmeros o medidas recopiladas como
resultado de las observaciones y se denotan por letras minsculas y subndice , , , .
Las variables cualitativas son aquellas que se refieren a atributos o cualidades, se dividen en nominales y
ordinales. Las nominales se emplean para diferenciar los objetos o distintas categoras que corresponden a
nombres o cdigos. Las ordinales se utilizan para diferenciar el orden de supremaca de acuerdo con cierto
criterio jerrquico, sus categoras pueden ser nombres o nmeros no cuantificables.
Las variables cuantitativas son aquellas cuyas observaciones resultantes pueden medirse por medio de un
instrumento, se dividen en discretas y continuas. Las discretas corresponden, en general, a recuentos de
unidades asociadas con la poblacin en estudio, con valores en el conjunto 0, 1, 2, 3, . Las continuas
son las que tericamente pueden tomar cualquier valor dentro de un cierto intervalo, esto es, entre dos
mediciones consecutivas de la variable, siempre ser posible obtener otra medicin.
La siguiente tabla ilustra un resumen de las variables y sus divisiones:
variables
cualitativas
cuantitativas
nominales ordinales discretas continuas
Ejemplo 1.
Clasifique las siguientes variables: Fuentes de energa elctrica. Lenguajes de programacin. Rapidez de
transferencia de datos. Sexo. Cantidad de energa elctrica consumida. Tamao de un monitor. Nivel
educativo. Valores de tensin. Eficiencia energtica. Color.
La distribucin o tabla de frecuencias ofrece un resumen compacto y general de los datos, es un arreglo
tabular de las frecuencias nmero de observaciones con que ocurre cada caracterstica en que se han
dividido los datos. La caracterstica puede estar determinada por una cualidad o categora o por un
intervalo llamado tambin clase o intervalo de clase.
La frecuencia o frecuencia absoluta de la categora o intervalo est dada por , 1, 2, , ;
donde representa el nmero total de categoras o intervalos. Anlogamente, las frecuencias
relativas se denotan y calculan por o % 100 , es el nmero total de datos.
Categora
Total
1 100 %
Ejemplo 3. En aos pasados, el Departamento de Personal de una empresa elctrica creci como sigue, en
2006: 46 administrativos, de los cuales 26 eran mujeres; en 2007: aument en 10 mujeres y 3 hombres, en
2008: 32 hombres de un total de 69 administrativos. Obtenga las distribuciones de frecuencias respectiva.
La distribucin de frecuencias para una variable cuantitativa adems depende de la siguiente informacin:
El recorrido o rango es la diferencia entre el dato mayor y el menor, esto es, mayor menor.
Lo ms importante es el nmero de intervalos a utilizar, depende de la cantidad, naturaleza y propsito de
los datos a resumir. En la prctica se obtienen buenos resultados al emplear , pero es ms usada la
frmula de Sturges 1 3.322 log, redondear al entero ms cercano, pues 5 20.
Los extremos de cada intervalo se llaman lmite inferior de clase, , al izquierdo y lmite superior de
clase, , al derecho. Si un intervalo carece de un extremo se llama intervalo de clase abierto. En forma
anloga, se obtienen las fronteras de clase o lmites reales de clase: frontera inferior, , y frontera
superior, , son el promedio entre el lmite superior de una clase y el lmite inferior de la siguiente. La
diferencia entre la frontera de clase superior e inferior se llama longitud o ancho del intervalo de clase.
Se debe destacar que si todos los intervalos de clase de una distribucin de frecuencias tienen el mismo
ancho, ste se denomina amplitud denotado y calculado por
, que debe tener tantos decimales como
Total
1 100 %
Observacin
Una variable cuantitativa discreta se trabaja como una variable continua si los datos son numerosos y muy
diferentes. En otro caso, cada observacin distinta se considera como una clase y su distribucin de
frecuencias es como la anterior: en la primera columna van las diferentes clases y sin la ltima columna.
Ejemplo 4. Los tiempos, en segundos, requeridos para enviar un archivo por mdem estn registrados en
tabla adjunta. Identifique y clasifique la variable en estudio. Realice una tabla de frecuencias.
48.8
48.5
50.6
51.1
49.8
49.9
50.8
52.1
48.6
47.7
47.9
51.8
51.7
48.4
49.7
50.3
50.7
52.0
49.0
50.1
50.7
49.6
48.7
48.0
50.9
50.5
51.2
51.0
50.0
52.3
El grfico de barras simples consiste en una serie de rectngulos barras del mismo ancho, uno por cada
categora, se dibujan separados para enfatizar la diferencia cualitativa existente, ya sea horizontal o
verticalmente. La longitud de la barra indica la frecuencia asociada a la categora respectiva.
Grfico de barras simples para los datos del Ejemplo 3.
Distribucin de los f uncionarios del Departamento de
Personal de una empresa, ao 2006, segn sexo
N funcionarios
Ejemplo 5.
25
20
15
10
5
0
mujeres
s exo
hombres
hom bres
43%
m ujeres
57%
N funcionarios
35
30
m ujeres
25
hom bres
20
15
10
5
0
2006
Ejemplo 8.
ao
2007
2008
N funcionarios
70
60
50
hom bres
40
m ujeres
30
20
10
0
2006
2007
2008
ao
El histograma de frecuencias consiste en una serie de rectngulos adyacentes, uno por cada clase, con
bases en un eje horizontal, centros en las marcas de clase y ancho igual al del intervalo de clase. Si todos
los intervalos tienen el mismo ancho, las alturas de los rectngulos se toman iguales a las frecuencias de
clase, de lo contrario, la altura de cada rectngulo es proporcional a la frecuencia de clase ajustar reas!.
N de funcionarios
8
7
6
5
4
3
2
1
0
47.15
48.15
49.15
50.15
51.15
tiempo (minutos)
52.15
53.15
N de funcionarios
48.15
52.15
53.15
N de funcionarios
20%
5
15%
4
3
10%
2
5%
1
0
0%
47.15
48.15
49.15
50.15
51.15
tiempo (minutos)
52.15
53.15
N relativo funcionarios
25%
7
100%
80%
70%
20
60%
15
50%
40%
10
30%
20%
N acumulado de funcionarios
90%
25
10%
0
0%
47.15
48.15
49.15
50.15
51.15
52.15
53.15
tiempo (minutos)
Ejemplo 13. Ojiva (polgono de frecuencias acumuladas) para los datos del Ejemplo 4.
Distribucin acumulada de los funcionarios de una empresa
segn el tiempo que tardan en llegar a su trabajo
30
100%
80%
70%
20
60%
15
50%
40%
10
30%
20%
N acumulado de funcionarios
90%
25
10%
0
0%
47.15
48.15
49.15
50.15
51.15
52.15
tiempo (minutos)
1
1
Sean , constantes.
1. Si ; 1, 2, , , entonces 1 1 .
1
2. Si ; 1, 2, , , entonces .
3. Si ; 1, 2, , , entonces .
4. Si los datos de una sucesin tienen una importancia relativa o peso respecto de los dems
datos de la sucesin, entonces la media denominada media ponderada es:
1
1
.
1
5. La suma de las desviaciones de los valores observados respecto de la media es cero, es decir:
0.
Observaciones
a. En general, al agrupar los datos se "pierde" precisin en el valor obtenido para la media.
b. La media es "afectada" por datos extremos no compensados atpicos.
Ejemplo 14.
Para los datos del Ejemplo 4, calcule la media aritmtica (datos agrupados y no agrupados), e interprtela.
Ejemplo 15.
En un empresa trabajan 35 hombres con una edad media de 47.5 aos y 15 mujeres, las que, en promedio,
son 12% ms jvenes. Cul es la edad media de los funcionarios de dicha empresa?
Mediana
La mediana es el valor que divide un conjunto ordenado de datos respecto de la magnitud de los valores,
de tal manera que la mitad de los datos es menor y la otra mitad es mayor que l, se denota y calcula por:
1
si es impar
1
para datos no agrupados
si es par
2 2 1
2
2 1
para datos agrupados
donde:
Observaciones
a. El intervalo mediano es aquel cuya frecuencia acumulada contiene a 2 por primera vez.
b. La mediana "no es afectada" por datos extremos no compensados atpicos.
c. La mediana se puede obtener incluso en escalas ordinales.
Ejemplo 16.
Para los datos del Ejemplo 4, calcule la mediana (datos agrupados y no agrupados), e interprtela.
Moda
La moda o modo es el valor, clase o categora de la variable en estudio que se presenta con mayor
frecuencia, se denota por y para datos agrupados se calcula mediante:
1
;
1 2
1 1 ;
2 1
para datos no agrupados
1
2
2
1
y 2 1 2 0.
1
2. Si ; 1, 2, , , entonces
3. Si ; 1, 2, , , entonces
2 2 2 .
4. Si ; 1, 2, , , entonces 2 2 2 2 .
1
, 1
1
Ejemplo 18.
Con los datos del Ejemplo 4, calcule la varianza, para datos agrupados y no agrupados.
Desviacin estndar (desviacin tpica)
En la varianza, al aplicar el cuadrado de las desviaciones, las unidades en que estn los datos, tambin se
expresarn en unidades al cuadrado, lo cual puede no tener sentido. Adems, la diferencia real entre el
dato particular y la media se magnifica. Estas circunstancias condujeron al concepto de desviacin
estndar o tpica, que es la raz cuadrada positiva de la varianza, denotada por , es la medida de
variabilidad de mayor uso. As:
2
1