Вы находитесь на странице: 1из 9

Francisco Novoa Muoz

CAPITULO UNO

Estadstica descriptiva
1.1 Clasificacin de las variables
En cualquier disciplina (desde las ciencias y la ingeniera hasta las leyes y la medicina) se recibe
informacin en forma de datos, de los cuales a menudo es necesario obtener alguna conclusin. De
manera especfica, los cientficos e ingenieros deben disear nuevos productos y sistemas, o bien,
perfeccionar los existentes y disear, desarrollar y mejorar los procesos de produccin. La estadstica
ofrece las herramientas que permiten lograr con xito dichos propsitos.
No es fcil una definicin precisa de estadstica, sin embargo, su materia la han dividido en descriptiva e
inferencial, que desempean funciones distintas pero complementarias en el anlisis estadstico.
La estadstica descriptiva consiste en recopilar, organizar y resumir datos, ya sea en forma tabular, grfica
o numrica. El proceso de hacer predicciones acerca de una poblacin o tomar decisiones basndose en la
informacin contenida en una muestra se llama estadstica inferencial o inferencia estadstica, la que a
su vez comprende el contraste de hiptesis y teora de estimacin.
La esencia de la inferencia estadstica se basa en los conceptos de poblacin y muestra. La poblacin es
cualquier coleccin ya sea de un nmero finito o virtualmente infinito de mediciones acerca de algo de
inters. Mientras que, la muestra es un subconjunto representativo seleccionado de una poblacin. Una
buena muestra es aquella que refleja las caractersticas esenciales de la poblacin de la cual se obtuvo.
A toda caracterstica, cuantificable de alguna forma, que posee la poblacin se le conoce como variable,
se representan con letras maysculas , , , y se clasifican en cualitativas y cuantitativas. A su vez,
cada valor particular de la variable se llama dato, corresponde a nmeros o medidas recopiladas como
resultado de las observaciones y se denotan por letras minsculas y subndice , , , .
Las variables cualitativas son aquellas que se refieren a atributos o cualidades, se dividen en nominales y
ordinales. Las nominales se emplean para diferenciar los objetos o distintas categoras que corresponden a
nombres o cdigos. Las ordinales se utilizan para diferenciar el orden de supremaca de acuerdo con cierto
criterio jerrquico, sus categoras pueden ser nombres o nmeros no cuantificables.
Las variables cuantitativas son aquellas cuyas observaciones resultantes pueden medirse por medio de un
instrumento, se dividen en discretas y continuas. Las discretas corresponden, en general, a recuentos de
unidades asociadas con la poblacin en estudio, con valores en el conjunto 0, 1, 2, 3, . Las continuas
son las que tericamente pueden tomar cualquier valor dentro de un cierto intervalo, esto es, entre dos
mediciones consecutivas de la variable, siempre ser posible obtener otra medicin.
La siguiente tabla ilustra un resumen de las variables y sus divisiones:
variables
cualitativas
cuantitativas
nominales ordinales discretas continuas
Ejemplo 1.
Clasifique las siguientes variables: Fuentes de energa elctrica. Lenguajes de programacin. Rapidez de
transferencia de datos. Sexo. Cantidad de energa elctrica consumida. Tamao de un monitor. Nivel
educativo. Valores de tensin. Eficiencia energtica. Color.

Francisco Novoa Muoz

1.2 Presentacin tabular y grfica de los datos

La distribucin o tabla de frecuencias ofrece un resumen compacto y general de los datos, es un arreglo
tabular de las frecuencias nmero de observaciones con que ocurre cada caracterstica en que se han
dividido los datos. La caracterstica puede estar determinada por una cualidad o categora o por un
intervalo llamado tambin clase o intervalo de clase.
La frecuencia o frecuencia absoluta de la categora o intervalo est dada por , 1, 2, , ;
donde representa el nmero total de categoras o intervalos. Anlogamente, las frecuencias
relativas se denotan y calculan por o % 100 , es el nmero total de datos.

Redondeo (aproximacin) de datos


El resultado de redondear 3.96 a enteros unidades es 4, pues 3.96 est ms cerca de 4 que de 3.
Anlogamente, 2.9715 se redondea en dcimas un decimal a 3.0; en centsimas dos decimales a 2.97;
pero al redondearlo en milsimas tres decimales se presenta un dilema, pues est equidistante de 2.971 y
de 2.972. La costumbre es redondear al nmero que termine en par, as, se redondea a 2.972.
Al efectuar cualquier operacin entre nmeros, el resultado no puede tener ms decimales significativos
que el operando con menor cantidad de ellos.
Ejemplo 2. Redondee 30 y log30 a enteros, dcimas, centsimas, milsimas y a cuatro decimales.
Para una variable cualitativa, su distribucin de frecuencias est dada por la siguiente tabla:
Categoras de la variable estudiada Frecuencia absoluta Frecuencia relativa o %
1
Categora 1
1

Categora

Total

1 100 %
Ejemplo 3. En aos pasados, el Departamento de Personal de una empresa elctrica creci como sigue, en
2006: 46 administrativos, de los cuales 26 eran mujeres; en 2007: aument en 10 mujeres y 3 hombres, en
2008: 32 hombres de un total de 69 administrativos. Obtenga las distribuciones de frecuencias respectiva.
La distribucin de frecuencias para una variable cuantitativa adems depende de la siguiente informacin:
El recorrido o rango es la diferencia entre el dato mayor y el menor, esto es, mayor menor.
Lo ms importante es el nmero de intervalos a utilizar, depende de la cantidad, naturaleza y propsito de
los datos a resumir. En la prctica se obtienen buenos resultados al emplear , pero es ms usada la
frmula de Sturges 1 3.322 log, redondear al entero ms cercano, pues 5 20.
Los extremos de cada intervalo se llaman lmite inferior de clase, , al izquierdo y lmite superior de
clase, , al derecho. Si un intervalo carece de un extremo se llama intervalo de clase abierto. En forma
anloga, se obtienen las fronteras de clase o lmites reales de clase: frontera inferior, , y frontera
superior, , son el promedio entre el lmite superior de una clase y el lmite inferior de la siguiente. La
diferencia entre la frontera de clase superior e inferior se llama longitud o ancho del intervalo de clase.
Se debe destacar que si todos los intervalos de clase de una distribucin de frecuencias tienen el mismo
ancho, ste se denomina amplitud denotado y calculado por
, que debe tener tantos decimales como

Francisco Novoa Muoz 3


la observacin que posee ms decimales, si es necesario redondear, se redondea al nmero superior
(es decir, hacia arriba).
Independiente de la forma en que se obtuvo el ancho de cada intervalo, el primer intervalo debe contener
al menor de los datos menor y el ltimo intervalo debe contener al mayor mayor .
La marca de clase del intervalo , es el punto medio de dicho intervalo, para 1, 2, , .
La frecuencia acumulada absoluta y la frecuencia acumulada relativa del intervalo , es la
suma de las primeras frecuencias absolutas o relativas, respectivamente, para 1, 2, , .
As, para una variable cuantitativa, su distribucin de frecuencias est dada por la siguiente tabla:
Intervalos o Fronteras
o % o %
1 1 1 1


Total

1 100 %

Observacin
Una variable cuantitativa discreta se trabaja como una variable continua si los datos son numerosos y muy
diferentes. En otro caso, cada observacin distinta se considera como una clase y su distribucin de
frecuencias es como la anterior: en la primera columna van las diferentes clases y sin la ltima columna.
Ejemplo 4. Los tiempos, en segundos, requeridos para enviar un archivo por mdem estn registrados en
tabla adjunta. Identifique y clasifique la variable en estudio. Realice una tabla de frecuencias.
48.8
48.5

50.6
51.1

49.8
49.9

50.8
52.1

48.6
47.7

47.9
51.8

51.7
48.4

49.7
50.3

50.7
52.0

49.0
50.1

50.7
49.6

48.7
48.0

50.9
50.5

51.2
51.0

50.0
52.3

La representacin grfica de una distribucin de frecuencias depende de la informacin que se maneje. El


grfico de barras simples, el grfico sectorial y el grfico de barras divididas agrupadas se utilizan
para variables cualitativas. El histograma y el polgono se utilizan para variables cuantitativas.
Las representaciones grficas de datos deben ser autoexplicativas, es decir, deben tener un ttulo,
escalas apropiadas y rtulos adecuados en los ejes cuando corresponda.

El grfico de barras simples consiste en una serie de rectngulos barras del mismo ancho, uno por cada
categora, se dibujan separados para enfatizar la diferencia cualitativa existente, ya sea horizontal o
verticalmente. La longitud de la barra indica la frecuencia asociada a la categora respectiva.
Grfico de barras simples para los datos del Ejemplo 3.
Distribucin de los f uncionarios del Departamento de
Personal de una empresa, ao 2006, segn sexo

N funcionarios

Ejemplo 5.

25
20
15
10
5
0
mujeres

s exo

hombres

Francisco Novoa Muoz 4


El grfico sectorial o circular consiste en un crculo dividido en sectores circulares cuyas reas
representan la proporcin de cada una de las categoras. Como un crculo encierra un total de 360,
entonces a la categora le corresponde un ngulo de centro dado por 3.6 % , 1, 2, , .
Ejemplo 6.

Grfico sectorial para los datos del Ejemplo 3.


Distribucin de los f uncionarios del Departamento de Personal
de una empresa, ao 2006, segn sexo

hom bres
43%

m ujeres
57%

El grfico de barras divididas agrupadas compara en un mismo grfico dos o ms caractersticas


relacionadas, para diferentes categoras. Tales caractersticas se representan en barras contiguas (en una
misma barra) y distinguible una de otra. La altura indica la frecuencia asociada a la categora respectiva.
Ejemplo 7.

Grfico de barras divididas de la empresa del Ejemplo 3.


Distribucin de los funcionarios del Departamento
de Personal de una empresa por sexo segn ao

N funcionarios

35
30

m ujeres

25

hom bres

20
15
10
5
0
2006

Ejemplo 8.

ao

2007

2008

Grfico de barras agrupadas de la empresa del Ejemplo 3.


Distribucin de los funcionarios del Departamento de
Personal de una empresa por sexo segn ao

N funcionarios

70
60
50

hom bres

40

m ujeres

30
20
10
0
2006

2007

2008

ao

El histograma de frecuencias consiste en una serie de rectngulos adyacentes, uno por cada clase, con
bases en un eje horizontal, centros en las marcas de clase y ancho igual al del intervalo de clase. Si todos
los intervalos tienen el mismo ancho, las alturas de los rectngulos se toman iguales a las frecuencias de
clase, de lo contrario, la altura de cada rectngulo es proporcional a la frecuencia de clase ajustar reas!.

Francisco Novoa Muoz


Ejemplo 9.

Histograma de frecuencias para los datos del Ejemplo 4.

N de funcionarios

Dis tribucin de los funcionarios de una em pres a s egn


el tiem po que tardan en llegar a s u trabajo

8
7
6
5
4
3
2
1
0
47.15

48.15

49.15
50.15
51.15
tiempo (minutos)

52.15

53.15

El polgono de frecuencias es un grfico de lneas cerrado en coordenadas cartesianas. Se construye


colocando un punto sobre cada marca de clase a una altura igual a la frecuencia asociada a esa clase,
siempre que todos los intervalos tengan el mismo ancho; luego dichos puntos se unen por segmentos de
recta. Para cerrar el polgono se consideran intervalos al inicio y al final con frecuencia cero. El rea del
polgono as formado es equivalente a la del histograma.
Ejemplo 10.

Polgono de frecuencias para los datos del Ejemplo 4.

N de funcionarios

Distribucin de los funcionarios de una empresa


segn el tiempo que tardan en llegar a su trabajo
8
7
6
5
4
3
2
1
0
47.15

48.15

49.15 50.15 51.15


tiempo (minutos)

52.15

53.15

El histograma y el polgono tambin pueden estar referidos a frecuencias relativas y a acumuladas:


La forma del histograma de frecuencias relativas es similar al de frecuencias, slo hay diferencia en la
escala del eje vertical, la cual es sustituida por la escala de frecuencias relativas. Se acostumbra utilizar un
mismo histograma para representar ambas frecuencias, empleando dos ejes verticales; uno a la izquierda
para registrar las frecuencias absolutas y otro a la derecha para representar las frecuencias relativas. En
cuanto al polgono se hace una consideracin semejante a la indicada para el histograma.
Ejemplo 11. Histograma de frecuencias relativas para los datos del Ejemplo 4.
Distribucin relativa de los funcionarios de una empresa
segn el tiempo que tardan en llegar a su trabajo
8

N de funcionarios

20%

5
15%
4
3

10%

2
5%
1
0

0%
47.15

48.15

49.15

50.15

51.15

tiempo (minutos)

52.15

53.15

N relativo funcionarios

25%
7

Francisco Novoa Muoz 6


Los histogramas de frecuencias acumuladas se construyen con el mismo procedimiento establecido en la
confeccin del histograma de frecuencias. El polgono que se obtiene al unir por segmentos de recta los
puntos situados a una altura igual a la frecuencia acumulada a partir de la marca de clase como se hizo con
el polgono de frecuencias recibe el nombre de ojiva. La frecuencia acumulada relativa tambin se ilustra
con el empleo del mismo histograma de frecuencia acumulada; igual situacin sucede con la ojiva.
Ejemplo 12. Histograma de frecuencias acumuladas para los datos del Ejemplo 4.
Distribucin acumulada de los funcionarios de una empresa
segn el tiempo que tardan en llegar a su trabajo
30

100%

80%
70%

20

60%
15

50%
40%

10

30%
20%

N relat acum de funcionarios

N acumulado de funcionarios

90%
25

10%
0

0%
47.15

48.15

49.15

50.15

51.15

52.15

53.15

tiempo (minutos)

Ejemplo 13. Ojiva (polgono de frecuencias acumuladas) para los datos del Ejemplo 4.
Distribucin acumulada de los funcionarios de una empresa
segn el tiempo que tardan en llegar a su trabajo
30

100%

80%
70%

20

60%
15

50%
40%

10

30%
20%

N acumul relativo funcionarios

N acumulado de funcionarios

90%
25

10%
0

0%
47.15

48.15

49.15

50.15

51.15

52.15

tiempo (minutos)

1.3 Medidas de posicin


Una medida de tendencia central o de posicin es un nmero que se toma como orientacin para referirse
a un conjunto de datos y resume una caracterstica de la variable en estudio; por ello, se dice ser una
medida representativa del conjunto de datos y debido a esto es a que existen varias alternativas.
Media
La media o media aritmtica representa el centro fsico del conjunto de datos, se denota y calcula por:

1
1

para datos no agrupados sueltos


para datos agrupados distribucin de frecuencias

Francisco Novoa Muoz


Propiedades de la media aritmtica

Sean , constantes.

1. Si ; 1, 2, , , entonces 1 1 .
1

2. Si ; 1, 2, , , entonces .
3. Si ; 1, 2, , , entonces .

4. Si los datos de una sucesin tienen una importancia relativa o peso respecto de los dems
datos de la sucesin, entonces la media denominada media ponderada es:
1
1
.

1

5. La suma de las desviaciones de los valores observados respecto de la media es cero, es decir:
0.

Observaciones
a. En general, al agrupar los datos se "pierde" precisin en el valor obtenido para la media.
b. La media es "afectada" por datos extremos no compensados atpicos.

Ejemplo 14.
Para los datos del Ejemplo 4, calcule la media aritmtica (datos agrupados y no agrupados), e interprtela.
Ejemplo 15.
En un empresa trabajan 35 hombres con una edad media de 47.5 aos y 15 mujeres, las que, en promedio,
son 12% ms jvenes. Cul es la edad media de los funcionarios de dicha empresa?
Mediana
La mediana es el valor que divide un conjunto ordenado de datos respecto de la magnitud de los valores,
de tal manera que la mitad de los datos es menor y la otra mitad es mayor que l, se denota y calcula por:

1
si es impar

1
para datos no agrupados
si es par
2 2 1
2

2 1
para datos agrupados

donde:

dato ordenado que ocupa el -simo lugar, 1, 2, , .

es la frontera inferior lmite real inferior del intervalo mediano.

1 es la frecuencia acumulada del intervalo que precede al intervalo mediano.

es la frecuencia del intervalo mediano.

es el ancho del intervalo mediano.

Observaciones
a. El intervalo mediano es aquel cuya frecuencia acumulada contiene a 2 por primera vez.
b. La mediana "no es afectada" por datos extremos no compensados atpicos.
c. La mediana se puede obtener incluso en escalas ordinales.

Francisco Novoa Muoz

Ejemplo 16.
Para los datos del Ejemplo 4, calcule la mediana (datos agrupados y no agrupados), e interprtela.
Moda
La moda o modo es el valor, clase o categora de la variable en estudio que se presenta con mayor
frecuencia, se denota por y para datos agrupados se calcula mediante:
1

;
1 2

1 1 ;

2 1

donde: es la frontera inferior lmite real inferior del intervalo modal.


es el ancho del intervalo modal.
Observaciones
a. El intervalo modal es aquel con la mayor frecuencia absoluta.
b. La moda "puede no existir" y si existe, "puede no ser nica".
c. Una distribucin que tiene una sola moda, se llama "unimodal", si posee dos, se llama "bimodal".
d. La moda es el nico estadgrafo que puede determinarse para variables cualitativas nominales.
Ejemplo 17.
Para los datos del Ejemplo 4, calcule la moda (datos agrupados y no agrupados), e interprtela.

1.4 Medidas de variabilidad


Una medida de variabilidad es un nmero que indica el grado de dispersin en un conjunto de datos. Si
este valor es pequeo respecto de la unidad de medida, entonces hay una gran uniformidad entre los datos,
en caso contrario, indica poca uniformidad. Las medidas ms comunes son la varianza y el rango.
La varianza es el promedio de los cuadrados de los desvos de las observaciones respecto de la media,
denotada y calculada mediante:


para datos no agrupados

1
2

2
1

para datos agrupados

Propiedades de la varianza Sean , constantes.


2
1. 2 1 2 .
1

y 2 1 2 0.
1

2. Si ; 1, 2, , , entonces

3. Si ; 1, 2, , , entonces

2 2 2 .

4. Si ; 1, 2, , , entonces 2 2 2 2 .
1

Aparece un nuevo concepto de gran importancia en el anlisis estadstico llamado covarianza


muestral de e , se denota y calcula por:

, 1
1

Francisco Novoa Muoz

Ejemplo 18.
Con los datos del Ejemplo 4, calcule la varianza, para datos agrupados y no agrupados.
Desviacin estndar (desviacin tpica)
En la varianza, al aplicar el cuadrado de las desviaciones, las unidades en que estn los datos, tambin se
expresarn en unidades al cuadrado, lo cual puede no tener sentido. Adems, la diferencia real entre el
dato particular y la media se magnifica. Estas circunstancias condujeron al concepto de desviacin
estndar o tpica, que es la raz cuadrada positiva de la varianza, denotada por , es la medida de
variabilidad de mayor uso. As:

2
1

para datos no agrupados

para datos agrupados

Propiedad de la desviacin estndar


Sean , constantes. Si ; 1, 2, , , entonces .
Ejemplo 19.
Para los datos del Ejemplo 4, calcule la desviacin estndar, con los datos agrupados y no agrupados, e
interprtela.
Coeficiente de variacin
El coeficiente de variacin representa el porcentaje que la desviacin estndar es respecto de la media
aritmtica, est dado por:
100%
El coeficiente de variacin es una medida adimensional que se emplea fundamentalmente para:
a. determinar si cierta media es consistente con cierta varianza,
b. comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de medida,
c. comparar la variabilidad entre dos grupos de datos obtenidos por dos o ms personas distintas,
d. comparar la variabilidad entre dos grupos de datos que tienen distinta media.
Ejemplo 20.
Para los datos del Ejemplo 4, calcule el coeficiente de variacin, con los datos agrupados y no agrupados,
e interprtelo.

Вам также может понравиться