Вы находитесь на странице: 1из 36

E8CUELA 8UPEROR POLTECNCA DE

CHMBORAZO


FACULTAD DE ADMINISTRACIN DE EMPRESAS



MDULO DE:
MAN1O tNFOHMACtON STAtSTtCA


Ing. Fredy Naranjo

Dic 2011
&nidad I.- INTROD&IN A LA ESTADISTIA


INTROD&IN

El mundo de los negocios, y en general cualquier actividad humana, se maniIiesta
Iundamentalmente a traves de datos de diIerentes tipos, los cuales requieren, de acuerdo con su
naturaleza, un tratamiento particular. Del correcto manejo de la inIormacion depende en gran
medida el exito de una organizacion, de un negocio, de una investigacion cientiIica o social, de un
acuerdo comercial asi como de una decision individual. De aqui la importancia de contar con
instrumentos que permitan establecer con claridad que elementos u observaciones se van a
considerar , que atributos se desea conocer de ellos, como se les va a medir, que tratamiento se
puede dar a los datos, que usos se piensa dar a la inIormacion generada y como puede esta
interpretarse correctamente.
En toda investigacion cientiIica y, en general, en la toma de decisiones de cualquier actividad
humana, se requiere tener inIormacion. Por ejemplo, en demograIia, interesa conocer la edad al
momento de contraer matrimonio, el numero de hijos, la longevidad, etc. Del mismo modo, en
economia interesa conocer el ingreso de las personas, su situacion ocupacional, su nivel
socioeconomico; si se trata de empresas, interesan los capitales, ganancias, etc. En salud, es
importante tener inIormacion sobre desnutricion inIantil, incidencia de determinadas enIermedades,
numero de prestaciones hospitalarias, entre muchas otras variables.


Q&A ES LA ESTADISTIA?

Rama de las matematicas que se encarga del desarrollo de los procedimientos y metodos cientiIicos
para la recopilacion, organizacion, presentacion y analisis de datos asi como de su transIormacion
en inIormacion e interpretacion de la misma para la toma de decisiones

OB1ETIVO

El proposito de la estadstica es darles sentido o carcter a los datos recolectados, es decir,
mediante la aplicacion de la estadistica se busca que los datos nos puedan dar una idea de una
situacion dada para, con base en ella, tomar decisiones

LASIFIAIN DE LA ESTADISTIA

La estadistica tiene dos grandes ramas: Descriptiva e InIerencial.
- Estadistica Descriptiva analiza las caracteristicas de una poblacion o muestra
deIiniendose unas propiedades acerca de su estructura y composicion.
Rama de la estadistica que se encarga del desarrollo y aplicacion de procedimientos
para presentar y describir colecciones de datos a traves de indicadores numericos y
graIicos

- Estadistica Inferencial basandose en los resultados obtenidos de una muestra induce o
estima las leyes reales de comportamiento de la poblacion de la que proviene dicha
muestra.
Rama de la estadistica que tiene como objetivo aplicar los resultados de estudios de una
muestra a la poblacion y emitir juicios o conclusiones sobre esa poblacion en general.

onceptos y definiciones bsicas

- !4-lacion son todos y cada uno de los elementos que se quieren analizar. Puede ser
Iinita o inIinita( en realidad las poblaciones inIinitas no existen, pero cuando se trata de
un numero grande se trata como si lo Iuera).

- :estra es un subconjunto de la poblacion o parte de la poblacion que se observa.

- aracteristica de una poblacion es la propiedad que se estudia.

- Parametro Es una propiedad o cualidad de la poblacion que puede expresarse
numericamente.

- 'aria-les es cualquier caracteristica cuantitativa ( valor numerico) de una poblacion .

- D42ini4 de la variable son los valores que toma

- #ec4rrid4 de la variable es la diIerencia entre el valor mayor y el menor de los que
toma la variable.


- tri-:t4s son caracteristicas de la poblacion no susceptibles de cuantiIicacion numerica.
Ejemplo.: Color del pelo, los atributos se designan con letras A, B, C, .......y sus valores
Aa
1
, a
2,
.............., a
n
}.

&NIDAD II. MEDIIN ESTADISTIA Y M&ESTREO

MEDIIN. Es el proceso sistematico que asigna numeros o cualidades a individuos, de manera
que reIlejen las caracteristicas deseadas de ellos, se reIiere entonces a la cuantiIicacion o
cualiIicacion de las variables contenidas en una investigacion.



VARIABLES.
&na vez Iormulado el tema de investigacion y las hipotesis a comprobar, es necesario identiIicar las
llamadas variables que nos van a permitir describir y explicar el problema.
Variable, son Son las caracteristicas o cualidades del objeto de analisis, susceptible de asumir
diIerentes valores cuantitativos o cualitativos, ejemplos:

Estatura, edad, numero de hijos, capital, etc

Las variables pueden clasiIicarse de la siguiente manera:

POR S& NAT&RALEZA

Es conveniente clasiIicar las variables de acuerdo al conjunto de valores posibles que ellas puedan
tener. Los valores de las variables edad, capital, numero de hijos, se expresan en Iorma numerica.
En cambio presencia de deIectos, sabor, posicion politica muestran una cualidad del elemento y no
pueden expresarse numericamente, salvo de manera artiIicial. Entonces podemos distinguir dos
tipos de variables:

Variables cualitativas o no numericas.

Variables cuantitativas o numericas.


Las variables edad y numero de hijos, son cuantitativas. Sin embargo, el numero de hijos puede
tomar los valores 0,1,2,..., vale decir, un entero no negativo. No tiene sentido hablar de valores
intermedios como 1.3 hijos. Por el contrario, si bien la edad se expresa en aos cumplidos, esto lo
podemos reIinar usando meses, dias, horas, minutos, segundos, etc. O sea, entre dos valores
cualesquiera de la variable edad, por cercanos que sean, existe siempre un valor intermedio

Esto nos sugiere, que las variables cuantitativas pueden ser clasiIicadas segun los valores que
tomen. Por tanto si una variable cuantitativa toma valores en un conjunto Iinito o inIinito
numerable, careciendo de sentido valores intermedios, la denominaremos ;ariable discreta. Ahora
si una variable cuantitativa toma valores en un rango o intervalo (es decir, si dados dos valores
cualesquiera de la variable, siempre existe un valor intermedio) diremos que ella es una ;ariable
continua.


- 'aria-le Discreta cuando toma un numero Iinito de valores o bien cuando toma
inIinitos y son numerables es decir entre dos no hay otro intermedio. Ejemplo: la edad,
las notas, ......

El numero de hijos que tiene una pareja es, por ejemplo, un dato discreto. &na pareja
puede tener 1, 2, 3 hijos, etc.; pero no tiene sentido decir que tienen 2.3657 hijos. &na
persona puede tomar 1, 2, 3, 4, etc., baos por semana, pero tampoco tiene sentido decir
que toma 4.31 baos por semana.

- 'aria-le c4ntin:a cuando entre dos valores cualesquiera siempre puede haber otro.
Ejemplo: Talla, peso,......
Podemos decir, por ejemplo, que el peso de una persona es de 67 Kg.; pero si medimos
con mas precision, tal vez inIormemos que el peso es en realidad de 67.453 Kg. y si
nuestra bascula es muy precisa podemos anotar un mayor numero de decimales.

- 'aria-le :nidi2ensi4nal Estudia solo una caracteristica de la poblacion. Ejemplo:
Estudiar el peso (X)

- 'aria-le -idi2ensi4nal Estudia dos caracteristicas de una poblacion. Ejemplo
Estatura(X) y peso (Y)

- 'aria-le infidi2ensi4nal estudiaria inIinitas caracteristicas

Hay situaciones en que necesitamos inIormacion sobre los valores de ciertas variables de interes en
cada uno de los elementos de la poblacion. Por ejemplo, la estructura exacta de las edades en la
poblacion chilena, solo puede conocerse determinando la edad de cada uno de los habitantes de
Chile. La determinacion de los valores de una o mas variables de interes, en cada uno de los
elementos de una poblacion, es una actividad que llamaremos censo.

POR S& POSIIN RESPETO A OTRAS VARIABLES

DEPENDIENTES. Buscan explicar el Ienomeno en sus eIectos o consecuencias
INDEPENDIENTES. Son variables que inIluyen en las variables dependientes y representan las
causas.

ESALAS DE MEDIDA

- Escala n42inal la caracteristica estudiada se clasiIica en una serie de caracteristicas no
numericas y mutuamente excluyentes y no se puede establecer ningun orden entre ellos
y no puede tomar un valor intermedio. Ejemplo : genero humano (masculino o
Iemenino)

- Escala 4rdinal el caracter medido no es numerico pero puede establecerse algun tipo de
orden, no reIleja la distancia entre una y otra categoria. Ejemplo: nivel de estudios de
una persona.

- Escala de interval4s la caracteristica puede cuantiIicarse numericamente,
estableciendose intervalos entre dos operaciones. Tiene un cero relativo, el cual no
indica ausencia total del atributo que se mide Ejemplo: rendimiento academico
&n ejemplo de este tipo de escalas es la de los grados Celsius o centigrados que se usan
para medir la temperatura. En ella el cero es el punto de congelacion del agua y, sin
embargo, existen temperaturas mas Irias que se miden mediante numeros negativos. En
esta escala se pueden hacer comparaciones por medio de diIerencias o de sumas.
Podemos decir, por ejemplo, que hoy la temperatura del agua de una alberca esta cuatro
grados mas Iria que ayer; pero no se pueden hacer comparaciones por medio de
porcentajes ya que no hay lugar a dividir en las escalas de intervalo. Si la temperatura
ambiente el dia de hoy es de diez grados, y el dia de ayer Iue de veinte grados, no
podemos decir que hoy hace el doble de Irio que ayer. Solo podriamos decir que hoy
hace mas Irio y que la temperatura es 10 grados menor que ayer.

- Escala de #a:4nes y pr4p4rci4nes Posee las misma caracteristicas de una escala de
intervalos con la diIerencia que posee un cero absoluto. Ejemplo: edad, peso , tiempo.

Encontramos un ejemplo de esta escala cuando medimos la estatura de las personas, expresada en
centimetros por ejemplo, ya que si existe el cero absoluto, ademas de que si se pueden Iormar
cocientes que nos permiten aIirmar que alguien mide el doble.

M&ESTREO

Cuando no es posible investigar a todos los elementos de una poblacion se opera mediante la
tecnica de muestreo, seleccionando un tamao de muestra representativo por medio de las diIerentes
tecnicas o tipos de muestreo

















En la practica, los metodos de seleccion empleados suelen ser mas complejos, pero la idea basica es
el uso del azar.
M&ESTREO SIMPLE.- Consiste en seleccionar las unidades muestrables utilizando medios
mecanicos o juegos de azar, ruletas , dados, etc.

M&ESTREO ESTRATIFICADO.- Proceso En el cual seleccionamos muestras al azar de los
diversos estratos en que se han dividido previamente a la poblacion. Los estratos son partes o
secciones que tienen caracteristicas comunes particulares aparte de la caracteristica comun de los
miembros de una poblacion.

ESTRATIFICADO &NIFORME.- Coonsiste en seleccionar el mismo numero de elementos de cada
estrato, dividiendo la muestra general para el numero de estratos.

ESTRATIFICADO PROPORCIONAL.- Determina el numero que representara a cada estrato en
proporcion directa al numero de integrantes que tiene cada estrato.
Para esto se debe calcular la Iraccion muestral I.



=
n


Multiplicar la Iraccion muestral por el numero de elementos de cada estrato.

M&ESTREO POR CONGLOMERADOS.-
Es similar al estratiIicado pero en este caso se trata de una estratiIicacion cartograIica o de grupos
de elementos que no han sido clasiIicados previamente. Los conglomerados son heterogeneos
mientras que los estratos tienden a una homogeneidad.

M&ESTREO SISTEMATICO O EN SERIE.-
Calculamos el intervalo de seleccion, dividiendo el tamao de la poblacion para el tamao de la
muestra, esto es:

=

n

F intervalo de seleccion.
Sorteamos un numero de 0 hasta el que nos indique el intervalo de seleccion, y este sera el primer
elemento escogido. Luego sumamos este primer numero mas el intervalo de seleccion, siendo este
el segundo numero y si sucesivamente vamos obteniendo los demas elementos hasta llegar al limite
del universo.

M&ESTREO EN ETAPAS MULTIPLES.-
Cuando el resultado obtenido en la primera muestra no es satisIactorio, es necesario extraer una
segunda muestra o mas muestras para el analisis.

M&ESTREO NO PROBABILISTICO.- Conocido como empirico, es el que no asegura una
representatividad de la muestra, no tiene validez cientiIica, interviene la subjetividad del
investigador.
M&ESTREO ACCIDENTAL O DECISIONAL.- Es el que utiliza un determinado grupo por asi
convenir a la investigacion, es la Iorma mas deIiciente de muestreo.

M&ESTREO A CRITERIO O INTENCIONAL.- Se escoge deliberadamente a un grupo del que se
conoce sus caracteristicas para provocar un resultado con el Iin de predecir un suceso. Ejemplo:
encuesta de los politicos

M&ESTREO REALIZADO POR EXPERTOS.- Es el que se realiza siguiendo el criterio de
personas con amplia experiencia en investigacion o conocimiento de la poblacion.

M&ESTREO POR C&OTAS.- Es similar al estratiIicado, divide a la poblacion en estratos y
conserva en la muestra la misma proporcion que los estratos tienen en la poblacion.


&NIDAD III. ELEMENTOS DE ESTADISTIA DESRIPTIVA

TAMAO DE LA M&ESTRA: Es el numero absoluto de unidades muestrables seleccionadas del
universo.
Para calcular el tamao de la muestra puede tomarse en cuenta las siguientes igualdades:

&ANDO SE ONOE LA POBLAIN.
Se puede aplicar cualquiera de las 3 Iormulas que se detallan a continuacion:

1.- =
N9
2

2
(N-1)
2
+9
2

2


Donde:
n tamao de la muestra
N &niverso o poblacion
9
2
Varianza
Z Nivel de conIianza deseado
E limite aceptable de error muestrable


.- =
PQN
(N-1)

2
+PQ



Donde:
n tamao de la muestra
PQ Constante de la varianza poblacional (0,25)
N Tamao de la poblacion
E Error maximo admisible ( al 1 0.01; 20.02; 30.03; etc. a mayor error probable, menor
tamao de la muestra)
K coeIiciente de correccion del error (2)


.- =

e
2
(-1)+1


Donde:
n tamao de la muestra
mTamao de la poblacion
e error admisible

&ANDO NO SE P&EDE ESTABLEER LA POBLAIN

=
z
2
9
2

2


Donde:
N Tamao de la muestra
Z Nivel de conIianza deseado
9
2
Varianza
E Limite aceptable de error muestrable
Vamos a considerar para todos los casos que se quiera determinar el tamao de la muestra, bajo el
supuesto que no existe un muestreo piloto, que la varianza sera igual a 0,5
2
por considerar 0,5 de
probabilidad de exito y 0,5 de probabilidad de Iracaso, en conclusion:

9
2
= = , 5 , 5 = (, 5)
2

En donde:
9
2
Varianza
P Probabilidad de exito 0,5
Q probabilidad de Iracaso 0,5
Con respecto al nivel de conIianza, le presentamos los mas comunes y su valor Z.

CoeIicientes de
conIianza
50 90 95 99
Z 0.647 1.645 1.96 2.58


Tablas Estadsticas:

&na Iorma de presentar ordenadamente un grupo de observaciones, es a traves de tablas de
distribucion de Irecuencias. La estructura de estas tablas depende de la cantidad y tipo de variables
que se estan analizando, siendo las mas simples las que se reIieren a una variable.

A continuacion se presenta una tabla sencilla, tomada de un ejemplo hipotetico. En ella se examinan
sus principales elementos y se expresan




%4das las ta-las de-en tener :n tit:l4 para q:e el lect4r sepa el as:nt4 al q:e se refiere.
Titulo
Encabezado
Cuerpo de la Tabla
Fuente de inIormacion Estudiantes de la FCA que trabajan




Tablas simples
Relaciona una columna de categorias con una o mas columnas de datos, sin mas elaboracion.

Maestros de las distintas coordinaciones que han proporcionado su correo electrnico

oordinaciones Nmero de maestros
Administracion Basica 23
Administracion Avanzada 18
Matematicas 34
InIormatica 24
Derecho 28
Economia 14

Tablas de frecuencias
Es un arreglo rectangular de inIormacion en el que las columnas representan diversos conceptos,
dependiendo de las intenciones de la persona que la elabora, pero que tiene siempre, en una de las
columnas, inIormacion sobre el numero de veces (Irecuencia) que se presenta cierto Ienomeno.
La siguiente tabla es un ejemplo de esta naturaleza. En ella, la primera columna representa las
categoras o clases, la segunda las frecuencias llamadas absolutas y la tercera las frecuencias
relati;as. Esta ultima columna recibe esa denominacion porque los datos estan expresados en
relacion con el total de la segunda columna. Las Irecuencias relativas pueden expresarse en
porcentaje, tal como en nuestro ejemplo, o en absoluto (es decir, sin multiplicar los valores por 100).
Algunos autores llaman al primer caso Irecuencia porcentual en lugar de Irecuencia relativa.

Nmero de bicicletas ;endidas por tienda
Primer trimestre de
Tienda &nidades Porcentaje ()
Centro 55 29.1
Polanco 45 23.8
Coapa 42 22.2
Tlalnepantla 47 24.9
Totales 189 1.


Tablas de doble entrada
En algunos casos, se quiere presentar la inIormacion con un mayor detalle. Para ello se usan las
tablas de doble entrada. Se llaman asi porque la inIormacion se clasiIica simultaneamente por medio
de dos criterios en lugar de utilizar solamente uno. Las columnas estan relacionadas con un criterio y
los renglones con el otro criterio.








Deportes Batista, S.A. de .V.
Bicicletas ;endidas por modelo y tienda
Primer trimestre de
InIantil Carrera Montaa Turismo Total
entro 13 14 21 7 55
Polanco 10 14 11 10 45
oapa 12 11 17 2 4
Tlalnepantl
a
9 8 13 17 47
Totales 44 47 6 6 189

Podemos observar que esta tabla, en la columna de total presenta una inIormacion identica a la
segunda columna de la tabla de Irecuencias. Sin embargo, en el cuerpo de la tabla se desglosa una
inIormacion mas detallada, pues nos oIrece datos sobre los modelos de bicicletas, que en la tabla de
Irecuencias no teniamos.

Distribucin de frecuencias



E1EMPLO : Se tienen las notas de una prueba de matematica para 1000
alumnos de enseanza media de un determinado colegio. Se
resume la inIormacion en la siguiente tabla de Irecuencia.

NOTA FRECUENCIA NOTA FRECUENCIA
1,2 1 4,2 46
1,4 2 4,4 48
1,6 3 4,6 52
1,8 8 4,8 58
2,0 15 5,0 60
2,2 18 5,2 56
2,4 19 5,4 54
2,6 22 5,6 51
2,8 25 5,8 50
3,0 26 6,0 46
3,2 28 6,2 44
3,4 31 6,4 40
3,6 35 6,6 32
3,8 38 6,8 31
4,0 45 7,0 18






En una tabla se pueden distinguir los siguientes tipos de Irecuencias:


Frecuencia AbsoIuta Es el nmero de repeticiones que presenta
una observacin. Se denota por n
i

Frecuencia ReIativa Es la frecuencia absoluta dividida por el
nmero total de datos. Se denota por f
i

Frecuencia AbsoIuta AcumuIada Es la suma de los distintos valores de la
frecuencia absoluta tomando como
referencia un individuo dado. La ltima
frecuencia absoluta acumulada es igual
al nmero de casos. Se denota por N
i

Frecuencia ReIativa AcumuIada Es el resultado de dividir cada frecuencia
absoluta acumulada por el nmero total
de datos. Se denota por F
i


Para el ejemplo propuesto se determinaron las distintas Irecuencias, las que se muestran en la
siguiente tabla:



NOTA
FREC.
FREC.
FREC. FREC RELATIVA

ABSOLUTA

ABSOLUTA RELATIVA ACUMULADA


ACUMULADA


1,2 1 1 0,001 0,00

1,4 2 3 0,002 0,00

1,6 3 6 0,003 0,01

1,8 8 14 0,008 0,01

2,0 14 28 0,014 0,03

2,2 18 46 0,018 0,05

2,4 19 65 0,019 0,07

2,6 22 87 0,022 0,09

2,8 25 112 0,025 0,11

3,0 26 138 0,026 0,14

3,2 27 165 0,027 0,17

3,4 31 196 0,031 0,20

3,6 35 231 0,035 0,23

3,8 38 269 0,038 0,27

4,0 45 314 0,045 0,31

4,2 46 360 0,046 0,36

4,4 48 408 0,048 0,41

4,6 52 460 0,052 0,46

4,8 58 518 0,058 0,52

5,0 60 578 0,060 0,58

5,2 56 634 0,056 0,63

5,4 54 688 0,054 0,69

5,6 51 739 0,051 0,74

5,8 50 789 0,050 0,79

6,0 46 835 0,046 0,84

6,2 44 879 0,044 0,88

6,4 40 919 0,040 0,92

6,6 32 951 0,032 0,95

6,8 31 982 0,031 0,98

7,0 18 1000 0,018 1

TOTAL 1000



Nota:

Si la Irecuencia relativa y relativa acumulada la multiplicamos por 100, los valores obtenidos
representan porcentajes, lo que Iacilita la interpretacion de los datos.

De esta tabla se pueden sacar conclusiones como:

45 alumnos obtuvieron nota 4,0

578 alumnos obtuvieron nota inIerior o igual a 5,0
El 1,8 de los alumnos obtuvo nota 7,0
El 31 obtuvo nota 4.0 o inIerior a esta, mientras que el 69 obtuvo una nota superior a 4,0



Esta inIormacion tambien puede ser representada en Iorma graIica como se muestra a continuacion:




ISTOGRAMA




F
R
E
C
U
E
N
C
I
A
S


70

60

50

40

30

20

10

0

1
,
2

1
,
4

1
,
6

1
,
8

2

2
,
2

2
,
4

2
,
6

2
,
8

3

3
,
2

3
,
4

3
,
6

3
,
8

4

4
,
2

4
,
4

4
,
6

4
,
8

5

5
,
2

5
,
4

5
,
6

5
,
8

6

6
,
2

6
,
4

6
,
6

6
,
8

7



NOTAS






En el histograma se observa graIicamente la distribucion de las notas de la prueba, y que los puntos
mas altos estan en las notas 4,8; 5,0 y 5,2 las que coinciden con las Irecuencias mas altas de la tabla.


Otra Iorma de representar los datos es a traves de un poligono de Irecuencias que es un graIico de
puntos en el cual se muestra la distribucion dibujada punto por punto representando los valores
especiIicos de la variable bajo estudio.
En el ejemplo se puede observar que se representan los 30 valores que toman las notas. La
Irecuencia mas alta de alumnos la alcanza la nota 5,0




POLIGONO DE FRECUENCIA

70

F
R
E
C
U
E
N
C
I
A

60

50

40

30

20

10

0


1
,
2

1
,
4

1
,
6

1
,
8

2

2
,
2

4 2 , 6

2
,
8

3

3
,2
3
,4
3
,6

3
,
8

4

4
,
2
4
,
4

4
,
6
4
,
8

5

5
,
2

5
,
4

5
,
6

5
,
8

6

6
,
2

6
,
4

6
,
6

6
,
8

7



NOTAS





La ojiva o poligono de Irecuencia acumulada nos muestra justamente las Irecuencias acumuladas.
En nuestro ejemplo la Ojiva nos dice que hay alrededor de 800 alumnos que obtuvieron nota 6 o
menos en la prueba de matematica.




OJIVA O POLIGONO DE FRECUENCIA ACUMULADA

1200

1000

F
R
E
C
U
E
N
C
I
A

800

600


400


200

0
2


3


4


5


6


7



1
,
2

1
,
4

1
,
6

1
,
8

2
,2
2,42,62
,8
3
,
2

3
,
4

3
,6
3
,
8

4
,2
4
,
4

4
,
6

4
,
8

5
,2
5,45,65
,8
6
,
2

6
,
4

6
,
6

6
,
8



NOTAS

Pasos a seguir para la elaboracion de un diagrama de Irecuencias (o poligono de Irecuencias) y un
histograma.
onsidera el siguiente conjunto de datos
8.9 8.3 9.2 8.4 9.1
8.6 8.9 9.1 8.8 8.8
8.8 9.1 8.9 8.7 8.8
8.9 9.0 8.6 8.7 8.4
8.6 9.0 8.8 8.9 9.1
9.4 9.0 9.2 9.1 8.8
9.1 9.3 9.0 9.2 8.8
9.7 8.9 9.7 8.3 9.3
8.9 8.8 9.3 8.5 8.9
8.3 9.2 8.2 8.9 8.7
8.9 8.8 8.5 8.4 8.0
8.5 8.7 8.7 8.8 8.8
8.3 8.6 8.7 9.0 8.7
8.4 8.8 8.4 8.6 9.0
9.3 8.8 8.5 8.7 9.6
8.5 9.1 9.0 8.8 9.1
8.6 8.6 8.4 9.1 8.5
9.1 9.2 8.8 8.5 8.3
9.3 8.6 8.7 8.7 9.1
8.8 8.7 9.0 9.0 8.5
8.5 8.8 8.9 8.2 9.0
9.0 8.7 8.7 8.9 9.4
8.3 8.6 9.2 8.7 8.7
8.7 9.7 8.9 9.2 8.8
8.3 8.6 8.5 8.6 9.7

Paso 1. Cuenta el numero de datos en la poblacion o muestra; en este caso son 125 lecturas, por lo
tanto, n125.

Paso . Calcula el rango de los datos (R).
Para determinar el rango de los datos lo unico que se debe hacer es encontrar el numero mayor y el
numero menor de las 125 lecturas que se tienen en la tabla. Para hacer esto, el doctor Kaouru
Ishikawa recomendo lo siguiente:
Se toman Iilas o columnas, en este caso columnas, y se identiIica tanto el valor mas grande como el
mas pequeo por columna. Se anotan los resultados en dos renglones, uno para los valores maximos
y otro para los minimos y de entre estos numeros se determina nuevamente el mayor y el menor,
mismos que seran identiIicados como el 2Ei24 y 2ini24 de las lecturas en la tabla. En este caso:
MAX 9.7 y MIN 8.0. El rango (R) es la diIerencia entre estos valores, por lo que R MAX
MIN 9.7 - 8.0 1.7.

Paso . Determina el numero de clases, celdas o intervalos.
En la construccion de un diagrama de Irecuencias o de un histograma es necesario encasillar las
lecturas. Si bien existe una expresion matematica para el calculo del numero de clases que debe
tener la distribucion de Irecuencias, hay un camino mas practico, el cual seala que el numero de
clases no debe ser menos de 6 ni mas de 15. En este sentido, si Q es la cantidad de clases que
tendra el histograma; se recomienda lo siguiente:
Nmero de lecturas Nmero de clases
< 5 6 - 8
5 - 1 9 - 11
1 - 5 8 - 1
> 5 1 - 15

Paso 4. Determina el ancho del intervalo
Para este caso utilizamos la siguiente Iormula:

Generalmente es necesario redondear 'c para trabajar con numeros mas comodos. En esta ocasion
daremos un valor de c0.20 unidades el cual debe mantenerse constante a lo largo del rango, que en
este caso es de R1.7
Paso 5. Establece los limites de clase.
En muchos casos esto sucede automaticamente y depende de la costumbre. Por ejemplo, si se le
pregunta su edad a una persona, esta contestara con el numero de aos que tiene. En este caso, el
ancho de clase es automaticamente de un ao aunque la persona haya cumplido aos ayer o hace 11
meses. En otras instancias, la resolucion en los instrumentos de medicion es la que determina el
ancho de clase aun cuando es necesario dar una regla general que se mantenga para lograr una
normalizacion del histograma. En el ejemplo, la lectura menor Iue de 8.0 por lo que se podria tomar
este como el limite inIerior de la primera clase, y al sumar al valor de 8.0 el ancho de clase c se
tendria el limite inIerior del segundo intervalo y asi sucesivamente hasta que todos los valores de la
tabla queden contenidos.

Paso 6. Construye la distribucion de Irecuencias: lase
CIase Lmite de
cIase
Marca
de
cIase
Frecuencia totaI
1 8.00-819 8.1 1
2 8.20-839 8.3 l 9
3 8.40-859 8.5 l l l 16
4 8.60-879 8.7 l l l l l 27
5 8.80-8.99 8.9 l l l l l l 31
6 9.00-9.19 9.1 l l l l 23
7 9.20-9.39 9.3 l l 12
8 9.40-9.59 9.5 2
9 9.60-9.79 9.7 4
10 9.80-9.99 9.9 0
125


































MEDIDAS DE TENDENIA ENTRAL

Las medidas de tendencia central son valores numericos que tienden a localizar la parte central de
un conjunto de datos.

Nos dan un centro de la distribucion de Irecuencias, es un valor que se puede tomar como
representativo de todos los datos. Hay diIerentes modos para deIinir el "centro" de las
observaciones en un conjunto de datos. A continuacion se presentan los mas usados.

La Media aritmtica: tambien denominada promedio, es la que se utiliza principalmente y se
deIine como la suma de los valores de todas las observaciones divididas por el numero total de
datos. Se representa por o por la letra segun se calcule en una muestra o en la poblacion,
respectivamente.







NOTA
FREC.
FREC.
FREC. FREC RELATIVA
xi*ni

ABSOLUTA

ABSOLUTA RELATIVA % ACUMULADA %


ACUMULADA


1,2 1 1 0,1 0,1 1,2

1,4 2 3 0,2 0,3 2,8

1,6 3 6 0,3 0,6 4,8

1,8 8 14 0,8 1,4 14,4

2,0 14 28 1,4 2,8 28,0

2,2 18 46 1,8 4,6 39,6

2,4 19 65 1,9 6,5 45,6

2,6 22 87 2,2 8,7 57,2

2,8 25 112 2,5 11,2 70,0

3,0 26 138 2,6 13,8 78,0

3,2 27 165 2,7 16,5 86,4

3,4 31 196 3,1 19,6 105,4

3,6 35 231 3,5 23,1 126,0

3,8 38 269 3,8 26,9 144,4

4,0 45 314 4,5 31,4 180,0

4,2 46 360 4,6 36,0 193,2

4,4 48 408 4,8 40,8 211,2

4,6 52 460 5,2 46,0 239,2

4,8 58 518 5,8 51,8 278,4

5,0 60 578 6,0 57,8 300,0

5,2 56 634 5,6 63,4 291,2

5,4 54 688 5,4 68,8 291,6

5,6 51 739 5,1 73,9 285,6

5,8 50 789 5,0 78,9 290,0

6,0 46 835 4,6 83,5 276,0

6,2 44 879 4,4 87,9 272,8

6,4 40 919 4,0 91,9 256,0

6,6 32 951 3,2 95,1 211,2

6,8 31 982 3,1 98,2 210,8

7,0 18 1000 1,8 100,0 126,0

TOTAL 1000 4717,0


La Iormula para calcular el promedio es entonces:


=
_

k
=1
n







En el ejemplo dado que se tiene una distribucion de Irecuencias (datos agrupados) el promedio se
calcula por:


=
_

k
=1
n


Por lo tanto, la media de notas de los alumnos en la prueba de matematica es de 4,7


Propiedades de la media aritmetica:

Puede ser calculada en distribuciones con escala relativa e intervalar.

Todos los valores son incluidos en el calculo de la media.

&na serie de datos solo tiene una media.

Es una medida muy util para comparar dos o mas poblaciones.

Es la unica medida de tendencia central donde la suma de las desviaciones de cada valor
respecto a la media es igual a cero. Por lo tanto, podemos considerar a la media como el punto
de balance de una serie de datos.

Desventajas de la media aritmetica

Si alguno de los valores es extremadamente grande o extremadamente pequeo, la media no es el
promedio apropiado para representar la serie de datos.

No se puede determinar si en una distribucion de Irecuencias hay intervalos de clase abiertos.




Obser;aciones:


1. A veces se interpreta erroneamente a la media como aquel valor que es tipico, o que se
esperaria que la mayoria de las personas tuvieran. Esta interpretacion puede ser bastante
absurda en algunos casos, por ejemplo, cuando se calcula la media de hijos en un grupo de
mujeres, se obtiene que es de 2.3 nios y, obviamente, no se puede esperar encontrar una
madre con exactamente 2.3 nios. Todo lo que la ciIra dice, es que si dividimos el numero
total de nios de las mujeres consideradas por el numero de mujeres, el resultado es 2.3 nios
por mujer. Esto puede ser un conocimiento util en la comparacion de tamao de Iamilia, de
dos o mas grupos, pero no sugiere que alguna mujer tenga 2.3 nios.

2. Otras veces se piensa que la media aritmetica tiene la caracteristica que la mitad de las
observaciones es menor o igual que la media. Este concepto es totalmente errado en algunos
casos, por ejemplo, si la distribucion es asimetrica a la derecha, como puede ser la
distribucion de salarios donde hay muchas personas que ganan poco y hay pocas personas que
ganan mucho, la media aritmetica resultara mucho mas grande de lo que uno esperaria
encontrar, si se piensa que el valor central debe ser tal que la mitad de las personas tiene un
salario inIerior a el y la otra mitad un salario superior. Esto se debe a la presencia de unos
pocos valores excesivamente grandes que al tener demasiada inIluencia en el valor de la
media aritmetica hacen que ella se ubique en una posicion mas extrema a la esperada. En
consecuencia deberia pensarse en otras medidas para evaluar un valor central con esta
caracteristica.

Mediana:

Se deIine como el valor que deja igual numero de observaciones a su izquierda que a su derecha, es
decir, divide al conjunto de datos en dos partes iguales y se denota por Me.

Si los datos no estan tabulados la mediana se determina, ordenando las observaciones de menor a
mayor y determinando el valor central. Si la cantidad de datos es impar, la mediana se representa
justamente por ese valor. En cambio, si la cantidad es par, la mediana es el promedio de los datos
centrales.

Si los datos estan agrupados la mediana se calcula observando los siguientes pasos: primero se debe
determinar cuanto es n/2, luego se identiIica la menor Irecuencia acumulada que supera a este valor.
&na vez ubicado el intervalo que lo contiene se procede a reemplazar en la siguiente Iormula:



H = I +
n

-
-1
n

- c
Donde:
Li Limite inIerior de la clase mediana

-1
= Frecuencia acumulada hasta la clase anterior a la mediana
n

Frecuencia absoluta de la clase mediana


C amplitud de la clase mediana


Reemplazando los valores del ejemplo en la Iormula se obtiene:

Para nuestro ejemplo

1000
460





2

04,8

0 4,8

518








En este caso los datos no estan agrupados en intervalo, por lo tanto a 0

La mediana de los alumnos que rindieron la prueba de matematicas es de 4,8

Propiedades:

No le aIectan las observaciones extremas. Es Iacil
de calcular.

Es siempre un valor de la variable.

La mediana divide el area total del histograma en dos porciones iguales.

Moda:

Es el valor de la variable que mas veces se repite, es decir, aquella cuya Irecuencia absoluta es
mayor. Puede haber mas de una moda en una distribucion. Se denota por Mo.










En la tabla de Irecuencias del ejemplo, se observa claramente que la moda de los alumnos que
rindieron la prueba de matematica es 5.

En datos agrupados la moda se calcula mediante la siguiente Iormula

HJ = I +
n

- n
-1
(n

-n
-1
) +(n

- n
+1
)
- c
Li Limite inIerior de la clase modal
n
-1
= Frecuencia absoluta de la clase anterior a la clase modal
n
+1
= Frecuencia absoluta de la clase posterior a la clase modal
n

Frecuencia absoluta de la clase modal


C amplitud de la clase media

MEDIDAS DE POSIIN

Las medidas de posicion dividen un conjunto ordenado de datos en grupo con la misma cantidad de
individuos.

Percentiles:

Son 99 valores que dividen en cien porciones iguales el conjunto de datos ordenados. Ejemplo, el
percentil de orden 15 deja por debajo al 15 de las observaciones, y por encima queda el 85

Cuando los datos estan agrupados en una tabla de Irecuencias, se calculan mediante la Iormula:


n


k

N
i1



!
k
L
i

100
* a

n
i



.43 1,2,3,... 99

Donde

Lmite real inferior de la clase del percentil
antidad total de datos.

Frecuencia acumulada de la clase que antecede a la clase del percentil
Frecuencia de la clase del percentil

Longitud del intervalo de la clase del percentil



Para el ejemplo calcularemos el percentil 87


1000


87 835


100

!
87
6,2

0 6,2


44




El 87 de los alumnos obtuvieron una nota igual o inIerior a 6,2

En la publicacion de los resultados de pruebas del examen de seleccion los puntajes se expresan en
puntaje estandar asociandose al percentil correspondiente.


Deciles:

Son los nueve valores que dividen al conjunto de datos ordenados en diez porciones iguales, son
tambien un caso particular de los percentiles, pues corresponden a los percentiles 10, 20, 30, 40, 50,
60, 70, 80 y 90.

Para datos agrupados los deciles se calculan mediante la Iormula.


n

k
10
N
i1


D
k
L
i
* a

n
i


.43 1,2,3,... 9

,

Donde:

L
i
: Limite real inIerior de la clase del decil k. n : Cantidad
total de datos.

N
i-1
: Frecuencia acumulada de la clase que antecede a la clase del decil k. n
i
: Frecuencia de la
clase del decil k.
a : Longitud del intervalo de la clase del decil k.



Para el ejemplo calcularemos el decil 4


1000


4 360


10

4
4,4

0 4,4

48



El 40 de los alumnos obtuvieron una nota igual o inIerior a 4,4


uartiles:


Son los tres valores que dividen al conjunto de datos ordenados en cuatro porciones iguales, son un
caso particular de los percentiles, correspondiendo a los percentiles 25, 50 y 75.

- El primer cuartil Q1 es el valor de la variable que deja a la izquierda el 25 de la distribucion.

- El segundo cuartil Q2 (la mediana), es el valor de la variable que deja a la izquierda el 50 de la
distribucion.

- El tercer cuartil Q3 es el valor de la variable que deja a la izquierda el 75 de la distribucion.

Para el ejemplo, se tienen los siguientes cuartiles

n
N
i

n

4



"1
4

250 Primero 269 ; luego "
1
3,8

El 25% de los alumnos obtuvieron una nota igual o inferior a 3,8

2n
N
i

2n

4



"
2

4
250 Primero
518 ; luego "
2
4,8
El 50% de los alumnos obtuvieron una nota igual o inferior a 4,8

3n
N
i

3n

4



"
3

4
250 Primero
789 ; luego "
3
5,8

El 75 de los alumnos obtuvieron una nota igual o inIerior a 5,8, o bien, el 25 de los alumnos
tuvieron nota superior a 5,8.



Quintiles

Son los cuatro valores que dividen al conjunto de datos ordenados en cinco porciones iguales, son
un caso particular de los percentiles, correspondiendo a los percentiles 20, 40, 60, 80.

El primer quintil es el valor de la variable que deja a la izquierda el 20 de la distribucion.

El segundo quintil es el valor de la variable que deja a la izquierda el 40 de la distribucion.

El tercer quintil es el valor de la variable que deja a la izquierda el 60 de la distribucion.

El cuarto quintil es el valor de la variable que deja a la izquierda el 80 de la distribucion.

n

k N

k
L
i
5
i1
* a

n
i



con k 1, 2, 3, 4

Donde:


L
i
: Limite real inIerior de la clase del quintil k. n : Numero
de datos.

N
i-1
: Frecuencia acumulada de la clase que antecede a la clase del quintil k. n
i
: Frecuencia de la
clase del quintil k.
a : Longitud del intervalo de la clase del quintil k.

Para el ejemplo calcularemos el quintil 3


1000


3 578


5

3
5,2

0 5,2

56





El 60 de los alumnos obtuvieron una nota igual o inIerior a 5,2 o bien, el 40 de los alumnos
tuvieron nota superior a 5,2

MEDIDAS DE DISPERSIN

Las medidas de dispersion indican la mayor o menor concentracion de los datos con respecto a las
medidas de centralizacion

Des;iacin estndar: tambien llamada des;iacin tpica, es una medida de dispersion usada en
estadistica que nos dice cuanto tienden a alejarse los valores puntuales del promedio en una
distribucion. EspeciIicamente, la desviacion estandar es "el promedio de la distancia de cada punto
respecto del promedio". Se suele representar por una S o con la letra sigma, , segun se calcule en
una muestra o en la poblacion.

&na desviacion estandar grande indica que los puntos estan lejos de la media, y una desviacion
pequea indica que los datos estan agrupados cerca de la media.

La Iormula para calcular la desviacion estandar es:

=
_
_ (

- )
2 k
=1
n -

En el ejemplo dado que se tiene una distribucion de Irecuencias, la desviacion se calcula por:

=
_
_ n

- )
2 k
=1
n -



FREC.
FREC.
FREC.

FREC RELATIVA

xi
2
*ni

NOTA ABSOLUTA xi*ni

ABSOLUTA
ACUMULADA
RELATIVA % ACUMULADA %


1,2 1 1 0,1 0,1 1,2 1,44

1,4 2 3 0,2 0,3 2,8 3,92

1,6 3 6 0,3 0,6 4,8 7,68

1,8 8 14 0,8 1,4 14,4 25,92

2,0 14 28 1,4 2,8 28,0 56,00

2,2 18 46 1,8 4,6 39,6 87,12

2,4 19 65 1,9 6,5 45,6 109,44

2,6 22 87 2,2 8,7 57,2 148,72

2,8 25 112 2,5 11,2 70,0 196,00

3,0 26 138 2,6 13,8 78,0 234,00

3,2 27 165 2,7 16,5 86,4 276,48

3,4 31 196 3,1 19,6 105,4 358,36

3,6 35 231 3,5 23,1 126,0 453,60

3,8 38 269 3,8 26,9 144,4 548,72

4,0 45 314 4,5 31,4 180,0 720,00

4,2 46 360 4,6 36,0 193,2 811,44

4,4 48 408 4,8 40,8 211,2 929,28

4,6 52 460 5,2 46,0 239,2 1100,32

4,8 58 518 5,8 51,8 278,4 1336,32

5,0 60 578 6,0 57,8 300,0 1500,00

5,2 56 634 5,6 63,4 291,2 1514,24

5,4 54 688 5,4 68,8 291,6 1574,64

5,6 51 739 5,1 73,9 285,6 1599,36

5,8 50 789 5,0 78,9 290,0 1682,00

6,0 46 835 4,6 83,5 276,0 1656,00

6,2 44 879 4,4 87,9 272,8 1691,36

6,4 40 919 4,0 91,9 256,0 1638,40

6,6 32 951 3,2 95,1 211,2 1393,92

6,8 31 982 3,1 98,2 210,8 1433,44

7,0 18 1000 1,8 100,0 126,0 882,00

TOTAL 1000 4717,0 23970,12



Reemplazando en la Iormula los valores del ejemplo se obtiene:


23970,12
4717
2


$
2

1000
1,72

999


$ $
2
1,3114


La desviacion estandar en las notas de la prueba de matematica es de 1,3.


EL OEFIIENTE DE VARIAIN
Dos poblaciones pueden tener la misma desviacion estandar y, sin embargo, podemos percatarnos
intuitivamente que la dispersion no es la misma para eIectos de una toma de decisiones.
El siguiente ejemplo aclara estos conceptos.
&n comercializador de maiz vende su producto de dos maneras distintas:
a) En costales de 50 Kg.
b) A granel, en sus propios camiones repartidores que cargan 5 toneladas (5000) Kg.

Para manejar el ejemplo de manera sencilla, supongamos que en un dia determinado solamente
vendio tres costales y que ademas salieron tres camiones cargados; para veriIicar el trabajo de los
operarios, se pesaron tanto unos como otros en presencia de un supervisor. Sus pesos, la media de
los mismos y sus desviaciones estandar aparecen en la siguiente tabla (como ejercicio, el alumno
puede comprobar las medias y las desviaciones estandar calculandolas el mismo):


Peso de Ios costaIes Peso de Ios camiones
40 Kg 4990Kg
50 Kg. 5000 Kg.
60 Kg. 5010 Kg.


Media de los costales 50 Kg.
Media de los camiones 5000 Kg.
Desviacion estandar de los costales 8.165 Kg.
Desviacion estandar de los camiones 8.165 Kg.
Podemos percatarnos de que las variaciones en el peso de los camiones son muy razonables, dado el
peso que transportan. En cambio, las variaciones en el peso de los costales son muy grandes, en
relacion con lo que deberia de ser. Los operarios que cargan los camiones pueden ser Ielicitados por
el cuidado que ponen en su trabajo, en cambio podemos ver Iacilmente que los trabajadores que
llenan los costales tienen algun problema serio, a pesar de que la variacion (la desviacion estandar)
es la misma en ambos casos.
Para Iormalizar esta relacion entre la variacion y lo que debe de ser, se trabaja el coeIiciente de
variacion o dispersion relativa, que no es otra cosa que la desviacion estandar entre la media y todo
ello por cien. En Iormula lo expresamos de la siguiente manera:
donde:
CV coeIiciente de variacion.
= desviacion estandar.
p =media de la poblacion.

En el caso de los costales tendiamos que CV (8.165/50)10016.33, lo que nos indica que la
desviacion estandar del peso de los costales es del 16.33 del peso medio (una desviacion
signiIicativamente grande).
Por otra parte, en el caso de los camiones, el coeIiciente de variacion nos arroja:
CV(8.165/5000)100 0.1633, lo que nos indica que la desviacion estandar del peso de los
camiones es de menos del uno por ciento del peso medio (una desviacion realmente razonable).


MEDIDAS DE FORMA
acen referencia a la f4r2a de la distri-:cion, si2Ftrica, asi2etria a la derecha 4 a la
i:q:ierda. En general la 2ef4r 2anera de verl4 es p4r la representacion grEfica, per4 si n4 la
tene24s eisten c4eficientes q:e n4s indican la f4r2a de la distri-:cion. L4s 2Es :tili:ad4s s4n.

Coeficiente de asimetria de Pearson, solo se puede utilizar en distribuciones
campaniIormes (Iorma de campana) y unimodales

4
p
$


Este coeIiciente puede ser:

0 entonces la media igual que la moda, distribucion simetrica
0 entonces la media mayor que la moda, asimetria a la derecha positiva
0 entonces la media menor que la moda asimetria a la izquierda negativa


Coeficiente de asimetria de Fisher, tiene la ventaja de que se puede hallar para todas las
distribuciones, aunque su calculo es complicado y laborioso.

3
3
1
.
) (

i i
$ N
f
g




Este coeIiciente puede ser:

0 entonces la distribucion es simetrica
0 entonces asimetria a la derecha
0 entonces asimetria a la izquierda.

urtosis hace reIerencia al mayor o menor apuntamiento que tiene una distribucion de
Irecuencias respecto a una distribucion Normal, por lo tanto solo se estudia en
distribuciones campaniIormes , para compararlas con la campana de Gauss, su calculo
tambien es muy laborioso.


3
.
) (
4
4
2

i i
$ N
f
g
Este coeIiciente puede ser:

0 la curva es igual que la normal, se llama Mesocurtica
0 la curva es mas puntiaguda que la normal se llama Leptocurtica
0 la curva es mas aplastada quie la normal, se llama Platicurtica






































Por lo tanto, las notas de los alumnos tienen una distribucion ligeramente asimetrica negativa.

En el siguiente histograma se pueden observar las medidas de tendencia central y posicion de
nuestro ejemplo, ademas, se puede ver Iacilmente que la distribucion es asimetrica negativa.
BIBLIOGRAFIA:

WlLSCn Mu8lLLC LsLadlsLlca apllcada a la Lducacln 2002
LnnLu? LsLadlsLlca para lngenleros
SlLCLL M 8 LsLadlsLlca Serle Schaum
hLLp//wwwuLpleduec/ecc/wlkl/lndexphp/LsLadC3AusLlca_uescrlpLlva_e_lnferencla
l
hLLp//wwwvlLuLorcom/e[erclclohLml
hLLp//Lhalesclcaes/rd/8ecursos/rd98/MaLemaLlcas/01/maLemaLlcas01hLml