Вы находитесь на странице: 1из 26

UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA

INTRODUCCIÓN
• En la vida diaria, estamos recibiendo una gran
cantidad de datos de toda índole, los cuales si
PROBABILIDAD no sabemos estructurar de buena forma no
alcanzarán jamás el grado de información e
incluso podrían terminar en ruido (error).

Y ESTADÍSTICA • Esta realidad no sólo es común a las personas,


sino que por sobre todo es de gran importancia
para todo tipo de organizaciones.
• Es así como es de vital importancia tener
HUMBERTO VILLALOBOS TORRES métodos confiables y efectivos que nos
permitan organizar datos, para transformarlos
UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA en información que nos permita tomar mejores
DEPARTAMENTO DE MATEMÁTICAS decisiones.

Proceso de Medición Proceso de Medición

La medición es la asignación de símbolos


(números) a sucesos, hechos u objetos del
mundo real.
13/03/2008 13/03/2008

Proceso de Medición Proceso de Medición


• Medición Efectiva cuando las relaciones • Si esta relación entre los objetos o
existentes entre los objetos o sucesos del sucesos del mundo real es tergiversada,
mundo real corresponden directamente a se presenta un error de medición.
las reglas del sistema numérico.
• Nº de ventas por
Propia de la Matemática región Entre días
• Tiempos de
d = (5 − 2) 2 + (5 − 2) 2 atraso en
entregas Entre Personas
• Nº de reclamos
Proceso de Medición Escalas de Medición
• Cuando se habla de mediciones, lo • Unicidad Nominal Clasifica
habitual es pensar en números.
• Orden Ordinal + Orden
Sistema numérico:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9. • Diferencias
Equitativas Intervalar + Distancia

Símbolos o Códigos • Razones Razón + Proporción


α, β, γ, λ, … Equitativas
‫ث‬, ‫ڇ‬, ‫ظ‬, ‫ڬ‬, …
13/03/2008 13/03/2008

Dificultad en las Mediciones Estadística y Ciencia


• La Estadística, se ocupa de:
– Métodos y procedimientos para recoger,
clasificar, resumir, hallar regularidades y
analizar los datos, siempre y cuando la
variabilidad e incertidumbre sea una causa
intrínseca de los mismos.

– Realizar inferencias a partir de ellos, con


la finalidad de ayudar a la toma de
decisiones y en su caso formular
predicciones.
13/03/2008 13/03/2008

¿Cómo obtener Datos? Población y Muestra


• El mundo observable (empírico) está
compuesto por conjuntos de elementos,
que son llamados ‘población’ o ‘población
objetivo’.
• Un mecanismo, para poder obtener
• Censar Población
información de una población, es la
Datos extracción de un subconjunto de unidades
• Muestra Sub-conjunto o elementos de la población (análisis y
de la Población diagnóstico), llamado ‘Muestra’.
13/03/2008
Características de Muestras Tipos de Muestreo
• Los métodos o técnicas de muestreo son un • Muestreos No Probabilisticos.
pilar fundamental dentro de los métodos de
inferencia estadística. • Muestreos Probabilisticos.
• De la muestra se espera que sea
representativa de la población, es decir, que
los atributos de la población que se están
analizando estén reflejadas en la muestra Encuesta
(Comentar). ¿Está el comercio
regional …… ?
• El concepto fundamental que se utiliza, es la
aleatorización de las unidades muestreadas.

13/03/2008 13/03/2008

Muestreos Aleatorios Muestreo Aleatorio Simple


• Muestreo Aleatorio Simple o muestreo • La lista de elementos de la población está
al azar irrestricto. disponible o es de fácil acceso.
• Los elementos de la población no
presentan grandes variaciones entre
grupos naturales que pudiesen formarse
en ésta.
• La selección al azar es similar a la que se
realiza en la extracción aleatoria de
números en una lotería.

13/03/2008 13/03/2008

Muestreos Aleatorios Muestreo Aleatorio Sistemático


• Muestreo aleatorio sistemático. • Los elementos a muestrear se presentan
ordenados de forma natural.
– Líneas de Producción.
1.…r ….k 1….r ….k … 1….r ….k … 1….r ….k – Llegadas de Clientes.
1… k +1… (g–1)k +1… (n–1)k +1…
• Se debe tener cuidado con la posibilidad de
…k …2k (g–1)k +k …nk =N
encontrarse con sesgos sistemáticos en los
1 2 … g n
elementos Muestreados.
– Preocupación en Calidad. Sólo se tengan
resultados de un grupo (turnos) o
máquina.
13/03/2008 13/03/2008
Muestreos Aleatorios Muestreo Aleatorio
•Muestreo aleatorio estratificado.
Estratificado
• Las poblaciones en su mayoría son
estratificables.
– Creencia a priori de diferencias en los
atributos de la población en los estratos.
– Costo v/s Ganancia de la Estratificación.

• Estratificación por Atributo v/s


Estratificación Operacional.

13/03/2008 13/03/2008

Muestreos Aleatorios Muestreo aleatorio de


conglomerados
• Muestreo aleatorio de conglomerados.
• Los elementos de la poblaciones se encuentran
en pequeños grupos, difíciles de descomponer
para llegar al elemento informativo.
– Unidad Muestral Elemento
Máquina ⇒ Producto
Vivienda ⇒ Personas
Poste ⇒ Clientes

• Es un tipo de muestreo en etapas.


13/03/2008 13/03/2008

Aplicación Esquema de Aplicación Esquema de


Muestreo aleatorio Muestreo aleatorio
• Definir elemento a muestrear y tipo de
muestreo a aplicar
Unidad Tipo de
Muestral Muestreo
Cliente ⇒
Calle ⇒
Poste ⇒

13/03/2008 13/03/2008
Aplicación Esquema de Resumen de Datos
Muestreo aleatorio
• Análisis exploratorio de datos, con un
• Establecer un procedimiento de conjunto de técnicas encaminadas a la
muestreo. visualización de los datos mediante tablas o
gráficos que permitan realizar un
– Definir situaciones extremas.
diagnóstico de ellos .
• El poste no se encuentra.
• El medidor no se encuentra.
• Sector hostil. • Estadística Descriptiva, con un conjunto de
indicadores descriptivos de diversas
– Establecer criterios a priori
características de los datos, cuyo fin es
– Capacitar ⇒ IMPORTANTE complementar el diagnóstico de éstos.
13/03/2008 13/03/2008

Organización de Datos Tablas de Frecuencia


• Una manera de acomodar los datos es • Las respuestas observadas en la población
construir un arreglo ordenado; esto es, (muestra), se denominaran clases, las cuales
organizando los datos con un orden se simbolizan por: C1, C2, ... , Ck, donde k es
natural- cuando la escala de medición lo la cantidad de categorías (respuestas)
permite. distintas.
– Datos Agrupados
– Datos No Agrupados (Dispersos).
• Frecuencia Absoluta: Es el
número de elementos en la k
• Si el número de datos es grande, se utilizan
tablas de frecuencia como una primera
población (muestra) que
pertenecen a la clase Ci. Este ∑n = n
i =1
i
aproximación general a la organización de número lo denotaremos por ni y
datos. cumplen la propiedad:
13/03/2008 13/03/2008

Tablas de Frecuencia Tabla de Frecuencia


• Frecuencia Relativa: Es la cantidad de • APLICACIÓN 1: Suponga el caso que es de
elementos en la población (muestra) que interés determinar la frecuencia de las
pertenecen a la clase Ci, relativo al total facturas que llegan a la empresa producto
de trabajos realizado por los contratistas
de elementos en la población (muestra). de obras menores
Este número lo denotaremos por fi y
cumplen la propiedad:
k k

∑ ∑
n n
fi = i ⇒ fi = i
= 1.0
n n
i =1 i =1

13/03/2008 13/03/2008
Tabla de Frecuencia Tabla de Frecuencia
• Frecuencia Absoluta Acumulada: Es el Frecuencia Relativa Acumulada: Es la cantidad
número total de elementos en la población de elementos en la población (muestra) que
(muestra) que pertenecen a las clases pertenecen a las clases C1, ... , Ci, con respecto
C1, C2, ... , Ci. Este número lo denotaremos al total de elementos en la población (muestra).
por Ni y cumplen la propiedad: Este número lo denotaremos por Fi y cumplen
la propiedad:
i
Ni = n1 + n2 +... + ni = ∑n
j =1
j
Fi = f1 + f2 +... + fi =
i

∑f j
j = 1, 2,..., i, i = 1, 2,..., k j =1
j = 1, 2,..., i, i = 1, 2,..., k
13/03/2008 13/03/2008

Tabla de Frecuencia Tabla de Frecuencia


• APLICACIÓN 2: En un conjunto de clientes, el
interés es determinar la clasificación de éstos •Datos Continuos Î Muchas datos distintos
según su cumplimiento en el pago. Estos son
clasificados como: Malos (M), Regulares (R),
Buenos (B) y excelentes (E). Los datos son:

• Regla de Sturges: El número de clases,


donde: k = 3,3 log(n) + 1 , donde ‘n’ es la
cantidad de datos que se desea organizar.
13/03/2008 13/03/2008

Tabla de Frecuencia Tabla de Frecuencia


• Amplitud: Para determinar ‘a’, la amplitud • APLICACIÓN 3: Considere los datos de
de las clases, se debe calcular el rango (RD), tiempos de espera (en segundos) para una
que es la diferencia entre el dato mayor línea telefónica de atención al cliente.
(máx. {xi}) y el menor (min. {xi}). También
es necesario determinar ‘u’, la unidad
mínima de conteo de los datos. La amplitud
está dada por:
RD + u
Amplitud (a) =
k

13/03/2008 13/03/2008
Tabla de Frecuencia Tabla de Frecuencia
• Rango de la Tabla: Una vez determinada la
• APLICACIÓN 3: Considere los datos de
amplitud a, se procede a determinar el rango
tiempos de espera (en segundos) …
de la tabla (RT), que es la multiplicación
entre la cantidad de clases que se están
utilizando y la amplitud.
• Para la determinación de los límites de las
clases, se comienza con el límite Inferior de la
primera clase, LI1, el cual se calcula como:
D
LI1 = Mínimo {xi} −
2
13/03/2008 13/03/2008

Tabla de Frecuencia Tabla de Frecuencia


• D= RT – RD.

13/03/2008 13/03/2008

Tabla de Frecuencia Diagrama de Tallo y Hoja


APLICACIÓN 3: Considere los datos de tiempos
de espera …
Frecuencia
Frecuencia
Acumulada
Marca
Tiempos (seg.)
Clase
Absoluta Relativa Absoluta Relativa En el diagrama de tallo y hoja, el tallo -la
[ 10,4 − 19,0 [ 14,7 1 0,85% 1 0,85% primera parte de número-, es el que presenta
[ 19,0 − 27,6 [ 23,3 4 3,42% 5 4,27% menor variación, mientras que la hoja, esta
[ 27,6 − 36,2 [ 31,9 11 9,40% 16 13,67% formado los dígitos restantes.
[ 36,2 − 44,8 [ 40,5 22 18,80% 38 32,47%
5 48 54 8
[ 44,8 − 53,4 [ 49,1 39 33,33% 77 65,80%
[ 53,4 − 62,0 [ 57,7 30 25,64% 107 91,44% ↑ ↑ ↑ ↑
[ 62,0 − 70,6 ] 66,3 10 8,56% 117 100,00% tallo hoja tallo hoja
13/03/2008 13/03/2008
Diagrama de Tallo y Hoja Diagrama de Tallo y Hoja
• APLICACIÓN 4: Los datos observados
• APLICACIÓN 4: Los datos observados representan la proporción …
representan la proporción de reclamos,
por pagos incorrectos, en las cuentas
del consumo mensual de electricidad,
en los dos últimos años:

13/03/2008 13/03/2008

Diagrama de Tallo y Hoja Técnicas Gráficas


• APLICACIÓN 4: Los datos observados Sector 1 2 3 4 5 6
representan la proporción … Proporción 10% 15% 40% 20% 10% 5%
Hoja (Año 1) Tallo Hoja (Año 2)
89 12 7 Sector de Cliente Sector de Cliente
88 8 65 54
99 12 90 95 91 9 87 72 40% 5%
P o rcen ta je

23 02 12 10 05 50 20% 5 10%
10% 15%

S e c to r
10% 5% 10%
11 09 52 53
40 12 30 2 15%
20%
13 24 1 2 3 4 5 6 3 40%
Sector
16 40 Porcentaje
13/03/2008 13/03/2008

Técnicas Gráficas Técnicas Gráficas


Sector de Cliente
1 Frecuencia
5%
10%

28% 2
3 Grado Absoluta Absoluta
Acumulada
14%

4
5
Insatisfecho (I) 19 19
6

24%
19%
Sector de Cliente Indiferente (II) 21 40
14% 19% Normal (N) 33 73
10%
Satisfecho con Reparos (SR) 2 75
24%
5% Totalmente Satisfecho (STS) 4 77
28%

1 2 3 4 5 6

13/03/2008 13/03/2008
Técnicas Gráficas Técnicas Gráficas
APLICACIÓN 3: Considere los datos de tiempos
de espera …
Grado de Satisfacción
3%
5% Histograma de Frecuencia
24%
I
II 50
40

F r e c ue nc i a
N
30
4 1% SR
20
TS
10
27%
0
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6

Tiempos [seg.]
13/03/2008 13/03/2008

Técnicas Gráficas Técnicas Gráficas


20 APLICACIÓN 3: Considere los datos de tiempos
de espera …
20
Frecuencia

Frecuencia

10
10
Frecuencia Acumulada

0
0 120
7 9 11 13 15 17 19 21 23 25 27
0 5 10 15 20 25 30 35 100
F r e c ue nc i a

Característica Característica
80
30

20
60
40
20
20
F recuencia
F recuencia

10
0
10
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6
0
0

0 10 20 30 40 0 10 20 30 40 50 60 70 80 90 100
Tiempos [seg.]
Característica Característica
13/03/2008 13/03/2008

Técnicas Gráficas Técnicas Gráficas


Año Año
Mes 1 2 Diagrama de Dispersión Mes 1 2
Enero 7,12 8,65 Enero 7,12 8,65 Diagrama de Dispersión
Febrero 7,89 10,05
18 Febrero 7,89 10,05
Marzo 10,12 10,5 17
Marzo 10,12 10,5
P o r c e n t a je d e

16
Abril 8,88 9,87 15
R e c la m o s

14 Abril 8,88 9,87 13


Mayo 10,02 8,54
Año 2

12 Mayo 10,02 8,54 11


Junio 9,91 9,72
10 Junio 9,91 9,72 9
Julio 9,95 11,09
8 Julio 9,95 11,09 7
Agosto 9,9 11,52
6 5
Septiembre 10,23 12,3 Agosto 9,9 11,52
6 8 10 12 14
Octubre 9,12 11,53 Septiembre 10,23 12,3
Tiempo Año 1
Noviembre 9,99 16,4 Octubre 9,12 11,53
Diciembre 12,4 13,24 Noviembre 9,99 16,4
Diciembre 12,4 13,24
13/03/2008 13/03/2008
Medidas de Desempeño Indicadores de Posición
•Indicadores Resúmenes • Tendencia Central
– Calidad – Media Aritmética (Promedio)
n
– Gestión
∑X i k


ni mi
• Tipos Comunes de Indicadores. X = i =1 X=
n n
i =1
– Indicadores de Posición
– Indicadores de Variabilidad •Utiliza Toda La información para resumir
– Indicadores de Forma •Extremadamente sensible a Datos Extremos
– Indicadores de Asociación
13/03/2008 13/03/2008

Mediana Mediana
• La mediana de un conjunto de datos es el • No Utiliza las mediciones de todos los
valor que ocupa el lugar central de estos datos para Obtener un Indicador.
cuando se ordenan en orden de magnitud
X n + 1 si n es impar
  

  2 
Me = 1
 (X
 n 
+ X ) si n es par
 + 1 
2 n
  2   2 

 n 
 − N i −1 
M e = Li +  2  ai • No es sensible a Datos Extremos.
 ni 
13/03/2008
  13/03/2008

Moda Moda
• Es la medida que está dada por el valor o • APLICACIÓN 2: En un conjunto de clientes …
clase que se presenta con mayor frecuencia. son clasificados como: Malos (M), Regulares
– Datos Cualitativos (R), Buenos (B) …
APLICACIÓN 1: Suponga el caso que es de
interés determinar la …
Frecuencias Frecuencias
Empresa
Absoluta Relativa
Baker & Jones 10 31,25%
Brown e Hijos 4 12,50%
Emis Ltda. 12 37,50%
Smith y CIA. 6 18,75%
13/03/2008 13/03/2008
Moda Moda
• APLICACIÓN 5: Suponga que en un conjunto • Datos Cuantitativos Continuos.
de clientes, el interés es determinar el
número de veces que éstos se han atrasado en  d1 
el pago de su cuenta. Los datos son los Mo = Li +   a i
siguientes:  d1 + d 2 

13/03/2008 13/03/2008

Moda Moda
Moda
• Al igual que la mediana, tiene la No es Moda
desventaja que no utiliza todas la 50

medidas para resumirse en la 40


Frecuencia

moda. 30

20
• No es sensible a la presencia de
10
afecta por datos extremos.
0

• Pierde total sentido en datos 150 200 250

dispersos continuos. Datos Repetidos


13/03/2008 13/03/2008

Tendencia Central Tendencia Central


• APLICACIÓN 6: Una compañía fabrica 24
• Existen Otros Indicadores Comunes productos básicos. La compañía conserva
– Media Recortada registros del número de productos vendidos
respecto al total fabricado por mes a su
– Media Geométrica principal cliente, con la finalidad de
– Media Armónica examinar los niveles relativos de ventas
respecto a la producción. Los registros
– Trimedia, etc. muestran los respectivos porcentajes del
último mes:
• Se Pueden Crear Indicadores para
problemas particulares
– Calidad de Servicio
– Balances Generales (gestión), etc.
13/03/2008 13/03/2008
Tendencia Central Tendencia Central
• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica de
muebles Hoti S.A., se dedica a exportación de
13
muebles. La tabla siguiente, presenta la
1
distribución de los sueldos* en esta fábrica:
12
10,0 ×10+ ... +26,0 × 4
X=
n 100
x 7,89 + 10,12 + 8,88 + ... + 12, 40
X= ∑ i = = 10,36 = 15,98
i =1
n 24
 50 − 30 
Me = 14,5 +   × 3,0
1  48 
Me = (X (12) + X (13) ) = 10, 02 + 9,99 = 10, 01 = 15,75
2 2
 48 − 20 
Mo = 14,5 +   × 3, 0 = 15, 77
13/03/2008 13/03/2008  48 − 20 + 48 − 10 

Cuantiles Cuantiles
• Los cuantiles son medidas de • Los cuantiles se pueden clasificar en:
posición que dividen los datos en
– Cuartiles
grupos bajo los cuales se encuentra
– Quintiles
una determinada proporción de
– Déciles
éstos.
– Percentiles

• La Mediana es el cuantil más


• Los percentiles agrupan Todas las
conocido
clasificaciones.
13/03/2008 13/03/2008

Percentiles Tendencia Central


• Percentil 25 = cuartil 1 • APLICACIÓN 6: Una compañía fabrica 24 …
• Percentil 50 = decil 5 = Mediana 2 15 5
1
= cuartil 2 14

Pi ( percentil i ) = X  i ( n + 1)  P20 = X 20(24+ 1)  = X (5) = 8,88


   
 100   100 

• Existen otras expresiones. P59 = X 59(24+ 1)  = X (14,75) = 10,09


 
 100 
13/03/2008 13/03/2008
Percentil Percentiles
APLICACIÓN 3: Considere los datos de tiempos
• En datos agrupados, al igual que la de espera …
mediana se asume que existen
homogeneidad en la distribución de
los datos en la clase correspondientes

 n× j 
 − Ni −1
P j = L I j +  100  ai
 ni 
 
13/03/2008 13/03/2008

Percentiles Indicadores de Variabilidad


• APLICACIÓN 7: La Planta Sur de la fábrica … • las medidas de variabilidad se ocupan de
¿Qué % de los obreros describir la dispersión (riesgo, precisión)
gana más de 21500 por de los datos con respecto a una medida
día? del centro o un valor particular.

P j = 21500 ⇒ ¿j ?

 j  3 90,67 %
21, 5 = 20, 5 +  − 0,88 
 100  0, 08
9,33 %
13/03/2008 13/03/2008

Indicadores de Variabilidad Efecto por Valores Extremos


• Rango
30

150

20

Max{xi } − Min{xi }
100

datos dispersos

10
50

R= 
LS − LI
0 0

 k 1 datos agrupados 20 25 30 35 0 50 100 150

• No Utiliza Toda La información para


resumir
20

• Extremadamente sensible a Datos


10

Extremos 0

20 25 30 35

13/03/2008 13/03/2008
Rangos Modificados Rangos Modificados
• Un rango modificado es un rango • Poseen la virtud de no ser afectados por
para el cual se elimina cierto observaciones extremas.
porcentaje de los valores en cada 30

uno de los extremos de la 150

distribución y es simbolizado por R


20
100

Mod (j % central). 10
50

0 0

20 25 30 35 0 50 100 150

13/03/2008 13/03/2008

Rangos Rangos
• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica …
2 15 5 13 10 11 9 16
1 3 4 19
18 14 17 8 7 12 6
Rango = 28,5 – 8,5 = 20
Rango = 16,40 − 7,12 = 9,28
Rango (50%) = P75 – P25
Rango (50%) = P75 − P25 = 11,305 – 9,42

3
X(18,75) X(6,25) 1,885 11,5 + ( 0,25
25 = 14,5
P75 0,30)
0,75 − 0,10 = 17,31
13,75 3,56
0, 20
48
13/03/2008 13/03/2008

Desviación Absolutas Desviación Absolutas


• La desviación media (DM) es la media • Desviación Mediana
(promedio) del valor absoluto de la – Procedimiento de calculo idéntico a la
diferencia entre cada uno de los datos desviación media
y el promedio del grupo .
– Minimiza el valor de las desviaciones
 n absolutas

 xi − x
datos dispersos
 n
 i =1 • Desviación Modal
DM = 
 k – Procedimiento de calculo idéntico a la

 ∑
 i =1
fi mi − x datos agrupados desviación media
– Una alternativa de medida de variabilidad
13/03/2008 13/03/2008
Desviaciones Absolutas Varianza y Desviación Estándar
• Ventajas • La varianza es similar a la desviación
media porque se basa en la diferencia
– Utilizan todos los datos o las clases de la entre cada uno de los valores del
muestra para obtener un indicador conjunto de datos y la media del grupo,
• Desventajas La diferencia consiste en que, antes de
, sumarlas, se eleva al cuadrado cada una
– Son influenciadas por la presencia de de las diferencias.
datos extremos
– Con la presencia de muchos datos su • Es el Indicador de variabilidad de
cálculo presenta complicaciones mayor uso, en calidad, finanzas (riesgo),
(herramientas de cálculo) especificación de normas, etc.
13/03/2008 13/03/2008

Varianza y Desviación Estándar Varianza y Desviación Estándar


• Sus expresiones de cálculo, en datos • Se utiliza con mayor frecuencia la raíz
dispersos y agrupados. cuadrada de la varianza, representada
por ‘S’ para una muestra, y se le
n
( xi − x ) 2 1  n 2  denominada desviación estándar.
S2 = ∑ =  ∑ xi − nx 2 
 
i =1 n − 1 n −1  i = 1  • Al igual que las desviaciones medias,
estos indicadores utilizan el máximo de
k k información para ser resumidos, razón
2
S =
1
n ∑ n (m - x ) = ∑ f m
i =1
i i
2

i =1
2
i i - x
2
por la cual ante la presencia de datos
extremos son afectados
13/03/2008 13/03/2008

Varianza y Desviación Estándar Varianza y Desviación Estándar


• Su principal ventaja ante las • APLICACIÓN 6: Una compañía fabrica 24 …
desviaciones absolutas, es que su
procedimientos de cálculo resulta
más sencillo, sin necesidad de
grandes herramientas de cálculo. 1 n 2
S2= ∑ xi − nx 2
n −1 i = 1

• Toda medida de variabilidad se 7,892 + 10,122 + ... + 12, 402 − 24 ×10,362


= = 3,62
asocia a una medición que 23
contemple la noción de distancia Desviación Estándar = S 2 = S = s = 1,903
13/03/2008 13/03/2008
Varianza y Des. Estándar Desigualdad de Tchevychev
• APLICACIÓN 7: La Planta Sur de la fábrica … •Esta importante desigualdad, revela
n que al menos:
S 2 = ∑ fi × mi2 − x 2
i=1  1 
1 −  100%
 k2 
n
x = ∑ fi × mi = 15,98 de las observaciones están dentro de
i =1 k desviaciones estándar de la media
(k > 1), es decir, en el intervalo:
S 2 = 0,1×102 + 0,2 ×132 + ... + 0,04 × 262 − 15,982

= 13,18 S = 3,63  X − k × s ; X + k × s 
13/03/2008 13/03/2008

Desigualdad de Tchevychev Desigualdad de Tchevychev


• Los resultados de una prueba de • APLICACIÓN 6: Una compañía fabrica 24 …
ingreso a una academia de 700 2 15 5 13 10 11 9 16

postulantes alcanzaron un puntaje 1 3 4 19 21 20 23

medio de 525 pts., con una desviación 18 14 17 8 7 12 6 22

estándar de 55 pts. Entonces se puede xn n


xi2 − nx 2
asegurar que al menos el: x = ∑ i = 10,36 S2= ∑ = 3, 62
i=1
n i =1
n −1

[525 ∓ 2 × 55] Al menos el 75,00%


[6, 554; 14,166] Al menos el 75,00%
[525 ∓ 3 × 55] Al menos el 88,89% 23
k=2 Datos = 96%
13/03/2008 13/03/2008
24

Desigualdad de Tchevychev Transformaciones


• APLICACIÓN 6: Una compañía fabrica 24 … • Cambios de escala en las variables
13 3 11 8 9 7 14 Datos Datos
1 2 17 19 18 Originales Transformados
16 12 15 6 5 10 4 20

x = 10.36
[8, 076; 13,024] yi = b xi
S = 1,903 →
− 1,2 × 1,903
k = 1,2 10,36 
+ 1,4 ×1,903
20
30,55% Datos = 83, 33%
13/03/2008
24 13/03/2008
Efecto en los indicadores Transformaciones
• Media Muestral y la varianza • Cambios de escala y origen en las variables
y i = b xi Datos Datos
Originales Transformados
n n n
y b xi x
y =∑ i = ∑ =b∑ i =b x
i=1
n i =1
n i =1
n

n
( yi − y )2 n
(bxi − bx )2 n
( x − x )2 yi = a + b xi
S y2 = ∑ = ∑ = b2 ∑ i  →
i =1
n −1 i =1
n −1 i=1
n −1

= b 2 S x2
13/03/2008 13/03/2008

Efecto en los indicadores Efecto en los indicadores


• Media Muestral y la varianza • Los cambios de escala afectan a los dos
y i = a + b xi principales indicadores de tendencia
central y variabilidad.
n
y n
a + b xi n • Los cambios de origen afectan sólo a los
y =∑ i = ∑ x
= a+b ∑ i = a+b x indicadores de tendencia central.
i=1
n i =1
n n
i =1 • Los cambios de escala, tiene un efecto
n
( yi − y )2 n
( a + bxi − ( a + bx )) 2 sobre los indicadores de posición similar,
S y2 = ∑ = ∑ dados que estos mantiene su orden, es
n −1 n −1
i =1 i =1 decir:
n
( xi − x )2
13/03/2008
= b2 ∑
i =1
n −1
= b 2 S x2
13/03/2008
Py Î b Px

Transformaciones Medidas de Forma


• APLICACIÓN 7: La Planta Sur de la fábrica … • Las medidas de formas se inscriben
en el marco de tendencias de
Considere un reajuste de los estructuración de los datos que se
sueldos de los obreros de un b% hacen presente a través de las
(cambio de escala), además de
distribuciones de frecuencias
una asignación por desempeño a
(cambio de origen) asociadas a un conjunto de éstos.
– Asimetría.
x = 15,98 y = a + (1 + b) ×15,98 a = 1 ; b = 5%
yy= =
1 +1 05,×715,
1, 7
– Curtosis.
7 98
9
S 2 = 13,18 S 2 = (1 + b) 2 ×13,18
S 22= 1, 2
1 4 ×, 13,18
= 05 531
13/03/2008 13/03/2008
Asimetría Asimetría
• Las medidas de asimetría centran su
atención en la tendencia de los datos a
concentrarse más cerca de: los valores
más pequeños, que se conoce como
asimetría positiva; valores más
grandes, que se denomina asimetría
negativa; o simplemente en el centro, Asimetría Positiva

que se está en el caso de simetría . Asimetría Negativa


S imetría
S imetría

13/03/2008 13/03/2008

Curtosis Curtosis
• Las medidas de curtosis centran su
atención en la tendencia de los datos
en el grado de concentración que
estos poseen alrededor de puntos
centrales.
– Mesocúrtica
– Leptocúrtica Curva Ideal
– Platicúrtica (Variabilidad)
13/03/2008 13/03/2008

Indicadores de Asimetría
Coeficiente de Yule y Bowley
• Coeficiente de Simetría de Yule y de • La presencia de Datos extremos no
Bowley afecta directamente al indicador.
Q + Q1 − 2 × Q2
IY = 3 30

2 × Q2
150

20
20
100

Q + Q1 − 2 × Q2
10
10 50

IS = 3
Q3 − Q1
0
0 0
0 50 100 150
20 25 30 35 20 25 30 35

• Son indicadores de la Simetría en el


centro de los datos
13/03/2008 13/03/2008
Coeficiente de Yule y Bowley Coeficiente de Yule y Bowley
• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica …
2 15 5 13 10 11 9 16
Planta Sur
1 3 4 19
60
18 14 17 8 7 12 6 48

Frecuencia (%)
50
40
30 20

P25 = X(6,25) = 9,420


20 10 10 8
10 4

IY = 0,0357 0
10 13 16 19 22 26
Sueldo [M$/d]

P50 = X(12,5) = 10,005


P25 = 13,75
IS = 0,3793 IY = -0,0140
P75 = X(18,75) = 11,305 P50 = 15,75
IS = -0,1236
13/03/2008 13/03/2008
P75 = 17,31

Coeficiente de Pearson
Coeficiente de Pearson
• Mide la Simetría en el conjunto • La presencia de Datos extremos afecta
Total de datos. directamente al indicador.
• El coeficiente de Pearson, se basa en 30
150

tres medidas: la media, la mediana y 20


100

la desviación estándar. 10 50

3( x - Me )
As =
0
0
0 50 100 150
20 25 30 35

Sx
• La Presencia de Datos extremos, afecta el
indicador.
13/03/2008 13/03/2008

Coeficiente de Pearson Coeficiente de Yule y Simetría


• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica …
2 5 13 10 11 9
1 3 4 Planta Sur

8 7 12 6 60
48
Frecuencia (%)

50
40
30 20

X = 10,36
20 10 10 8
10 4
0
10 13 16 19 22 26

s = 1,903
Sueldo [M$/d]

X = 15, 98 IY = -0,0140
Me = 10,005 Me = 15,75 As = 0,1901
S = 3,63 IS = -0,1236
13/03/2008 13/03/2008
Coeficiente de Simetría de Fisher Coeficiente de Simetría de Fisher
• Es el indicador de simetría más preciso • Este coeficiente se encuentra muy
de los presentados, que se base en el afectado por la unidades de medida de
tercer momento de la distribución de la variable, por lo que generalmente se
los datos. utiliza la estandarización de éste.
n 3 n


( xi − x ) − x )3

1 (x
m3 = α3 = 3 m3 i
i =1
n
k
α 3 =S i =31 n
Sn x  x − x 3
m3 = ∑f
i =1
i (mi − x )3 1
= i
∑  
ni = 1
S 
13/03/2008 13/03/2008

Comparación de Índices Comparación de Índices


• Los índices de Yule y Bowley, solo • El índice de Pearson al igual que el de
muestran la simetría en el centro de Fisher, buscan determinar la
los datos. asimetría en el conjunto total de datos.

• El índice de Pearson, cuando se • Existen otras aproximaciones al índice


encuentra en el borde del punto crítico de Fisher que buscan satisfacer
de comparación (cero), puede cometer propiedades de éste (por ejemplo:
un error en el signo del indicador Excel).

13/03/2008 13/03/2008

Comparación de Índices Coeficiente de Fisher


30
150

20
• APLICACIÓN 6: Una compañía fabrica 24 …
100

10 50

0
0
0 50 100 150
20 25 30 35

n
( xi − x )3
m3 = ∑
i = 1
n
= 8,108

s = 1,903 α3 = 1,180
IY = 0,0357 IS = 0,3793 As = 0,5596
13/03/2008 13/03/2008
Coeficiente de Fisher Gráficas de Box - Plot
• APLICACIÓN 7: La Planta Sur de la fábrica … • Su importancia Informativa, alcanza
la comparación de muestras y una
Planta Sur
forma de identificar valores
60
48
extremos.

Frecuencia (%)
50
40
30 20
– Sólo es , posible en datos NO
AGRUPADOS.
20 10 10 8
10 4
0
10 13 16 19 22 26
Sueldo [M$/d] – Se basa en los indicadores: Q1; Q2; Q3.
k
m3 = ∑ fi (mi − x )3 = 33,7708
i = 1
α3 = 0,7058
13/03/2008
S = 3,63 13/03/2008

Gráficas de Box - Plot Gráficas de Box - Plot


• Pasos para su Construcción: • Pasos para su Construcción:
– Paso 1: Determinar Q1; Q2; Q3. – Paso 5: Valores bajo FI o sobre FS, son
considerados valores extremos
– Paso 2: Determinar RIQ = Q3 - Q1.
– Paso 3: Determinar Fronteras (F):
• APLICACIÓN 6: Una compañía fabrica 24 …
FI = Q1 – 1,5 RIQ.
FS = Q3 + 1,5 RIQ.
– Paso 4: Determinar Bigotes (B):
BI = min {xi} ∈ [FI; Q1[
BS = max{xi} ∈ [Q3; FS[

13/03/2008 13/03/2008

Gráficas de Box - Plot Índices de Curtosis


• Sus expresiones de cálculo, en datos • Coeficiente K2
dispersos y agrupados. – Este indicador de curtosis, que se basan
en cuantiles extremos, como lo son: decil
1 y decil 9.

D9 − D1
K2 = −1
1,9 × (Q3 − Q1 )

13/03/2008 13/03/2008
Coeficiente K2 Coeficiente K2
• Este indicador tiene como punto crítico • Este indicador no es afectado por un
de comparación el ‘cero’, de tal forma: conjunto pequeño de valores
– Mesocúrtica Î |K2| < 0,2 extremos.
30

– Leptocúrtica Î K2 > 0,2 150

20

– Platicúrtica Î
100

K2 < -0,2
10 50

0
0

• Es un indicador que se basa en


0 50 100 150
20 25 30 35

medidas ya resumidas.

13/03/2008 13/03/2008

Coeficiente de Curtosis de Fisher Coeficiente de Curtosis de Fisher


• Es el indicador de curtosis más, que • Sus expresiones de cálculo están dadas
se base en el cuarto momento de la por:
distribución de los datos, que igual n 4 k
que en el caso de m3, esta medida se
ven fuertemente influenciadas por las
m4 = ∑
i =1
( xi − x )
n
m4 = ∑ fi (mi − x )4
i =1
unidades de medida de los datos en
estudio.
m4
• Los puntos teóricos y criterios de Estandarizada α4 = −3
comparación coinciden con K2. S x4

13/03/2008 13/03/2008

Coeficiente de Curtosis de Fisher Coeficiente de Curtosis de Fisher


• Este indicador es afectado por valores • Un coeficiente α4 cercano a cero, entrega
extremos. evidencia de una posible aproximación a
30
150 la distribución ideal.
• Un coeficiente α4 lejano a cero, puede ser
20
100

consecuencia de:
10 50

0
0

20 25 30 35
0 50 100 150
– Excesiva variabilidad respecto a lo Ideal.
– Poca variabilidad respecto a lo ideal.
– Presencia de datos Extremos.
– Presencia de estratos en la población.
13/03/2008 13/03/2008
Coeficiente de Curtosis Coeficiente de Curtosis
• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica …

Planta Sur

60
48

Frecuencia (%)
50
40
30 20
20
n 10 10

( xi − x )3
8


10 4

m4 = = 66,802
0
10 13 16 19 22 26

i = 1
n Sueldo [M$/d]

s = 1,903 α4 = 2,094 m4 = ∑ fi (mi − x )4 = 660,25


i = 1
α4 = 0,8026
13/03/2008 13/03/2008
S = 3,63

Exactitud y Precisión Indicadores de Comparativos


• La exactitud, está relacionada con el • Coeficiente de Variación
grado de cercanía …
• La precisión, está relacionada con el s
grado de dispersión …
CV =
x
• Mide la variabilidad relativa respecto a la
media.

• Mayor Coeficiente Î Mayor Variabilidad

13/03/2008 13/03/2008

Coeficiente de Variación Robusto Desviación Objetivo


• Es un indicador, particularmente útil
• Presencia de datos extremos … en Control de Calidad

Q3 − Q1
CVR =
Q3 + Q1
• Mide la variabilidad relativa.
• Mayor Coeficiente Î Mayor Variabilidad

13/03/2008 13/03/2008
Desviación Objetivo Volumen de llenado de botellas
• Busca medir la dispersión de los datos • APLICACIÓN 8: Se mide
respecto a un punto objetivo (dado por el volumen aproximado
especificación). al instalar un
calibrador sobre la boca
n
( xi − t )2 de la botella y se

,

St2 = compara la altura del


i =1
n líquido en el cuello de la
botella con el volumen
• Se utiliza con mayor frecuencia la raíz especificado [en ML].
cuadrada de ésta, representada por: St
13/03/2008 13/03/2008

Volumen de llenado de botellas Volumen de llenado de botellas


• APLICACIÓN 8: Se mide el volumen • APLICACIÓN 8: Se mide el volumen …
aproximado al … Los resultados Gráfica de Control (2 sigma)
muestrales de las cuatro plantas son: 1.5
1.0
0.5
0.0
-0.5
-1.0
P rin cip al
-1.5 Segun daria
-2.0 Sur
No rt e
-2.5
1 2 3 4 5 6 7 8 9 10 11 12

13/03/2008 13/03/2008

Volumen de llenado de botellas Estratificación y Medidas

13/03/2008 13/03/2008
Medidas Media Ponderada
• La Media Ponderada: La media ponderada o • APLICACIÓN 9: En una compañía que maneja
promedio ponderado es una media aritmética, 4 productos, los márgenes de utilidad
en la cual se considera a cada uno de los correspondientes a cada uno de ellos durante
valores de acuerdo con su importancia en el
el año fiscal anterior fueron: Producto A,
grupo.
4,2%; Producto B, 5,5%; producto C, 7,4%; y
h h producto D, 10,1%.
∑pµ i i ∑ px i i
27,2
µ p = i =1 x p = i =1 µ= = 6,8%
h h
4
∑p
i =1
i ∑p
i =1
i

13/03/2008 13/03/2008

Media Ponderada Medidas


• La Varianza Ponderada: La varianza
• APLICACIÓN 8: Se mide el volumen …
ponderada es una varianza descompuesta y
ponderada, la variabilidad debido a la
variabilidad propia del estrato, también
llamada variabilidad dentro o Intra, y una
variabilidad propia entre los estratos,
también llamada variabilidad entre o Inter.
h h
2
Sp = ∑ p s + ∑ p (x
i =1
2
i i
i =1
i i − xp)
2

13/03/2008 13/03/2008

Varianza Ponderada Indicadores Ponderados


APLICACIÓN 8: Se mide el volumen … • APLICACIÓN 10: Rentabilidad de los tipos de
fondos (Multifondos) de las administradoras
de fondos de pensiones (AFP)
⇒ Fondo A xA = 18, 26% ; sA2 = 9 [%]2
⇒ Fondo B xB = 11, 06% ; sA2 = 3,5 [%]2

4,8 + 6,84 + 0,83 + 0,95 − ( − 0,025) 2 ⇒ Fondo C xC = 6, 65% ; sA2 = 2,5 [%]2
ST2 = = 0, 3435
39 xD = 4, 25% ; sA2 = 1, 6 [%]2
⇒ Fondo D
12× (0,017 + 0,025)2 + ... + 9× (0,011+ 0,025)2
Entre = = 0,0042 ⇒ Fondo E xE = 1,88% ; sA2 = 0,35 [%]2
40
13/03/2008 13/03/2008
Indicadores Ponderados
• Suponga dos situaciones ficticias:
– Asignar los dineros a cada fondo
equitativamente
– Asignar los fondos de manera ponderada
dependiendo de la aversión al riego de cada
individuo

13/03/2008

Вам также может понравиться