Академический Документы
Профессиональный Документы
Культура Документы
INTRODUCCIÓN
• En la vida diaria, estamos recibiendo una gran
cantidad de datos de toda índole, los cuales si
PROBABILIDAD no sabemos estructurar de buena forma no
alcanzarán jamás el grado de información e
incluso podrían terminar en ruido (error).
13/03/2008 13/03/2008
13/03/2008 13/03/2008
13/03/2008 13/03/2008
13/03/2008 13/03/2008
Aplicación Esquema de Resumen de Datos
Muestreo aleatorio
• Análisis exploratorio de datos, con un
• Establecer un procedimiento de conjunto de técnicas encaminadas a la
muestreo. visualización de los datos mediante tablas o
gráficos que permitan realizar un
– Definir situaciones extremas.
diagnóstico de ellos .
• El poste no se encuentra.
• El medidor no se encuentra.
• Sector hostil. • Estadística Descriptiva, con un conjunto de
indicadores descriptivos de diversas
– Establecer criterios a priori
características de los datos, cuyo fin es
– Capacitar ⇒ IMPORTANTE complementar el diagnóstico de éstos.
13/03/2008 13/03/2008
∑ ∑
n n
fi = i ⇒ fi = i
= 1.0
n n
i =1 i =1
13/03/2008 13/03/2008
Tabla de Frecuencia Tabla de Frecuencia
• Frecuencia Absoluta Acumulada: Es el Frecuencia Relativa Acumulada: Es la cantidad
número total de elementos en la población de elementos en la población (muestra) que
(muestra) que pertenecen a las clases pertenecen a las clases C1, ... , Ci, con respecto
C1, C2, ... , Ci. Este número lo denotaremos al total de elementos en la población (muestra).
por Ni y cumplen la propiedad: Este número lo denotaremos por Fi y cumplen
la propiedad:
i
Ni = n1 + n2 +... + ni = ∑n
j =1
j
Fi = f1 + f2 +... + fi =
i
∑f j
j = 1, 2,..., i, i = 1, 2,..., k j =1
j = 1, 2,..., i, i = 1, 2,..., k
13/03/2008 13/03/2008
13/03/2008 13/03/2008
Tabla de Frecuencia Tabla de Frecuencia
• Rango de la Tabla: Una vez determinada la
• APLICACIÓN 3: Considere los datos de
amplitud a, se procede a determinar el rango
tiempos de espera (en segundos) …
de la tabla (RT), que es la multiplicación
entre la cantidad de clases que se están
utilizando y la amplitud.
• Para la determinación de los límites de las
clases, se comienza con el límite Inferior de la
primera clase, LI1, el cual se calcula como:
D
LI1 = Mínimo {xi} −
2
13/03/2008 13/03/2008
13/03/2008 13/03/2008
13/03/2008 13/03/2008
23 02 12 10 05 50 20% 5 10%
10% 15%
S e c to r
10% 5% 10%
11 09 52 53
40 12 30 2 15%
20%
13 24 1 2 3 4 5 6 3 40%
Sector
16 40 Porcentaje
13/03/2008 13/03/2008
28% 2
3 Grado Absoluta Absoluta
Acumulada
14%
4
5
Insatisfecho (I) 19 19
6
24%
19%
Sector de Cliente Indiferente (II) 21 40
14% 19% Normal (N) 33 73
10%
Satisfecho con Reparos (SR) 2 75
24%
5% Totalmente Satisfecho (STS) 4 77
28%
1 2 3 4 5 6
13/03/2008 13/03/2008
Técnicas Gráficas Técnicas Gráficas
APLICACIÓN 3: Considere los datos de tiempos
de espera …
Grado de Satisfacción
3%
5% Histograma de Frecuencia
24%
I
II 50
40
F r e c ue nc i a
N
30
4 1% SR
20
TS
10
27%
0
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6
Tiempos [seg.]
13/03/2008 13/03/2008
Frecuencia
10
10
Frecuencia Acumulada
0
0 120
7 9 11 13 15 17 19 21 23 25 27
0 5 10 15 20 25 30 35 100
F r e c ue nc i a
Característica Característica
80
30
20
60
40
20
20
F recuencia
F recuencia
10
0
10
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6
0
0
0 10 20 30 40 0 10 20 30 40 50 60 70 80 90 100
Tiempos [seg.]
Característica Característica
13/03/2008 13/03/2008
16
Abril 8,88 9,87 15
R e c la m o s
∑
ni mi
• Tipos Comunes de Indicadores. X = i =1 X=
n n
i =1
– Indicadores de Posición
– Indicadores de Variabilidad •Utiliza Toda La información para resumir
– Indicadores de Forma •Extremadamente sensible a Datos Extremos
– Indicadores de Asociación
13/03/2008 13/03/2008
Mediana Mediana
• La mediana de un conjunto de datos es el • No Utiliza las mediciones de todos los
valor que ocupa el lugar central de estos datos para Obtener un Indicador.
cuando se ordenan en orden de magnitud
X n + 1 si n es impar
2
Me = 1
(X
n
+ X ) si n es par
+ 1
2 n
2 2
n
− N i −1
M e = Li + 2 ai • No es sensible a Datos Extremos.
ni
13/03/2008
13/03/2008
Moda Moda
• Es la medida que está dada por el valor o • APLICACIÓN 2: En un conjunto de clientes …
clase que se presenta con mayor frecuencia. son clasificados como: Malos (M), Regulares
– Datos Cualitativos (R), Buenos (B) …
APLICACIÓN 1: Suponga el caso que es de
interés determinar la …
Frecuencias Frecuencias
Empresa
Absoluta Relativa
Baker & Jones 10 31,25%
Brown e Hijos 4 12,50%
Emis Ltda. 12 37,50%
Smith y CIA. 6 18,75%
13/03/2008 13/03/2008
Moda Moda
• APLICACIÓN 5: Suponga que en un conjunto • Datos Cuantitativos Continuos.
de clientes, el interés es determinar el
número de veces que éstos se han atrasado en d1
el pago de su cuenta. Los datos son los Mo = Li + a i
siguientes: d1 + d 2
13/03/2008 13/03/2008
Moda Moda
Moda
• Al igual que la mediana, tiene la No es Moda
desventaja que no utiliza todas la 50
moda. 30
20
• No es sensible a la presencia de
10
afecta por datos extremos.
0
Cuantiles Cuantiles
• Los cuantiles son medidas de • Los cuantiles se pueden clasificar en:
posición que dividen los datos en
– Cuartiles
grupos bajo los cuales se encuentra
– Quintiles
una determinada proporción de
– Déciles
éstos.
– Percentiles
n× j
− Ni −1
P j = L I j + 100 ai
ni
13/03/2008 13/03/2008
P j = 21500 ⇒ ¿j ?
j 3 90,67 %
21, 5 = 20, 5 + − 0,88
100 0, 08
9,33 %
13/03/2008 13/03/2008
150
20
Max{xi } − Min{xi }
100
datos dispersos
10
50
R=
LS − LI
0 0
Extremos 0
20 25 30 35
13/03/2008 13/03/2008
Rangos Modificados Rangos Modificados
• Un rango modificado es un rango • Poseen la virtud de no ser afectados por
para el cual se elimina cierto observaciones extremas.
porcentaje de los valores en cada 30
Mod (j % central). 10
50
0 0
20 25 30 35 0 50 100 150
13/03/2008 13/03/2008
Rangos Rangos
• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica …
2 15 5 13 10 11 9 16
1 3 4 19
18 14 17 8 7 12 6
Rango = 28,5 – 8,5 = 20
Rango = 16,40 − 7,12 = 9,28
Rango (50%) = P75 – P25
Rango (50%) = P75 − P25 = 11,305 – 9,42
3
X(18,75) X(6,25) 1,885 11,5 + ( 0,25
25 = 14,5
P75 0,30)
0,75 − 0,10 = 17,31
13,75 3,56
0, 20
48
13/03/2008 13/03/2008
i =1
2
i i - x
2
por la cual ante la presencia de datos
extremos son afectados
13/03/2008 13/03/2008
= 13,18 S = 3,63 X − k × s ; X + k × s
13/03/2008 13/03/2008
x = 10.36
[8, 076; 13,024] yi = b xi
S = 1,903 →
− 1,2 × 1,903
k = 1,2 10,36
+ 1,4 ×1,903
20
30,55% Datos = 83, 33%
13/03/2008
24 13/03/2008
Efecto en los indicadores Transformaciones
• Media Muestral y la varianza • Cambios de escala y origen en las variables
y i = b xi Datos Datos
Originales Transformados
n n n
y b xi x
y =∑ i = ∑ =b∑ i =b x
i=1
n i =1
n i =1
n
n
( yi − y )2 n
(bxi − bx )2 n
( x − x )2 yi = a + b xi
S y2 = ∑ = ∑ = b2 ∑ i →
i =1
n −1 i =1
n −1 i=1
n −1
= b 2 S x2
13/03/2008 13/03/2008
13/03/2008 13/03/2008
Curtosis Curtosis
• Las medidas de curtosis centran su
atención en la tendencia de los datos
en el grado de concentración que
estos poseen alrededor de puntos
centrales.
– Mesocúrtica
– Leptocúrtica Curva Ideal
– Platicúrtica (Variabilidad)
13/03/2008 13/03/2008
Indicadores de Asimetría
Coeficiente de Yule y Bowley
• Coeficiente de Simetría de Yule y de • La presencia de Datos extremos no
Bowley afecta directamente al indicador.
Q + Q1 − 2 × Q2
IY = 3 30
2 × Q2
150
20
20
100
Q + Q1 − 2 × Q2
10
10 50
IS = 3
Q3 − Q1
0
0 0
0 50 100 150
20 25 30 35 20 25 30 35
Frecuencia (%)
50
40
30 20
IY = 0,0357 0
10 13 16 19 22 26
Sueldo [M$/d]
Coeficiente de Pearson
Coeficiente de Pearson
• Mide la Simetría en el conjunto • La presencia de Datos extremos afecta
Total de datos. directamente al indicador.
• El coeficiente de Pearson, se basa en 30
150
la desviación estándar. 10 50
3( x - Me )
As =
0
0
0 50 100 150
20 25 30 35
Sx
• La Presencia de Datos extremos, afecta el
indicador.
13/03/2008 13/03/2008
8 7 12 6 60
48
Frecuencia (%)
50
40
30 20
X = 10,36
20 10 10 8
10 4
0
10 13 16 19 22 26
s = 1,903
Sueldo [M$/d]
X = 15, 98 IY = -0,0140
Me = 10,005 Me = 15,75 As = 0,1901
S = 3,63 IS = -0,1236
13/03/2008 13/03/2008
Coeficiente de Simetría de Fisher Coeficiente de Simetría de Fisher
• Es el indicador de simetría más preciso • Este coeficiente se encuentra muy
de los presentados, que se base en el afectado por la unidades de medida de
tercer momento de la distribución de la variable, por lo que generalmente se
los datos. utiliza la estandarización de éste.
n 3 n
∑
( xi − x ) − x )3
∑
1 (x
m3 = α3 = 3 m3 i
i =1
n
k
α 3 =S i =31 n
Sn x x − x 3
m3 = ∑f
i =1
i (mi − x )3 1
= i
∑
ni = 1
S
13/03/2008 13/03/2008
13/03/2008 13/03/2008
20
• APLICACIÓN 6: Una compañía fabrica 24 …
100
10 50
0
0
0 50 100 150
20 25 30 35
n
( xi − x )3
m3 = ∑
i = 1
n
= 8,108
s = 1,903 α3 = 1,180
IY = 0,0357 IS = 0,3793 As = 0,5596
13/03/2008 13/03/2008
Coeficiente de Fisher Gráficas de Box - Plot
• APLICACIÓN 7: La Planta Sur de la fábrica … • Su importancia Informativa, alcanza
la comparación de muestras y una
Planta Sur
forma de identificar valores
60
48
extremos.
Frecuencia (%)
50
40
30 20
– Sólo es , posible en datos NO
AGRUPADOS.
20 10 10 8
10 4
0
10 13 16 19 22 26
Sueldo [M$/d] – Se basa en los indicadores: Q1; Q2; Q3.
k
m3 = ∑ fi (mi − x )3 = 33,7708
i = 1
α3 = 0,7058
13/03/2008
S = 3,63 13/03/2008
13/03/2008 13/03/2008
D9 − D1
K2 = −1
1,9 × (Q3 − Q1 )
13/03/2008 13/03/2008
Coeficiente K2 Coeficiente K2
• Este indicador tiene como punto crítico • Este indicador no es afectado por un
de comparación el ‘cero’, de tal forma: conjunto pequeño de valores
– Mesocúrtica Î |K2| < 0,2 extremos.
30
20
– Platicúrtica Î
100
K2 < -0,2
10 50
0
0
medidas ya resumidas.
13/03/2008 13/03/2008
13/03/2008 13/03/2008
consecuencia de:
10 50
0
0
20 25 30 35
0 50 100 150
– Excesiva variabilidad respecto a lo Ideal.
– Poca variabilidad respecto a lo ideal.
– Presencia de datos Extremos.
– Presencia de estratos en la población.
13/03/2008 13/03/2008
Coeficiente de Curtosis Coeficiente de Curtosis
• APLICACIÓN 6: Una compañía fabrica 24 … • APLICACIÓN 7: La Planta Sur de la fábrica …
Planta Sur
60
48
Frecuencia (%)
50
40
30 20
20
n 10 10
( xi − x )3
8
∑
10 4
m4 = = 66,802
0
10 13 16 19 22 26
i = 1
n Sueldo [M$/d]
13/03/2008 13/03/2008
Q3 − Q1
CVR =
Q3 + Q1
• Mide la variabilidad relativa.
• Mayor Coeficiente Î Mayor Variabilidad
13/03/2008 13/03/2008
Desviación Objetivo Volumen de llenado de botellas
• Busca medir la dispersión de los datos • APLICACIÓN 8: Se mide
respecto a un punto objetivo (dado por el volumen aproximado
especificación). al instalar un
calibrador sobre la boca
n
( xi − t )2 de la botella y se
∑
,
13/03/2008 13/03/2008
13/03/2008 13/03/2008
Medidas Media Ponderada
• La Media Ponderada: La media ponderada o • APLICACIÓN 9: En una compañía que maneja
promedio ponderado es una media aritmética, 4 productos, los márgenes de utilidad
en la cual se considera a cada uno de los correspondientes a cada uno de ellos durante
valores de acuerdo con su importancia en el
el año fiscal anterior fueron: Producto A,
grupo.
4,2%; Producto B, 5,5%; producto C, 7,4%; y
h h producto D, 10,1%.
∑pµ i i ∑ px i i
27,2
µ p = i =1 x p = i =1 µ= = 6,8%
h h
4
∑p
i =1
i ∑p
i =1
i
13/03/2008 13/03/2008
13/03/2008 13/03/2008
4,8 + 6,84 + 0,83 + 0,95 − ( − 0,025) 2 ⇒ Fondo C xC = 6, 65% ; sA2 = 2,5 [%]2
ST2 = = 0, 3435
39 xD = 4, 25% ; sA2 = 1, 6 [%]2
⇒ Fondo D
12× (0,017 + 0,025)2 + ... + 9× (0,011+ 0,025)2
Entre = = 0,0042 ⇒ Fondo E xE = 1,88% ; sA2 = 0,35 [%]2
40
13/03/2008 13/03/2008
Indicadores Ponderados
• Suponga dos situaciones ficticias:
– Asignar los dineros a cada fondo
equitativamente
– Asignar los fondos de manera ponderada
dependiendo de la aversión al riego de cada
individuo
13/03/2008