Вы находитесь на странице: 1из 119

1-2

UNIVERSIDAD NACIONAL
“FEDERICO VILLARREAL”
ESCUELA DE POSTGRADO

ESTADÍSTICA Y METODOS CUANTITATIVOS


PARA TOMA DE DECISIONES

Dr. JORGE L. PASTOR PAREDES


DEFINICIÓN DE ESTADÍSTICA

 Es la ciencia de recolectar, organizar, presentar, analizar e


interpretar datos con el propósito de ayudar a una toma de
decisión más efectiva.
 Las técnicas estadísticas se usan ampliamente por personas en
áreas de comercialización, contabilidad, control de calidad,
consumidores, deportes, administración de hospitales,
educación, política, medicina, etc.

®Jorge L. Pastor Paredes


ESTADÍSTICA

PARAMÉTRICA NO PARAMÉTRICA

DESCRIPTIVA INFERENCIAL Contrastes:


• Homogeneidad
• Chi-X2 de Independencia
• Dist. de Frecuencias • Probabilidad • de Bondad de Ajuste
• Med. de Tendencia Central • Distribución Discreta • Múltiples de Bondad de Medias
• Med. de Dispersión • Distribución Normal • Múltiples de Homogeneidad :
• Med. de Localización • Muestreo Kruskal Wallis
• Prueba de Hipótesis
• ANOVA
• Regresión Simple
• Regresión Múltiple
• Series de Tiempo
• ARIMA (Box Jenkins) ®Jorge L. Pastor Paredes
1-4

TIPOS DE ESTADÍSTICAS

I. ESTADÍSTICA PARAMÉTRICA
Se basa en parámetros poblacionales en la que se trabaja
con información obtenida con una escala de medida
intervalar o de razón.
1. Estadística Descriptiva: métodos para organizar, resumir y
presentar datos de manera informativa.
Ejemplo 1: Un sondeo de opinión encontró que 49% de las personas en
una encuesta no sabían el nombre del primer libro Vargas Llosa.
La estadística “49” describe el número de cada 100 personas que no
saben la respuesta.
Ejemplo 2: Según el Consumer Reports, los dueños de lavadoras de
ropa Whirlpool reportaron 9 problemas por cada 100 máquinas durante
el 2012. La estadística “9” describe el número de problemas por cada
100 máquinas.
®Jorge L. Pastor Paredes
1-5

2. Estadística Inferencial: es el proceso por el cual se deducen


(infieren) propiedades o características de una población a
partir de una muestra significativa (estimación de parámetros
estadísticos).
Una población es un conjunto de todos los posibles
individuos, objetos o medidas de interés.
Una muestra es una porción, o parte, de la población de
interés.
Ejemplo 1: Las cadenas de TV monitorean la popularidad de sus
programas contratando a CPI y otras organizaciones para muestrear las
preferencias de televidentes.
Ejemplo 2: El departamento de contabilidad de una empresa elegirá una
muestra de facturas para verificar la exactitud de todas las facturas de la
compañía.

®Jorge L. Pastor Paredes UBA,


II. ESTADÍSTICA NO PARAMÉTRICA

 Estadística cuya información no está basada en “parámetros


poblacionales” y cuya información obtenida no está referida a
una escala de medida de intervalo o razón.
 Se basa en propiedades nominales u ordinales, como por
ejemplo, distribución libre.
 Se efectúan pruebas para muestras independientes (H de
Kruskal Wallis y Mediana) y pruebas para dos muestras
relacionadas (Signos).

®Jorge L. Pastor Paredes


1-7

TIPOS DE VARIABLES

1. Variable Cualitativa o Categórica: expresa una cualidad o


categoría de un determinado suceso; no es numérica. Su
medición es nominal u ordinal. Son mutuamente
excluyentes. Atributos o porcentajes.
Ejemplos: sexo, afiliación religiosa, tipo de automóvil que se
posee, lugar de nacimiento, color de los ojos, V o F, Si o No.
2. Variable Cuantitativa: expresan cantidades numéricas de
datos; la variable se puede registrar numéricamente.
Ejemplo: saldo en una cuenta de cheques, minutos que faltan
para que termine la clase, número de niños en una familia.

®Jorge L. Pastor Paredes


1-9

TIPOS DE VARIABLES CUANTITATIVAS

1. Variables Discretas: representan valores numéricos.


Provienen de un proceso de conteo. Son números enteros.
Tienen una medición intervalar o de razón.
Ejemplo: El número de alumnos en la EPG
Cantidad de autos en el estacionamiento.
2. Variables Continuas: provienen de un proceso de
medición, pueden tomar cualquier valor dentro de un
intervalo específico.
Ejemplo: Peso, talla, tiempo.

®Jorge L. Pastor Paredes


NIVELES DE MEDICIÓN
1. NOMINAL
Empresa Beneficios
Referidos a etiquetas o
Volcan SA 1’250,000
nombres que se usan para
identificar un atributo del Alicorp 1’100,000
elemento. Solamente se Telefónica 800,000
pueden clasificar o contar Bco. Crédito 650,000
datos. No existe algún Saga 400,000
orden específico entre las TOTAL 4’200,000
clases.
Calificación Frecuencia
2. ORDINAL. Excelente 6
Es cuando los datos se Bueno 28
organizan de acuerdo a un
Regular 25
orden. Ordena los datos por
Malo 12
jerarquías.
Muy malo 3
®Jorge L. Pastor Paredes Total 74
3. ESCALA DE INTERVALO o INTERVALAR
 Si los datos tienen la propiedad de datos ordinales y el intervalo
entre observaciones se expresa en términos de una unidad fija de
medida. La diferencia de valores tiene un tamaño constante.
 Es importante señalar que el cero (0) es un punto en la escala, no
representa la ausencia de la condición.
Ejemplo: 0 grados no significa que no existe temperatura,
indica que hace frío.
4. ESCALA DE RAZÓN:
 Si los datos tienen las propiedades de intervalo y el cociente de
valores es significativa.
 En la práctica todos los datos cuantitativos son de nivel de razón
de la medición. Es preciso mencionar que el cero (0) si tiene
significado.
Ejemplo: Distancia, altura, peso y tiempo emplean la escala de
medición la Razón.
®Jorge L. Pastor Paredes
BASE DE DATOS
1. Dato Estadístico:
Son las observaciones efectuadas en un momento determinado, están
asociados al estudio de una o mas variables. Son los valores que
componen las variables. Ejemplo: ventas diarias de menestras
efectuadas por un Supermercado.
2. Datos Transversales
Son aquellos datos en el cual se reúne en el mismo o aproximadamente
en el mismo punto del tiempo.
Ejemplo: extraer una muestra de 1.000 empresas de un sector económico
al azar de esa población, identificar su volumen de ventas y calcular el
porcentaje de la muestra que la clasifica como PYME. Por ejemplo, el
30% de nuestra muestra fueron clasificados como PYMEs.
3. Datos de Serie de Tiempo
Se recopilan a lo largo de varios periodos de tiempo. Son también
longitudinales. Sigue los cambios en el transcurso del tiempo.
®Jorge L. Pastor Paredes
FUENTES DE DATOS ESTADÍSTICOS
 Son los datos validados y procesados que se utiliza para realizar
los análisis correspondientes.
 La información estadística se presenta en cuadros estadísticos y en
gráficos.
 La información estadística se usa para la toma de decisiones.
 Para obtener la información estadística existen diferentes técnicas
que permiten extraer muestras representativas de una serie de
sucesos.
 Técnica censal, encuestas, experimentos
 Se pueden encontrar estadísticas relacionadas en artículos
publicados, revistas y periódicos.
 No todos los temas disponen de datos publicados. En esos casos, la
información deberá recolectarse y analizarse.
®Jorge L. Pastor Paredes
2-12

GRÁFICAS PARA LA INFORMACIÓN ESTADÍSTICA


1. Gráficos para una variable cualitativa:
■ Gráfico de barras
2. Gráficos sectores circulares
■ Pictogramas
3. Gráficos para una variable cualitativa discreta:
■ Gráfico de bastones
4. Gráficos para una variable cuantitativa continua:
■ Histogramas
■ Polígono de frecuencias
■ Ojiva
5. Gráficos para dos variable cualitativas:
■ Gráficos de barras agrupadas
■ Gráficos de barras apiladas
6. Gráficos para dos variable cuantitativas:
■ Diagrama de dispersión
®Jorge L. Pastor Paredes
2-13

Histogramas:
 Gráfica donde las clases se marcan en el eje horizontal y las
frecuencias de clase en el eje vertical.
 Las frecuencias de clase se representan por las alturas de las
barras y éstas se trazan adyacentes entre sí.
Polígonos de Frecuencia:
 Consiste en segmentos de línea que conectan los puntos

formados por el punto medio de la clase y la frecuencia de


clase.
Distribución de Frecuencia Acumulada: (ojivas)
 Se usa para determinar cuántos o qué proporción de los

valores de los datos es menor o mayor que cierto valor.

®Jorge L. Pastor Paredes


2-14

Histograma para las horas de estudio

14
12
Frecuencia

10
8
6
4
2
0
10 15 20 25 30 35
Horas de estudio

®Jorge L. Pastor Paredes


Histograma: Frecuencias y Marcas de Clase
2-15

Polígono de frecuencias
para las horas de estudio

14
12
10
Frecuencia

8
6
4
2
0
10 15 20 25 30 35
Horas de estudio

®Jorge L. Pastor Paredes


2-16

Distribución de frecuencias acumuladas


para las horas de estudio

35
30
25
Frecuencia

20
15
10
5
0
10 15 20 25 30
Horas de estudio

®Jorge L. Pastor Paredes


2-19

Gráfica de Barras para los datos de desempleados

10000
# desempleados/100 000

8900 8900
8200
8000 7300
6700
5400 Atlanta
6000
Boston
4000 Chicago
Los Angeles
2000 New York
0 Washington
1 2 3 4 5 6
Ciudades

®Jorge L. Pastor Paredes


2-22

Gráfica Circular para tipos de zapatos

Asics
Reebok
Otros
Nike
Adidas
Reebok
Adidas Asics
Otros
Nike

®Jorge L. Pastor Paredes


2-2

Distribuciones de Frecuencia
Recolección de Datos
 El análisis estadístico se inicia cuando se tiene interés en determinado
suceso, para tal efecto se debe recoger la información necesaria; a este
proceso también se le conoce como “Toma de Datos”
 No siempre todos los datos representan la totalidad del suceso, se debe
coger una muestra representativa que sirva de base para elaborar
pronósticos o efectuar proyecciones estimadas del suceso.
 Los datos recogidos pueden estar totalmente dispersos por lo que se
deben ordenar de “menos a más” o de “más a menos” según sea el
caso.
 Los datos pueden referirse a varias variables: costos (producción,
administrativos, financieros, etc.), ventas, productos, tipos de cambio,
tasas de interés, etc.

®Jorge L. Pastor Paredes


Facturación correspondiente al mes de Julio
(en miles de soles)

58 64 68 70 74 77 80 80 84 84 88 90 93 96 100
104 108 110 60 64 68 70 74 77 80 80 84 84 88 90
93 96 100 104 108 110 60 64 68 70 70 70 74 74 74
74 77 77 77 80 80 80 80 84 84 84 84 88 88 88
90 90 90 93 93 96 96 100 100 104 108 110 64 68 70
74 74 77 77 77 80 80 80 84 84 88 88 88 90 90
90 93 93 96 100 104 108 64 68 70 70 74 74 77 77
80 80 80 84 84 88 88 90 90 93 93 96 96 100 104
68 70 74 77 77 80 80 88 90 90 93 96 96 93 93
100 88 88 90 80 80 84 77 77 74 74 70 68 77 68
77 80 84 88 80 88 68 70 74 77 80 84 88 90 90
85 76 77 86 83 74 78 70 75 58 64 66 66 78 90

®Jorge L. Pastor Paredes


Facturación ordenada al mes de Julio
(en miles de soles)

58 68 70 74 75 77 80 80 84 86 88 90 93 96 104
58 68 70 74 76 77 80 80 84 88 88 90 93 96 104
60 68 70 74 77 77 80 80 84 88 88 90 93 96 104
60 68 70 74 77 77 80 80 84 88 88 90 93 96 104
64 68 70 74 77 77 80 80 84 88 88 90 93 96 104
64 68 70 74 77 77 80 80 84 88 90 90 93 100 108
64 68 70 74 77 77 80 80 84 88 90 90 93 100 108
64 68 70 74 77 77 80 83 84 88 90 90 93 100 108
64 68 70 74 77 78 80 84 84 88 90 90 96 100 108
64 70 74 74 77 78 80 84 84 88 90 93 96 100 110
66 70 74 74 77 80 80 84 84 88 90 93 96 100 110
66 70 74 74 77 80 80 84 85 88 90 93 96 100 110

RANGO = Número Mayor – Número Menor


®Jorge L. Pastor Paredes
R = 110 – 58 = 52
Intervalos de Clase (k) y Ancho de Clase (c)
 El Intervalo de clase es regular, cuando el tamaño o ancho de clase
va a ser igual para todos los intervalos de clase.
 Número de intervalos de clase o Clases: (modelo de Sturges)
k = 1 + 3.3 (log. n) ¡¡¡NO TOMA EN CUENTA LA NATURALEZA DE LA POBLACIÓN!!!!

k = 1 + 3.3 (log. 180) = 1 + 3.3 (2.2553)


k = 8.44 ~ 8 Intervalos de clase
 Amplitud o Ancho de clase:
Rango R 52
c    6.5  7
k 1  3.32 Log ( No. Datos) 8
 La base de datos tiene 8 intervalos de clase y una anchura de
clase aproximado de 7.

®Jorge L. Pastor Paredes


Para el redondeo del ancho de clase c se debe considerar la
siguiente regla:

Si los datos c es redondeado al siguiente entero: ejemplo


analizados son Si c= 9.4 se redondea como c= 10
enteros. Si c= 9.7 se redondea como c= 10

Si los datos c es redondeado al siguiente decimal: ejemplo


analizados tienen Si c= 9.43 se redondea como c= 9.5
un decimal. Si c= 9.48 se redondea como c= 9.5

Si los datos c es redondeado al siguiente decimal: ejemplo


analizados tienen Si c= 9.432 se redondea como c= 9.44
dos decimal. Si c= 9.438 se redondea como c= 9.44
Distribuciones de Frecuencias

Datos No Agrupados:
 Aquellos que no están agrupados en intervalos, que surgen
cuando la información se dispone asociando a cada valor o
categoría de la variable su frecuencia.

Datos Agrupados:
 Son aquellos cuyos valores observados aparecen agrupados
en intervalos o clases, y por tanto, las frecuencias
correspondientes a cada intervalo se obtienen sumando las de
los respectivos valores de la variable que contiene.

®Jorge L. Pastor Paredes


Distribución de Frecuencias (ni)
Es el agrupamiento de datos en categorías que muestran el
número de observaciones en que cada categoría es mutuamente
excluyente. Límite superior de la 1ra. clase

Límite inferior Intervalos (k) Frecuencias (ni)


de la 1ra. clase
1 57 – 63 4 Frecuencia Absoluta:
2 64 – 70 29 Del valor de una
3 71 – 77 35 variable, es el número
Interv. o clases 4 78 – 84 39 de veces que se repite
k=8 5 85 – 91 34 ese valor.
Ancho de clase 6 92 – 98 20
c=7 7 99 – 105 12
8 106 - 112 7
Total 180
®Jorge L. Pastor Paredes
Marca de Clase (Xi)
Es el punto medio de la clase, se determina mediante la suma
del límite inferior y el límite superior de cada clase dividido
entre dos.

Clases Frecuencias (ni) Xi


57 – 63 4 60 Li  Ls
64 – 70 29 67 Xi 
2
71 – 77 35 74
78 – 84 39 81
85 – 91 34 88
92 – 78 20 95
99 – 105 12 102
106 - 112 7 109

®Jorge L. Pastor Paredes


Límite Real de Clase (Lr)
Se determinan mediante la suma del límite inferior y el límite
superior de cada clase más el intervalo respectivo, dividido
entre dos.

57  63  7 Lri 1  63.5  7  56.5


Lrs 1   63.5
2

85  91  7
Lrs 5   91.5 Lri 5  91.5  7  84.5
2

®Jorge L. Pastor Paredes


Clases Frecuencias (ni) Xi Lri Lrs
57 – 63 4 60 56.5 63.5
64 – 70 29 67 63.5 70.5
71 – 77 35 74 70.5 77.5
78 – 84 39 81 77.5 84.5
85 – 91 34 88 84.5 91.5
92 – 98 20 95 91.5 98.5
99 – 105 12 102 98.5 105.5
106 - 112 7 109 105.5 112.5

®Jorge L. Pastor Paredes


Frecuencia Relativa : fi
Valor porcentual de la relación entre el número de veces que aparece
el valor ni y el número total de valores de la variable (N):

fi = ni / N
Clases Frecuencias (ni) Xi Lri Lrs f1%
57 – 63 4 60 56.5 63.5 2.22
64 – 70 29 67 63.5 70.5 16.11
71 – 77 35 74 70.5 77.5 19.44
78 – 84 39 81 77.5 84.5 21.67
85 – 91 34 88 84.5 91.5 18.89
92 – 98 20 95 91.5 98.5 11.11
99 – 105 12 102 98.5 105.5 6.67
106 - 112 7 109 105.5 112.5 3.89

®Jorge L. Pastor Paredes


Frecuencias Absoluta y Relativa Acumulada

Clases ni Xi Lri Lrs f1 Ni Fi

57 – 63 4 60 56.5 63.5 2.22 4 2.22


64 – 70 29 67 63.5 70.5 16.11 33 18.33
71 – 77 35 74 70.5 77.5 19.44 68 37.77
78 – 84 39 81 77.5 84.5 21.67 107 59.44
85 – 91 34 88 84.5 91.5 18.89 141 78.33
92 – 98 20 95 91.5 98.5 11.11 161 89.44
99 – 105 12 102 98.5 105.5 6.67 173 96.11
106 - 112 7 109 105.5 112.5 3.89 180 100.00

®Jorge L. Pastor Paredes


3-2

Medidas de Tendencia Central


Media de una Población
(Datos no agrupados)
 Para datos no agrupados, la media de la población es la suma de
todos los valores en ella dividida entre el total de valores en la
población.
 Cualquier característica medible de una población se denomina
“parámetro”, la media de la población es un parámetro.
N

x i

 
i 1
N
donde:
µ = Representa la media de la población.
N = Número total de elementos en la población.
Xi = Representa cualquier valor en particular.
 = Operador de suma.
®Jorge L. Pastor Paredes
3-3

Ejemplo
Los datos en millas recorridas para cada uno de los cuatro autos
son: 56,000, 23,000, 42,000 y 73,000. Encuentre el promedio de
millas de los autos.
4

x i

 
i 1
 x1  x 2  x3  x 4 / 4
4

Esto es (56,000 + 23,000 + 42,000 + 73,000)/4 = 48,500

®Jorge L. Pastor Paredes


3-4

Media de una Muestra


(Datos no agrupados)
• Para datos no agrupados, la media de una muestra es la suma
de todos los valores divididos entre el número total de los
mismos.
• Dato estadístico: una característica de una muestra.
n

x
i 1
i

X
n
Donde:
X = denota la media muestral.
n = es el número total de valores en la muestra.

®Jorge L. Pastor Paredes


3-5

Ejemplo
Una muestra de cinco ejecutivos recibió la siguiente cantidad en
bonos el año pasado: $14,000, $15,000, $17,000, $16,000 y
$15,000.
Encuentre el promedio en bonos para los cinco ejecutivos.
5

x i

X i 1
 x1  x 2  x 3  x 4  x 5 / 5
5
Como estos valores representan la muestra de 5 ejecutivos, la
media de la muestra es: (14,000 + 15,000 + 17,000 + 16,000 +
15,000) / 5 = $15,400.

®Jorge L. Pastor Paredes


3-8

Media Aritmética Ponderada


• Es la suma del producto de un conjunto de datos X1, X2, ..., Xn,
por sus respectivos sus pesos o ponderaciones w1, w2, ...,wn.
• Se calcula con la fórmula:
n
 (wixi )
i 1
Xw  n
 wi
i 1
(w1X1  w 2 X 2 ... w n X n )
Xw 
(w1  w 2 ...w n )

®Jorge L. Pastor Paredes


3-9

Ejemplo
• Durante un periodo de una hora en una tarde calurosa, el
cantinero de un Bar sirvió cincuenta bebidas. Calcule la
media ponderada de los precios de las bebidas.

Precio(xi) Cantidad(wi)
0.50 5
0.75 15
0.90 15
1.10 15

®Jorge L. Pastor Paredes


n
 (wi.xi )
i 1
Xw  n
 wi
i 1

0.50 x 5 + 0.75 x 15 + 0.90 x 15 + 1.10 x 15


Xw 
5 + 15 + 15 + 15

Xw  $43.75/50 = $0.875

®Jorge L. Pastor Paredes


Media Aritmética ( Datos Agrupados)

• La media aritmética de una variable se define como la suma


ponderada de los valores de la variable por sus frecuencias
relativas y lo denotaremos por y se calcula mediante la
expresión:
m

x n
i 1
i. i

X
n
donde:
xi = la marca de clase
ni = frecuencia de clase
n = numero total de frecuencias

®Jorge L. Pastor Paredes


Ejemplo:
Distribución de frecuencia para los pesos de 50 lingotes de
Acero
Clase(m) Marca Clase ni xi . ni
(xi)
91.5 – 92.5 92.0 4 368
92.5 – 93.5 93.0 11 1023
93.5 – 94.5 94.0 20 1880
94.5 – 95.5 95.0 9 855
95.5 – 96.5 96.0 6 576
Totales m m
 ni  50  xi .ni  4702
i  1 i 1

®Jorge L. Pastor Paredes


• Se suman los productos xi.ni obteniéndose:

m
 xi.ni  4,702
i 1

• Entonces la media es:


5

x n i. i
4, 702
X i 1

50 50
 94.04kg por lingote.

®Jorge L. Pastor Paredes


Media Geométrica (Datos no Agrupados)
La media geométrica simple (XG) de n
observaciones X1, X2, ……,Xn positivas, esta dada
por el producto de los n valores observados, es
decir:

n
XG  x1. x 2. x 3........ x 3 Importancia y Aplicación
de la MG:
n
XG  n  xi
La media geométrica, es una
media logarítmica, se usa
i 1 para encontrar el promedio
de porcentajes, razones,
índices o tasas de
crecimiento.
®Jorge L. Pastor Paredes
Ejemplo
Las ganancias obtenidas por una empresa de
construcción en cuatro proyectos recientes fueron de 3%,
2%, 4%, 6% ¿Cuál es la media geométrica de la
ganancia?
n
xG  n  xi  4 (3)( 2)( 4)( 6 )
i 1
4
xG  144
Explica el valor medio geométrico de las
xG  3.46%
ganancias.

®Jorge L. Pastor Paredes


Media Geométrica (Datos Agrupados)

La media geométrica para datos agrupados es la raíz enésima del


producto de las marcas de clases elevadas a sus respectivas
frecuencias, es decir:

n n1 n2 n3
xG  x1 x 2 x3
m
xG  n  xi ni
i 1
Donde m, es el numero de clases.

®Jorge L. Pastor Paredes


• Aplicando logaritmo a ambos miembros de la ecuación
anterior se tiene:

log XG  1n n1 log x1  n 2 log x 2....... nm log xm 


1m
log XG   ni log xi
n i 1
 m
ni log xi 
 i 1 
log XG  anti log  
n
 
 
®Jorge L. Pastor Paredes
Ejemplo
• Hallar la media geométrica de las siguiente Distribución
de Frecuencia:

xi ni log xi ni log xi
92 4 1.9638 7.8552

93 11 1.9690 21.6533

94 21 1.9730 41.4357

95 10 1.9777 19.7772

96 4 1.9822 7.9291

Totales n = 50 98.6505

®Jorge L. Pastor Paredes


1 m 98 .6505
log X G   ni log xi 
n i 1 50
log X G  1.9730
X G  anti log1.9730   101.9730
X G  93 .97

®Jorge L. Pastor Paredes


La Mediana
• La Mediana es el punto medio de los valores de una
muestra después de ordenarlos de menor a mayor, o de
mayor a menor. El 50% de los valores se encuentra por
arriba de la mediana y el 50% por debajo de ella.
• Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.
Cálculo de la mediana en el caso discreto:
• Tendremos en cuenta el tamaño de la muestra.
• Si N es Impar, hay un término central ese término
será el valor de la mediana.
• Si N es Par, hay dos términos centrales, la mediana
será la media de esos dos valores.
®Jorge L. Pastor Paredes
N par N impar

1,4,6,7,8,9,12,16,20,24,25,27 1,4,6,7,8,9,12,16,20,24,25,27,30
N =12 N =13

Términos Centrales el 6º = 9 Termino Central el 7º =12


y el 7º = 12

Me = Me = 12

®Jorge L. Pastor Paredes


Mediana Datos Agrupados

De donde la Mediana vale:

n N
2 i 1
M e  Li  * Ci
Ni  Ni 1
donde:
ci = ancho del intervalo de la clase mediana
Li = límite inferior de la clase mediana
Ni = frecuencia acumulada de la clase
mediana
Ni-1 = frecuencia acumulada anterior a la clase
®Jorge L. Pastor Paredes
mediana
Ejemplo
Supongamos los pesos de un grupo de 50 personas se
distribuyen de la siguiente forma:

Intervalos ni Ni
Li Ls
45 - 55 6 6

55 - 65 10 16

65 - 75 19 35

75 - 85 11 46

85 - 95 4 50

®Jorge L. Pastor Paredes


• Como el tamaño de la muestra es n = 50, buscamos el
intervalo en el que la Frecuencia acumulada es mayor que
50/2=25 (que contiene dicho valor), que en este caso es el
3º y aplicamos la fórmula anterior.
Ni -1 N

Ni 6 16 35 46 50

17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34.

®Jorge L. Pastor Paredes


Luego la Mediana será:

50  16
M e  65  2 *10  69.74
35  16

69.74 es el termino central la distribución de pesos de 50


personas para la muestra tomada.

®Jorge L. Pastor Paredes


La Moda

• Es el valor de la variable que tenga mayor frecuencia


absoluta, la que más se repite, es la única medida de
centralización que tiene sentido estudiar en una variable
cualitativa, pues no precisa la realización de ningún
cálculo.
• Por su propia definición, la moda no es única, pues
puede haber dos o más valores de la variable que
tengan la misma frecuencia siendo esta máxima. En
cuyo caso tendremos una distribución bimodal o
polimodal según el caso.
• Explora la naturaleza de la variable.

®Jorge L. Pastor Paredes


3-13

Ejemplo
• Las calificaciones de un examen de diez estudiantes
son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la
calificación 81 es la que más ocurre, la calificación
modal es 81.

• Por lo tanto el cálculo de la moda en distribuciones


discretas o cualitativas no precisa de una explicación
mayor; sin embargo, debemos detenernos un poco en
el cálculo de la moda para distribuciones cuantitativas
continuas.

®Jorge L. Pastor Paredes


Moda para Datos Agrupados

Primera Forma:

ni  ni  1
Mo  Li  ci 
ni  ni  1  ni  ni  1
donde:
Li = Limite inferior del intervalo de la clase modal
ni = Frecuencia absoluta del intervalo de clase que contiene a la moda
ni-1 = Frecuencia absoluta del intervalo de clase anterior al que contiene a la moda
ni+1 = Frecuencia absoluta del intervalo de clase posterior al que contiene a la moda
ci = Ancho del intervalo

®Jorge L. Pastor Paredes


Moda para datos No Agrupados
Segunda Forma:

ni  1
Mo  Li  (ci )
(ni  1)  (ni  1)

Donde:
Li = Limite inferior del intervalo de clase que contiene a la Moda
ni-1 = Frecuencia absoluta del intervalo de clase anterior al que contiene a la moda
ni+1 = Frecuencia absoluta del intervalo de clase posterior al que contiene a la moda
ci = Ancho del intervalo.

®Jorge L. Pastor Paredes


Ejemplo
Utilizando la Distribución de Frecuencia del Ejemplo anterior:

Li Ls ni Ni
45 55 6 6
55 65 10 (ni-1) 16
65 75 19 (ni) 35
75 85 (ni+1) 11 46
85 95 4 50

  50
Mayor Frecuencia
®Jorge L. Pastor Paredes Absoluta
Primera Forma:
19  10
Mo  65  x10  70.29
(19  10)  (19  11)

Segunda Forma:

11
Mo  65  x10  70.24
10  11

®Jorge L. Pastor Paredes


Medidas de Locación
Cuantiles:
• Estadígrafos que dividen a los datos en otras proporciones y no solo
en mitades como lo hace la mediana.
• Cuando la distribución contiene un número alto de intervalos o de
marcas de clase y se requiere obtener un promedio de una parte de
ella, se puede dividir la distribución en cuatro, diez o cien partes.
• Pueden ser:
1. Cuartiles
2. Deciles
3. Percentiles

®Jorge L. Pastor Paredes


Cuartiles
• Son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente, en cuatro partes iguales.
• Se denota por:
Qi donde i = 1, 2, 3

X1, X2 …………Xi X1+1 …………Xk Xk+1…………Xm Xm+1…………Xm 100%

25% 25% 25% 25%


Q1 Q2 Q3

50%

75%

®Jorge L. Pastor Paredes


I. Datos No Agrupados
Primer Cuartil (Q1)
Qi = es el valor que deja 25% de las observaciones menores o iguales a
el y el 75% superiores a el.
Sean : X1, X2, …………. Xn un conjunto de observaciones de una
variable, entonces Q1 se determina como sigue:
a) Se ordena los datos en forma ascendente X1< X2 < ………. < Xn
b) Se localiza el punto de posición del valor correspondiente a la
(n+1)/4 observación ordenada:
n 1
Qi = X ( 4
)
n 1
Si 4 no es entero, hacemos una interpolación lineal entre los 2
valores correspondientes a las dos observaciones entre las cuales se
encuentra la fracción.
®Jorge L. Pastor Paredes
Ejemplo:
Al examinar los registros de facturación mensual de una empresa editora de
ventas a crédito, el auditor toma una muestra de 11 de las facturas no pagadas.
Las sumas que se adeudan la compañía en soles son:
40, 180, 110, 70, 70, 100, 210, 50, 330, 90, 120
¿Determine el primer cuartil Q1?
1. Ordenando los datos:
40 50 70 70 90 100 110 120 180 210 230
          
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
25% 75%
n 1 11  1
2. Como n = 11,  = 3 es un entero, entonces, Q1 es la tercera
4 4
observación ordenada.

Q1 = X  n  1  = X3 = 70
 4 
®Jorge L. Pastor Paredes
Ejemplo: Supóngase que los siguientes datos representan los salarios por día
de los funcionarios de una compañía transnacional (En soles).
90, 100, 120, 30, 50, 70, 150, 100, 90, 110, 130, 110
¿Determine el primer cuartel de la muestra Q1?
1. Ordenando datos:
30 50 70 Q1 90 90 100 100 110 110 120 130 150
           
x1 x2 x3 x 4 x5 x6 x7 x 8 x9 x10 x11 x12
25% 75%

2. n = 12, (n+1)/4 = (12+1)/4 = 3.25, n es impar, significa que el valor Q1 es


el tercer dato mas 25% de la diferencia entre los valores observados x3 y
x 4.
Q1 = X3 + (X4 – X3) (0.25)
Q1 = 70 + (90 – 70) (0.25) = 70 + 5 = 75 soles.
Tercer Cuartil (Q3)
Q3 = Es el valor que deja al 75% de los datos inferiores o iguales a él y
el 25% de estos superiores a él:
Sea: X1 , X2 , …………Xn un conjunto de observaciones de una
variable X, entonces Q3 se determina como sigue:
1. Se ordena los datos en forma ascendente: X1 < X2 < ….. < Xn
2. Se localiza el punto de posición del valor correspondiente a la
3(n  1) observación ordenada.
4
a) Si 3(n  1) es un entero entonces: Q3 = x ( 3(n  1) )
4 4
3(n  1)
b) Si 4 es fraccionario, haremos una interpolación lineal entre los
dos valores correspondientes a las dos observaciones entre las cuales
se encuentra la fracción.

®Jorge L. Pastor Paredes


Ejemplo: Determine Q3 para los datos del caso 1:
Ordenando los datos:

40 50 70 70 90 100 110 120 180 210 230


          
x1 x2 x3 x4 x 5 x6 x7 x8 x9 x10 x11
75% 25%

3( n  1) 3(12)
Como n = 11, = = 9, la novena observación
4 4

Q3 = X9 = 180

®Jorge L. Pastor Paredes


Ejemplo: Hallar Q3 para los datos del caso anterior:

Ordenando:
75% 117.5 25%

30 50 70 90 90 100 100 110 110 Q3 120 130 150
           
x1 x2 x3 x4 x 5 x6 x7 x8 x9 x10 x11 x12

3( n  1) 3(13)
Como n = 12, 4 = 4 = 9,75 esto significa que el valor de Q3 es el
noveno dato más 75% de la diferencia entre los valores de las observaciones
novena y décima:

Q3 = 110 + (120 - 110) (0.75)


Q3 = 110 + 7.5
Q3 = 117.5

®Jorge L. Pastor Paredes


II. Datos Agrupados
Primer Cuartil Q1
Si los datos están agrupados en clases, entonces Q1 , se determinan
como sigue:
1. Se constituye la tabla de frec. abs. acumuladas “menor que” Ni.
2. Se identifica la clase que contiene a Q1, determine la menor de las
frecuencias absolutas Ni que supera a n/4: Ni  1  n  N I
4
3. Por lo tanto la clase que contiene a Q1:

n / 4  N i 1
Q1  Li  . ii
N i  N i 1

®Jorge L. Pastor Paredes


Ejemplo: Se tiene una distribución de frecuencia para las notas de 50
alumnos del curso de estadística.

Li  Ls ni NI

0 – 4 4 4
4 – 8 16 20 n  12.5
4
8 – 12 25 45
12 - 16 5 50

n  50
Como n
 12.5  N1  4  Ni  20, Ni 1  4, Li  4
4
n / 4  N i 1 12.5  4
Q1  Li  * ii Q1  4  ( )4  4  2.125  6.125
N i  N i 1 20  4

El 25% de las notas están por debajo de 6.125 y el 75% por encima.

®Jorge L. Pastor Paredes


Tercer Cuartil - Q3

1. Se construye la tabla de frec. absolutas acumuladas “menor que” N1.


2. Se identifica la clase que contiene a Q3 determinado la menor frecuencia
absoluta acumulada Ni que supera a 3n
4
3n
N i 1   Ni
4
3. La clase que contiene a Q3 es:

3n
 Ni 1
Q3  Li  4 . ii
N i  N i 1

®Jorge L. Pastor Paredes


Ejemplo: Del ejemplo anterior:

Li Ls ni Ni

0–4 4 4
4–8 12 20
8 – 12 25 45 37.5 = 3n / 4
12 - 16 5 50

n = 50

37.5  20
Q3  8  ( )4 Q3  8  2.8  10.8
45  20

El 75% de las notas están por debajo a 10.8 y el 25% de las notas
están por encima de 10.8

®Jorge L. Pastor Paredes


Deciles:
Son aquellos valores que dividen a un conjunto de datos ordenados en
forma ascendente (o descendente) en diez partes iguales.
Se representa por:
Di , i  1, 2,...9. X  X i , X 2 ..... X n

X1, X2, X3.......................................................................................X n-1, Xn

0 10% D1 10% D2 10% D3 ....................10% D9 100%

D1 = Es el valor que deja 10% de las Obs. menores o iguales a él y 90% superiores a él.
D2 = Es el valor que deja 20% de las Obs. menores o iguales a él y 80% superiores a él.
D9 = Es el valor que deja 90% de las Obs. menores o iguales a él y 10% superiores a él.

®Jorge L. Pastor Paredes


Procedimiento:

Se ordenan ascendentemente los datos, luego se localiza la posición


del valor correspondiente a la i (n) observación ordenada entonces:
10
i (n) i (n)
Si 10 es exacto D1 = X ( 10
)
i (n)
Si 10 no es exacto, interpolamos linealmente entre los dos valores
correspondientes a las 2 observaciones entre los cuales se encuentra
la fracción:

 6n 
 10  N 3

D6 = L3 + ii  
N
 4  N 3 
 

®Jorge L. Pastor Paredes


Percentiles
Los percentiles son valores que dividen a la muestra ordenada en
forma ascendente (o descendente) en 100 partes iguales, se denotan
por Pi, i = 1, 2 ……..99

50% 50% 100%

1%P1 1%P2 P50 1%P98 1%P99

2% 98%

98% 2%

®Jorge L. Pastor Paredes


Cálculo de Percentiles:
Para datos agrupados se sigue los siguientes pasos:
1. Se construye la tabla de frecuencias absolutas acumuladas.
in
2. Se determina 10
, si se trabaja con la tabla de Ni= 1, 2 ……..99
3. Se identifica la clase que contiene a Pi , identificándose la frecuencia
in
absoluta acumulada Ni inmediatamente superior a 100
.
in
N i 1 
 Ni
100
Luego el intervalo de clase que contiene a Pi es “Li - Ls”
 in 
 100  N i 1 
Pi = Li + ii   i = 1 , 2 …….99
 N i  N i 1 

 

®Jorge L. Pastor Paredes


Ejemplo:
Determinar el 6to. decil y el 8vo. percentil de la distribución de
frecuencia del ejemplo anterior:

Li Ls ni Ni

85 – 105 2 2
105 – 125 6 8
125 – 145 14 22 6n/10 = 39.6
145 – 165 20 42
80n/100 = 52.8
165 – 185 18 60
185 – 205 4 64
205 – 225 2 66

n = 66

®Jorge L. Pastor Paredes


a) Cálculo de D6

1. 6n/10 = 6(66/10) = 39.6 [145 – 165> D6


2. Ni = 42, Ni-1 = 22, Li = 145, i = 20

 6n 
  N 3

D6 = L3 + ii  10 
 N 4  N 3 
 

 39.6  22 
D6 = 145 + 20  42  22  D6 = 145 + 17.6

D6 = 162.6

®Jorge L. Pastor Paredes


b) Cálculo de P80

1. 80n/100 = 80(66/100) = 52.8 [165 – 185> P80


2. Ni = 60, Ni-1 = 42, Li = 165, i = 20

 80n 
  N 4

P80 = L 4 + ii  100 
 N 5  N 4 
 

 52.8  42 
P80 = 165 + 20  60  42  P80 = 165 + 12

P80 = 177

®Jorge L. Pastor Paredes


Medidas de Dispersión
Medidas de Dispersión
 Las Medidas de dispersión son estadígrafos que miden el grado de
separación o variabilidad de los datos con respecto a un valor central,
que generalmente es la media aritmética.
 Al aplicar una medida de dispersión es posible evaluar la confiabilidad
del promedio que se esta utilizando.
 Una dispersión pequeña indica que los datos se encuentran
acumulados cercanamente a su valor central, entonces la media se
considera bastante representativa de los datos.
 Por el contrario una dispersión grande indica que la media no es
representativa.

ALTA DISPERSIÓN → BAJA CONCENTRACIÓN

BAJA DISPERSIÓN → ALTA CONCENTRACIÓN

®Jorge L. Pastor Paredes


Desviación Media
 Es la media aritmética de los valores absolutos de las
desviaciones de los valores observados respecto a la media
aritmética de estos.
 Para datos no agrupados:

x X i

DM  i 1
n

®Jorge L. Pastor Paredes


Ejemplo:
Los pesos de una muestra de cajas listas para exportarse son (en
Kilogramos): 103, 97, 101, 106, 103.
a) ¿Cuál es la desviación media?
b) ¿Cómo se interpreta?
n
Media Aritmética: x
i 1
i

X
n
103  97  101  106  103
X  102
5

®Jorge L. Pastor Paredes


Proceso de Cálculo:
1. Se resta la media de cada valor
2. Se suman las desviaciones Absolutas.
3. Se divide la suma de las desviaciones absolutas entre el
numero de valores.
( xi – X )
Kg. ( xi – X )
103 1 1
97 -5 5
101 -1 1
106 4 4
103 1 1

∑ = 12
®Jorge L. Pastor Paredes
n

 x X i

DM  i 1
n

12
DM   2.4 kg
5

La desviación media es 2.4 Kg. En promedio los pesos de la cajas


se desvían 2.4 Kg. respecto a la media aritmética de 102 Kg.

®Jorge L. Pastor Paredes


Varianza de la Población
 La varianza de la población para datos no agrupados es la media
aritmética de las desviaciones cuadráticas respecto a la media de
la población.

( x ) 2

 ( x   ) 2  x  2

 
2
 N
N N

 Donde N es el numero total de la población.

®Jorge L. Pastor Paredes


Ejemplo:
Las edades de una familia son 2, 18, 34, y 42 años.
¿Cuál es la varianza de la población?

Edades ( xi – µ ) ( xi – µ )2 N
 xi 96
2 -22 484 μ i 1
  24 años
N 4
18 -6 36
34 10 100

 xi  μ 2
N
42 18 324
944
σ2  i 1
  236 años 2
∑(xi - µ)2= 944 N 4

®Jorge L. Pastor Paredes


Desviación Estándar Poblacional
 La desviación estándar poblacional ( ) es la raíz cuadrada de la
varianza de la población.

 
(  x ) 2


2
( x   ) 2 x
   N
N N
N

  xi  μ 2

944
σ  i 1
  15.36 años
N 4
 Para el ejemplo 2, la desviación estándar poblacional es 15.36. Esto
quiere decir que en promedio las edades se desvían 15 años respecto a
la media de 24 años para los miembros de esa familia.

®Jorge L. Pastor Paredes


Varianza Muestral
 La varianza muestral estima la varianza de la población.
 Se define como la media al cuadrado de las desviaciones de las
observaciones con respecto a la media aritmética de esos datos.

( x) 2
Formula general:
 ( x  X ) 2  x 
2

n
s 
2

n 1 n 1
Ejemplo:
Los salarios por hora (en dólares) en una muestra de trabajadores
de medio tiempo de una empresa son: 2, 10, 6, 8, 9.
¿Cual es la Varianza Muestral?

®Jorge L. Pastor Paredes


Solución:

1.- Media:
Sueldo
n

x i
35
por Hora (xi)
2
xi - X
-5
(xi - X)2
25
X i 1
 7
n 5 10 3 9
6 -1 1
2.- Calculo de Desviaciones:
8 1 1
9 2 4

∑(xi - X)2 = 40
n

 (x i  X) 2
40
S2 = i 1
 S2   10 dólares 2
n 1 5 1

®Jorge L. Pastor Paredes


Interpretación:
Se puede concluir que en promedio los salarios se desvían 10
dólares al cuadrado con respecto a la media aritmética de 7
dólares.
Tal conclusión es difícil de interpretar por estar expresada en
dólares cuadrados por lo que será necesario definir la
“desviación estándar muestral” por ser más clara en su
interpretación.

®Jorge L. Pastor Paredes


Desviación Estándar Muestral
 La desviación estándar muestral es la raíz cuadrada de la
varianza muestral.
( x) 2

 ( x  X ) 2  x  2

n
s 
n 1 n 1
Ejemplo:
La varianza muestral del ejemplo anterior para los sueldos por
hora se cálculo como $10 ¿Cuál es la desviación estándar
muestral?

®Jorge L. Pastor Paredes


Solución:
 La desviación estándar muestral es $3.16, que se obtiene por
la 2 10 , observe de nuevo que la varianza muestral está en
términos de dólares al cuadrado, pero al obtener la raíz
cuadrada de $10 se tiene $3.16, que esta en las mismas
unidades (dólares) que los datos originales.

 Finalmente se puede concluir que en promedio los sueldos se


desvían $3.16 respecto a la media aritmética de $7.

®Jorge L. Pastor Paredes


Varianza de Datos Agrupados
 La varianza de n valores de alguna variable en estudio X,
tabulados en m intervalos, con marcas de clase x1, x2 x3,…xm ,
con frecuencias absolutas ni y con media X , es:

 ni ( xi  X ) 2

S 
2 i 1
n 1

®Jorge L. Pastor Paredes


Ejemplo:
Nº de
Los ingresos diarios de Ingresos Marcas personas
un grupo de 45 Ii xi ni xi ni
personas de una 26 - 34 30 1 30
consultora sigue la 34 - 42 38 2 76
siguiente distribución 42 - 50 46 4 184
de frecuencias.
50 - 58 54 10 540
Solución:
58 - 66 62 16 992
66 - 74 70 8 560
74 - 82 78 3 234
82 - 90 86 1 86

Totales 45 2702

X = 2702 / 45 = 60.04
®Jorge L. Pastor Paredes
Ejemplo:
m

Desviaciones
 ni (xi  X) 2

S2  i 1
xi - X (xi - X)2 ni (xi - X)2 n 1
-30.04 902.67 902.67
-22.04 485.96 971.92
5523.91
-14.04 197.25 788.99 S 
2
 125.54
-6.04 36.54 365.35 45  1
1.96 3.82 61.19
Se puede concluir que los
9.96 99.11 792.90 ingresos diarios en promedio se
17.96 322.40 967.21 desvían 125.54 soles al
25.96 673.69 673.69 cuadrado, respecto de la media
aritmética de 60.04 soles.
Total 5523.91

®Jorge L. Pastor Paredes


Desviación Estándar
Formula general:
m

 ni (xi  X) 2

S i 1

n 1

Como ya se mencionó anteriormente la desviación estándar


nos proporciona una interpretación más clara que la varianza
por estar expresada en unidades corrientes, no cuadradas.

®Jorge L. Pastor Paredes


La desviación estándar para el problema anterior será:

S = 125.54

S = 11.20

Interpretación Final:
Finalmente podemos concluir que los ingresos diarios en
promedio se desvían 11.20 soles con respecto al salario
promedio diario de 60.04 soles.

®Jorge L. Pastor Paredes


4-14

Teorema de Chebyshev:
 Cualquiera sea la forma de la distribución de frecuencias (simétrica o
asimétrica) el intervalo [x – ks, x + ks], k > 1, contiene por lo menos el
1
1  2 % de las observaciones estará dentro de k unidades respecto
k a la media.

 El porcentaje de datos que se hallan fuera del intervalo es menor que


el:
1
2
en %
k

®Jorge L. Pastor Paredes


• Por ejemplo, el intervalo [x – 2s, x + 2s], contiene por lo menos el :

1 3
1  2  ó 75% de los datos.
2 4
• El intervalo [x – 3s, x + 3s], contiene por lo menos el 88.98% (8/9) de
los datos.

• El intervalo [x – 4s, x + 4s], contiene por lo menos el 93.75% (15/16)


de los datos.

®Jorge L. Pastor Paredes


Ejemplo:
Si el ingreso de 120 obreros tiene una media de 300€ y una desviación
estándar de 30€. ¿Cuántos obreros por lo menos tienen sueldos
comprendidos entre 240 - 360 €?
Solución:
X = 300€ , S = 30€ de la relación:
[300 – K30, 300 + K30] = [240 – 360]
Si K = 2 Entonces el, 1 – 1/22 = 3/4 = 75%
75% (120)= 90 obreros por lo menos tienen ingresos entre 240 y 360.
Si k = 3 Entonces 1 - 1/33 = 88.89%
88.89%(120) = 106 obreros por lo menos tienen ingresos entre 240 y
360

®Jorge L. Pastor Paredes


4-15

Regla Empírica:
Para una distribución de frecuencias simétrica de campana:
 Cerca de 68% de las observaciones se encontrará a más y
menos una desviación estándar de la media;
 Aproximadamente 95% de las observaciones se encontrarán a
más y menos dos desviaciones estándares desde la media;
 Y el 99.7% se encontrarán a más y menos tres desviaciones
estándares desde la media.

®Jorge L. Pastor Paredes


Curva Simétrica de Campana

3 2 1  1 2 3


68%
95%
99.7%
4-17

Dispersión Relativa
Coeficiente de Variación:
Es la razón de la desviación estándar a la media aritmética, expresada como
porcentaje:
s
CV  (100%)
X
Aplicación:
El coeficiente de variación se utiliza para comparar la dispersión de dos variables en
estudio, en los siguientes casos:
1. Cuando los datos se encuentran en diferentes unidades (dólares y días de trabajo).
2. Cuando se encuentra en las mismas unidades pero las medias son muy distantes.
3. Cuando las desviaciones estándares son iguales y se dificulta saber cual tiene
mayor o menor dispersión.

®Jorge L. Pastor Paredes


Ejemplo:
Un estudio de las calificaciones obtenidas en un curso de finanzas y las
edades de los que tomaron el curso dio como resultado las siguientes
estadísticas: la calificación media fue de 200 puntos y su desviación
estándar 40, la edad media fue de 20 años y su desviación fue de 5
años.
¿Cual de estos dos distribuciones tuvo mayor dispersión?

Solución:
No hay forma de saberlo directamente por lo que tendremos que
hallarlo usando la dispersión relativa.

s
CV  (100%)
X
®Jorge L. Pastor Paredes
• Para las calificaciones:
s
CV  (100%)
X

CV 
40
100% 
200
La desviación estándar es
CV  20% 20% de la media
• Para las edades: s
CV  (100%)
X

CV 
5
100% 
20
La desviación estándar es
CV  25% 25% de la media

®Jorge L. Pastor Paredes


Asimetría de una Distribución
 Las medidas de dispersión solamente indican la magnitud de las
variaciones, pero no proveen información acerca de la dirección
hacia donde tienden a ocurrir las variaciones.
 Los indicadores de asimetría indican la deformación horizontal
de las curvas de frecuencias o la falta de simetría en una
distribución.
 Dos distribuciones pueden tener la misma media y la misma
desviación estándar, pero pueden diferir en el grado de asimetría.

®Jorge L. Pastor Paredes


Coeficiente de Asimetría (Pearson)
 La asimetría se produce porque la curva normal simétrica tiene
sesgo.
 Asimetría positiva, (sesgo positivo) si las observaciones son muy
grandes, la media se es mayor que la mediana o moda.
 Asimetría negativa, (sesgo negativo) si las observaciones son muy
pequeñas, la media es menor que la mediana y la moda.
 Como en distribuciones asimétricas se verifica:

X  Mo  3(X  Md)
 Entonces se puede formular el coeficiente de Pearson como :

3(X  M)
As 
S

®Jorge L. Pastor Paredes


4-18

Distribución Simétrica:
X = Md = Mo
Distribución con Asimetría Positiva:
Mo < Md < X
Distribución con Asimetría Negativa:
X < Md < Mo

As  0, la distribuci ón es simétrica.
As  0, la distribuci ón es sesgada hacia el lado derecho.
As  0, la distribuci ón es sesgada hacia el lado izquierdo .

®Jorge L. Pastor Paredes


Tipos de Asimetría (Skew)

Me<Md<Mo Me=Md=Mo Mo<Md<Me


Asimetría Simétrica Asimetría
Negativa Positiva

®Jorge L. Pastor Paredes


Ejemplo
Las duraciones de estancia en el piso de cancerología de un hospital
se organizaron en una distribución de frecuencias. La duración media
fue de 28 días, la mediana 25 días y la duración modal de 23 días. Se
calculo la desviación estándar de 4.2 días
¿Es la distribución simétrica o asimétrica con sesgo positivo o sesgo
negativo? Y ¿Cuál es el coeficiente de Asimetría?
Solución:
Mo < Md < Me → Asimetría Positiva

3( Me  Md ) 3(28  25)
As    2.14
S 4.2

®Jorge L. Pastor Paredes


Interpretación:
 Interpretando esto, el coeficiente de asimetría por lo general se
encuentra entre -3 y +3. En tal caso +2.14 indica un grado
importante de asimetría con sesgo positivo
 En apariencia unos cuantos pacientes cancerosos permanecen
en el hospital durante largo tiempo, provocando que la media
sea mayor que la mediana y la moda.

®Jorge L. Pastor Paredes


Medidas de Curtosis
 Se entiende por Curtosis el grado de deformación vertical
(apuntamiento) de una distribución de frecuencias.
 La curtosis se determina mediante el empleo del primer y tercer
cuartil y percentil 10-90.
 Según el grado de apuntamiento, podemos tener:

h h h
i i i

Y Y Y
i i
Platicúrtica Mesocúrtica Leptocúrtica
®Jorge L. Pastor Paredes
 El grado de apuntamiento (deformación vertical) utilizaremos el
coeficiente denotado por:
Q3  Q1
K
2P90  P10 
 Si K = 0.263, diremos que la curva correspondiente a la distribución
de frecuencias es MESOCURTICA.
 Si K > 0.263, diremos que la curva correspondiente a la distribución
de frecuencias es PLATICURTICA.
 Si K < 0.263, diremos que la curva correspondiente a la distribución
de frecuencias es LECTOCURTICA

®Jorge L. Pastor Paredes


Diagrama de Caja
 Es una representación gráfica de una distribución, permite mostrar
sus características principales, por ejemplo la forma de la
distribución.
 Se utiliza cuando el tamaño de la muestra no es muy grande y los
histogramas no muestran bien su forma.
 Se usa también para mostrar posibles datos atípicos (observaciones
que parecen ser distintas de las demás).
 Se requiere los siguientes estadísticos: valor min. Q1, Md, Q3, valor
máx.

Li Ls
1.5(Q3–Q1) 1.5(Q3–Q1) Valores
atípicos
RI 1.5 RI

Xmin Q1 Md Q3 X máx.
Ejemplo:
Cada día de la primera quincena de enero atracan en un puerto pesquero el
siguiente número de lanchas pesqueras: 95, 89, 77, 87, 81, 89, 92, 103, 87, 82,
80, 100, 79, 74, 83. Dibuje un Diagrama de Caja para estudiar la forma de la
distribución de los datos.
Solución:
1° Se ordenan los datos de menor a mayor:
74, 77, 79, 80, 81, 82, 83, 84, 87, 87, 89, 92, 95, 100, 103
2° Los datos extremos son: Xmin= 74 y Xmáx= 103
3° Rango : 103 – 74 = 29
4° Q1= (n+1)/4 = 16/4 = 4 Q1= X4= 80
5° Q2= (n+1)/2 = 16/2 = 8 Q1= X8= 84
6° Q3= 3(n+1)/4 = 3x16/4 = 12 Q3= X12= 92
7° Los límites posibles son:
Li = Q1 - 1.5(Q3 - Q1) = 80 – 1.5(92 – 80) = 62
Ls = Q3+1.5(Q3 - Q1) = 92 + 1.5(92 – 80) = 110

®Jorge L. Pastor Paredes


Gráfico

Li Ls
Valores
atípicos

Xmin Q1 Md Q3 X máx.
70 80 84 92 103

Вам также может понравиться