Академический Документы
Профессиональный Документы
Культура Документы
UNIVERSIDAD NACIONAL
“FEDERICO VILLARREAL”
ESCUELA DE POSTGRADO
PARAMÉTRICA NO PARAMÉTRICA
TIPOS DE ESTADÍSTICAS
I. ESTADÍSTICA PARAMÉTRICA
Se basa en parámetros poblacionales en la que se trabaja
con información obtenida con una escala de medida
intervalar o de razón.
1. Estadística Descriptiva: métodos para organizar, resumir y
presentar datos de manera informativa.
Ejemplo 1: Un sondeo de opinión encontró que 49% de las personas en
una encuesta no sabían el nombre del primer libro Vargas Llosa.
La estadística “49” describe el número de cada 100 personas que no
saben la respuesta.
Ejemplo 2: Según el Consumer Reports, los dueños de lavadoras de
ropa Whirlpool reportaron 9 problemas por cada 100 máquinas durante
el 2012. La estadística “9” describe el número de problemas por cada
100 máquinas.
®Jorge L. Pastor Paredes
1-5
TIPOS DE VARIABLES
Histogramas:
Gráfica donde las clases se marcan en el eje horizontal y las
frecuencias de clase en el eje vertical.
Las frecuencias de clase se representan por las alturas de las
barras y éstas se trazan adyacentes entre sí.
Polígonos de Frecuencia:
Consiste en segmentos de línea que conectan los puntos
14
12
Frecuencia
10
8
6
4
2
0
10 15 20 25 30 35
Horas de estudio
Polígono de frecuencias
para las horas de estudio
14
12
10
Frecuencia
8
6
4
2
0
10 15 20 25 30 35
Horas de estudio
35
30
25
Frecuencia
20
15
10
5
0
10 15 20 25 30
Horas de estudio
10000
# desempleados/100 000
8900 8900
8200
8000 7300
6700
5400 Atlanta
6000
Boston
4000 Chicago
Los Angeles
2000 New York
0 Washington
1 2 3 4 5 6
Ciudades
Asics
Reebok
Otros
Nike
Adidas
Reebok
Adidas Asics
Otros
Nike
Distribuciones de Frecuencia
Recolección de Datos
El análisis estadístico se inicia cuando se tiene interés en determinado
suceso, para tal efecto se debe recoger la información necesaria; a este
proceso también se le conoce como “Toma de Datos”
No siempre todos los datos representan la totalidad del suceso, se debe
coger una muestra representativa que sirva de base para elaborar
pronósticos o efectuar proyecciones estimadas del suceso.
Los datos recogidos pueden estar totalmente dispersos por lo que se
deben ordenar de “menos a más” o de “más a menos” según sea el
caso.
Los datos pueden referirse a varias variables: costos (producción,
administrativos, financieros, etc.), ventas, productos, tipos de cambio,
tasas de interés, etc.
58 64 68 70 74 77 80 80 84 84 88 90 93 96 100
104 108 110 60 64 68 70 74 77 80 80 84 84 88 90
93 96 100 104 108 110 60 64 68 70 70 70 74 74 74
74 77 77 77 80 80 80 80 84 84 84 84 88 88 88
90 90 90 93 93 96 96 100 100 104 108 110 64 68 70
74 74 77 77 77 80 80 80 84 84 88 88 88 90 90
90 93 93 96 100 104 108 64 68 70 70 74 74 77 77
80 80 80 84 84 88 88 90 90 93 93 96 96 100 104
68 70 74 77 77 80 80 88 90 90 93 96 96 93 93
100 88 88 90 80 80 84 77 77 74 74 70 68 77 68
77 80 84 88 80 88 68 70 74 77 80 84 88 90 90
85 76 77 86 83 74 78 70 75 58 64 66 66 78 90
58 68 70 74 75 77 80 80 84 86 88 90 93 96 104
58 68 70 74 76 77 80 80 84 88 88 90 93 96 104
60 68 70 74 77 77 80 80 84 88 88 90 93 96 104
60 68 70 74 77 77 80 80 84 88 88 90 93 96 104
64 68 70 74 77 77 80 80 84 88 88 90 93 96 104
64 68 70 74 77 77 80 80 84 88 90 90 93 100 108
64 68 70 74 77 77 80 80 84 88 90 90 93 100 108
64 68 70 74 77 77 80 83 84 88 90 90 93 100 108
64 68 70 74 77 78 80 84 84 88 90 90 96 100 108
64 70 74 74 77 78 80 84 84 88 90 93 96 100 110
66 70 74 74 77 80 80 84 84 88 90 93 96 100 110
66 70 74 74 77 80 80 84 85 88 90 93 96 100 110
Datos No Agrupados:
Aquellos que no están agrupados en intervalos, que surgen
cuando la información se dispone asociando a cada valor o
categoría de la variable su frecuencia.
Datos Agrupados:
Son aquellos cuyos valores observados aparecen agrupados
en intervalos o clases, y por tanto, las frecuencias
correspondientes a cada intervalo se obtienen sumando las de
los respectivos valores de la variable que contiene.
85 91 7
Lrs 5 91.5 Lri 5 91.5 7 84.5
2
fi = ni / N
Clases Frecuencias (ni) Xi Lri Lrs f1%
57 – 63 4 60 56.5 63.5 2.22
64 – 70 29 67 63.5 70.5 16.11
71 – 77 35 74 70.5 77.5 19.44
78 – 84 39 81 77.5 84.5 21.67
85 – 91 34 88 84.5 91.5 18.89
92 – 98 20 95 91.5 98.5 11.11
99 – 105 12 102 98.5 105.5 6.67
106 - 112 7 109 105.5 112.5 3.89
x i
i 1
N
donde:
µ = Representa la media de la población.
N = Número total de elementos en la población.
Xi = Representa cualquier valor en particular.
= Operador de suma.
®Jorge L. Pastor Paredes
3-3
Ejemplo
Los datos en millas recorridas para cada uno de los cuatro autos
son: 56,000, 23,000, 42,000 y 73,000. Encuentre el promedio de
millas de los autos.
4
x i
i 1
x1 x 2 x3 x 4 / 4
4
x
i 1
i
X
n
Donde:
X = denota la media muestral.
n = es el número total de valores en la muestra.
Ejemplo
Una muestra de cinco ejecutivos recibió la siguiente cantidad en
bonos el año pasado: $14,000, $15,000, $17,000, $16,000 y
$15,000.
Encuentre el promedio en bonos para los cinco ejecutivos.
5
x i
X i 1
x1 x 2 x 3 x 4 x 5 / 5
5
Como estos valores representan la muestra de 5 ejecutivos, la
media de la muestra es: (14,000 + 15,000 + 17,000 + 16,000 +
15,000) / 5 = $15,400.
Ejemplo
• Durante un periodo de una hora en una tarde calurosa, el
cantinero de un Bar sirvió cincuenta bebidas. Calcule la
media ponderada de los precios de las bebidas.
Precio(xi) Cantidad(wi)
0.50 5
0.75 15
0.90 15
1.10 15
Xw $43.75/50 = $0.875
x n
i 1
i. i
X
n
donde:
xi = la marca de clase
ni = frecuencia de clase
n = numero total de frecuencias
m
xi.ni 4,702
i 1
x n i. i
4, 702
X i 1
50 50
94.04kg por lingote.
n
XG x1. x 2. x 3........ x 3 Importancia y Aplicación
de la MG:
n
XG n xi
La media geométrica, es una
media logarítmica, se usa
i 1 para encontrar el promedio
de porcentajes, razones,
índices o tasas de
crecimiento.
®Jorge L. Pastor Paredes
Ejemplo
Las ganancias obtenidas por una empresa de
construcción en cuatro proyectos recientes fueron de 3%,
2%, 4%, 6% ¿Cuál es la media geométrica de la
ganancia?
n
xG n xi 4 (3)( 2)( 4)( 6 )
i 1
4
xG 144
Explica el valor medio geométrico de las
xG 3.46%
ganancias.
n n1 n2 n3
xG x1 x 2 x3
m
xG n xi ni
i 1
Donde m, es el numero de clases.
xi ni log xi ni log xi
92 4 1.9638 7.8552
93 11 1.9690 21.6533
94 21 1.9730 41.4357
95 10 1.9777 19.7772
96 4 1.9822 7.9291
Totales n = 50 98.6505
1,4,6,7,8,9,12,16,20,24,25,27 1,4,6,7,8,9,12,16,20,24,25,27,30
N =12 N =13
Me = Me = 12
n N
2 i 1
M e Li * Ci
Ni Ni 1
donde:
ci = ancho del intervalo de la clase mediana
Li = límite inferior de la clase mediana
Ni = frecuencia acumulada de la clase
mediana
Ni-1 = frecuencia acumulada anterior a la clase
®Jorge L. Pastor Paredes
mediana
Ejemplo
Supongamos los pesos de un grupo de 50 personas se
distribuyen de la siguiente forma:
Intervalos ni Ni
Li Ls
45 - 55 6 6
55 - 65 10 16
65 - 75 19 35
75 - 85 11 46
85 - 95 4 50
Ni 6 16 35 46 50
17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34.
50 16
M e 65 2 *10 69.74
35 16
Ejemplo
• Las calificaciones de un examen de diez estudiantes
son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la
calificación 81 es la que más ocurre, la calificación
modal es 81.
Primera Forma:
ni ni 1
Mo Li ci
ni ni 1 ni ni 1
donde:
Li = Limite inferior del intervalo de la clase modal
ni = Frecuencia absoluta del intervalo de clase que contiene a la moda
ni-1 = Frecuencia absoluta del intervalo de clase anterior al que contiene a la moda
ni+1 = Frecuencia absoluta del intervalo de clase posterior al que contiene a la moda
ci = Ancho del intervalo
ni 1
Mo Li (ci )
(ni 1) (ni 1)
Donde:
Li = Limite inferior del intervalo de clase que contiene a la Moda
ni-1 = Frecuencia absoluta del intervalo de clase anterior al que contiene a la moda
ni+1 = Frecuencia absoluta del intervalo de clase posterior al que contiene a la moda
ci = Ancho del intervalo.
Li Ls ni Ni
45 55 6 6
55 65 10 (ni-1) 16
65 75 19 (ni) 35
75 85 (ni+1) 11 46
85 95 4 50
50
Mayor Frecuencia
®Jorge L. Pastor Paredes Absoluta
Primera Forma:
19 10
Mo 65 x10 70.29
(19 10) (19 11)
Segunda Forma:
11
Mo 65 x10 70.24
10 11
50%
75%
Q1 = X n 1 = X3 = 70
4
®Jorge L. Pastor Paredes
Ejemplo: Supóngase que los siguientes datos representan los salarios por día
de los funcionarios de una compañía transnacional (En soles).
90, 100, 120, 30, 50, 70, 150, 100, 90, 110, 130, 110
¿Determine el primer cuartel de la muestra Q1?
1. Ordenando datos:
30 50 70 Q1 90 90 100 100 110 110 120 130 150
x1 x2 x3 x 4 x5 x6 x7 x 8 x9 x10 x11 x12
25% 75%
3( n 1) 3(12)
Como n = 11, = = 9, la novena observación
4 4
Q3 = X9 = 180
Ordenando:
75% 117.5 25%
30 50 70 90 90 100 100 110 110 Q3 120 130 150
x1 x2 x3 x4 x 5 x6 x7 x8 x9 x10 x11 x12
3( n 1) 3(13)
Como n = 12, 4 = 4 = 9,75 esto significa que el valor de Q3 es el
noveno dato más 75% de la diferencia entre los valores de las observaciones
novena y décima:
n / 4 N i 1
Q1 Li . ii
N i N i 1
Li Ls ni NI
0 – 4 4 4
4 – 8 16 20 n 12.5
4
8 – 12 25 45
12 - 16 5 50
n 50
Como n
12.5 N1 4 Ni 20, Ni 1 4, Li 4
4
n / 4 N i 1 12.5 4
Q1 Li * ii Q1 4 ( )4 4 2.125 6.125
N i N i 1 20 4
El 25% de las notas están por debajo de 6.125 y el 75% por encima.
3n
Ni 1
Q3 Li 4 . ii
N i N i 1
Li Ls ni Ni
0–4 4 4
4–8 12 20
8 – 12 25 45 37.5 = 3n / 4
12 - 16 5 50
n = 50
37.5 20
Q3 8 ( )4 Q3 8 2.8 10.8
45 20
El 75% de las notas están por debajo a 10.8 y el 25% de las notas
están por encima de 10.8
D1 = Es el valor que deja 10% de las Obs. menores o iguales a él y 90% superiores a él.
D2 = Es el valor que deja 20% de las Obs. menores o iguales a él y 80% superiores a él.
D9 = Es el valor que deja 90% de las Obs. menores o iguales a él y 10% superiores a él.
6n
10 N 3
D6 = L3 + ii
N
4 N 3
2% 98%
98% 2%
Li Ls ni Ni
85 – 105 2 2
105 – 125 6 8
125 – 145 14 22 6n/10 = 39.6
145 – 165 20 42
80n/100 = 52.8
165 – 185 18 60
185 – 205 4 64
205 – 225 2 66
n = 66
6n
N 3
D6 = L3 + ii 10
N 4 N 3
39.6 22
D6 = 145 + 20 42 22 D6 = 145 + 17.6
D6 = 162.6
80n
N 4
P80 = L 4 + ii 100
N 5 N 4
52.8 42
P80 = 165 + 20 60 42 P80 = 165 + 12
P80 = 177
x X i
DM i 1
n
X
n
103 97 101 106 103
X 102
5
∑ = 12
®Jorge L. Pastor Paredes
n
x X i
DM i 1
n
12
DM 2.4 kg
5
( x ) 2
( x ) 2 x 2
2
N
N N
Edades ( xi – µ ) ( xi – µ )2 N
xi 96
2 -22 484 μ i 1
24 años
N 4
18 -6 36
34 10 100
xi μ 2
N
42 18 324
944
σ2 i 1
236 años 2
∑(xi - µ)2= 944 N 4
( x ) 2
2
( x ) 2 x
N
N N
N
xi μ 2
944
σ i 1
15.36 años
N 4
Para el ejemplo 2, la desviación estándar poblacional es 15.36. Esto
quiere decir que en promedio las edades se desvían 15 años respecto a
la media de 24 años para los miembros de esa familia.
( x) 2
Formula general:
( x X ) 2 x
2
n
s
2
n 1 n 1
Ejemplo:
Los salarios por hora (en dólares) en una muestra de trabajadores
de medio tiempo de una empresa son: 2, 10, 6, 8, 9.
¿Cual es la Varianza Muestral?
1.- Media:
Sueldo
n
x i
35
por Hora (xi)
2
xi - X
-5
(xi - X)2
25
X i 1
7
n 5 10 3 9
6 -1 1
2.- Calculo de Desviaciones:
8 1 1
9 2 4
∑(xi - X)2 = 40
n
(x i X) 2
40
S2 = i 1
S2 10 dólares 2
n 1 5 1
( x X ) 2 x 2
n
s
n 1 n 1
Ejemplo:
La varianza muestral del ejemplo anterior para los sueldos por
hora se cálculo como $10 ¿Cuál es la desviación estándar
muestral?
ni ( xi X ) 2
S
2 i 1
n 1
Totales 45 2702
X = 2702 / 45 = 60.04
®Jorge L. Pastor Paredes
Ejemplo:
m
Desviaciones
ni (xi X) 2
S2 i 1
xi - X (xi - X)2 ni (xi - X)2 n 1
-30.04 902.67 902.67
-22.04 485.96 971.92
5523.91
-14.04 197.25 788.99 S
2
125.54
-6.04 36.54 365.35 45 1
1.96 3.82 61.19
Se puede concluir que los
9.96 99.11 792.90 ingresos diarios en promedio se
17.96 322.40 967.21 desvían 125.54 soles al
25.96 673.69 673.69 cuadrado, respecto de la media
aritmética de 60.04 soles.
Total 5523.91
ni (xi X) 2
S i 1
n 1
S = 125.54
S = 11.20
Interpretación Final:
Finalmente podemos concluir que los ingresos diarios en
promedio se desvían 11.20 soles con respecto al salario
promedio diario de 60.04 soles.
Teorema de Chebyshev:
Cualquiera sea la forma de la distribución de frecuencias (simétrica o
asimétrica) el intervalo [x – ks, x + ks], k > 1, contiene por lo menos el
1
1 2 % de las observaciones estará dentro de k unidades respecto
k a la media.
1 3
1 2 ó 75% de los datos.
2 4
• El intervalo [x – 3s, x + 3s], contiene por lo menos el 88.98% (8/9) de
los datos.
Regla Empírica:
Para una distribución de frecuencias simétrica de campana:
Cerca de 68% de las observaciones se encontrará a más y
menos una desviación estándar de la media;
Aproximadamente 95% de las observaciones se encontrarán a
más y menos dos desviaciones estándares desde la media;
Y el 99.7% se encontrarán a más y menos tres desviaciones
estándares desde la media.
Dispersión Relativa
Coeficiente de Variación:
Es la razón de la desviación estándar a la media aritmética, expresada como
porcentaje:
s
CV (100%)
X
Aplicación:
El coeficiente de variación se utiliza para comparar la dispersión de dos variables en
estudio, en los siguientes casos:
1. Cuando los datos se encuentran en diferentes unidades (dólares y días de trabajo).
2. Cuando se encuentra en las mismas unidades pero las medias son muy distantes.
3. Cuando las desviaciones estándares son iguales y se dificulta saber cual tiene
mayor o menor dispersión.
Solución:
No hay forma de saberlo directamente por lo que tendremos que
hallarlo usando la dispersión relativa.
s
CV (100%)
X
®Jorge L. Pastor Paredes
• Para las calificaciones:
s
CV (100%)
X
CV
40
100%
200
La desviación estándar es
CV 20% 20% de la media
• Para las edades: s
CV (100%)
X
CV
5
100%
20
La desviación estándar es
CV 25% 25% de la media
X Mo 3(X Md)
Entonces se puede formular el coeficiente de Pearson como :
3(X M)
As
S
Distribución Simétrica:
X = Md = Mo
Distribución con Asimetría Positiva:
Mo < Md < X
Distribución con Asimetría Negativa:
X < Md < Mo
As 0, la distribuci ón es simétrica.
As 0, la distribuci ón es sesgada hacia el lado derecho.
As 0, la distribuci ón es sesgada hacia el lado izquierdo .
3( Me Md ) 3(28 25)
As 2.14
S 4.2
h h h
i i i
Y Y Y
i i
Platicúrtica Mesocúrtica Leptocúrtica
®Jorge L. Pastor Paredes
El grado de apuntamiento (deformación vertical) utilizaremos el
coeficiente denotado por:
Q3 Q1
K
2P90 P10
Si K = 0.263, diremos que la curva correspondiente a la distribución
de frecuencias es MESOCURTICA.
Si K > 0.263, diremos que la curva correspondiente a la distribución
de frecuencias es PLATICURTICA.
Si K < 0.263, diremos que la curva correspondiente a la distribución
de frecuencias es LECTOCURTICA
Li Ls
1.5(Q3–Q1) 1.5(Q3–Q1) Valores
atípicos
RI 1.5 RI
Xmin Q1 Md Q3 X máx.
Ejemplo:
Cada día de la primera quincena de enero atracan en un puerto pesquero el
siguiente número de lanchas pesqueras: 95, 89, 77, 87, 81, 89, 92, 103, 87, 82,
80, 100, 79, 74, 83. Dibuje un Diagrama de Caja para estudiar la forma de la
distribución de los datos.
Solución:
1° Se ordenan los datos de menor a mayor:
74, 77, 79, 80, 81, 82, 83, 84, 87, 87, 89, 92, 95, 100, 103
2° Los datos extremos son: Xmin= 74 y Xmáx= 103
3° Rango : 103 – 74 = 29
4° Q1= (n+1)/4 = 16/4 = 4 Q1= X4= 80
5° Q2= (n+1)/2 = 16/2 = 8 Q1= X8= 84
6° Q3= 3(n+1)/4 = 3x16/4 = 12 Q3= X12= 92
7° Los límites posibles son:
Li = Q1 - 1.5(Q3 - Q1) = 80 – 1.5(92 – 80) = 62
Ls = Q3+1.5(Q3 - Q1) = 92 + 1.5(92 – 80) = 110
Li Ls
Valores
atípicos
Xmin Q1 Md Q3 X máx.
70 80 84 92 103