Академический Документы
Профессиональный Документы
Культура Документы
DOCTORADO EN EDUCACIÓN
Programas Estadísticos
Semana 06 y 07:
Análisis descriptivo de los datos
1
2
I. Medidas numéricas de
resumen de datos
3
1. Medidas de
tendencia central
BASE DE DATOS
Número de
Nro. Cargo hijos Remuneración
1 2 1 1800
2 3 2 910
3 2 3 1800
4 4 3 1900
5 5 2 1440
6 3 5 3700
7 2 2 1850
8 1 1 890
9 2 2 1780
10 3 3 1880
11 2 3 1820 Leyenda:
12 3 3 2000 1. Tesorero
13 4 2 2500
14 1 1 900 2. Contador
15 4 2 1850 3. Analista de Sistemas
16 2 5 2633.25
17 4 2 1960.2 4. Asistente de Personal
18 1 2 978 5. Administrador
19 1 5 897.5
20 3 1 2210.1
21 5 1 2540
22 5 1 2480.2
4
MEDIDAS DE TENDENCIA CENTRAL
1. La Media Aritmética
– Media aritmética de una población:
N
X
i 1
n
– Media aritmética de una muestra: x
i
X i 1
5
EJEMPLO 1
x i
1 2 3 3 2 ................. 1
X i 1
2.36 2
22 22
• Interprete:
Los trabajadores de la empresa tienen en promedio dos hijos
6
DESVENTAJAS DE LA MEDIA ARITMÉTICA
• Para datos que contienen uno o dos valores sumamente grandes o muy
pequeños, la media aritmética no es un promedio adecuado para
representar los datos.
7
2. LA MEDIANA
8
Procedimiento para calcular la mediana: Me
9
Ejemplo 2:
Calcule la mediana:
n 1 22 1 23
1) Ubicación de la mediana: i 11 .5
2 2 2
Interprete:
El 50% de los trabajadores tienen a lo más dos hijos y el 50% restante de los
trabajadores tienen más de dos hijos.
10
3. LA MODA
Ejemplo 3:
a) Sea el conjunto de datos.
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13
Tiene moda Md = 9, porque es el dato que más se repite.
b) El conjunto de datos
3, 5, 8, 10, 12, 16, 18
No tiene moda porque ningún valor se repite.
c) El conjunto de datos
2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9
Tiene dos modas 4 y 7, porque 4 se repite tres veces al igual que 7 que también se
repite tres veces.
11
Observaciones:
12
UBICACIÓN DE LAS MEDIDAS DE TENDENCIA
CENTRAL EN LAS FORMAS DE DISTRIBUCIÓN
13
14
2. Medidas de
dispersión
Medidas de dispersión
Es importante cuantificar de alguna manera cómo los valores que toma la variable se alejan
de los valores centrales, definidos anteriormente. Estudiaremos como la variabilidad puede
tener influencia en la representatividad de los valores centrales.
1. Rango
Es diferencia entre el valor máximo y el valor mínimo. Es un valor muy afectado por la
presencia de valores extremos.
2. Rango intercuartílico
Es la diferencia entre el Tercer Cuartil y el Primer Cuartil. Es un valor robusto,
extremadamente resistente a los valores extremos.
RIC = Q3 – Q1 …………………. (2)
15
3. La varianza
Expresa el grado de dispersión de las observaciones respecto a la
media aritmética.
• Varianza poblacional
N
i
( X ) 2
……………. (3)
2 i 1
• Varianza Muestral
n
i
( x x ) 2
S2 i 1
…………… (4)
n 1
16
4. La Desviación Estándar
La Desviación Estándar o típica, se define como la raíz cuadrada de la
varianza
17
5. El coeficiente de variación
Está definido por:
CV = Desviación estándar
x 100 …………………. (7)
Media aritmética
El Coeficiente de variación se expresa en unidades independientes de la naturaleza
de la variable. Se expresa en términos porcentuales.
Observación:
• Cuando se compara dos o más poblaciones es más homogénea o presenta
menos dispersión, aquella distribución que tiene el menor coeficiente de
variación, los datos son más heterogéneos cuando tienen mayor coeficiente
de variación.
• Se considera una dispersión baja cuando el coeficiente de variación es menor
que el 10%.
• El coeficiente de variación se utiliza para establecer comparaciones de
dispersión entre distribuciones, independiente de sus unidades de medida,
son pocos robustos.
18
19
3. Medidas de formas
Medidas de formas
AF = Donde: =
Si:
AF > 0; Distribución asimétrica positiva
AF = 0; Distribución simétrica
AF < 0; Distribución asimétrica negativa
20
• 2. El coeficiente de Curtosis de Fisher:
Entendemos como curtosis al grado de apuntamiento de una distribución, la
curtosis se analiza comparando la distribución con la forma de la curva normal o
simétrica.
Es el que tiene implementado los paquetes estadísticos.
KF =
Si:
KF = 0; Curva Mesocúrtica
KF > 0; Curva Leptocúrtica
KF < 0; Curva Platicúrtica
21
22
II. Análisis exploratorio de
datos
Diagrama de Cajas
GRÁFICO DE CAJAS:
Identifica la forma de distribución.
Identifica la presencia de datos discordantes.
Analiza el grado de dispersión existente entre grupos.
23
Diagrama de cajas para la variable Monto de pago:
24