Вы находитесь на странице: 1из 24

ESCUELA DE POSGRADO

DOCTORADO EN EDUCACIÓN

Programas Estadísticos

Semana 06 y 07:
Análisis descriptivo de los datos

Profesora: Dra. Alejandrina Gonzales Ochoa


Mail: agonzaleso1@hotmail.com

1
2
I. Medidas numéricas de
resumen de datos
3
1. Medidas de
tendencia central
BASE DE DATOS

Número de
Nro. Cargo hijos Remuneración
1 2 1 1800
2 3 2 910
3 2 3 1800
4 4 3 1900
5 5 2 1440
6 3 5 3700
7 2 2 1850
8 1 1 890
9 2 2 1780
10 3 3 1880
11 2 3 1820 Leyenda:
12 3 3 2000 1. Tesorero
13 4 2 2500
14 1 1 900 2. Contador
15 4 2 1850 3. Analista de Sistemas
16 2 5 2633.25
17 4 2 1960.2 4. Asistente de Personal
18 1 2 978 5. Administrador
19 1 5 897.5
20 3 1 2210.1
21 5 1 2540
22 5 1 2480.2

4
MEDIDAS DE TENDENCIA CENTRAL

1. La Media Aritmética
– Media aritmética de una población:
N

X
 i 1

n
– Media aritmética de una muestra: x
 i
X  i 1

5
EJEMPLO 1

Calcule e interprete la media aritmética para los datos correspondiente a


la variable: número de hijos.

• Calcule la Media aritmética:


22

x i
1  2  3  3  2  .................  1
X  i 1
  2.36  2
22 22

• Interprete:
Los trabajadores de la empresa tienen en promedio dos hijos

6
DESVENTAJAS DE LA MEDIA ARITMÉTICA

• Para datos que contienen uno o dos valores sumamente grandes o muy
pequeños, la media aritmética no es un promedio adecuado para
representar los datos.

7
2. LA MEDIANA

Es un valor que divide a un conjunto de observaciones ordenadas en forma


ascendente o descendente en dos grupos de igual número de observaciones,
es decir el 50% de los datos toma valores menores o iguales a la mediana y el
50% restante valores superiores a la mediana.

8
Procedimiento para calcular la mediana: Me

1) Ordene los datos (ascendente o descendente).


2) Ubicación de la mediana.
n 1
i
2

Se presentan dos casos:


a) Cuando n es IMPAR, la mediana es igual al valor que ocupa la posición
central.
b) Cuando n es PAR, la mediana es igual al promedio de los dos valores que
ocupan la posición central.

3) La mediana es el dato que ocupa la posición i.

9
Ejemplo 2:

Calcule e interprete la mediana para los datos correspondiente a la variable:


número de hijos.
n = 22

Calcule la mediana:
n  1 22  1 23
1) Ubicación de la mediana: i    11 .5
2 2 2

2) La mediana entonces será igual al promedio de los valores 11vo y 12vo


términos de los datos ordenados, luego:
Me = 2

Interprete:
El 50% de los trabajadores tienen a lo más dos hijos y el 50% restante de los
trabajadores tienen más de dos hijos.

10
3. LA MODA

Es el valor de la observación que aparece con más frecuencia. La moda es


especialmente útil para describir niveles nominales y ordinales de medición.

Ejemplo 3:
a) Sea el conjunto de datos.
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13
Tiene moda Md = 9, porque es el dato que más se repite.

b) El conjunto de datos
3, 5, 8, 10, 12, 16, 18
No tiene moda porque ningún valor se repite.

c) El conjunto de datos
2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9
Tiene dos modas 4 y 7, porque 4 se repite tres veces al igual que 7 que también se
repite tres veces.
11
Observaciones:

• La moda puede no existir, si existe, no siempre es la única. Cuando es un


conjunto de valores o en una distribución existe una sola moda, se trata de
una distribución UNIMODAL, si hay dos modas será BIMODAL y si presenta
varias modas se llamará PLURIMODAL.

• La moda es una medida de tendencia central muy útil para variables


cualitativas o nominales.

12
UBICACIÓN DE LAS MEDIDAS DE TENDENCIA
CENTRAL EN LAS FORMAS DE DISTRIBUCIÓN

13
14
2. Medidas de
dispersión
Medidas de dispersión
Es importante cuantificar de alguna manera cómo los valores que toma la variable se alejan
de los valores centrales, definidos anteriormente. Estudiaremos como la variabilidad puede
tener influencia en la representatividad de los valores centrales.

1. Rango
Es diferencia entre el valor máximo y el valor mínimo. Es un valor muy afectado por la
presencia de valores extremos.

R = Xmax – Xmin ……………. (1)

2. Rango intercuartílico
Es la diferencia entre el Tercer Cuartil y el Primer Cuartil. Es un valor robusto,
extremadamente resistente a los valores extremos.
RIC = Q3 – Q1 …………………. (2)
15
3. La varianza
Expresa el grado de dispersión de las observaciones respecto a la
media aritmética.
• Varianza poblacional
N

 i
( X   ) 2
……………. (3)
 2 i 1

• Varianza Muestral
n

 i
( x  x ) 2

S2  i 1
…………… (4)
n 1
16
4. La Desviación Estándar
La Desviación Estándar o típica, se define como la raíz cuadrada de la
varianza

• Desviación estándar de una muestra: S  ………


S 2 (5)

• Desviación estándar de una población:   ………


2
(6)

• Es la medida de dispersión de mayor uso, en la cual las unidades de


la variable ya no están elevadas al cuadrado. La desviación estándar,
al igual que la varianza, es no negativa
(S  0), puesto que es la raíz cuadrada positiva de la varianza. A
mayor dispersión le corresponderá una mayor desviación estándar.

17
5. El coeficiente de variación
Está definido por:

CV = Desviación estándar
x 100 …………………. (7)
Media aritmética
El Coeficiente de variación se expresa en unidades independientes de la naturaleza
de la variable. Se expresa en términos porcentuales.

Observación:
• Cuando se compara dos o más poblaciones es más homogénea o presenta
menos dispersión, aquella distribución que tiene el menor coeficiente de
variación, los datos son más heterogéneos cuando tienen mayor coeficiente
de variación.
• Se considera una dispersión baja cuando el coeficiente de variación es menor
que el 10%.
• El coeficiente de variación se utiliza para establecer comparaciones de
dispersión entre distribuciones, independiente de sus unidades de medida,
son pocos robustos.

18
19
3. Medidas de formas
Medidas de formas

•1. Coeficiente de Asimetría de Fisher


Es el que tiene implementado los paquetes estadísticos.

AF = Donde: =
Si:
AF > 0; Distribución asimétrica positiva
AF = 0; Distribución simétrica
AF < 0; Distribución asimétrica negativa

20
• 2. El coeficiente de Curtosis de Fisher:
Entendemos como curtosis al grado de apuntamiento de una distribución, la
curtosis se analiza comparando la distribución con la forma de la curva normal o
simétrica.
Es el que tiene implementado los paquetes estadísticos.
KF =

Si:
KF = 0; Curva Mesocúrtica
KF > 0; Curva Leptocúrtica
KF < 0; Curva Platicúrtica

21
22
II. Análisis exploratorio de
datos
Diagrama de Cajas
GRÁFICO DE CAJAS:
 Identifica la forma de distribución.
 Identifica la presencia de datos discordantes.
 Analiza el grado de dispersión existente entre grupos.

23
Diagrama de cajas para la variable Monto de pago:

24

Вам также может понравиться