Вы находитесь на странице: 1из 73

MÉTODOS ESTADÍSTICOS PARA EL

ANÁLISIS DE DATOS
MÓDULO I: ANÁLISIS DESCRIPTIVO
DE DATOS
Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Conceptos básicos

Estadística Conjunto sistemático de


procedimientos para la observación.
¿Cuándo aplicar las técnicas estadísticas? registro. organización. síntesis. análisis
e interpretación de los fenómenos
¿Cómo usarlas? para poder así predecir o concluir
acerca de ellos
¿Cómo interpretar los resultados?

Realizar un diagnóstico del fenómeno Estadística descriptiva

Busca obtener conclusiones.


Estadística inferencial
Generalización de resultados

1. Conceptos básicos
Conceptos básicos

Un análisis estadístico se lleva a cabo por medio de las siguientes etapas:

Planteamiento del problema


Definición del objetivo de la investigación y definición del universo o población.

Recolección de datos

Organizar y resumir
Estadística descriptiva
Muestra
Interpretación

Inferencia estadística Censo: Población

Conclusiones
Diagnóstico

1. Conceptos básicos
Conceptos básicos

Variable

Es lo que se va a medir y representa una característica de la unidad de análisis. Puede adoptar


diferentes valores o expresarse en varias categorías.

¿Quiénes se miden?
Los elementos o unidades de análisis de una Población o una Muestra

Población Muestra
Total de elementos o unidades de análisis que se Conjunto de elementos o unidades de análisis
están estudiando provenientes de una población

Parámetro Estadístico

Medida de una característica de la Medida de una característica de la


población muestra

1. Conceptos básicos
Conceptos básicos

Ejemplo: Unidad de análisis: Estudiante universitario


Variables: Sexo. edad. estatura. peso. carrera. etc.

Muestra: 5 Estudiantes universitarios

Estadísticos: = Media muestral


Población: Estudiantes universitarios s2= Varianza muestral

Parámetros: μ = Media poblacional


σ2= Varianza poblacional

1. Conceptos básicos
Tipos de variables

Cualitativas Cuantitativas

Nominales Ordinales Discretas Continuas

Característica o cualidad cuyas Toma cualquier valor dentro


Toman valores enteros.
categorías no tienen un orden de un intervalo. Entre dos
Entre dos valores dados. no
preestablecido. valores dados. existen
existen valores intermedios.
valores intermedios .
Ejemplo: Sexo. nacionalidad.
Ejemplo: Número de hijos.
estado ocupacional. estado Ejemplo: Estatura. peso.
número de empleados.
civil. religión. edad. ingreso.

Característica o cualidad cuyas


categorías tienen un orden Escala de intervalo: Además de establecer un orden. la
preestablecido. Incorpora la diferencia entre dos atributos puede cuantificarse. No tiene
relación “mayor que”. cero absoluto. El cero no implica la ausencia de atributo.
Ejemplo: Temperatura en oC.
Ejemplo: Grado de interés. Escala de razón: Además de las características de las
estrato social.
variables de intervalo. se suma la posibilidad de contar con un
cero absoluto El cero absoluto indica ausencia de la
característica. Ejemplo: Peso. ingreso. estatura.

1. Conceptos básicos
Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Variables cualitativas

Frecuencia Corresponde al número o porcentaje de veces que se presenta una categoría.

Una variable A puede tomar las categorías: A1. A2. … . Ak. Ejemplo: La variable “Estado civil” toma los
valores: Casado. soltero. separado. viudo.

Distribución de Registro de todas las posibles categorías o valores de la variable. junto con
frecuencias sus frecuencias asociadas.

Frecuencias Frecuencias absolutas Frecuencias Frecuencias relativas


Categorías
absolutas (ni) acumuladas (Ni) relativas (fi) acumuladas (Fi)

A1 n1 n1 n1 / n n1 / n
A2 n2 n1 + n2 n2 / n (n1 + n2)/n
… … … … …
Ak nk n1 + n2 + … + nk nk / n (n1 + n2 + … + nk)/n

2. Distribución de frecuencias
Variables cualitativas

Ejemplo: Se ha clasificado a 20 individuos según su estado civil. que puede tomar los valores:

1 = Soltero
2 = Casado
3 = Separado
4 = Viudo

Y se han obtenido los siguientes datos:

1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3

Categorías Frecuencias absolutas (ni) Frecuencias relativas (fi)

Soltero 3 3/20 = 0.15


Casado 7 7/20 = 0.35
Separado 6 6/20 = 0.30
Viudo 4 4/20 = 0.20
20 1

2. Distribución de frecuencias
Variables cualitativas

Representaciones gráficas de la Distribución de Frecuencias

Se dibuja sobre cada categoría una barra cuya altura coincida con la
Diagrama de barras frecuencia absoluta o relativa de dicha clase.

40%

35%
Frecuencia relativa (fi)

30%

25%

20%

15%

10%

5%

0%
Soltero Casado Separado Viudo

Categorías

2. Distribución de frecuencias
Variables cualitativas

Representaciones gráficas de la Distribución de Frecuencias

Círculo en el que se representan las categorías de la variable.


Diagrama circular proporcionalmente a su frecuencia.

15%
20%

Soltero
Casado
Separado
Viudo
35%
30%

Se puede visualizar mejor la proporción en que aparece una categoría respecto del total.

2. Distribución de frecuencias
Variables cualitativas

Representaciones gráficas de la Distribución de Frecuencias

Es un diagrama de barras en el que las categorías se ordenan de


Diagrama de Pareto mayor a menor frecuencia. dibujando una línea indicativa de la
frecuencia acumulada.

100%
De todos los problemas que ocurren.
80% solamente unos pocos son realmente
frecuentes. los otros raramente
60% ocurren.

40%
El principio de Pareto imparte soporte
para la regla de 80/20. que dice que el
80% de los problemas (inconformidad o
20%
defecto). son ocasionados por el 20% de
las causas.
0%
Causa A Causa B Causa C Causa D Causa E Causa F Causa G

2. Distribución de frecuencias
Variables cualitativas

Ejemplo: Una empresa sufre continuas paradas en su línea de producción. Dada la importancia de las
consecuencias económicas de estas paradas. se decide controlar durante un mes cuáles son las razones
que las ocasionan. Para ello. se solicita a los operarios que anoten el tipo de percance. Las causas
detectadas. así como su frecuencia se muestran a continuación:

Frecuencias Frecuencias absolutas Frecuencias Frecuencias relativas


Causas
absolutas (ni) acumuladas (Ni) relativas (fi) acumuladas (Fi)
Desajustes de temperatura 11 11 0.28 0.28
Rotura de tornillos 10 21 0.26 0.54
Rotura de arandelas 10 31 0.26 0.79
Bloqueo de cintas 4 35 0.10 0.90
Rotura de aros de sujeción 2 37 0.05 0.95
Rotura de otras piezas 2 39 0.05 1
39 1

2. Distribución de frecuencias
Variables cualitativas

Continuación:

100%

80%

60%

40%

20%

0%
Desajustes de Rotura de Rotura de Bloqueo de Rotura de aros Rotura de otras
temperatura tornillos arandelas cintas de sujeción piezas

Como se puede observar en el gráfico. el 79% de las paradas de la línea de producción son ocasionadas
por: Desajustes de temperatura. rotura de tornillos y rotura de arandelas.

2. Distribución de frecuencias
Variables cuantitativas

Su distribución de frecuencias es semejante al caso cualitativo. Las categorías


Variables
en que se agrupan los casos vienen dadas de forma natural por los valores
discretas que toma la variable.

Ejemplo: Cien familias se han clasificado según el número de hijos. resultando los siguientes datos:

Frecuencias Frecuencias absolutas Frecuencias Frecuencias relativas


# de hijos
absolutas (ni) acumuladas (Ni) relativas (fi) acumuladas (Fi)
0 11 11 0.11 0.11
1 13 24 0.13 0.24
2 20 44 0.20. 0.44
3 25 69 0.25 0.69
4 14 83 0.14 0.83
5 10 93 0.10 0.93
6 4 97 0.04 0.97
7 2 99 0.02 0.99
8 1 100 0.01 1

2. Distribución de frecuencias
Variables cuantitativas

Diagrama de barras (Frecuencias relativas) Diagrama de barras (Frecuencias relativas acumuladas)

30% 100%

25% 80%

20%
60%
15%
40%
10%
20%
5%

0% 0%
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8

¿Qué proporción de familias tiene más de 6 hijos? Rta/ 3%

¿Qué proporción de familias tiene 4 o más hijos? Rta/ 31%

¿Qué proporción de familias tiene más de 3 hijos pero menos de 7? Rta/ 28%

2. Distribución de frecuencias
Variables cuantitativas

Usualmente los valores no permiten un agrupamiento en una tabla de


Variables
frecuencias. ya que se encuentran distribuidos a través de todo el recorrido.
continuas Se hace necesario el agrupamiento en intervalos.

Algunas definiciones:

Es cada uno de los rangos de valores en que se ha decidido agrupar


Intervalo de clase
parcialmente los datos. con el propósito de hacer un resumen de ellos.

Frecuencia del
Número de mediciones que quedan dentro del intervalo.
intervalo de clase

Amplitud del
Diferencia entre el límite superior y límite inferior del intervalo.
intervalo de clase

Punto medio del intervalo de clase. Su valor es obtenido al promediar los


Marca de clase límites del intervalo.

2. Distribución de frecuencias
Variables cuantitativas

¿Cómo construir la tabla de distribución de frecuencias?

Una manera aproximada de este valor es obtenido por la


regla de Sturges:

1 Elegir el número de intervalos


Otra manera de aproximar el número de intervalos es:

El rango se obtiene como la resta entre el dato mayor y el


2 Obtener el rango dato menor.

Se obtiene calculando el cociente entre el rango y el


3 Obtener la amplitud del intervalo número de intervalos.

Para evitar conteos dobles se deberá especificar si los intervalos son abiertos a la derecha o a la izquierda.

2. Distribución de frecuencias
Variables cuantitativas

Ejemplo: Se presentan a continuación los datos de estaturas de la población femenina de cierta ciudad:

1.56 1.59 1.63 1.62 1.65


1.61 1.59 1.51 1.62 1.62
1.53 1.49 1.57 1.54 1.53 Número de intervalos
1.59 1.58 1.57 1.47 1.64
1.55 1.59 1.53 1.56 1.53
1.47 1.57 1.6 1.54 1.56
1.5 1.62 1.59 1.62 1.54
1.68 1.52 1.62 1.62 1.49
1.65 1.53 1.59 1.56 1.54
1.58 1.52 1.63 1.56 1.62

Rango Amplitud del intervalo

2. Distribución de frecuencias
Variables cuantitativas

Intervalo ni Marca de clase (ci) fi Fi

[1.47 – 1.50] 5 1.485 0.10 0.10


(1.50 – 1.53] 8 1.515 0.16 0.26
(1.53 – 1.56] 10 1.545 0.20 0.46
(1.56 – 1. 59] 11 1.575 0.22 0.68
(1.59 – 1.62] 10 1.605 0.20 0.88
(1.62 – 1.65] 5 1.635 0.10 0.98
(1.65 – 1.68] 1 1.665 0.02 1

Es un gráfico que representa las frecuencias mediante áreas. Sobre


Histograma cada intervalo se dibuja un rectángulo cuya área representa su
frecuencia.

Cuando los intervalos son de la misma longitud, las frecuencias son


Para tener en cuenta: proporcionales a las alturas de los rectángulos: Donde son más altos,
hay más datos de la variable.

2. Distribución de frecuencias
Variables cuantitativas

Histograma (Datos anteriores) Histograma (SPSS)


25%

20%

15%

10%

5%

0%
1,485 1,515 1,545 1,575 1,605 1,635 1,665

Es equivalente al histograma. Se obtiene a partir del histograma,


Polígono de frecuencias uniendo los centros de la base superior de sus rectángulos.

2. Distribución de frecuencias
Variables cuantitativas

Algunas de las formas más frecuentes de histogramas:

Curva simétrica: Se suele dar en variables en las que hay una gran
cantidad de observaciones con valores intermedios y algunos valores
en ambos extremos (peso, estatura).

Curva con asimetría positiva: Se da en variables que tienen una


gran cantidad de observaciones pequeñas o intermedias y algunos
datos grandes (ingreso, gasto).

Curva con asimetría negativa: Variables con muchas


observaciones de valor alto o intermedio (esperanza de vida).

2. Distribución de frecuencias
Variables cuantitativas

Otras representaciones gráficas para las variables cuantitativas:

Ojiva Tallos y hojas

Gráfico de una distribución de frecuencias Permite obtener simultáneamente la


acumuladas. distribución de frecuencias de la variable y
su representación gráfica.
100%

80%

60%

40%

20%

0%
1,485 1,515 1,545 1,575 1,605 1,635 1,665

2. Distribución de frecuencias
Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Medidas de tendencia central

La estadística descriptiva en su función básica de resumir datos, propone una serie de medidas que
permiten tener una descripción rápida de lo que ocurre en un fenómeno.

Medidas de tendencia: valor que se toma como orientación para referirnos a un conjunto de datos.

Media aritmética Representa el centro del conjunto de datos.

3. Medidas de tendencia central


Medidas de tendencia central

Media aritmética Representa el centro del conjunto de datos.

Datos no agrupados Datos agrupados

X Marca de
Intervalo ni
clase (ci)
x1
[1.47 – 1.50] 5 1.485
x2 (1.50 – 1.53] 8 1.515
… (1.53 – 1.56] 10 1.545
xn (1.56 – 1. 59] 11 1.575

3. Medidas de tendencia central


Medidas de tendencia central

Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad:

1.56 1.59 1.63 1.62 1.65


Datos no agrupados
1.61 1.59 1.51 1.62 1.62
1.53 1.49 1.57 1.54 1.53
1.59 1.58 1.57 1.47 1.64
1.55 1.59 1.53 1.56 1.53
1.47 1.57 1.6 1.54 1.56
1.5 1.62 1.59 1.62 1.54
1.68 1.52 1.62 1.62 1.49
1.65 1.53 1.59 1.56 1.54
1.58 1.52 1.63 1.56 1.62

Intervalo ni Marca de clase (ci)


Datos agrupados
[1.47 – 1.50] 5 1.485
(1.50 – 1.53] 8 1.515
(1.53 – 1.56] 10 1.545
(1.56 – 1.59] 11 1.575
(1.59 – 1.62] 10 1.605
(1.62 – 1.65] 5 1.635
(1.65 – 1.68] 1 1.665

3. Medidas de tendencia central


Medidas de tendencia central

Propiedades de la media aritmética:

1. La suma de las desviaciones respecto de la media es igual a cero.

2. Si se tiene la media de un conjunto de datos y cada observación se multiplica por una constante b, la
nueva media de los datos se obtiene multiplicando la media de los datos por b.

3. Si se tiene la media de un conjunto de datos y a cada observación se le suma una constante a, la


nueva media de los datos se obtiene sumándole “a” a la media de los datos.

3. Medidas de tendencia central


Medidas de tendencia central

Cuando cada una de las observaciones tiene una importancia relativa


Media ponderada (peso).

Ejemplo: Nota promedio de una materia:

Corte Peso Nota

1 30% 3.4
2 30% 4.0
3 40% 4.5

3. Medidas de tendencia central


Medidas de tendencia central

Mediana Valor que divide una serie de datos ordenada en dos partes iguales.

X Datos no agrupados
Si n es impar
X(1)
X(2)

Si n es par
X(n)

3. Medidas de tendencia central


Medidas de tendencia central

Mediana Valor que divide una serie de datos ordenada en dos partes iguales.

X Datos no agrupados
Si n es impar
X(1)
X(2)

Si n es par
X(n)

1,47(1) 1,53(11) 1,56(21) 1,59(31) 1,62(41) Ejemplo: Ejercicio estaturas de la población femenina de
1,47(2) 1,53(12) 1,56(22) 1,59(32) 1,62(42)
cierta ciudad:
1,49(3) 1,53(13) 1,56(23) 1,59(33) 1,62(43)
1,49(4) 1,54(14) 1,57(24) 1,59(34) 1,62(44)
1,5(5) 1,54(15) 1,57(25) 1,6(35) 1,63(45)
1,51(6) 1,54(16) 1,57(26) 1,61(36) 1,63(46)
1,52(7) 1,54(17) 1,58(27) 1,62(37) 1,64(47)
1,52(8) 1,55(18) 1,58(28) 1,62(38) 1,65(48)
1,53(9) 1,56(19) 1,59(29) 1,62(39) 1,65(49)
1,53(10) 1,56(20) 1,59(30) 1,62(40) 1,68(50)

3. Medidas de tendencia central


Medidas de tendencia central

Marca de Datos agrupados


Intervalo ni
clase (ci)
[1.47 – 1.50] 5 1.485
(1.50 – 1.53] 8 1.515
(1.53 – 1.56] 10 1.545
(1.56 – 1. 59] 11 1.575

Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad:

Intervalo ni Fi
[1.47 – 1.50] 5 0.10
(1.50 – 1.53] 8 0.26
(1.53 – 1.56] 10 0.46
(1.56 – 1. 59] 11 0.68
(1.59 – 1.62] 10 0.88
(1.62 – 1.65] 5 0.98
(1.65 – 1.69] 1 1

3. Medidas de tendencia central


Medidas de tendencia central

Moda Indica el valor que más se repite o la clase que posee mayor frecuencia.

Ejemplo: En la siguiente serie de datos la Moda = 3

2 3 3 3 8 9 0 0 0 7 8 4 4 3 3 3

La media, la mediana y la moda en el histograma

3. Medidas de tendencia central


Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Medidas de posición

Su objetivo es describir el comportamiento de una variable, dividiendo la serie de valores en diferentes


números de partes iguales:

Son aquellos valores que dividen la serie en 4 partes


Cuartiles porcentualmente iguales.

25% 50% 75%

Q1 Q2 Q3
Mediana

Son aquellos valores que dividen la serie en 10 partes


Deciles porcentualmente iguales.

10% 20% 50% 70% 80%

D1 D2 …. D5 D7 D8
Mediana

4. Medidas de posición
Medidas de posición

Son aquellos valores que dividen la serie en 100 partes


Percentiles porcentualmente iguales.

10% 25% 50% 75% 95%

P10 P25 …. P50 …. P75 …. P


95
Mediana

Datos no agrupados

Método 1 Método 2

No es entero, entonces la posición i es el


siguiente entero más grande y el valor de Pk
es el dato ordenado en esa posición.
nk Es entero, entonces la posición del percentil
será i= nk+0.5 y así el valor del percentil es
el promedio de las observaciones
ordenadas nk y nk+1

4. Medidas de posición
Medidas de posición

Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad: Cálculo del percentil 60.

Método 1

1,47(1) 1,53(11) 1,56(21) 1,59(31) 1,62(41)


Se promedian los datos en las posiciones 30 y 31:
1,47(2) 1,53(12) 1,56(22) 1,59(32) 1,62(42)
1,49(3) 1,53(13) 1,56(23) 1,59(33) 1,62(43)
1,49(4) 1,54(14) 1,57(24) 1,59(34) 1,62(44)
1,5(5) 1,54(15) 1,57(25) 1,6(35) 1,63(45)
1,51(6) 1,54(16) 1,57(26) 1,61(36) 1,63(46) Método 2
1,52(7) 1,54(17) 1,58(27) 1,62(37) 1,64(47)
1,52(8) 1,55(18) 1,58(28) 1,62(38) 1,65(48)
1,53(9) 1,56(19) 1,59(29) 1,62(39) 1,65(49)
1,53(10) 1,56(20) 1,59(30) 1,62(40) 1,68(50)

4. Medidas de posición
Medidas de posición

Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad: Cálculo del percentil 60.

Datos agrupados

Intervalo ni Ni Fi

[1.47 – 1.50] 5 5 0.10

(1.50 – 1.53] 8 13 0.26

(1.53 – 1.56] 10 23 0.46

(1.56 – 1. 59] 11 34 0.68

(1.59 – 1.62] 10 44 0.88

(1.62 – 1.65] 5 49 0.98

(1.65 – 1.69] 1 50 1

4. Medidas de posición
Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Medidas de dispersión

Medidas de dispersión: Determinan el grado de acercamiento o distanciamiento de los valores de


una distribución frente a su parámetro de localización.

Hay menor confiabilidad en el


Entre más grande sea el grado de ¿Qué pasa con la medida de promedio como medida de
variación, menor uniformidad tendencia central? tendencia central, por haber sido
tendrán los datos. obtenido de datos dispersos.

Medidas absolutas: Son medidas expresadas en las mismas unidades


que la variable en estudio. No permiten comparaciones respecto a la

Tipos de medidas dispersión de series expresadas en diferentes unidades.

Medidas relativas: No están expresadas en una unidad específica,


obviando así el inconveniente mencionado para las medidas absolutas.

5. Medidas de dispersión
Medidas de dispersión

Rango Se define como la diferencia entre el valor máximo y el mínimo:

Datos no agrupados

Datos agrupados

Es la medida de dispersión más sencilla de calcular.


Principal desventaja: Sólo está influenciado por los datos extremos. Existe el riesgo de que ofrezca una
descripción distorsionada de la dispersión.

5. Medidas de dispersión
Medidas de dispersión

Rango intercuartílico Se define como la diferencia entre el cuartil 3 y el cuartil 1:

Datos no agrupados

Datos agrupados

Nos dice en cuántas unidades de los valores que toma la variable, se concentra el 50% central
de los casos.

5. Medidas de dispersión
Medidas de dispersión

Se define como el promedio de los cuadrados de las desviaciones con


Varianza respecto a su media.

Datos no agrupados

Varianza poblacional Varianza muestral

Datos agrupados

5. Medidas de dispersión
Medidas de dispersión

Se define como el promedio de los cuadrados de las desviaciones con


Varianza respecto a su media.

Propiedades de la varianza:

1. Es siempre un valor no negativo.


2. La varianza de una constante es igual a 0.
3. Si a todos los valores de la variable se le suma una constante, la varianza no se modifica.
4. Si todos los valores de una variable se multiplican por una constante, la varianza es igual al cuadrado
de dicha constante por la varianza.

5. Medidas de dispersión
Medidas de dispersión

Es la raíz cuadrada de la varianza y está en las mismas unidades que


Desviación estándar se usan para medir los datos.

Desviación estándar Desviación estándar


poblacional muestral

Propiedades de la desviación estándar:

1. Es siempre un valor no negativo.


2. Toma en cuenta las desviaciones de todos los valores de la variable.
3. Si a todos los valores de la variable se le suma una constante, la desviación no se modifica.
4. Si todos los valores de una variable se multiplican por una constante, la desviación estándar es igual al
valor absoluto de dicha constante por la desviación.

5. Medidas de dispersión
Medidas de dispersión

Es útil para describir qué tan lejos se encuentran las observaciones


Estandarización: individuales de la media de la población. Se conoce el número de
desviaciones estándar a las que se encuentra una observación.

5. Medidas de dispersión
Medidas de dispersión

Coeficiente de variación

Para comparar la dispersión de variables que aparecen en unidades diferentes o que corresponden a
poblaciones desiguales, es necesario disponer de una medida de variabilidad que no dependa de las
unidades o el tamaño de los datos.

A menor coeficiente de variación se


consideraría que la distribución de la variable
medida es más homogénea.

5. Medidas de dispersión
Medidas de dispersión

Gráfico: Box - Plot

5. Medidas de dispersión
Medidas de dispersión

Ejemplo: Monto promedio de pago de un producto financiero.

Todos los valores Sin valores atípicos

Monto promedio: $ 223.221 Monto promedio: $ 162.505


Monto mínimo: $ 30.000 Monto mínimo: $ 30.000
Monto máximo: $ 1.200.000 Monto máximo: $ 300.000
Monto mediano: $ 167.000 Monto mediano: $ 156.000
Total individuos: 215 Total individuos: 181

5. Medidas de dispersión
Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Medidas de forma

Son aquellos números resúmenes, que indican la forma de la distribución de los datos, es decir de la
simetría y apuntamiento que tiene el histograma de la variable en estudio.

Medidas de forma: Coeficiente de asimetría y curtosis.

Cuando la curva que la representa es igual a ambos lados del


Distribución simétrica punto de referencia. Los datos se concentran hacia el centro de la
distribución.

En este caso el valor de la media es


igual al de la mediana y al de la
moda.

6. Medidas de forma
Medidas de forma

Una distribución es asimétrica negativa si los datos se


Distr. asimétrica negativa
concentran hacia los valores altos de la variable.

En este caso el valor de la media es


menor que la mediana, y este a su
vez es menor que la moda.

Una distribución es asimétrica positiva si los datos se


Distr. asimétrica positiva
concentran hacia los valores bajos de la variable.

En este caso el valor de la media es


mayor que la mediana, y este a su
vez es mayor que la moda.

6. Medidas de forma
Medidas de forma

Coeficientes de asimetría

Coeficiente de asimetría de Pearson: Está basado Coeficiente de asimetría de Fisher: Utiliza el


en la relación existente entre la media y la tercer momento alrededor de la media, con el fin
mediana. de mantener el signo de las desviaciones.

✓ Si el valor del coeficiente de asimetría es mayor que cero, entonces la distribución presenta una
asimetría positiva.
✓ Si el valor del coeficiente de asimetría es menor que cero, entonces la distribución presenta una
asimetría negativa.
✓ Si el valor del coeficiente de asimetría es igual a cero, entonces la distribución es simétrica.

6. Medidas de forma
Medidas de forma

Indica el grado de apuntamiento o achatamiento del gráfico


Curtosis correspondiente a una distribución de frecuencias. La medición se
hace tomando como referencia la curva normal.

Los indicadores de curtosis miden el nivel de concentración de datos en la región central.

6. Medidas de forma
Medidas de forma

Coeficiente de curtosis

Coeficiente de curtosis de Fisher: Está basado en el cuarto momento alrededor de la media.

✓ Si el valor del coeficiente de curtosis es mayor que cero, entonces la distribución es leptocúrtica.
✓ Si el valor del coeficiente de curtosis es menor que cero, entonces la distribución es platicúrtica
✓ Si el valor del coeficiente de curtosis es igual a cero, entonces la distribución es mesocúrtica.

6. Medidas de forma
Medidas de forma

Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad.

Coeficiente de asimetría

-0.114

Coeficiente de curtosis

-0.599

6. Medidas de forma
Contenido

1. Conceptos básicos

2. Distribución de frecuencias

3. Medidas de tendencia central

4. Medidas de posición

5. Medidas de dispersión

6. Medidas de forma

7. Distribuciones de frecuencias conjuntas

Métodos estadísticos para el análisis de datos – Módulo I


Distribución conjunta de variables

Distribución de frecuencias Tabla de contingencia o de doble entrada.

y1 y2 … yr
x1 n11 n12 … n1r
x2 n21 n22 … n2r
… ... … … …
xk nk1 nk2 … nkr

X toma k valores distintos: x1, x2, …, xk Si es cuantitativa: x1 < x2 < … < xk


Y toma r valores distintos: y1, y2, …, yr Si es cuantitativa: y1 < y2 < … < yr

(nij) Frecuencia absoluta conjunta del par (xi , yj) Número de veces que el dato (xi , yj) aparece en la muestra.

(fij) Frecuencia relativa conjunta del par (xi , yj) Cociente:

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Ejemplo:

Frecuencia absoluta conjunta Frecuencia relativa conjunta

NSE 2 NSE 3 NSE 2 NSE 3


Bogotá (Norte) 31 38 Bogotá (Norte) 5.22% 6.40%
Bogotá (Sur) 45 26 Bogotá (Sur) 7.58% 4.38%
Medellín (Norte) 39 24 Medellín (Norte) 6.57% 4.04%
Medellín (Sur) 39 26 Medellín (Sur) 6.57% 4.38%
Bucaramanga 29 37 Bucaramanga 4.88% 6.23%
Barranquilla 43 24 Barranquilla 7.24% 4.04%
Montería 42 19 Montería 7.07% 3.20%
Neiva 50 14 Neiva 8.42% 2.36%
Pereira 46 22 Pereira 7.74% 3.70%

n31 = 39 f31 = 6.57%

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Se obtienen al estudiar cada variable por separado. Nos


Distribuciones marginales
interesa sólo el comportamiento de X (o de Y).

Frecuencias absolutas marginales

= Número de veces que la variable X toma el valor xi en la muestra. Es la suma de nij con j = 1,…r.

= Número de veces que la variable Y toma el valor yj en la muestra. Es la suma de nij con i = 1,…k.

Frecuencias relativas marginales

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Ejemplo:

Frecuencias absolutas marginales Frecuencias relativas marginales

NSE 2 NSE 3 Total NSE 2 NSE 3 Total


Bogotá (Norte) 31 38 69 n1. Bogotá (Norte) 5.22% 6.40% 11.62% f1.
Bogotá (Sur) 45 26 71 n2. Bogotá (Sur) 7.58% 4.38% 11.95% f2.
Medellín (Norte) 39 24 63 n3. Medellín (Norte) 6.57% 4.04% 10.61% f3.
Medellín (Sur) 39 26 65 n 4. Medellín (Sur) 6.57% 4.38% 10.94% f 4.
Bucaramanga 29 37 66 n5. Bucaramanga 4.88% 6.23% 11.11% f5.
Barranquilla 43 24 67 n 6. Barranquilla 7.24% 4.04% 11.28% f 6.
Montería 42 19 61 n7. Montería 7.07% 3.20% 10.27% f7.
Neiva 50 14 64 n8. Neiva 8.42% 2.36% 10.77% f8.
Pereira 46 22 68 n9. Pereira 7.74% 3.70% 11.45% f9.
364 230 594 61.28% 38.72% 100%
Total Total
n.1 n.2 f.1 f.2

Número de encuestados de Número de encuestados en Participación del NSE 2 Participación de Barranquilla


NSE 2 Barranquilla en la muestra. en la muestra.

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Estudio de porcentajes:

Porcentaje sobre el total filas Porcentaje sobre el total columnas

NSE 2 NSE 3 Total NSE 2 NSE 3 Total

Bogotá (Norte) 44.93% 55.07% 100% Bogotá (Norte) 8.52% 16.52% 11.62%

Bogotá (Sur) 63.38% 36.62% 100% Bogotá (Sur) 12.36% 11.30% 11.95%

Medellín (Norte) 61.90% 38.10% 100% Medellín (Norte) 10.71% 10.43% 10.61%

Medellín (Sur) 60.00% 40.00% 100% Medellín (Sur) 10.71% 11.30% 10.94%
Bucaramanga 7.97% 16.09% 11.11%
Bucaramanga 43.94% 56.06% 100%
Barranquilla 64.18% 35.82% 100% Barranquilla 11.81% 10.43% 11.28%

Montería 68.85% 31.15% 100% Montería 11.54% 8.26% 10.27%


Neiva 78.13% 21.88% 100% Neiva 13.74% 6.09% 10.77%
Pereira 67.65% 32.35% 100% Pereira 12.64% 9.57% 11.45%
Total 61.28% 38.72% 100% Total 100% 100% 100%

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Si X es cualitativa e Y Se define la variable cualitativa como variable agrupadora.


cuantitativa

Ejemplo: La variable X es “Género” y la variable Y es “Monto promedio mensual de pago por servicios
públicos”:

Género Media N Desv. estándar

Hombre 103187,0504 139 118570,74989


Mujer 113666,6667 186 118984,97142

Ejemplo: La variable X es “Estado civil” y la variable Y es “Monto promedio mensual de pago por
servicios públicos”:

Estado civil Media N Desv. estándar

Soltero 98689,6552 58 72131,99570


Casado 120721,8045 133 147507,74779

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Representaciones gráficas

Variables cualitativas Diagramas de barras agrupados.

Variables cuantitativas discretas Diagramas de barras agrupados.

Variables cualitativas vs.


cuantitativas Box plot.

Variables cuantitativas continuas Diagramas de dispersión.

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Diagramas de barras agrupados

10,0%
8,0%
6,0%
4,0%
2,0%
0,0%
Bogotá (Norte) Bogotá (Sur) Medellín Medellín (Sur) Bucaramanga Barranquilla Montería Neiva Pereira
(Norte)

NSE 2 NSE 3

14,0%
12,0%
10,0% 4,4% 2,4% 3,7%
4,4% 4,0% 3,2%
8,0% 6,4% 4,0% 6,2%
6,0%
4,0% 7,6% 7,2% 8,4% 7,7%
6,6% 6,6% 7,1%
2,0% 5,2% 4,9%
0,0%
Bogotá (Norte) Bogotá (Sur) Medellín Medellín (Sur) Bucaramanga Barranquilla Montería Neiva Pereira
(Norte)

NSE 2 NSE 3

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

Box - Plot

7. Distribuciones de frecuencias conjuntas


Distribución conjunta de variables

En una nube de puntos o diagrama de dispersión, cada dato (xi , yj) de


Diagramas de dispersión
la muestra, se representa por un único punto.

Plot of peso vs altura


97

87

77 Se pueden ver distintos tipos de relaciones


peso

67 entre las variables.


57

47
160 165 170 175 180 185 190
altura

Se puede observar la presencia de mezcla


de poblaciones.

7. Distribuciones de frecuencias conjuntas


Medidas de dependencia lineal

Covarianza Mide la asociación lineal entre dos variables.

Interpretación

Si Sxy > 0, hay relación positiva, es decir, a grandes valores de x corresponden grandes valores de y.
Si Sxy = 0, se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.
Si Sxy < 0, hay relación negativa, es decir, a grandes valores de x corresponden pequeños valores de y.

7. Distribuciones de frecuencias conjuntas


Medidas de dependencia lineal

Correlación Mide la asociación lineal entre dos variables.

Coeficiente de correlación de Pearson

Toma valores entre -1 ≤ 0 ≤ 1

Interpretación

Si ρxy = -1, existe una correlación negativa perfecta.


Si ρxy = 0, no existe relación lineal.
Si ρxy = 1, existe una correlación positiva perfecta.

7. Distribuciones de frecuencias conjuntas


Medidas de dependencia lineal

Relaciones en el diagrama de dispersión

7. Distribuciones de frecuencias conjuntas


GRACIAS