Вы находитесь на странице: 1из 88

PROBABILIDAD Y ESTADÍSTICA

TRANSPARENCIAS DE CLASES

UNIDAD I

ESTADÍSTICA DESCRIPTIVA

Profesor: Luis Arenas

Neuquén, Septiembre 2011

Facultad de Economía y
Administración
UNIVERSIDAD NACIONAL
DEL COMAHUE
ESTADÍSTICA - EST. DESCRIPTIVA : DISTRIB DE FRECUENCIA

Unidad 1: Estadística Descriptiva

Distribuciones de Frecuencia

CONTENIDOS:

• Muestra y población;

• Unidad estadística
í

• Variables estadísticas;

• Tipo
po de variables;
a ab es;

• Series Simples de datos;

• Tablas de frecuencias para datos sin agrupar;

• Tablas de frecuencias para datos agrupados;

• Gráficas de las distribuciones;

• Ejemplos.
Ejemplos

UNIVERSIDAD NACIONAL DEL COMAHUE 2


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : CONCEPTOS - DEFINICIONES

Población (Universo):
Una población estadística es una colección bien
definida de objetos, personas, cosas, etc. que se
pretende estudiar.
La definición debe ser espacio-temporal, es decir,
que al definir la población debemos tener en
cuenta:
• Que: Qué vamos a estudiar (el objeto, cosa,
persona, etc.)
• Donde: La ubicación geográfica de la
población
• Cuando: ubicación temporal de la población.
Ejemplos
• Todos los menores de 18 años de una región en
un momento dado;
• Todos los individuos que se recibieron en la
Facultad de Ingeniería en la Universidad del
Comahue durante el periodo 2000-2010;
• El volumen total de petróleo producido en un
cierto yacimiento durante
d un periodo
d ;

Muestra: Subconjunto de objetos pertenecientes a


la población bajo estudio, seleccionados
mediante un método predefinido
predefinido.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 3
ESTADÍSTICA - EST. DESCRIPTIVA : CONCEPTOS - DEFINICIONES

Unidad Estadística
Es la persona,
persona objeto,
objeto elemento en cuyo estudio
estamos interesados. El conjunto completo de todas
las unidades estadísticas conforma la población. La
unidad estadística también puede ser una unidad de
tiempo,
p longitud,
g área, etc.

Variables Estadísticas
Es cualquier característica que puede variar de una
unidad estadística a otra en la población.
población Obtenidas por
medición o por observación de la característica bajo
estudio.

Tipos
p de Variables
Cualitativas:
No admiten valores numéricos sino que
representan atributos o categorías observados
en las unidades estadísticas. Ej: sexo, raza,
profesión, etc.
Cuantitativas:
adquieren valores numéricos obtenidos por
medición o por observación de las unidades
estadísticas.

UNIVERSIDAD NACIONAL DEL COMAHUE 4


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : CONCEPTOS - DEFINICIONES

Variable Cuantitativa discreta


Una variable cuantitativa es discreta cuando
unicamente asume valores enteros.
Generalmente surgen de conteos.

Algunas pueden asumir infinitos valores (por


ejemplo : 0, 1, 2, 3, 4...).
Otras pueden tomar un conjunto finito de
valores (p
(por ejemplo
j p : 1, 2, 3).
)

Variable Cuantitativa continua


Una variable cuantitativa es continua cuando
los valores posibles abarcan la totalidad de la
recta numérica (el conjunto de los números
reales).
Admiten
Ad it d i l
decimales y en generall surgen de
d
mediciones.

Análisis Exploratorio de Datos


Conjunto de técnicas que utilizan gráficos y
resúmenes numéricos para describir las variables de
un conjunto de datos y las relaciones entre ellas.

UNIVERSIDAD NACIONAL DEL COMAHUE 5


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : CONCEPTOS - DEFINICIONES

Población
Es el conjunto
de todos los
individuos que
poseen
información
sobre el
fenómeno que Muestra
se estudia. Es un
subconjunto de
elementos
pertenecientes
a una
población.
Variables:
Características que se observan
en las unidades estadísticas.
Unidad
E
Estadística
dí i
Cada individuo,
Cualitativas animal o cosa al
que se le mide u
Cuantitativas discretas observa
b una o más
á
Cuantitativas continuas características

UNIVERSIDAD NACIONAL DEL COMAHUE 6


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : CONCEPTOS - DEFINICIONES

Ejemplo:
En un estudio
E t di ded ausentismo,
ti se selecciona
l i una
muestra aleatoria de 60 empleados de la cadena de
hipermercados XX y para cada uno de ellos se observa
la cantidad de días ausentes el año pasado.

Resultados del estudio:


9, 6, 11, 2, 5, 8, 9, 7, 8, 13, 8, 6, 3, 10, 12, 11, 8, 9,
4, 14, 10, 6, 8, 9, 8, 5, 7, 7, 9, 10, 12, 3, 5, 7, 10,
11 6,
11, 6 9,
9 8,
8 7,
7 9,
9 6,6 7,
7 7,
7 10,
10 8,8 9,
9 11,
11 9,
9 8,
8 7,
7 9,
9 10,
10
8, 6, 10, 8, 4, 7, 5

• Población: empleados de la cadena del hipermercado


XX el año pasado .

• Muestra: el subconjunto de 60 empleados


seleccionados al azar

• Unidad Estadística: el empleado del hipermercado XX


el año pasado.

• Variable: Cantidad de días ausente el año pasado

• Tipo de Variable: Cuantitativa discreta

UNIVERSIDAD NACIONAL DEL COMAHUE 7


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : SERIES SIMPLES

Serie Simple de Datos (SSD)

Una serie simple es un conjunto pequeño de datos.


Si la cantidad de observaciones que conforman la serie
simple es n, podemos indicarlos como x1 , x2 , ..., xn

Ejemplo:
Serie Simple
2,3 2,5 2,6
2,1
,
2,4
2,8

La cantidad de observaciones de la serie simple es n = 6


La
a serie simple
p es:
2.3 2.4 2.1 2.8 2.5 2.6

x1 x2 x3 x4 x5 x6
Distribuciones de Frecuencias Unidimensionales
• Permiten organizar los datos construyendo tablas
de frecuencias unidimensionales.
• Permite visualizar la forma de la distribución de
una variable mediante la representación gráfica
de los valores obtenidos en una muestra de
tamaño adecuado (generalmente, no menor de
50 unidades);
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 8
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Distribuciones de Frecuencia Unidimensionales


Si la variable es discreta y asume pocos valores,
entonces la tabla de frecuencia se llama de datos
sin agrupar (DSA) y la representación gráfica se
denomina diagrama de bastones;
• Si la variable es continua (o discreta pero asume
muchos valores), entonces la tabla de frecuencia
se organiza agrupando los datos en intervalos o
clases y la distribución se llama de datos
agrupados (DA). La gráfica se conoce con el
nombre de histograma.

Definición
Frecuencia absoluta (fi) es la cantidad de veces
que se observa el valor xi de la variable.
variable

Frecuencia relativa (hi) Indica la proporción de


veces que se observa el valor xi de la variable.
Es el cociente entre la frecuencia absoluta y el
tamaño de la muestra n. f
hi = i
n
La frecuencia absoluta nos dice cuántas veces ocurrió
el evento, pero no informa sobre la relación que esto
tiene con el tamaño de la muestra analizada.

El contenido de información de la frecuencia relativa


es mucho mayor que el de la frecuencia absoluta.
absoluta

UNIVERSIDAD NACIONAL DEL COMAHUE 9


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Tablas de Frecuencias: Datos sin Agrupar (DSA)

Construcción de la Tabla
Luego de recolectados los datos armar una tabla de
frecuencias con las siguientes columnas:

• En la primera columna los valores que asume la


variable ordenados de menor a mayor.

• En la segunda
g columna las frecuencias absolutas
de cada valor de la variable.

• En la tercera columna las frecuencias relativas de


cada valor de la variable.

Valores de la Frecuencia Frecuencia


variable absoluta fi relativa hi

En cada valor dividir la


Contar las
frecuencia absoluta por
ocurrencias de cada
el tamaño de la
valor de la variable
muestra (n)

UNIVERSIDAD NACIONAL DEL COMAHUE 10


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Cantidad Frecuencia Frecuencia


de faltas absoluta fi relativa hi

2 1 0.0167
Contar las
ocurrencias de cada
3 2 0.0333
valor de la variable
4 2 0.0333
5 4 0 0667
0.0667
6 6 0.1000
7 9 0.1500
8 11 0.1833
9 10 0.1667
10 7 0.1167 En cada valor dividir la
11 4
frecuencia absoluta por
0.0667
el tamaño de la
12 2 0.0333
muestra
13 1 0.0167
14 1 0.0167

Representación
ió de
d Frecuencias
i Simples
Si l

• Marque los valores de la variable en una escala


sobre el eje horizontal;
• Sobre cada valor de la variable, dibuje un bastón
cuya altura sea igual a la frecuencia absoluta (o,
alternativamente, la frecuencia relativa).

UNIVERSIDAD NACIONAL DEL COMAHUE 11


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Definición
• La frecuencia relativa expresada como porcentaje
recibe el nombre de frecuencia relativa porcentual
(hi%).

• Para obtener la frecuencia relativa porcentual


sencillamente se multiplica la frecuencia relativa por
100, es decir hi% = hi*100 .

• Como es más fácil de interpretar un porcentaje que


una proporción, es usual informar resultados en
términos de frecuencias relativas porcentuales.
porcentuales

UNIVERSIDAD NACIONAL DEL COMAHUE 12


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

• Tanto las frecuencias absolutas, como las relativas y


las relativas porcentuales se pueden sumar dando
origen a las frecuencias acumuladas.

Definiciones:

• Fi: Frecuencia absoluta acumulada


Indica cantidad de veces que se observó el valor
xi de la variable o uno inferior a él.

• Hi: Frecuencia relativa acumulada


Indica la proporción de veces que se observó el
valor de la variable xi o uno inferior a él.

• Hi%: Frecuencia relativa porcentual


acumulada
Indica el porcentaje de veces que se observó el
valor xi de la variable o uno inferior a él.
él

UNIVERSIDAD NACIONAL DEL COMAHUE 13


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Tabla de Frecuencias: Datos sin agrupar (DSA)

Cant. de fi hi hi% Fi Hi H i%
faltas

2 1 0.0167 1,67 1 0.0167 1,67


3 2 0 0333
0.0333 3 33
3,33 3 0 05
0.05 5
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
7 9 0.1500 15 24 0 40
0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
12 2 0.0333 3,33 58 0.9667 96,67
13 1 0.0167 1,67 59 0.9834 98,34
14 1 0.0167 1,67 60 1 100

UNIVERSIDAD NACIONAL DEL COMAHUE 14


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Representación de Frec. Acumuladas (DSA)

• Marque los valores de la variable en una escala


horizontal;
• Para cada valor de la variable representar las
frecuencias absoluta acumuladas.
acumuladas Como la
frecuencia acumulada permanece constante de un
valor a otro, uniendo los segmentos verticales se
obtiene el diagrama escalonado.

F(i) Diagrama Escalonado

70

F = 60
60

50

40

30

20

10
F =0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

UNIVERSIDAD NACIONAL DEL COMAHUE 15


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación

Cant. de fi hi hi% Fi Hi H i%
faltas

2 1 0.0167 1,67 1 0.0167 1,67


3 2 0 0333
0.0333 3 33
3,33 3 0 05
0.05 5
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
7 9 0.1500 15 24 0 40
0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
12 2 0.0333 3,33 58 0.9667 96,67
13 1 0.0167 1,67 59 0.9834 98,34
14 1 0.0167 1,67 60 1 100

f3:

h6 %:
%

UNIVERSIDAD NACIONAL DEL COMAHUE 16


Departamento de Estadística - Prof. Luis Arenas
PROB. Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

F(i) Di
Diagrama E
Escalonado
l d

70

60

50

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

UNIVERSIDAD NACIONAL DEL COMAHUE 17


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación

Cant. de fi hi hi% Fi Hi H i%
faltas

2 1 0.0167 1,67 1 0.0167 1,67


3 2 0 0333
0.0333 3 33
3,33 3 0 05
0.05 5
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
7 9 0.1500 15 24 0 40
0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
12 2 0.0333 3,33 58 0.9667 96,67
13 1 0.0167 1,67 59 0.9834 98,34
14 1 0.0167 1,67 60 1 100

F7:

H6 %:

F7- F4:

100- H6 %:

UNIVERSIDAD NACIONAL DEL COMAHUE 18


Departamento de Estadística - Prof. Luis Arenas
PROB. Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Diagrama Escalonado
F((i)
70
F = 60
60

50

40

30

20

10
F =0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

F(i) Diagrama Escalonado

70

F = 60
60

50

40

30

20

10
F =0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

UNIVERSIDAD NACIONAL DEL COMAHUE 19


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA : EST. DESCRIPTIVA : DATOS AGRUPADOS

Distribuciones de Datos Agrupados (DA)


Ej
Ejemplo:
l
En un estudio realizado por C. Davis* sobre imagen
corporal y preocupación por el peso se registraron,
entre otras variables, los pesos de 200 personas (en
kg). Los datos obtenidos son los siguientes:

77 58 53 68 59 76 76 69 71 65 70 166 51 64 52 65 92 62 76 61
119 61 65 66 54 50 63 58 39 101 71 75 79 52 68 64 56 69 88 65
54 80 63 78 85 54 73 49 54 75 82 56 74 102 64 65 66 73 75 57
68 71 71 788 9
97 60 6
64 6
64 522 80 62 66 55 566 500 500 500 63 69 69
61 55 53 60 56 59 62 53 57 57 70 56 84 69 88 56 103 50 52 55
55 63 47 45 62 53 52 57 64 59 84 79 55 67 76 62 83 96 75 65
78 69 68 55 67 52 47 45 68 44 62 87 56 50 83 53 64 62 90 85
66 52 53 54 64 55 55 59 70 88 57 47 47 55 48 54 69 59 58 57
51 54 53 59 56 59 63 66 96 53 76 54 61 82 62 71 60 66 81 68
80 43 82 63 70 56 60 58 76 50 88 89 59 51 62 74 83 81 90 79
Davis, C. (1990) Body image and weight preoccupation: A comparison between exercising
and non-exercising women. Appetite, 15, 13–21 .

máximo: 166kg - mínimo: 39 kg

Si quisiéramos organizar los datos en una tabla de


frecuencias, deberíamos empezar colocando en la
primera columna los valores de la variable ordenados
de menor a mayor a partir de 39 y continuar hasta 166
como se presenta a continuación (en forma resumida)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 20
ESTADÍSTICA : EST. DESCRIPTIVA : DATOS AGRUPADOS

Distribuciones de Datos Agrupados


Ej
Ejemplo:
l
X f F h H  h% H%
39 1
40 0
41 0
42 0
43 1
: :
: :
119 1
: :
: :
163 0
164 0
165 0
166 1

Como se puede observar esta forma de organizar los


datos no resulta práctica por las siguientes razones:
• La tabla de frecuencias queda muy extensa
• Las frecuencias absolutas qque resultan son nulas o de
valor muy bajo
• Al representar la tabla en un diagrama de bastones
no es posible apreciar la forma de la distribución

La solución al problema anterior consiste en construir


una tabla de frecuencia agrupando los datos en
intervalos de igual amplitud.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 21
ESTADÍSTICA : EST. DESCRIPTIVA : DATOS AGRUPADOS

Distribuciones de Datos Agrupados


Ej
Ejemplo:
l
Intervalo f F h H h% H%
35 - 50 18
50 - 65 94
65 -80 52
80 - 95 18
95 - 110 7
110 - 125 5
125 - 140 3
140 - 155 2
155 - 170 1

Una tabla de frecuencias organizada utilizando


intervalos o clases de la variable recibe el nombre de
tabla de Frecuencias de Datos Agrupados.
En este ejemplo,
ejemplo los intervalos tienen una amplitud de
15, es decir 15 kg.

Veremos a continuación cómo se construye una tabla


de frecuencias de Datos Agrupados.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 22
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Distribución de Frec.: Datos agrupados (DA)

Etapa 1:
Luego de recolectados los datos, identifique el valor
máximo y el valor mínimo obtenidos en la muestra.
Calcule a continuación la diferencia entre ellos,
denominada rango:
Rango = Valor máximo - Valor mínimo
Etapa 2:
Determine la amplitud de los intervalos (clases), de
forma tal de obtener entre 5 y 20 clases de igual ancho.
Puede usarse la regla:
Rango
R
Amplitud Mín = A m =
20
Rango
Amplitud Máx = A M =
5
AM + Am
Amplitud =
2
Otra regla general es:
Cantidad de clases ≈ cantidad de obse
observacio
vaciones
Etapa 3:
Determine los límites de cada clase, de forma tal que el
mínimo valor observado quede incluido en la primera clase
y el máximo valor observado quede en la última clase.
clase

UNIVERSIDAD NACIONAL DEL COMAHUE 23


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Etapa 4:
Clasifique los datos por comparación con los límites
de clase obtenidos en el punto anterior y calcule las
frecuencias absolutas y relativas. Construya la tabla
de frecuencias.

Intervalos o
Frecuencia Frecuencia
Clases de la
absoluta relativa
variable

Contar las ocurrencias Dividir la frecuencia


en el intervalo. absoluta por el tamaño
de la muestra

Etapa 5:

Representar el histograma: sobre cada clase


dibuje una barra con altura igual a la frecuencia
absoluta/relativa.
Las frecuencias acumuladas se representan en un
gráfico llamado ojiva.

UNIVERSIDAD NACIONAL DEL COMAHUE 24


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Ejemplo:

En una muestra de 40 alumnos de una carrera


resultaron los siguientes promedios:

6,3; 6,8; 7,7; 9,4; 8,8; 7,6; 7,5; 7,9; 7,9; 4,6; 9,8;
5,2; 9,2; 8,1; 8,1; 8,2; 8,6; 9,2; 8,2; 7,7; 8,7; 7,7; 8,1;
8,1; 8,3; 8,4; 8,7; 7,7; 7,8; 7,6; 7,8; 7; 4; 7; 7; 7,4;
6,7; 6,6; 6; 6,1;

Etapa 1

Valor máximo en la muestra= 9,8


Valor mínimo en la muestra= 4
Rango= 9,8 - 4
Rango 4= 5,8

Etapa 2 Calcular la amplitud de los intervalos


Rango 5 .8
Amplitud
p Máx = A M = = = 1 . 16
5 5
Rango 5 .8
Amplitud Mín = A m = = = 0 . 29
20 20
1.16 + 0.29
A lit d =
Amplitud = 0 . 725 ≅ 1
2
Cantidad de clases ≈ 40 = 6.3245
Cantidad de clases ≈ 6

UNIVERSIDAD NACIONAL DEL COMAHUE 25


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Etapa 3: Establecer los límites de clase:

[4 , 5 ); [5 , 6); [6 , 7); [7 , 8); [8 , 9); [9, 10)

Etapa 4: Completar la tabla de frecuencias

Intervalo Punto
fi hi hi% Fi Hi Hi%
de clase medio

4 - 5 4,5
, 2 0,05 5 2 0,05 5

5 - 6 5,5 3 0,075 7,5 5 0,125 12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 0,275 27,5 23 0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 9,5 4 0,1 10 40 1 100

UNIVERSIDAD NACIONAL DEL COMAHUE 26


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Etapa 5: Representar histograma y ojiva

14
Frecuencia Frecuencia 0,35
absoluta relativa
12 0,30
10 0,25
8 0,20
6 0,15
4 0 10
0,10
2 0,05
0 0
3 4 5 6 7 8 9 10

Ojiva

45
40
35
30
25
20
15
10
5
0
2 3 4 5 6 7 8 9 10 11 12

UNIVERSIDAD NACIONAL DEL COMAHUE 27


Departamento de Estadística - Prof. Luis Arenas
PROBABILIDAD Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación
I t
Intervalo
l Punto
fi hi hi% Fi Hi Hi%
de clase medio

4 - 5 4,5 2 0,05
, 5 2 0,05 5

5 - 6 5,5 3 0,075 7,5 5 0,125 12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 0,275 27,5 23 0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 9,5 4 0,1 10 40 1 100

f3:
Frecuencia
14 absoluta

12
10
8
6
4
2
0
3 4 5 6 7 8 9 10
UNIVERSIDAD NACIONAL DEL COMAHUE 28
Departamento de Estadística - Prof. Luis Arenas
PROBABILIDAD Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación
I t
Intervalo
l Punto
fi hi hi% Fi Hi Hi%
de clase medio

4 - 5 4,5 2 0,05
, 5 2 0,05 5

5 - 6 5,5 3 0,075 7,5 5 0,125 12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 0,275 27,5 23 0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 9,5 4 0,1 10 40 1 100

h5%:
Frecuencia
14 absoluta

12
10
8
6
4
2
0
3 4 5 6 7 8 9 10
UNIVERSIDAD NACIONAL DEL COMAHUE 29
Departamento de Estadística - Prof. Luis Arenas
PROBABILIDAD Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación
Intervalo Punto
fi hi hi% Fi Hi Hi%
de clase medio

4 - 5 4,5 2 0,05 5 2 0,05 5

5 - 6 5,5 3 0,075 7,5 5 0,125 12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 0,275 27,5 23 0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 95
9,5 4 01
0,1 10 40 1 100

F3:

Ojiva

45
40
35
30
25
20
15
10
5
0
2 3 4 5 6 7 8 9 10 11 12

UNIVERSIDAD NACIONAL DEL COMAHUE 30


Departamento de Estadística - Prof. Luis Arenas
PROBABILIDAD Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación
Intervalo Punto
fi hi hi% Fi Hi Hi%
de clase medio

4 - 5 4,5 2 0,05 5 2 0,05 5

5 - 6 5,5 3 0,075 7,5 5 0,125 12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 0,275 27,5 23 0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 95
9,5 4 01
0,1 10 40 1 100

F5-F2:

Ojiva

45
40
35
30
25
20
15
10
5
0
2 3 4 5 6 7 8 9 10 11 12

UNIVERSIDAD NACIONAL DEL COMAHUE 31


Departamento de Estadística - Prof. Luis Arenas
PROBABILIDAD Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA

Interpretación
Intervalo Punto
fi hi hi% Fi Hi Hi%
de clase medio

4 - 5 4,5 2 0,05 5 2 0,05 5

5 - 6 5,5 3 0,075 7,5 5 0,125 12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 0,275 27,5 23 0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 95
9,5 4 01
0,1 10 40 1 100

100- H3%:

Ojiva

45
40
35
30
25
20
15
10
5
0
2 3 4 5 6 7 8 9 10 11 12

UNIVERSIDAD NACIONAL DEL COMAHUE 32


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : DISTRIB DE FRECUENCIA

Unidad 1: Estadística Descriptiva


Medidas de Posición y Dispersión

CONTENIDOS:

• Descripción de una distribución a partir de


la gráfica.
• Medidas de posición: concepto, tendencia
central y orden;
• Medidas de posición en series simples:
Media, Mediana, Modo, Cuartiles;
p
• Medidas de Dispersión: Concepto,
p , Rango,
g ,
Rango Intercuartílico, Desvío Estándar;
• Medidas de posición y dispersión para datos
sin agrupar;
• Medidas de posición y dispersión para datos
agrupados;
• Regla empírica.
• Coeficiente de Variación.
• Diagramas de Caja
• Series simples Bidimensionales
• Covariancia

UNIVERSIDAD NACIONAL DEL COMAHUE 33


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA

Descripción de una distribución a partir de la


g
gráfica
Al examinar un histograma debemos identificar
las siguientes características:

Forma: simétrica,
simétrica asimétrica,
asimétrica otras.
otras
Centro: valor aproximado que
Aspecto deja mitad de los datos por debajo
General y mitad por encima.

Dispersión: mínimo y máximo


(sin contar desviaciones).

Observaciones atípicas que


Desviaciones quedan fuera del aspecto general
de la distribución.

Aspecto
General
Desviaciones
Desviaciones

UNIVERSIDAD NACIONAL DEL COMAHUE 34


Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA

Forma: Casos Típicos

Tipo normal:
Simétrico y en forma
de campana.
p

Asimétrico a la derecha
(positivo)

Asimétrico a la
Izquierda (negativo)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 35
ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA

Centro de la Distribución
Valor aproximado que deja mitad de los datos por
debajo y mitad por encima.

Tipo
p normal:
Simétrico y en forma
de campana.

Centro

Asimétrico a la derecha
(positivo)

Centro

Asimétrico a la
Izquierda (negativo)

Centro
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 36
ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA

Dispersión
Valor mínimo y valor máximo sin contar desviaciones.

Aspecto
p
General
Desviaciones
Desviaciones

mínimo máximo
Dispersión

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 37
ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA

Ejemplo
El siguiente histograma presenta la distribución de
los porcentajes de residentes mayores de 65 años en
los 50 estados de EE UU en 1996.

16

14

12

10
No. of obs.

0
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X: porcentaje de mayores de 65 años

Forma: la distribución es algo asimétrica a la


izquierda y tiene un solo pico.
Centro: El centro de la distribución se halla
en el intervalo 12-13 (aproximadamente en el
13%).
Dispersión: Ignorando los valores más
extremos la dispersión va del 8 al 16%.
extremos, 16%
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 38
ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA

16

14

12

10
No. of obs.

0
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X: porcentaje de mayores de 65 años

Observaciones atípicas: dos estados se


hallan en los extremos del histograma. Uno es
Florida q
que tiene un 18,5%
, de p
personas con
más de 65 años, el otro es Alaska que tiene
solamente un 5,2%.
A veces, como en este caso, las observaciones
atípicas indican la naturaleza especial de
algunas observaciones. Florida por tener un
clima benigno es elegido por muchos jubilados
provenientes de todo el país como lugar de
residencia;; con Alaska ocurre lo contrario.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 39
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Medidas de Posición
Las medidas de posición ayudan a caracterizar un conjunto
de datos pues proporcionan la localización de la
distribución de frecuencia o el conjunto de datos, sobre el
eje de las abscisas (eje x).

Medidas de tendencia central


La media, el modo y la mediana son conocidas también
como medidas de tendencia central, ya que indican
sobre qué valor se concentran los datos, es decir, dan un
valor que es representativo del conjunto de datos.

Mínimo Media
Máximo Modo
Cuartiles Mediana
Percentiles

Medidas de Medidas de
posición tendencia central

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 40
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Serie Simple de Datos (SSD)


Una serie simple
l es un conjunto pequeño de
d datos.
d
Si la cantidad de observaciones que conforman la serie
es n, podemos indicarlos como x1 , x2 , ..., xn

L media
La di
Se calcula como:

x=
( x1 + x2 + .... + xn )
n
Que se simboliza como: n
∑ xi
i =1
M ( x) = x =
n
Ejemplo:

Serie Simple
2,3 2,1 2,5
2,4 2,6
2,8

x=
(2,1 + 2,3 + 2,4 + 2,6 + 2,5 + 2,8)
= 2,45
6

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 41
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Datos Sin Agrupar (DSA)


La media
Cuando los datos están organizados en una tabla de
frecuencias en los cuales no hay intervalos la
expresión de cálculo de la media es:
m

∑x .f i i
x= i =1
n
d d
donde:
m: cantidad de valores diferentes observados
n: tamaño de la muestra
fi: frecuencia del i-ésimo valor

xi: cada una de los m diferentes valores de la


variable

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 42
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Ejemplo: En la distribución de frecuencia de la cantidad de


días ausentes de los empleados del hipermercado XX el año
pasado

x f h h% F H H%
2 1 0.0167 1.67 1 0.0167 1.67
3 2 0.0333 3.33 3 0.0500 5.00
4 2 0.0333 3.33 5 0.0833 8.33
5 4 0 0667
0.0667 6 67
6.67 9 0 1500
0.1500 15 00
15.00
6 6 0.1000 10.00 15 0.2500 25.00
7 9 0.1500 15.00 24 0.4000 40.00
8 11 0.1833 18.33 35 0.5833 58.33
9 10 0 1667
0.1667 16 67
16.67 45 0 7500
0.7500 75 00
75.00
10 7 0.1167 11.67 52 0.8667 86.67
11 4 0.0667 6.67 56 0.9334 93.34
12 2 0.0333 3.33 58 0.9667 96.67
13 1 0 0167
0.0167 1 67
1.67 59 0 9834
0.9834 98 34
98.34
14 1 0.0167 1.67 60 1.0000 100.00
m

∑ x .f i i
2 ⋅ 1 + 3 ⋅ 2 + ..... + 14 ⋅ 1 478
x= i =1
= = = 7 ,97
n 60 60

Interpretación
El año pasado los 60 empleados tuvieron en promedio 8
días ausentes.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 43
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Datos Agrupados (DA)

La Media
Cuando la distribución de la variable está organizada
en una tabla de frecuencias con intervalos la expresión
de cálculo de la media es:

m
∑ xim . fi
i =1
M ( x) = x =
n
donde:
m: cantidad de clases o intervalos

n: tamaño de la muestra

fi: frecuencia de la i-ésima clase

xim: punto medio de la i-ésima clase o intervalo

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 44
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Ejemplo:: En la distribución de los promedios de los


alumnos
x: promedio de los alumnos de una carrera (en puntos)

Intervalo Punto
fi hi hi% Fi Hi
de clase medio Hi%

4 - 5 4,5 2 0,05 5 2 0,05 5

5 - 6 55
5,5 3 0 075
0,075 75
7,5 5 0 125
0,125 12 5
12,5

6 - 7 6,5 7 0,175 20 12 0,30 30

7- 8 7,5 11 ,
0,275 ,
27,5 23 ,
0,575 57,5

8- 9 8,5 13 0,325 32,5 36 0,90 90

9 - 10 9,5 4 0,1 10 40 1 100

6
∑ x im . f i
302
i =1
x = = = 7 , 55
n 40

Interpretación: La calificación promedio de los 40


alumnos es 7,55 puntos

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 45
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

La mediana
Es el valor que supera a no más de la mitad de las
observaciones y a la vez es superado por no más de la
mitad de las observaciones. Conceptualmente es el
valor que deja por debajo el 50% de los datos y por
encima el otro 50%.
Con los
C l datos
d t ordenados
d d ded mayor a menor se calcula
l l
como:
Mna = x( n2+1 ) Si n es impar

x⎛ n ⎞ + x⎛ n ⎞
⎜ ⎟ ⎜ +1 ⎟
⎝2⎠ ⎝2 ⎠ Si n es par
Mna =
2 muestra

2,5 2,3
2,1
Ejemplo: 2,4 2,6
2,8

Datos ordenados: Mna


2.1 2.3 2.4 2.5 2.6 2.8

x(1) x(2 ) x(3 ) x(4 ) x(5 ) x (6 )


como n = 6

x (3 ) + x (4 ) 2 . 4 + 2 . 5
Mna = = = 2 . 45
2 2
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 46
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

La Mediana (DSA)
Para calcular la mediana , p
primero se encuentra el orden de
la mediana: n
2
Graficamente
Se traza una proyección desde el orden de la mediana
hasta
h t ell diagrama
di escalonado
l d y ded allí
llí all eje
j X.
X El valor
l ded
resultante es la mediana de la distribución.
F(i)
n

n
2
Mna
x1 x2 x3 .x4 . . . x.m

Fi

n
= 30
2

Mna = 8
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 47
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Para calcular analíticamente Mna


n
1) Se encuentra el orden de la mediana :
2
2) Se busca una frecuencia acumulada F que sea mayor o igual
al orden de la mediana. El valor de la variable al que
corresponde esa frecuencia acumulada F es la mediana
di .
Ejemplo:
n
1) Calculo el orden de la mediana : = 30
2
2) Busco la menor Fi ≥ 30 , Fi = 35 ⇒ Mna = 8

x f h h% F H H%
2 1 0.0167
0 0167 1.67
1 67 1 0.0167
0 0167 1.67
1 67
3 2 0.0333 3.33 3 0.0500 5.00
4 2 0.0333 3.33 5 0.0833 8.33
5 4 0.0667 6.67 9 0.1500 15.00
6 6 0.1000 10.00 15 0.2500 25.00
7 9 0.1500 15.00 24 0.4000 40.00
8 11 0.1833 18.33 35 0.5833 58.33
9 10 0.1667 16.67 45 0.7500 75.00
10 7 0.1167 11.67 52 0.8667 86.67
11 4 0.0667 6.67 56 0.9334 93.34
12 2 0.0333 3.33 58 0.9667 96.67
13 1 0.0167 1.67 59 0.9834 98.34
14 1 0.0167 1.67 60 1.0000 100.00
60 1 100
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 48
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

La Mediana F(i )
n

n
2 Mna

LI LS
Se calcula el orden de la mediana (n/2) y luego se busca
una frecuencia acumulada F que sea mayor o igual a n/2.
El intervalo al que corresponde esa F contiene a la
Mediana.
La fórmula de cálculo de la Mediana es:
n − Fi −1
Mna = LI + 2 ⋅a
fi
donde:
LI: Límite inferior del intervalo que contiene a la mediana

n/2: orden de la mediana

Fi-1: Frecuencia absoluta acumulada en el intervalo


anterior al de la mediana
fi: Frecuencia absoluta del intervalo de la mediana

a: Amplitud de los intervalos

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 49
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Ejemplo

n − Fi −1
Mna = LI + 2 ⋅a
fi

Ojiva

45
40
35
30
25
n
= 20 20
2 15
10
5
0
2 3 4 5 6 7 8 9 10 11 12

20 − 12
Mna ∈ [7 ; 8 ) Mna = 7 + ⋅ 1 = 7 , 72
11

Interpretación:
El 50% de los 40 alumnos tiene un promedio inferior
a 7,72 puntos; el otro 50% supera ese valor.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 50
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Cuartiles
Hayy dos cuartiles: el inferior
f o Cuartil 1 y el superior
p
o Cuartil 3.
Cuartil 1
Es el valor que supera a no más de la cuarta parte de
l observaciones
las b i y a la
l vez es superadod por no más de
d
las tres cuartas partes de las observaciones.
Conceptualmente es el valor que deja por debajo el
25% de los datos y por encima el otro 75%.
Con los datos ordenados de menor a mayor se
calcula como:
x⎛ n ⎞ + x⎛ n ⎞
⎜ ⎟ ⎜ +1 ⎟
Q1 = ⎝4⎠ ⎝4 ⎠
Si n es múltiplo de 4
2

Ejemplo: 2,9 2,5 2,1 2,4 2,3 2,6 2,2 2,8

Datos ordenados: 2,1 2,2 2,3 2,4 2,5 2,6 2,8 2,9

Para n = 8

x ( 2 ) + x (3 ) 2 , 2 + 2 ,3
Q1 = = = 2 , 25
2 2

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 51
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Cuartil 3
Es el valor que supera a no más de las tres cuartas
partes de las observaciones y su vez es superado por
no más de la cuarta parte de las observaciones.
Conceptualmente es el valor que deja por debajo el
75% de los datos y por encima el otro 25%.
Con los datos ordenados de menor a mayor se calcula
como:

x⎛ 3n ⎞ + x⎛ 3 n ⎞
⎜ ⎟ ⎜ +1 ⎟ Si n es múltiplo de 4
Q3 = ⎝ 4 ⎠ ⎝ 4 ⎠

2
Ejemplo:
muestra
2,9 2,2
2,1 2,3
2,5
2,4 2,6
2,8
,
Datos ordenados:

2,1 2,2 2,3 2,4 2,5 2,6 2,8 2,9

Para n = 8

x (6 ) + x (7 ) 2 , 6 + 2 ,8
Q3 = = = 2 .7
2 2
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 52
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Cuartiles (DSA)
• El primer Cuartil (Q1) es el valor que deja por debajo el
25% de los datos y por encima el otro 75%.
• El tercer Cuartil (Q3) es el valor que deja por debajo el 75%
de los datos y por encima el otro 25%.

Para calcular analíticamente Q1


n
1) Se encuentra el orden del Cuartil 1 : 4
2) Se busca una frecuencia acumulada F que sea mayor o igual
al orden del cuartil 1 . El valor de la variable al que corresponde
esa frecuencia acumulada F es Q1.

Valores de la Frecuencia
Frecuencia
variable absoluta
b l
absoluta
Acumulada
Q1 F mayor o igual que el
orden del cuartil 1

Fi
n
Para hallar Q1 graficamente
se traza una pproyección
y desde
el orden del cuartil 1 hasta el
n
diagrama escalonado y de allí al
4
eje X. El valor de resultante es
el Q1 de los datos. Q1
x1 x2 x3 x4 . . . xm

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 53
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Para calcular analíticamente Q3

33n
1) Se encuentra el orden del Cuartil 3:
4
2) Se busca una frecuencia acumulada F que sea mayor o igual
el orden del cuartil 3. El valor de la variable al que corresponde
esa frecuencia acumulada F es Q3.

Valores de la Frecuencia
Frecuencia
variable absoluta
absoluta
Acumulada

Q3 F mayor
y o igual
g que
q el
orden del cuartil 3

Para hallar Q3 graficamente


se traza una proyección desde 3n
el orden del cuartil 3 hasta el 4
diagrama escalonado y de allí
al eje X. El valor de resultante
es el Q3 de los datos.
Q3 x1 x2 xi . . xm

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 54
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Ejemplo: Cálculo Analítico de ambos cuartiles


n
1) Calculo el orden del Cuartil 1: = 15
4
2) Busco el menor Fi ≥ 15 , Fi = 15 ⇒ Q1 = 6

Cálculo de Q3:
3n
1) Calculo el orden del Cuartil 3: = 45
4
2) Busco el menor Fi ≥ 45 , Fi = 45 ⇒ Q3 = 9

x f h h% F H H%
2 1 0.0167
0 0167 1.67
1 67 1 0.0167
0 0167 1.67
1 67
3 2 0.0333 3.33 3 0.0500 5.00
4 2 0.0333 3.33 5 0.0833 8.33
5 4 0.0667 6.67 9 0.1500 15.00
6 6 0.1000 10.00 15 0.2500 25.00
7 9 0.1500 15.00 24 0.4000 40.00
8 11 0.1833 18.33 35 0.5833 58.33
9 10 0.1667 16.67 45 0.7500 75.00
10 7 0.1167 11.67 52 0.8667 86.67
11 4 0.0667 6.67 56 0.9334 93.34
12 2 0.0333 3.33 58 0.9667 96.67
13 1 0.0167 1.67 59 0.9834 98.34
14 1 0.0167 1.67 60 1.0000 100.00
60 1 100
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 55
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Cálculo Gráfico de ambos cuartiles

Fi

3n
= 45
4

n
= 15
4

Q1 = 6 Q3 = 9

Interpretación:
Q1:El año pasado el 25 % de los 60 empleados del
hipermercado XX faltó 6 días o menos, el 75%
restante faltó más de 6 días.
Q3:El año pasado el 75 % de los 60 empleados del
hipermercado XX faltó 9 días o menos,
menos el 25%
restante faltó más de 9 días.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 56
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Cuartil 1 (DA)
n
1) Se calcula el orden del Cuartil 1:
4
2) Se busca la menor frecuencia acumulada F que sea mayor o
igual al orden del cuartil 1. El intervalo al que corresponde esa
F contiene al Cuartil 1. Q1 ∈ [LI ; LS )
3) La expresión analítica de cálculo de Q1 y el procedimiento
para hallarlo graficamente son: F(i )
n

n −F
i −1
1
Q1 = LI + 4 ⋅ a n
Q1
fi 4

LI LS

Ojiva

45
40
35
30
25
20
15
n
= 10 10
4 5
0
2 3 4 5 6 7 8 9 10 11 12

10 − 5
Q1 = 6 + ⋅ 1 = 6 , 71
7
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 57
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Cuartil 3 (DA)
3n
1) Se calcula el orden del Cuartil 3:
4
2) Se busca la menor frecuencia acumulada F que sea mayor o
igual al orden del Cuartil 3. El intervalo al que corresponde esa
F contiene al Cuartil 3.
F(i )
n
3n
4
3n − F
i −1
Q3
Q3 = LI + 4 ⋅ a
fi
LI LS

Ojiva

45
40
35
3n
= 30 30
Q3 ∈[x− ; x+ )
4 25
20
15
10
5
0
2 3 4 5 6 7 8 9 10 11 12

30 − 23
Q3 = 8 + ⋅ 1 = 8 ,53
13
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 58
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DEPOSICIÓN

Intervalo Intercuartílico
El intervalo intercuartílico es el intervalo de valores
de la variable comprendido entre Q1 y Q3.

• Este intervalo contiene aproximadamente el 50% de


la distribución.
• Si la distribución es simétrica, el intervalo estará
ubicado en el centro de la distribución.

50% 25%
25%

Q1 Q3

Ejemplo
En el ejemplo del promedio de los 40 alumnos el
intervalo intercuartílico es: [6,71 ; 8,53]

Interpretación
Aproximadamente el 50% de los alumnos tienen un
promedio entre 6,71 y 8,53 puntos.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 59
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

El Modo (DSA)
Es el valor de la variable al que le corresponde la
frecuencia máxima. Gráficamente el modo es el valor de
la variable al que le corresponde el bastón más alto.
f(i)
fi−máx

Mdo

x1 x2 x3 x4. . . . .xm
Frecuencia Frecuencia
absoluta relativa
11
10 f i − máx
9 0.15
8
7
6 0.10
5
4
3 0.0
2 5

1
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Md
Mdo
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 60
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

f
El Modo (DA)
El modo se encuentra en el fi
intervalo al que le fi−1 fi +1
corresponde máxima
frecuencia (intervalo modal).
Es posible encontrar un valor
aproximado interpolando LI LS
mediante la fórmula: a
f i − f i−1
Md = LI +
Mdo ⋅a
( f i − f i−1 ) + ( f i − f i+1 )
donde:
LI: Límite inferior del intervalo que contienen al Modo

fi: Frecuencia absoluta del intervalo que contiene el modo

fi-1: Frecuencia absoluta del intervalo anterior al que


contiene el modo

fi+1: Frecuencia absoluta del intervalo posterior al que


contiene
ti ell modo
d

a: Amplitud de los intervalos

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 61
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN

Ejemplo
fi − fi−1
Mdo= LI + ⋅a
( fi − fi−1) + ( fi − fi+1)

14 Frec. Frecuencia 0,35


absoluta relativa
12 0,30
10 0,25
8 Mdo ∈ [8 ; 9 ) 0,20
6 0,15
4 0,10
2 0 05
0,05
0 0
3 4 5 6 7 8 9 10

Δ 1 = f i − f i −1 =13 −11= 2

Δ 2 = f i − f i + 1 = 13 − 4 = 9
2
Mdo = 8 + ⋅ 1 = 8,18
2+9
Interpretación:
Lo más frecuente es que los 40 alumnos tengan un promedio
entre 8 y 9 puntos (aproximadamente 8,18 puntos).

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 62
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DEPOSICIÓN

Medidas de tendencia central: Ventajas y


desventajas
Media
• Utiliza en su cálculo toda la información disponible
de la muestra
• Tiene
Ti propiedades
i d d estadísticas
t dí ti d
deseables,
bl por eso
es la medida de localización central más utilizada
• La desventaja más importante es que puede ser
afectada de manera adversa por valores extremos
presentes en la muestra.
muestra

Mediana
• El fácil de calcular
• No se ve afectada por valores extremos,
extremos pero sí por
la cantidad de valores extremos

Modo
• Es la medida de tendencia central menos utilizada
• No siempre existe y cuando existe puede haber más
de un modo
• En conjuntos pequeños no tiene utilidad como
medida de tendencia central.
central
• Es fácil de calcular.
• Se puede usar tanto para variable cualitativa como
para variable cuantitativa. La media y Mna solo se
pueden calcular en variable cuantitativa.
cuantitativa

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 63
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DEPOSICIÓN

Relación de las Medidas de tendencia central

Simétrica

x ≅ Mna ≅ Mdo

En distribuciones simétricas la Media , el Modo y la


Mediana son aproximadamente iguales.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 64
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DEPOSICIÓN

Relación de las Medidas de tendencia central

Como la Media se ve afectada por valores extremos y la


Mediana por la cantidad de datos extremos. En
distribuciones asimétricas se verifica la siguiente
relación:

Asimétrica
a la
derecha

Mdo < Mna < x

Asimétrica
a la
izquierda

x < Mna < Mdo

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 65
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE DISPERSIÓN

Medidas numéricas de Dispersión


Otra característica de las distribuciones es la variabilidad
o dispersión de las mismas. Las medidas de dispersión
miden la intensidad con que se dispersan o concentran los
observaciones de una distribución.

x
• Puede obtenerse una idea preliminar de la variabilidad
de una variable a partir de la observación del
histograma.
• Las denominadas medidas numéricas de dispersión o
variabilidad, proveen una estimación cuantitativa, más
precisa
precisa.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 66
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE DISPERSIÓN

1. Rango

Es la diferencia entre el valor máximo y el valor


mínimo de las n observaciones

( )
R = max x j − min
i xj ( ) ∀j = 1...n

muestra
2,5 2,1
2,3 R = 2,8 − 2,1 = 0,7
2,4 2,8 2,6

• El rango es la medida de dispersión de los datos más


simple de calcular;

• Su principal problema es que sólo depende de los


valores extremos, despreciando la influencia de los
restantes (n-2) valores;

• El rango es poco confiable en presencia de valores


atípicos o extremos.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 67
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE DISPERSIÓN

2. Rango Intercuartílico
Es la diferencia entre el tercer cuartil Q3 y el primer
cuartil Q1 .
RI = Q 3 − Q1
El Rango Intercuartílico es confiable aún en presencia
de valores atípicos .
El cálculo del Rango Intercuartílico da un valor, no
confundir con Intervalo Intercuartílico que son los
valores entre Q1 y Q3.

Va iancia
Variancia
Se calcula a partir de la suma de los desvíos de las
observaciones respecto de la media elevados al
cuadrado y dividida por el tamaño de la muestra.

x j − x = −1.15
x k − x = 2.85
xi = 6 x k = 10

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

x = 7.15
n
∑ ( xi − x ) 2
[
V ( x ) = M (x − x ) = S 2 ( x ) =
2
] i =1

n
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 68
ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE DISPERSIÓN

3. Desvío Estándar
„ Es la medida de dispersión más utilizada.
utilizada
„ En su cálculo intervienen todas las observaciones.

„ Se lo define como la raíz cuadrada de la variancia.

„ Está expresado en la misma unidad de medida que la

variable
i bl y su media
di
n
∑ i
( x − x ) 2

s ( x) = i =1

n
La fórmula de cálculo es:

n
∑ xi
2

s( x) = − x
i =1 2

n
Propiedades
• S(x) > 0
• S(k) = 0 para k constante
• S(x ± k) = S(x) para k constante
• S(k.x) = k.S(x) para k constante
• S(a.x ± b) = a.S(x) para a y b constantes
• Regla empírica (se verá con distribuciones de frecuencia)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 69
ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN

Desvío Estándar (DSA)


En este caso como los datos están organizados en tablas de
frecuencias, en la fórmula se multiplica cada desvío
respecto de la media por su frecuencia:
m
∑ i
[( x − x ) 2
fi ]
S ( x) = i =1

donde:
n
m: cantidad de valores diferentes de la variable
n: tamaño de la muestra
fi: frecuencia de aparición del i-ésimo valor
xi: cada uno de los m diferentes valores que asume la
variable
x: media muestral m
∑ ( xi f i )
2

Para el cálculo podemos S ( x) = i =1


− x2
usar la fórmula: n
Ejemplo: En los datos de ausentismo:

⎡ (4 ⋅ 1 + 9 ⋅ 1 + ..... + 196 ⋅ 1) ⎤
S (x) = ⎢ − 7,97 2 ⎥
⎣ 60 ⎦

⎡ 4162 ⎤
S ( x) = ⎢⎣ 60 − 7 ,97 2 ⎥ = 2 , 4287

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 70
ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN

Desvío Estándar (DA) m

Su fórmula conceptual es: ∑[( xim − x )2 fi ]


S ( x) = i =1

donde: n
m: cantidad de intervalos de la tabla de frecuencias
xim: punto medio de cada clase

fi: frecuencia de ocurrencia del i-ésimo intervalo

Los otros elementos de la fórmula son similares a la de datos


sin agrupar.

Para el cálculo se puede usar: m


∑ ( xim f i )
2

S ( x) = i =1
− x2
n
Ejemplo: Para los datos correspondientes a las
calificaciones de 40 alumnos de una carrera
universitaria.

2346
S ( x) = − 7 ,55 2 = 1, 2835
40

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 71
ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN

Propiedad Estadística del Desvío estándar


((Regla )
g Empírica)
p

Es la propiedad estadística más importante del


desvío estándar:
En distribuciones simétricas y acampanadas y para
tamaños de muestras suficientemente grandes: se
verifica que:

El intervalo [x − S ( x); x + S ( x)]


contiene aproximadamente el 68% de la distribución

68%

x − s (x) x x + s (x)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 72
ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN

Propiedad Estadística del Desvío estándar


((Regla )
g Empírica)
p
El intervalo [x − 2 ⋅ S ( x); x + 2 ⋅ S ( x)]
contiene aproximadamente el 95% de la distribución

95%

x
x − 2 ⋅ s ( x) x + 2 ⋅ s( x)

El intervalo [x − 3 ⋅ S ( x); x + 3 ⋅ S ( x)]


contiene aproximadamente el 99,7% de la distribución

99,7%

x − 3 ⋅ s ( x) x x + 3 ⋅ s( x)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 73
ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN

Ejemplo
Frecuencia Frecuencia
absoluta relativa

11
10
9 0.15

8
7
6 0.10
5
4
3 0.05

2
1
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

n = 60 x = 7,97 S ( x) = 2,4287

(x − S ( x); x + S ( x) ) ⇒ ( 5,54;10,39 ) ≈ (6; 10 )


Aproximadamente el 68% de los empleados faltaron
entre
t 6 y10
10 dí
días ell año
ñ pasado
d

(x − 2 ⋅ S ( x); x + 2 ⋅ S ( x))⇒ (3,11; 12,82) ≈ (3; 13)


Aproximadamente el 95% de los empleados faltaron
entre 3 y13 días el año pasado

(x − 3 ⋅ S ( x); x + 3 ⋅ S ( x)) ⇒ (0,68; 15,25) ≈ (1; 15)


Aproximadamente el 99,7% de los empleados faltaron
entre 1 y15 días el año pasado

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 74
ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN

Dispersión Relativa: Coeficiente de Variación


Se define al Coeficiente
f de Variación ((CV),
) como el
cociente entre el desvío estándard y la media. De esta
manera se eliminan las unidades en que está medida la
variable, resultando un coeficiente adimensional que
suele ser expresado en porcentaje.
S ( x)
CV = ⋅ 100
x
En una distribución de frecuencia o en una serie simple
de datos, el Coeficiente de Variación mide la dispersión
relativa,
l es decir,
d i cuán
á grande
d es ell desvío
d í estandar d
respecto de la media.
Se lo utiliza para comparar dos o más conjuntos de datos
en los que se han utilizado unidades de medida
diferentes o cuando se comparan muestras de la misma
variable con distintas medias.
Al comparar dos o más distribuciones, aquella con menor
CV es más homogénea
Ejemplo
j l
S ( x) 2,4287
CV1 = ⋅100 = ⋅ 100 = 30,47 %
x 7,97
S ( x) 1, 2835
CV 2 = ⋅100 = ⋅100 =17 %
x 7 ,55
La distribución correspondiente a las calificaciones
promedio de los alumnos, es más homogénea que la
di ib i del
distribución d l ausentismo
i pues tiene
i un menor CV.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadística - Prof. Luis Arenas 75
ESTADÍSTICA - EST. DESCRIPTIVA: RESÚMEN NUMÉRICO DE LOS DATOS

Resumen Numérico de los datos


Los cinco números resumen
Los cinco números resumen de un conjunto de datos
consisten en la observación mínima, el primer cuartil, la
mediana, el tercer cuartil y la observación máxima. Estos
cinco números proporcionan una descripción
razonablemente completa del centro y de la dispersión
de la distribución. El mínimo y el máximo dan
información de los extremos de la distribución.
De forma simbólica :
mínimo Q1 Mna Q3 máximo

Otra descripción resumen


La descripción mas común de una distribución es la dada
por la combinación de media y desvío estándard. La
media como medida del centro y el desvío para medir la
dispersión.
De forma simbólica : x y s ( x)

Elección de un resumen numérico


Para describir una distribución asimétrica o con
p , es mejor
observaciones atípicas, j utilizar los cinco
números resumen.
Se utiliza media y desvío en el caso de distribuciones
razonablemente simétricas y que no presenten
p
observaciones atípicas.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 76
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Diagrama de Caja
Es una representación de los datos que pretende resumir
gráficamente las características mas sobresalientes de los
mismos. Se puede utilizar el Diagrama de Caja para
comparar distintos conjuntos de datos respecto a:

• localización • posición
medidas de:
• variabilidad • dispersión
• asimetría dada por la gráfica

Elementos del Diagrama de Caja

Bigote Bigote
g
Caja
Izquierdo Derecho

Mínimo Máximo

Cuartil 1 Mediana Cuartil 3

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 77
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Diagrama de Caja: Posición

25% 25% 25% 25%

Mínimo Máximo

Cuartil 1 Mediana Cuartil 3

Diagrama de Caja: Dispersión

Mínimo Cuartil 1 Cuartil 3 Máximo

Rango Intercuartílico

Rango

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 78
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Diagrama de Caja: Forma

Tipo normal:
Simétrico y en forma de
campana.

La distancia entre Q1 y mediana es la misma que entre mediana y


Q3. Los bigotes tienen aproximadamente la misma longitud.

Asimétrico a la derecha
(positivo)

La distancia entre Q1 y mediana es menor que entre mediana y


Q3. El bigote izquierdo
i q ierdo tiene menor longitud
longit d que
q e el derecho.
derecho

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 79
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Diagrama de Caja: Forma

Asimétrico a la Izquierda
(negativo)

La distancia entre Q1 y mediana es mayor que entre


mediana y Q3. El bigote izquierdo tiene mayor longitud
que el derecho.

Comparación de distribuciones: Posición

Las distribuciones son similares en dispersión y en


simetría. Difieren en la localización (posición).
(posición)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 80
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Comparación de distribuciones (2)

Las distribuciones son similares en localización y en


simetría. Difieren en la dispersión.

Comparación de distribuciones (3)

Las distribuciones son diferentes en localización,


dispersión y en simetría.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 81
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Ejemplo
Para investigar el efecto que tiene el procedimiento
en la elaboración de hormigón se comparan tres
métodos de fabricación y se observa la resistencia a
la fractura de los hormigones obtenidos (en kg
fuerza).
fuerza)
• Qué tipo de simetría/asimetría presentan las
distribuciones. Justifique su respuesta.
• Ordene las distribuciones de menor a mayor según
su dispersión.
• Ordene los métodos de mayor a menor de acuerdo
a la resistencia a la fractura obtenida (posición).

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 82
ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA

Estrategia para explorar datos de una variable


cuantitativa

Disponemos ahora de un conjunto de herramientas


gráficas y numéricas para describir distribuciones.
Podemos seguir
g el siguiente
g procedimiento:
p
1. Representar graficamente los datos,
habitualmente con un histograma que puede
acompañarse de un diagrama de caja.
2 Identificar el aspecto general (forma,
2. (forma centro y
dispersión) y las desviaciones como las
observaciones atípicas.
3. Calcular los resúmenes numéricos para describir
b
brevemente t ell centro
t y la
l dispersión
di ió de
d la l
distribución.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 83
ESTADÍSTICA EST. DESCRIPTIVA: Distribuciones Bidimensionales

Serie Simple Bidimensional

Consideremos la situación en que a los n


elementos de la muestra se les observa
simultáneamente dos variables X e Y.
Realizada
R li d lal experiencia
i i se obtienen
bti las
l siguientes
i i t
observaciones bivariadas:

(x1 , y1 ); (x2 , y2 ); . . . .; (xn , y n )


Diagrama de Dispersión
Una serie simple bidimensional se puede representar
en un diagrama de dispersión.

x y
y
x1 y1
x2 y2 yj
... ...
xj yj
... ...
xn yn xj x

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 84
ESTADÍSTICA - EST. DESCRIPTIVA: Distribuciones Bidimensionales

Ejemplo
A una muestra de 8 alumnos de 1er año de una
carrera se les estudia simultáneamente:
X: cantidad de materias cursadas
Y: cantidad de materias aprobadas
Se obtiene la siguiente serie simple bidimensional

(3, 0); (2, 1); (2, 2); (3, 1)


(3, 3); (4, 2); (4, 1); (1, 1)
Y
4

X Y
3 0 3

2 1
2 2 2
3 1
3 3 1
4 2
4 1 0
1 1 0 1 2 3 4 5

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 85
ESTADÍSTICA - EST. DESCRIPTIVA: Distribuciones Bidimensionales

Covariancia

La variación conjunta de dos variables se mide a


través de un coeficiente llamado covariancia:
n n

∑ ( x − x ).( y
i i − y) ∑ x .y i i
C ( x, y ) =
Cov i =1
= i =1
− x. y
n n

Fórmula Conceptual Fórmula de Cálculo

Signo de la Covariancia
(x −x )> 0
y

(y −y )>0
y
(y −y )< 0

x x
(x −x )< 0

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 86
ESTADÍSTICA - EST. DESCRIPTIVA: Distribuciones Bidimensionales

Interpretación de la Covariancia
(x y) > 0 ⇒ relación directa entre las variables
• Cov (x, variables.
• Cov (x, y) < 0 ⇒ relación inversa entre las variables.
• Cov (x, y) = 0 ⇒ no existe relación lineal entre las
variables.

Diagrama de Dispersión y Signo de la


Covariancia

II
I

M(y) Cov (x, y) > 0


IV
III

M(x)

II
I

Cov (x,
(x y) = 0 M( )
M(y)

IV
III

I M(x)
II
M(y)

III IV Cov (x, y) < 0

M(x)

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 87
ESTADÍSTICA - EST. DESCRIPTIVA: Distribuciones Bidimensionales

Ejemplo
Calcular
a u a e interpretar
p a la a covariancia
o a a a pa para
a las
a variables
a ab X
e Y en un estudio realizado a 10 estudiantes donde:
X: Tiempo de estudio para un examen (en horas)
Y: Calificación obtenida (en puntos)

X Y X.Y
5 8 40
n
3
2
4
2
12
4
∑ xi 49
i =1
x= = = 4,9
6 7 42 n 10
10 9 90
n
3
4
2
4
6
16
∑ yi 50
i =1
y= = =5
5 5 25 n 10
8 7 56
3 2 6
49 50 297 Totales
n
∑ xi . yi 297
i =1
Cov ( x, y ) = − x. y = − 4,9 ⋅ 5 = 5,2
n 10
Hay una relación directa entre
Cov(X,Y)=5,2 > 0 el tiempo de estudio y la
calificación obtenida

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadística - Prof. Luis Arenas 88

Вам также может понравиться