Академический Документы
Профессиональный Документы
Культура Документы
Segundo Tema
Estadística Descriptiva
La Paz-2014
1
MSc. Marco A Salazar Montecinos
2
Estadisitica Descriptiva
Competencias a Desarrollar
2
MSc. Marco A Salazar Montecinos
La muestra descansa en el principio de que las partes representan al todo y, por tal,
refleja las características que definen la población de la que fue extraída, lo cual nos
indica que es representativa. Por lo tanto, la validez de la generalización depende de la
validez y tamaño de la muestra.
3
MSc. Marco A Salazar Montecinos
Ejemplo:
El grado de satisfacción en el trato con el personal sanitario es una
variable cualitativa ordinal. Sus modalidades podrían ser: muy
satisfecho, satisfecho, poco satisfecho.
Ejemplo:
La variable sexo es una variable cualitativa nominal
Variable discreta.- Son las que resultan del conteo es decir, que toma
valores numéricos enteros y no pueden asumir ningún valor entre 2
4
MSc. Marco A Salazar Montecinos
Ejemplo:
La variable “edad de los adolescentes” es una variable cuantitativa
discreta. Toma valores 13, 14, 15 y 16.
Ejemplo:
La variable altura es cuantitativa continua. Puede tomar cualquier valor,
por ejemplo entre, 150 y 200 cm.
4. ¿Qué es un Parámetro?
Es usado para describir alguna característica de una población, para determinar su
valor, es necesario utilizar la información de la población completa y por tanto, las
decisiones se tomarán con certidumbre total. Los más conocidos son:
a) Media Poblacional
b) Varianza Poblacional
c) Proporción Poblacional
5. ¿Qué es un Estadígrafo?
Medida usada para describir alguna característica de la muestra y la toma de
decisiones contiene un grado de incertidumbre, los más usados son:
a) Media Muestral.
b) Varianza Muestral.
c) Proporción Muestral.
RECUERDA QUE:
El Parametro y el Estadígrafo son distintos
5
MSc. Marco A Salazar Montecinos
frecuencia absoluta de Xi fi
hi
número total de observaciones n
6
MSc. Marco A Salazar Montecinos
∑ N 1
Ejemplo:
Se quiere analizar los promedio de notas de 50 estudiantes de la carrera ciencias de la
educación y se tiene la siguiente distribución
X: promedio de Notas
N:50
N=50
7
MSc. Marco A Salazar Montecinos
∑ N=50
8
MSc. Marco A Salazar Montecinos
mas pequeño ni el mas grande, sino que es un numero cuyo valor esta en algún punto
intermedio del grupo. Por esta razón un numero representativo es aquel que indica una
medida de tendencia central conocido comúnmente como promedio.
Se pueden definir varios tipos de medidas de centralización, las mas comunes son la
media aritmética o brevemente la media, la mediana, la moda, la media geométrica y
la media armónica.
RECUERDA QUE:
Representativo significa, que el número debe reflejar la
tendencia de los valores individuales que están distribuidos
alrededor de cierto valor central
X
N
___
X X 2 X 3 ... X N XJ
X 1 J 1
N N N
9
MSc. Marco A Salazar Montecinos
Caso b)
fX
N
___
f X f 2 X 2 f 3 X 3 ... f N X N fJ X J
X 1 1 J 1
N N N
Caso c)
X
( Mci ) f i
, donde:
N
Definición.- La media geométrica se define como la raíz enésima del producto de los
n valores observados, o sea; Cuando los datos no están agrupados
Si tiene una distribución de frecuencias, entonces
Caso a)
X
ni
G(X)= n x1 x 2 x3 ......x n = n i
i 1
10
MSc. Marco A Salazar Montecinos
Caso b)
1 n
Log G(X)= log xi
n i 1
1 n
Log G(x)= f i log xi
n i 1
Ejemplo
xi fi Log xi fi*Log xi
3 2 0,47712 0,95424
4 3 0,60206 1,80618
5 2 0,69897 1,39794
6 2 0,77815 1,55630
7 1 0,84510 0,84510
1
De manera que log G(X) = (6,55976) 0,655976
10
Luego G(X)= 4,53
1 1 n
H(x)= =
1 / x1 1 / x2 .... 1 / xn n
1/ x n
1/ x
n i 1
11
MSc. Marco A Salazar Montecinos
Ejemplo
xi fi f/x
3 2 0,67
4 3 0,75
5 2 0,40
6 2 0,33
7 1 0,14
10 2,29
10
H(x)= 4,36
2,29
12
MSc. Marco A Salazar Montecinos
M ( x) G ( x) H ( x)
Si observamos los resultados de los ejemplos se tiene lo siguiente
M ( x) 4,7 G( x) 4,53 H ( x) 4,36
9. REFLEXIONA
Es importante analizar la siguiente relación
M ( x) G( x) H ( x)
x 2
i
Mc( x) i 1
x 2
i fi
Mc( x) i 1
13
MSc. Marco A Salazar Montecinos
xi fi x^2 (x^2)f
3 2 9 18
4 3 16 48
5 2 25 50
6 2 36 72
7 1 49 49
237
237
Mc(x)= 23,7 =4,87
10
7.6 Mediana
Hemos visto que las medidas anteriores están influenciadas particularmente por los
valores de las observaciones. De esta manera, cuando hay valores extremos,
generalmente la media no es una buena medida , así por ejemplo , si la producción
diaria de un obrero es normal durante 4 días de la semana y el 5º día tiene
rendimiento nulo su rendimiento medio desciende considerablemente. Esta influencia
profunda de los valores extremos sobre la media aritmética , implica que este
promedio frecuente no proporcione una media significativa de la tendencia central, es
decir , que indique un punto cercano a aquel en que la mayor parte de los elementos
están localizados, si la distribución es marcadamente oblicua, En este casos a menudo
se utiliza otro tipo de media que no esta influenciado por los valores extremos, o sea
que es un valor que esta situado en el centro del numero de datos. Esta medida recibe
el nombre de mediana.
Definición
La mediana (Me) es un valor de las observaciones que divide en dos partes iguales al
numero total de observaciones cuando estos están ordenados de acuerdo a sus
valores.
14
MSc. Marco A Salazar Montecinos
Es decir que cuando la serie de observaciones esta ordenada según sus valores, la
mediana es un valor observado, tal que antes y después de este valor , hay el mismo
numero de observaciones .
Ejemplo
Supongamos que se tienen los siguientes valores: 4,5,8,2,7,2,3 , Previamente se los
ordena, 2,2,3,4,5,7,8 , la media es 4 . Ya que antes del 4 hay 3 observaciones,
igualmente hay observaciones por encima del 4.
Ejemplo
Se tiene los siguientes valores 3,4,6,7,7,8, no hay un valor observado que satisfaga
plenamente la definición de mediana. En este caso, podría ser cualquier valor
promedio entre 6 y 7, pero en la practica , se usa el punto medio de entre los dos
67
valores centrales , por tanto, la mediana será Me 6,5
2
La característica típica de la mediana es que divide al conjunto de observaciones en
dos partes iguales, es decir que el 50% de las observaciones tienen valores menores
que la mediana, y el otro 50% de las observaciones tienen valores mayores. En cierto
sentido, la mediana es también un punto de equilibrio, puesto que balancea al número
de elementos de la serie estadística.
15
MSc. Marco A Salazar Montecinos
n
a) si F j 1 M e X j
2
n X j 1 X j
b) si F j 1 M e
2 2
respectivamente.
n
Entonces, para calcular la mediana se debe determinar previamente , y luego ver
2
si este valor es menor o igual que una j-esima frecuencia acumulada, y luego
seguir la regla.
Calificación fi Fi
10 4 4
20 6 10
30 11 21
40 12 33
50 8 41
60 7 48
70 2 50
50
Solución
n 50
Se tiene = 25 es un valor que esta comprendido entre 21 y 33 de las
2 2
n
frecuencias acumuladas , es decir 21<25<33 lo que significa F j 1 Fj
2
n
Entonces, como 25 >21 , o sea F j 1 , se tiene Me= x j , en consecuencia Me=40
2
16
MSc. Marco A Salazar Montecinos
2) Cuando se tienen intervalos de clase: Bajo los mismos supuestos del caso (1) la
mediana se obtiene como sigue:
n
F j 1
n
a) Si F j 1 Me x j 1 c j 2
2 F j F j 1
n
b) Si F j 1 Me x j 1
2
Donde c j es el tamaño del intervalo de clase
Ejemplo
Intervalos de
Clase fi Fi
280-295 4 4
295-310 5 9
310-325 10 19
325-340 9 28
340-355 13 41
355-370 15 56
370-385 18 74
385-400 12 86
400-415 8 94
415-430 6 100
100
Hay 100 obreros en las distribución, la media debe ser al final del 50 avo elemento
17
MSc. Marco A Salazar Montecinos
7.7. Moda
De esta manera, el valor modal es el valor más frecuente en una serie de datos. Es
evidente que la moda nos siempre estará en el centro, sino que, como ocurre a
menudo, puede ser un valor extremo.
La moda para datos no agrupados de unos pocos valores puede obtenerse por
simple inspección, así por ejemplo, si tenemos las series:
2,2,5,7,9,9,9,9,11,12 : la moda es Mo =9
3,5,8,10,12,15,16 : No existe la moda
2,3,4,4,4,5,5,7,7,7,9: Tiene dos modas, o sea Mo= 4 o 7
Cuando hay dos modas se dice binodal, y en el caso de existir mas de dos, se
conoce con el nombre de multimodal.
Si se tienen datos agrupados, tal que los valores de la clase son únicos, entonces la
moda, es obvio que sea la que tiene mayor frecuencia.
18
MSc. Marco A Salazar Montecinos
d1
Mo= x j 1 + ( )c
d1 d 2
Donde x j 1 = limite inferior de la clase modal ( O sea el intervalo que tiene mayor
frecuencia)
post modal
Intervalos de
Clase fi Fi
280-295 4 4
295-310 5 9
310-325 10 19
325-340 9 28
340-355 13 41
355-370 15 56
370-385 18 74
385-400 12 86
400-415 8 94
415-430 6 100
100
19
MSc. Marco A Salazar Montecinos
Solución:
La clase modal es 370-385 ya que en este intervalo hay el mayor número de
observaciones, entonces
x j 1 = 370
d1=18-15=3
d2=18-12=6
c=15
8. Medidas de posición
Deciles (D): Representan el 10%, 20%, ... , 90% de los datos acumulados
respectivamente.
Datos No Agrupados:
20
MSc. Marco A Salazar Montecinos
j * ( n 1)
Posición
r
donde :
j Número de cuantil que se desea obtener
r p uede ser 4, 10 o 100 dep ende del cuantil
que se desee obtener
n número de datos
Ejemplo:
Dados los números 3, 5, 7, 36, 45; obtener el número que represente al 75% de los
datos.
Solución:
n=5
j = 75
r = 100
75 * (5 1)
4.5
100
Datos Agrupados:
21
MSc. Marco A Salazar Montecinos
Posición de la mediana
Ejemplo
Fronteras Frecuenci Fa
a
100 - 200 389 389
200- 300 258 647
300 - 400 452 1099
j * n 1 3 * (1099 1)
fa anterior 647
C = FI + * i 300 * 100 339.3805
r 4
f 452
9. Medidas de forma
Proporcionan un valor numérico para saber hacia qué lado de la distribución hay mayor
acumulación de frecuencias y si la concentración central de frecuencias es mayor que
en los extremos o viceversa sin tener que graficar los datos.
22
MSc. Marco A Salazar Montecinos
Datos No Agrupados:
x x
n
r
i
mr i 1
Datos Agrupados:
f x x
n
r
i i
mr i 1
Moda=Mediana=Media
Insesgada
Mediana
Media
23
MSc. Marco A Salazar Montecinos
Mediana
Media
Datos No Agrupados:
x x
n
3
i
m3
a3 i 1
S3 ns 3
Datos Agrupados:
f x x
k
3
i i
m3
a3 i1
S3 ns3
Coeficiente Sesgo
momento de sesgo
a3 = 0 No hay sesgo. La distribución
es insesgada
a3 > 0 La distribución tiene sesgo
positivo o a la derecha.
a3 < 0 La distribución tiene sesgo
negativo o a la izquierda.
24
MSc. Marco A Salazar Montecinos
9.3 Curtosis: Mide qué tan puntiaguda es una distribución, con respecto a la Normal.
La distribución puede ser:
M esocúrt ica
Datos No Agrupados:
x x
n
4
i
m4
a4 i 1
S4 ns 3
Datos Agrupados:
f x x
k
4
i i
m4
a4 i1
S4 ns 4
Coeficiente Curtosis
momento de
curtosis
a4 = 3 La distribución es Mesocúrtica.
a4 > 3 La distribución es Leptocúrtica.
a4 < 3 La distribución es Platocúrtica.
25
MSc. Marco A Salazar Montecinos
Los estadígrafos de dispersión como su nombre indica, miden la dispersión de los datos
de la muestra.
Dos conjuntos de datos pueden tener la misma localización central, y no obstante ser
muy diferentes, si uno está más disperso que el otro. Así, en los dos ejemplos
siguientes (las unidades están en cm.):
(x
i 1
i x) 2
V(x)=
n
26
MSc. Marco A Salazar Montecinos
Datos agrupados
n
(x
i 1
i x) 2 f i
V(x)=
n
Ó
n
x
2
i fi
V(x)= i 1
x2
n
(x
i 1
i x) 2
Sx =
n
Las expresiones anteriores muestran que mientras mayor sea la dispersión de las
observaciones, mayor será la magnitud de sus desviaciones respecto a la media, y
más alto el valor numérico de la desviación Standard.
Las medidas de variabilidad absolutas como las que acabamos de ver, no siempre son
posibles de utilizar, por ejemplo, para comparar dos conjuntos de valores sobre todo si
estos tienen distintas unidades de medida por esto, en muchos problemas una medida
de variabilidad relativa para distribuciones de frecuencia suele ser mas significativo
que la variabilidad absoluta.
27
MSc. Marco A Salazar Montecinos
dispersión basados en los valores absolutos de los diferentes conjuntos suele ser aun
mas difícil.
Coeficiente de variación
s
CV = *100
x
Donde s es la desviación Standard y x es la media aritmética de un mismo conjunto
de observaciones.
Ejemplo:
El ingreso medio mensual de cierto grupo de trabajadores adultos es de 1875 Bs. Con
una desviación estándar de 285 Bs., en tanto que el ingreso mensual de trabajadores
voceadores para el grupo del mismo tamaño, es 315 Bs. , con una desviación
estándar de 80 Bs, ¿cuál de los ingresos tiene mayor variabilidad?
Solución
Se tiene los siguientes Datos:
Sa=285
Xa=1875
Sv=80
Xv=315
Aplicando la relación se tiene
28
MSc. Marco A Salazar Montecinos
1. Bibliografía
29