Академический Документы
Профессиональный Документы
Культура Документы
Unidimensional
ndice
Conceptos Bsicos
Ordenacin de los Datos
Caso Discreto
Caso Continuo
Diagrama de Barras
Histograma
Polgonos de Frecuencias. Caso Discreto y Continuo
Diagrama de Frecuencias Acumuladas
Polgono de Frecuencias Acumuladas
Medidas Numricas
Medidas de Tendencia Central y/o de Posicin
Medidas de Dispersin o Variabilidad
Medidas de Asimetra y Apuntamiento
Conceptos Bsicos
Problema Estadstico. Se analiza
la informacin
procedente de la observacin de cierta caracterstica
sobre los individuos u objetos de un colectivo.
Ejemplo: Tiempo de func. de un aparato elctrico.
Definicin: Se denomina Poblacin al conjunto de
referencia sobre el cual van a recaer las observaciones.
Definicin: Se llama Individuo a cada uno de los
elementos (objetos, individuos, entes, etc)
que
componen la poblacin.
Las poblaciones pueden ser finitas e infinitas.
Definicin: Una poblacin se dice finita si consta de un
nmero fijo de elementos y se dice infinita si consta de
una sucesin sin fin de elementos.
Estadstica Descriptiva Unidimensional
Conceptos Bsicos
Causas por las que no se puede analizar toda la
poblacin.
1. El nmero de elementos de la poblacin es muy grande.
2. El estudio supone la destruccin total o parcial del elemento
estudiado.
3. Los elementos a estudiar no existen realmente sino
conceptualmente.
4. El estudio de la poblacin es muy costoso, y supone un gran
inversin de tiempo.
Conceptos Bsicos
Definicin: Llamamos Caracteres a las cualidades o
propiedades de los individuos de la poblacin que se
intentan estudiar.
Los caracteres pueden ser:
Cuantitativos: Son caracteres que se pueden medir o expresar a
travs de un nmero. Ej. longitud de un cable
Cualitativos: Son aquellos caracteres que no se pueden
cuantificar. Ej. color de un coche.
Conceptos Bsicos
Las variables se clasifican en:
Discretas: Son aquellas que toman una cantidad finita o infinita
numerable de posibles valores. Ej. n de alumnos
Continuas: Son aquellas que toman un cantidad infinita de
valores en un intervalo. Ej. temperatura de un porttil
ni
fi
Ni
Fi
%i
x1
n1
f1
N1
F1
%1
x2
n2
f2
N2
F2
%2
xi
ni
fi
Ni
Fi
%i
xk
nk
fk
Nk
Fk
%k
10
n n
2.
1
f
N
n y F
1
N N n i 2, , k
F F f i 2, , k
3.
4.
5.
ni
fi
Ni
Fi
%i
17
19
20
21
22
1! 0.06#
15
2! 0.13#
15
5! 0. 3#
15
8! 0.53#
15
11! 0.73#
15
1
6.6%
18
1! 0.06#
15
1! 0.06#
15
3! 0.2
15
3! 0.2
15
3! 0.2
15
4! 0.26#
15
2
5
8
11
15
6.6%
20%
20%
20%
26.6%
11
12
13
mi
ni
fi
Ni
Fi
%i
m1
n1
f1
N1
F1
%1
m2
n2
f2
N2
F2
%2
123 , 23 4
mi
ni
Ni
Fi
%i
125 , 25 4
fi
mk
nk
fk
Nk
Fk
%k
120 , 2 4
12 , 2( 4
15
1,045
0,136
0,894
0,379
0,136
0,336
0,258
0,070
0,506
0,088
0,242
0,639
0,912
0,412
0,361
0,788
0,579
0,267
0,567
0,182
0,036
0,394
0,209
0,445
0,179
0,118
0,333
0,554
0,258
0,182
0,070
0,985
0,670
0,888
0,136
0,091
0,600
0,291
0,327
0,130
0,145
0,170
0,227
0,064
0,194
0,209
0,258
0,046
0,045
0,049
0,079
16
10.15, 0.34
10.3, 0.454
10.45, 0.64
10.6, 0.754
10.75, 0.94
10.9, 1.054
mi
ni
fi
Ni
Fi
%i
0.075
17
0.327
17
0.327
32.7%
0.225
14
0.269
31
0.596
26.9%
0.375
0.154
39
0.75
15.4%
0.525
0.096
44
0.846
9.6%
0.675
0.038
46
0.884
3.8%
0.825
0.058
49
0.942
5.8%
0.975
0.058
52
5.8%
17
10.15, 0.34
10.3, 0.454
10.45, 0.754
10.75, 1.054
mi
ni
fi
Ni
Fi
%i
0.075
17
0.327
17
0.327
32.7%
0.225
14
0.269
31
0.596
26.9%
0.375
0.154
39
0.75
15.4%
0.6
0.134
46
0.884
13.4%
0.9
0.116
52
11.6%
18
5
4
3
2
1
0
0
19
Lmite Marcas de
Superior
Clase
1,7833
0,9917
3,3667
2,5750
4,9500
4,1583
6,5333
5,7417
8,1167
7,3250
9,7000
8,9083
ni
5
4
7
5
4
10
hi
3,1579
2,5263
4,4211
3,1579
2,5263
6,3158
6,8
6,4
6
5,6
5,2
4,8
4,4
4
3,6
3,2
2,8
2,4
2
1,6
1,2
0,8
0,4
0
0,9917
2,575
4,1583
5,7417
7,325
8,9083
3. Polgono de Frecuencias.
a) Si la variable est agrupada en intervalos se obtiene uniendo los
puntos medios de las bases superiores de cada rectngulo del
histograma. Est dibujado en rojo sobre el histograma.
Nota: Como norma se une el punto medio del primer intervalo con su20
extremo inferior y el punto medio del ltimo con su extremo superior.
Horas diarias
destinadas al
estudio
ni
0
1
2
3
4
5
6
7
1
2
2
4
4
3
2
2
5
4
3
2
1
0
0
21
22
25
20
Polgono de
Frecuencias
Acumulado
15
10
5
0
0,2 1,7833 3,3667 4,95 6,5333 8,1167 9,7
23
ni
Qumicas
Matemticas
Estadstica
Ambientales
Fsicas
Biolgicas
Geolgicas
Total
800
400
200
100
500
700
300
3000
900
800
700
600
500
400
300
200
100
0
Facultad
24
ni
Qumicas
800
Matemticas 400
Estadstica
200
Ambientales 100
Fsicas
500
Biolgicas
700
Geolgicas
300
Total
3000
Grados
96
48
24
12
60
84
36
360
Qumicas
Matemticas
Estadstica
Ambientales
Fsicas
Biolgicas
Geolgicas
25
Medidas Numricas
Existen algunos valores que pueden ser tiles para
describir un conjunto de datos. Estas medidas
descriptivas tratan de reflejar ciertos aspectos globales
del conjunto de datos. Distinguimos entre:
a) Medidas de Tendencia Central
b) Medidas de Dispersin
26
Medidas Numricas
Media Aritmtica.
Sea la variable X que toma los valores x1, x2, x3, ., xk, con las
frecuencias absolutas n1, n2, n3, ., nk, respectivamente. Se define
la media aritmtica por:
x8
=
9
9: : ; 9< < ; ; 9= =
>:
x f
Mediana.
La mediana es la medida de tendencia central que supuesto todos
los valores de la variable ordenados de forma creciente, deja igual
nmero de observaciones inferiores que superiores a ella.
card x x C ME F ( y card x x F ME F (
Estadstica Descriptiva Unidimensional
27
Medidas Numricas
Mediana.
1. Caso Discreto.
a. Dividimos el nmero de observaciones n entre 2.
b. Comprobamos si ( est en la tabla de frecuencias, en la columna
de frecuencias absolutas acumuladas Ni.
c. Si no est, estar comprendido entre dos nmeros de la citadas
tabla, con lo cual la mediana ser aquel valor de la variable que se
corresponda con el mayor nmero, es decir, la abscisa que
corresponde con la ordenada ( en el diagrama de frecuencias
acumulado.
n/2
xi-1
Me = xi xi+1
Estadstica Descriptiva Unidimensional
28
Medidas Numricas
Mediana.
1. Caso Discreto.
d. Si el valor ( est en la columna de las Ni es que coincide con la
frecuencia absoluta acumulada de algn valor xi y por tanto, dicha
ordenada ( se corresponde con los infinitos puntos del intervalo
1G3 , G3; 4 . En dicho caso, se toma como mediana un valor
representativo y que es la media aritmtica de los lmites del
intervalo, aunque no coincida con los valores que toma la variable.
x x;
ME
2
n/2
xi-1
xi
xi+1
Estadstica Descriptiva Unidimensional
29
Medidas Numricas
Mediana.
2. Caso Continuo.
a. Dividimos el nmero de observaciones n entre 2.
b. Comprobamos si ( est en la tabla de frecuencias, en la columna
de frecuencias absolutas acumuladas Ni 0,5 en la columna de Fi.
c. Si este valor est en la tabla, es que ( ser la frecuencia absoluta
acumulada de un cierto intervalo o clase 123 , 23 4 y por tanto, la
mediana ser el lmite superior de dicho intervalo ME a .
Ni+1
n/2
Ni-1
ai-1
Me = ai
ai+1
Estadstica Descriptiva Unidimensional
30
Medidas Numricas
Mediana.
2. Caso Continuo.
d. Si ( no se encuentra en la columna de frecuencias absolutas
acumuladas Ni estar comprendido entre dos valores Ni y Ni+1 que
correspondern a las frecuencias absolutas acumuladas de dos
intervalos 123 , 23 4 y 123 , 23; 4, respectivamente. Por tanto la
mediana se va encontrar en la clase 123 , 23; 4. Su posicin exacta
se obtiene mediante la relacin de semejanza de los tringulos de
la siguiente figura.
HIJ: HI
KIJ: KI
L
<KI
M
de donde se obtiene el
valor de x despejando
y la mediana es
Ni+1
n/2
Ni
ME a x
ai-1
ai Me ai+1
31
Medidas Numricas
Otras Medidas de Tendencia Central.
Otras medidas de tendencia central que se ven menos afectadas de
los valores extremos, pero que tienen peores propiedades
matemticas son:
Media Geomtrica
M,
Media Armnica
:
x(
<
=
n
MO n
n
n
x( x
x
(
32
Medidas Numricas
Moda.
La moda es el valor de la variable que tiene mxima frecuencia
absoluta o relativa.
No tiene porque ser nica. De hecho si hay dos modas la
distribucin se dice bimodal, si hay tres trimodal y as de forma
sucesiva.
Cuando la variable est agrupada en clases se habla del intervalo
modal. Es aquel intervalo del histograma que se corresponde con el
rectngulo de mayor rea por unidad de base. Para conocer el valor
puntual que representa la moda debemos proceder como sigue:
1. Se miden las diferencias de alturas correspondientes al rectngulo del
intervalo modal con los intervalos anterior y posterior a l,
obtenindose P y P( .
2. El valor x se obtiene a partir de la relacin de semejanza entre los
tringulos de la pajarita en la siguiente figura.
Estadstica Descriptiva Unidimensional
33
Medidas Numricas
Moda.
P
ai-1
L
Q:
Entonces
ai
HIJ: HI L
Q<
P(
Md ai+1
ai+2
G 23; S 23
Q:
Q: ;Q<
P
TU 23 G 23 23; S 23
P P(
Nota: En el caso de que hayan dos intervalos modales consecutivos
se considera uno slo.
Si el intervalo modal est en uno de los extremos la diferencia de
34
altura es con respecto al eje de abscisas.
Medidas Numricas
Medidas de Posicin:
Definicin: Los cuartiles son tres valores de la variable que dividen
el conjunto total de observaciones en cuatro partes con igual n de
observaciones.
Definicin: El primer cuartil o cuartil inferior es el valor que deja al
menos la cuarta parte de las observaciones menores o iguales a l
y al menos las tres cuartas partes de las observaciones superiores
a l. card x x C c F V y card x x F c F 'V
Para su clculo se siguen los mismos pasos que con la mediana
pero buscando el valor WV 0,25.
Definicin: El segundo cuartil coincide con la mediana.
Definicin: El tercer cuartil o cuartil superior es el valor de la
variable que deja al menos inferiores o iguales a l las tres cuartas
partes de las observaciones y al menos la cuarta parte de stas
superiores a l. card x x C cX F 'V y card x x F cX F V
Se calcula de forma anloga pero buscando 'WV. 0,75.
35
Medidas Numricas
De la misma forma si la divisin del conjunto de observaciones
ordenados de forma creciente es en diez partes iguales, los puntos
de divisin se denominan deciles.
Definicin: Se define el decil k-simo como el valor de la variable
que deja al menos inferiores o iguales a l las 50 partes de las
observaciones, donde Y 1, 2, , 9.
card x x C d
F
0 y card x x F d
F 10
Z!0
36
Medidas Numricas
Medidas de Dispersin o Variabilidad
Las medidas de tendencia central tratan de resumir la informacin
contenida en la muestra a un nico valor, pero dicho valor en
algunas ocasiones ser ms representativo que en otras.
Ejemplo 2.3: Supongamos que el tiempo de ejecucin de dos
algoritmos para 5 problemas de prueba se recogen a continuacin:
Algoritmo 1
0,2
0,8
0,1
0,9
0,5
Algoritmo 2
0,5
0,5
0,5
0,4
0,6
Medidas Numricas
Definicin: Se define la Varianza como la media de las desviaciones
al cuadrado del conjunto de observaciones respecto de la media
aritmtica, es decir,
8 Z( n
x ( n
1x S x
(
]
S x8 (
S
n
n
S
=
8 Z
>:19 9
38
Medidas Numricas
Definicin: Se define la Desviacin Absoluta Media respecto de un
valor p y se denota por DM, como la media aritmtica de las
desviaciones en valor absoluto entre las observaciones y p.
x S p n
D_
n
Si p es la mediana entonces se denomina Desviacin Absoluta
Media respecto de la Mediana y se representa por:
x S ME n
D_`
n
Si p es la media entonces se denomina Desviacin Absoluta Media
respecto de la Media y se representa por:
x S x8 n
D98
n
Definicin: Se define el Coeficiente de Variacin de Pearson como el
cociente de la desviacin tpica y la media en valor absoluto.
S Estadstica Descriptiva Unidimensional
39
C. V.
x
Medidas Numricas
El Coeficiente de Variacin de Pearson no se puede calcular cuando
x8 0 y a veces suele presentarse multiplicado por 100.
La media se considera representativa cuando el C.V. es menor que 1.
Se suele usar para comparar la dispersin de dos muestras medidas
con diferentes escala.
Ejemplos 2.4: En un instituto se ha aplicado el mismo test de
inteligencia a dos grupos de alumnos y se han obtenido:
x8 30
x8 62
Grupo A: g
Grupo B: g
S6
S9
En qu grupo hay mayor dispersin?. Observando los resultados se
podra pensar que es en el Grupo B, que es el que tiene mayor S.
Sin embargo, si calculamos el C.V. se tiene:
i. j.k
l
'0
0.2
y i. j.m
n
l(
0.145
Medidas de Dispersin
Definicin: Se llama recorrido a la diferencia entre el mayor valor y el
menor valor que toma la variable.
Definicin: Se llama recorrido intercuartlico a la diferencia entre el
cuartil superior y el cuartil inferior.
41
Medidas Numricas
Definicin: Se define el Momento de orden r con respecto al
parmetro c de la siguiente forma:
x S p q n
Mo 1cZ
n
En particular nos interesan dos casos:
Los momentos respecto del origen:
x o n
ao
n
Los momentos respecto de la media o momentos centrales:
x S x8 o n
mo
n
Asimismo hacemos especial hincapi en algunos casos concretos,
que toman valores determinados. Esto es,
a 0 m0 1
a x8
m 0
m( S (
42
Medidas Numricas
Medidas de Asimetra y Apuntamiento
Definicin: Diremos que una distribucin de frecuencias es simtrica,
cuando los valores de la variable equidistantes de un valor central
tienen las mismas frecuencias.
Cuando la distribucin de frecuencias es simtrica suele ocurrir que
Ms ME x8.
hi
c1
c2 c3 c4
c5 c6 c7
Medidas Numricas
Definicin: La Asimetra a la Derecha o Positiva se caracteriza
porque la grfica de la distribucin de frecuencias presenta una cola
a la derecha, esto es, las frecuencias descienden ms lentamente
por la derecha que por la izquierda.
En este caso suele ocurrir que Ms C ME C x8.
hi
c1
c2 c3 c4
c5 c6
c7
c8
c9 c10
44
Medidas Numricas
Definicin: La Asimetra a la Izquierda o Negativa se caracteriza
porque la grfica de la distribucin de frecuencias presenta una cola
a la izquierda, esto es, las frecuencias descienden ms lentamente
por la izquierda que por la derecha.
En este caso suele ocurrir que Ms F ME F x8.
hi
c1
c2 c3 c4
c5 c6
c7
c8 c9 c10
Estadstica Descriptiva Unidimensional
45
Medidas Numricas
Definicin: Se define el Coeficiente de asimetra de Pearson como el
coeficiente dado por la siguiente expresin:
At
98 _u
v
2. Si wx 0 la grfica es simtrica.
|}
~}
Su significado es similar.
46
Medidas Numricas
Definicin: Se define el Coeficiente de Apuntamiento o Curtosis
como aquel coeficiente que indica el apuntamiento de la grfica de
la distribucin de frecuencias analizada en comparacin con la
grfica de la distribucin Normal.
g(
|
S
~
Se verifica que:
47