Академический Документы
Профессиональный Документы
Культура Документы
de la informacin contenida en los datos (extraer la informacin de los datos), ya sean de censos
(toda la poblacin) o muestras (subconjunto de la poblacin), como por ejemplo en las estadsticas
oficiales comentadas anteriormente.
ESTADSTICA
Bloque I: Estadstica descriptiva
Tema 1. Estadstica descriptiva univariante.
1. Introduccin y definiciones bsicas.
2. Tablas de frecuencias y representaciones grficas de un conjunto de datos.
3. Medidas descriptivas de un conjunto de datos de una variable.
Adems de estas medidas descriptivas que sintetizan la informacin contenida en los datos
sobre una caracterstica particular, la Estadstica Descriptiva incluye una serie de
representaciones de los datos, grficas descriptivas, con el fin de facilitar la interpretacin de las
medidas anteriores mediante una imagen. Asimismo, cuando estamos interesados en analizar dos
o ms caractersticas sobre la poblacin, disponemos de medidas descriptivas para extraer la
informacin de los datos sobre sus relaciones y dependencia.
Introduccin
Adems, cabe distinguir entre los estimadores puntuales y los estimadores por intervalos.
En primer lugar, se llama estimador puntual cuando el objetivo consiste en obtener un valor nico
(estimacin); en tal caso, se suele requerir ciertas propiedades del estimador con el fin de que la
estimacin que proporciona no presente grandes desviaciones de la realidad. Por otro lado, se
llama estimador por intervalos cuando proporciona un intervalo de valores, lo que permite realizar
la estimacin con una determinada probabilidad de acierto, es decir, que realmente el valor se
encuentre en dicho intervalo.
cul es el peso a partir del que se encuentra el 10% de los animales de mayor peso?
Para poder utilizar esta informacin de forma eficaz, con vistas a su posterior utilizacin, la
estadstica descriptiva utiliza, bsicamente, tres herramientas: el agrupamiento de los datos en
tablas de frecuencias, la representacin grfica de los datos mediante histogramas y otros
grficos, y la reduccin de los datos mediante nmeros denominados estadsticos.
Para agilizar la exposicin inmediata, utilizaremos el trmino muestra para designar tanto
la lista de los pesos de las vacas del ejemplo anterior, como cualquier otra coleccin de datos
(reservando la definicin precisa para el apartado 2). Una forma cmoda, entonces, de escribir
una muestra, que nos sirva para cualquier tipo de datos, es
(x1,x 2 ,....,xi ,.....,xn ) ,
Por ltimo, los contrastes de hiptesis tienen como objetivo principal la toma de decisiones
sobre una condicin de la poblacin, tanto del tipo paramtrico como no paramtrico. En este
proceso se decide que la condicin es cierta o falsa a partir de la informacin extraida de la
muestra mediante un estadstico (estadstico del contraste), y por consiguiente, cabe la posibilidad
de haber optado por una decisin errnea, por lo que el estadstico del contraste permite inferir la
informacin suministrada por la muestra a una decisin sobre la poblacin junto con una medida
de fiabilidad o seguridad de dicha decisin.
C1
C2
f1
f2
Ci
fi
Ck
fk
Si el veterinario del Caso 1 estuviese interesado en averiguar los tipos de perros que han
pasado por su clnica, podra identificar las clases con las razas, C1 = {dogo}, C2 = {caniche}, C3 =
{doberman}, C4 = {malts}, C5 = {pastor}, y contar el nmero de perros que hay de cada raza. Esto
le permitira construir la siguiente tabla de frecuencias:
Tabla 2
Ejemplo 1. Supongamos que disponemos de una lista consistente en los pesos de las 5000 vacas
de una explotacin ganadera. En principio, tal lista no nos aporta ninguna informacin pertinente
sobre la totalidad de los animales, sino de cada uno individualmente. Por ejemplo, de tal lista no
se podra dar respuesta inmediata a preguntas sencillas:
qu proporcin de animales pesan menos de 200 Kg?
Clases
Pastor
Frecuencias absolutas
f1 =15
f3=12
f4 =30
f5 =75
f6 =15
f7=10
f8 =5
Si en lugar de por las razas estuviese interesado en el comportamiento de los pesos de los
animales las clases podran estar caracterizadas por intervalos cuyos lmites indicasen lmites
inferior y superior de los pesos. Por ejemplo, la clase C1 sera la formada por todos los pesos
comprendidos entre 0 y 5 kilogramos, la C2 la correspondiente a los pesos comprendidos entre 5 y
10, la C3 la correspondiente a los pesos comprendidos entre 10 y 15, etc. Entonces la tabla
adoptara la siguiente forma:
Tabla 3
Clases
Frecuencias absolutas
0-5
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
f1 = 10
f1 = 15
f1 = 20
f1 = 14
f1 = 6
f1 = 3
68
de la informacin disponible) y a partir de esos datos obtenemos 2 estadsticos, resulta obvio que
estos no pueden contener ms que una parte de la informacin total. Si calculsemos 100
estadsticos es posible que retuvisemos toda la informacin, pero no habramos ganado nada en
cuanto al objetivo de sintetizar las propiedades de la muestra.
Nos encontramos, entonces, con un dilema al elegir el nmero de estadsticos que
representarn a nuestra muestra: por una parte, deseamos que su nmero sea reducido; por otra,
queremos que esos estadsticos retengan la mayor cantidad de informacin posible de la muestra
de la que proceden.
Como resultado de este conflicto, la experiencia estadstica nos ha dejado una solucin
que, en buena parte de las situaciones experimentales habituales, es suficiente: el uso sistemtico
de unos estadsticos tpicos nos permite cumplir el objetivo de reducir la muestra con una
aceptable prdida de informacin.
Estos estadsticos tpicos, cuyo desarrollo ser el objetivo de lo que sigue, se agrupan
tradicionalmente en tres grandes grupos: (1) estadsticos de localizacin, (2) estadsticos de
dispersin y, (3) estadsticos de forma.
1.3.
1.3.1. Poblacin.
Entenderemos como poblacin el mayor conjunto de elementos de los cuales deseemos
obtener informacin, siendo sus elementos los individuos susceptible de observacin o
experimentacin.
Por ejemplo, una poblacin puede estar formada por personas, animales u objetos
inanimados. El conjunto de todos los animales que pasaron por el Hospital Clnico Veterinario
durante el ao 2009 constituye una poblacin; las temperaturas medias anuales en Murcia en el
periodo 1990 2010 constituyen otra poblacin; o la coleccin de todas las posibles placas de
cultivo conteniendo una colonia de bacterias e.coli constituye otra.
Grfico 1
Pictograma de Razas
Category
Pastor
Caniche
Dogo
Mastn
Malts
Doberman
Galgo
Labrador
N = 202
1.3.2. Variables.
El objetivo ltimo del estudio de una poblacin es el de conocer el comportamiento de sus
elementos colectivamente, es decir: averiguar lo que tienen en comn (o los diferencia) y las
tendencias o pautas que siguen.
x1 + x 2 + .... + xn1 + xn
, denominada media aritmtica de la
n
Por ejemplo, en el caso de la Clnica, nuestros intereses podran ser tan distintos como:
averiguar la distribucin de especies, analizar el comportamiento de los pesos o edades de los
animales de una cierta especie, o investigar el tiempo dedicado a cada consulta.
1.3.3. Mu
uestras. Espacio muestral.
Llamamos mu
uestra de tam
mao n al cconjunto de
e observacio
ones obteniidas tras la realizacin
n
de n prueb
bas. Una muestra se re
epresenta ccomo un co
onjunto de valores
v
ordeenados con respecto a
su obtencin u observvacin:
Muestra = M = (x1,x 2 ,...,xi ,...xn )
Desstacar la necesidad
n
prctica
p
de trabajar con muestra
as para faccilitar el tra
atamiento y
anlisis de
e los datos u observac
ciones, con respecto all manejo de
e censos quue estn forrmados porr
el total de individuos de la pobla
acin, ms an cuand
do la observ
vacin de uun individuo
o implica su
u
destruccin (por ejem
mplo para medir su tiem
mpo de vida).
El conjunto de
e todas las
s muestras posibles del
d mismo tamao n se denomina espacio
o
muestral y se represe
enta con M(nn) (y en ocassiones por M omitiendo
o el tamaoo).
Nottar que el conjunto
c
de
e elementoss {1, 2,
, n} es un
n subconjunnto de la po
oblacin ,,
mientras q
que la muesstra es un punto del es pacio mues
stral.
3. Suponga
amos que X es una varriable cuyo conjunto de
e modalidaddes es T = {1, 2, 3, 4}..
Ejemplo 3
Podemos visualizar la
as modalidades como
o 4 bolas situadas en una caja y numeradas
s de 1 a 4..
Cada prue
eba consistir en extrae
er una bola , anotar su nmero y devolverla
d
a la caja.
Si realizamos dos prueb
bas conseccutivas obte
endremos una
u
muestrra de tama
ao 2, que
e
representa
aremos por (x1, x2).
El e
espacio mu
uestral est constituido
o, por los 16
6 puntos del conjunto M (2) = {(1, 1), (1, 2), ...,,
(3, 4), (4, 4
4)}, cuya representaci
n es
Ejemplo 4
4. Un experiimento cons
siste en la m
medicin de
el peso de los animaless de una es
specie cuyo
o
peso mximo es de 4 kilogramos
s. En este e
experimento
o:
(a) la p
poblacin estar constituida porr todos los animales
a
de
e la especiee considerad
da;
(b) la variable X representtar la med
dicin del peso de cada
c
animaal, y su conjunto de
e
mod
dalidades se
er el conju
unto de todo
os los nme
eros compre
endidos enttre 1 y 4: T = [1, 4],
(c) las muestras de tamao 2 estarn co
onstituidas por
p pares de nmeros comprendidos entre 1
y 4, el primero x1 correspo
ondiente al primer anim
mal pesado,, y el segunndo x2 corre
espondiente
e
al se
egundo anim
mal: M = (x1, x2), y
(d) el e
espacio mue
estral M(2) estar
e
form
mado por tod
dos los puntos del cuaadrado [1, 4]x[1, 4] que
e
se m
muestra en la siguiente
e figura.
uestreo. Tip
pos de Mue
estreo.
1.3.4. Mu
Se denomina muestreo al
a proceso d
de obtenci
n de muestras. Naturaalmente cad
da muestra
a
de tamao
o n es el resultado de la realizaciin de una serie de n ensayos soobre los ele
ementos de
e
ma en que
una mism
ma poblaci
n, por lo que la form
e se realiz
zan los enssayos dete
erminar la
a
constituci
n final de la
a muestra.
Tre
es caractersticas del proceso
p
de muestreo nos
n permitirrn caracterrizar los dis
stintos tiposs
de muestre
eo:
1. Que la poblacin es la
l misma ca
ada vez que
e se realiza un ensayoo.
2. Que todoss los eleme
entos de la poblacin tengan
t
la misma
m
posibbilidad de ser elegidoss
para la rea
alizacin de
el ensayo.
3. Que antess de realizar el ensayo
o y obtener un
u elemento
o de la pooblacin, el valor X())
solo pueda ser una determinada
d
a modalidad
d o, por el contrario,
c
puueda ser un
na de entre
e
un conjunto de moda
alidades.
Situacin 4. Si la poblacin es muy numerosa, por ejemplo la constituida por los 6,500
millones de habitantes del planeta Tierra, y la prueba consiste en la eleccin al azar de una
persona y la determinacin de su peso, a todos los efectos prcticos, la devolucin o no de esa
persona a la poblacin original no va a afectar significativamente los resultados de las siguientes
pruebas.
De estas situaciones se pueden extraer dos caractersticas de los procesos de toma de
muestras aleatorias:
i)
Si las poblaciones son finitas, el tipo de muestreo condiciona la estructura de las
muestras obtenidas (muestreo con o sin reemplazamiento).
En este caso, la influencia del tipo de muestreo disminuye a medida que aumenta el
tamao de la poblacin.
ii)
Si las poblaciones son infinitas, el tipo de muestreo no tendr una influencia
significativa en las muestras obtenidas.
En general, en un experimento aleatorio destacan tres caractersticas bsicas:
1. Se puede repetir un gran nmero de veces bajo un conjunto de condiciones estables
(condicin de repetibilidad indefinida).
2. En cada prueba del experimento no se puede predecir el resultado que se va a obtener
sino la pertenencia del mismo a un conjunto determinado de posibles resultados
(condicin de azar).
3. La frecuencia relativa de cada resultado, el cociente de dividir el nmero de veces que
se ha repetido por el nmero total de pruebas realizadas, tiende a estabilizarse en
torno a un nmero fijo cuando el nmero de pruebas crece indefinidamente (condicin
de regularidad estadstica).
s
Muestreo aleatorio simple.
ando todoss los elementos de la poblacin tienen
t
la misma
m
posibbilidad de ser elegidoss
Cua
denominarremos al pro
oceso de muestreo:
m
m
muestreo ale
eatorio. Puede ser de ddos tipos:
Mu
uestreo alea
atorio con reemplazam
miento: cua
ando tras la
l realizaci n de una
a prueba ell
ele
emento obte
enido para la
l misma ess devuelto a la poblac
cin antes dde realizar la
l siguiente
e
pru
ueba. Por lo
o que la pob
blacin no ccambia tras la realizaci
n de cada prueba.
Mu
uestreo alea
atorio sin reemplazam
r
miento: cuando tras la
a realizacin de cada
a prueba ell
ele
emento obse
ervado no es
e devuelto a la poblac
cin antes de
d la siguiennte prueba.. Por lo que
e
la p
poblacin disponible se
e reduce co
on cada exp
perimentaci
n.
Vea
amos algun
nas situaciones que mo
ostrarn las
s diferencias
s y coincideencias entre
e uno y otro
o
tipo de mu
uestreo.
Situ
uacin 1. Disponemos
D
s de una ccaja en la que
q
hay N bolas num
meradas de
e 1 a N. Sii
retiramos a
al azar una bola de la caja,
c
anota mos su nm
mero (k, porr ejemplo) y devolvemo
os la bola a
la caja el m
muestreo ess con reemp
plazamiento
o.
Es claro que, actuando de
ma la pobla
d esta form
acin no ca
ambia de ccomposicin
n entre una
a
prueba y la
a siguiente.. Naturalme
ente el nme
ero obtenid
do es el prim
mer elemennto de nuesttra muestra
a
y lo repressentaremos por x1 = k. La repetici n de este procedimie
ento n vecess nos propo
orciona una
a
muestra alleatoria con
n reemplaza
amiento de
e tamao n. Por constrruccin, n ppuede toma
ar cualquierr
valor arbitrrariamente grande: tan
nto como lo sea el nm
mero de ensayos que reealicemos.
Situ
uacin 2. Con
C
la mis
sma caja, ssupongamo
os que tras
s extraer ccada bola esta
e
no ess
devuelta a la caja. Si
S el resultado del en
nsayo es la
a bola de nmero
n
k, como en la situacin
n
anterior, ccuando vaya
amos a rea
alizar la seg
gunda prue
eba la pobla
acin ha caambiado: contiene loss
elementoss de la pobla
acin iniciall menos la b
bola k. Por tanto, los (k-1) elemenntos que qu
uedan en la
a
poblacin no tienen la
a misma po
osibilidad de
e ser elegid
dos que los de la poblaacin inicial (aunque sii
la tengan e
entre ellos)..
2.
Tablas de frecuencias y representaciones grficas de un conjunto
de datos.
En este apartado vamos a ocuparnos de dos herramientas bsicas de la Estadstica
descriptiva. Dada una muestra (x1, x2, ..., xi, ..., xn), resumir la informacin en una tabla de datos
agrupados y, representar grficamente la informacin que nos proporciona dicha tabla.
Veremos como realizar estas operaciones manualmente, utilizando muestras de pequeo
tamao, con el objetivo de que se adquieran las habilidades necesarias para entender el
significado de los clculos y grficos, reservando el tratamiento de muestras de tamao mediano o
grande para el uso de los programas estadsticos en las prcticas (por ejemplo, Minitab).
2.1.
Bsicamente, una tabla de datos agrupados se obtiene dibujando una tabla de dos filas, y
tantas columnas como modalidades o clases de modalidades de nuestra variable, escribiendo en
10
las casillas de la primera fila el nombre de las modalidades o clases y, en las correspondientes
casillas de la segunda fila, el nmero de elementos de la muestra cuyo valor es igual a esa
modalidad o est dentro de esa clase. Esta cantidad o conteo de valores de la muestra se
denomina frecuencia.
En particular, utilizaremos la siguiente nomenclatura segn tratemos con una variable
cualitativa o cuantitativa discreta, o con una variable cuantitativa continua:
Variable cualitativa o cuantitativa discreta: Sus modalidades T = {t1, t2, ..., ti, ..., tk}
forman la primera fila de la tabla y para cada modalidad ti, se llama frecuencia absoluta
de ti a:
fi = f(ti) = nmero de elementos de la muestra iguales a ti
que completa la segunda fila de la tabla.
Variable cuantitativa continua: El intervalo de modalidades T=[a, b] se divide en nmero
conveniente k de subintervalos disjuntos (particin), llamados intervalos de clase
A1 = [a0, a1], A2 = (a1, a2], , Ai = (ai-1, ai], , Ak = (ak-1, ak]
que forman la primera fila de la tabla, y la segunda fila se construye con las frecuencias
absolutas de cada intervalo de clase, esto es, para cada intervalo Ai=(ai-1, ai], su
frecuencia absoluta es el nmero de elementos de la muestra cuyo valor est
comprendido entre ai-1 y ai:
fi = f((ai-1, ai]) = nmero de elementos de la muestra cuyo valor entre ai-1 y ai.
Observar que en el caso de variable cuantitativa continua, tambin suele utilizarse las
marcas de clase (punto de medio de cada intervalo de clase) como valores representativos para la
primera fila de la tabla de frecuencias.
f = n .
i
= f1 + f2 + .... + fi .
= f1 + f2 + .... + fi .
Fi = Fi1 + fi .
iii)
Fk = n .
= 1.
iii)
iv)
Hi = Hi1 + hi .
iii)
Hk = 1.
Modalidades
f1 = 2
f2 = 5
f3 = 8
f4 = 4
F1 = 2
F2 = 7
F3 = 15
f5 = 2
r =1
ii)
Frecuencias
r =1
ii)
Veamos a continuacin la forma que adoptan las tablas de frecuencias para cada tipo de
variable (discreta o continua) y cada tipo de frecuencias absolutas o relativas (acumuladas o no
acumuladas), para lo que utilizaremos muestras ficticias.
iii)
iv)
Observar que en la prctica tambin es habitual expresar estas frecuencias relativas, que
por definicin se encuentran en el intervalo (0,1), en trminos de porcentajes para facilitar su
interpretacin.
Propiedades.
i)
fi > 0, para i = 1, 2,, k.
ii)
F4= 19
n = 21
t5
F5 = 21
Modalidades
ti
Frecuencias
h1= 2/21
11
Modalidades
ti
Frecuencias
H1 = 2/21
t2
t3
t4
t5
12
Pictograma de Razas
En este caso, las siguientes tablas de frecuencias corresponden a una variable continua
con conjunto de modalidades T = [a, b], y una muestra de tamao 50. Para construir las tablas de
frecuencias, tenemos que estalecer los intervalos de clase que forman la particin del intervalo
[a,b].
Category
Pastor
Caniche
Dogo
Mastn
Malts
Doberman
Galgo
Labrador
As, teniendo en cuenta que a y b son los valores mnimo y mximo que puede tomar la
variable, se elige un nmero de intervalos de clase k para agrupar los n datos, por ejemplo puede
calcularse mediante la regla de Sturges u otras similares. En este caso, si se toma k=5, los
extremos de los intervalos de clase se obtienen como sigue:
Se determina la amplitud h de cada clase: h = (b a)/k.
Se calculan los lmites de clase: ai, para i = 0, 1, 2,...., k, mediante las relaciones:
a0 = a, a1 = a + h, a2 = a1 + h,..., ak = ak-1 + h = b.
Se calculan las marcas de clase de cada intervalo: zi, = (ai-1 + ai)/2, para i = 1, 2, ..., k.
N = 202
Clases
Marcas de clase
Frecuencias
z1
z2
z3
z4
z5
f1 = 3
f2 = 9
f3 = 15
f4 = 13
f5 = 10
Histogram of Parsitos
9
n = 50
8
7
Clases
[a0, a1]
(a1, a2]
(a2, a3]
(a3, a4]
(a4, a5]
Marcas de clase
z1
z2
z3
z4
z5
F1 = 3
F2 = 12
Fi = 27
Fk-1 = 40
Fk = 50
Frecuencias
Clases
Marcas de clase
Frecuencias
Clases
Marcas de clase
Frecuencias
z2
z3
z4
h1 = 3/50
h2 = 9/50
h3 = 15/50
z2
H1 = 3/50 H2 = 12/50
H3 = 27/50
z4
5
4
2
1
h4 = 13/50 hk = 10/50
z3
z5
Frequency
4
Parsitos
z5
500
H4 = 40/50 H5 = 50/50
2.2.
Representaciones grficas.
13
Frec.Acumuladas.
400
300
200
100
0
1
5
6
Pinos/parcela
10
14
concreta (x1, x 2 , x 3 ) = (2, 5, -2), entonces y = 2 2.5 + (2) 2 = 4 es el valor del estadstico.
14
12
Frequency
10
8
ar =
2
0
8
10
12
Periodo de latencia
14
16
Si los datos proceden de una variable discreta y se han agrupado en una tabla de
frecuencias, con modalidades ti y frecuencias fi, el momento se calcular por medio de
la frmula
f .t
i
Frecuencia acumulada
, para r = 0, 1, 2, 3,.
Si los datos proceden de una variable continua y se han agrupado en una tabla de
frecuencias, con marcas de clase zi y frecuencias fi, utilizaremos la frmula
f .z
i
40
ar =
r
i
, para r = 0, 1, 2, 3,.
30
20
10
4
6
Nmero de Parsitos
a1 =
a2 =
x
n
15
a3 =
x
n
a4 =
x
1
x1 + x 2 + x 3 + ... + xn
= x se llama media aritmtica o media.
n
3
i
2
i
3.
r
i
ar =
, para r = 0, 1, 2, 3,.
50
r
i
4
i
Los momentos centrados o respecto de la media se definen y calculan como los momentos
respecto del origen cuando los datos x i son sustituidos por sus desviaciones respecto de la media
mr =
(x
x)r
, para r = 0, 1, 2, 3,.
16
Observar que los momentos centrales estn relacionados con los momentos respecto del
origen, por ejemplo para los 4 primeros momentos de cada tipo.
m0 = a0 = 1.
m1 = a1 - a1 = x x = 0.
2
3
2
m3 = a3 3. a2. a1 + (a1)3 = x - 3. x + 2.( x )3.
40
20
10
10
80
120
160
Data
40
60
40
Frequency
f .t
i
80
Data
100
120
140
Variable
IQ
100+IQ/4
20
10
n
k
h .t
i
Propiedades de la media:
i)
Si todos los datos de la muestra se multiplican por un mismo nmero a, la media de
los nuevos datos es igual al producto de a por la media de los datos originales:
Si yi = a. xi, entonces y = a.x .
ii)
Si a todos los datos de una muestra se les suma una constante b, la media de los
nuevos datos es igual a la suma de b y la media de los datos originales:
Si yi = xi + b, entonces y = x + b .
iii)
Si se tipifican o estandariza los datos, es decir, se les resta la media de la muestra y las
diferencias se dividen por la desviacin tpica de la muestra, los nuevos datos tienen
media 0 y desviacin tpica 1:
iv)
20
30
Si yi =
240
Grfico 3
200
30
20
Los estadsticos de posicin o localizacin son valores obtenidos a partir de la muestra que
nos indican caractersticas sobre la posicin, generalmente central, de los datos. Veamos algunos
de ellos.
Variable
IQ
IQ /4
30
Estadsticos de localizacin
60
Variable
IQ
IQ +100
50
3.1.
40
Frequency
Para una muestra agrupada, de una variable discreta o continua, las frmulas son
equivalentes a las de los momentos respecto al origen (con las correspondientes
sustituciones de x i por (t i x) para las primeras, y por (zi x) para las segundas.
Frequency
(xi x)
s =1
, entonces y = 0 , y
.
sx
Si M1 = (x1, x2, x3,..... xn-1, xn) y M2= (y1, y2, y3,......, ym-1, ym) son dos muestras de medias
x e y , respectivamente, entonces la media de la muestra resultante de la unin, M1 U
M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente media:
90
100
110
120
Data
130
140
150
Ejemplo. Los siguientes grficos proceden de los datos de la variable IQ (cociente de inteligencia)
de una muestra de 100 personas (los datos pueden encontrarse en Datos 1: fichero Inteligencia).
17
18
(n.x + m.y)
w=
(n + m)
donde (w1, w2, w3,..... wn+m-1, wn+m)=(x1, x2, x3,..... xn-1, xn, y1, y2, y3,..... ym-1, ym).
ln( xi )
Media geomtrica: xg =
Media armnica: xh =
Observemos, en primer lugar que n/2 = 48/2 = 24, lo que supone que la mediana m debe
dejar a su izquierda al menos 24 valores de la muestra y a su derecha al menos 24 valores.
n
1
1
1
+ +....+
x4
x1 + x2
oda: Mo.
3.1.3. Mo
Para una variable discreta:
d
la moda es la modalidad de laa variable con mayorr
frecuencia.
v
con
ntinua: la mo
oda es la marca
m
de la clase
c
con m
mayor frecuencia.
Para una variable
En general, un
na poblaci
n puede te
ener varias modas, lo que implicaa que en un
na muestra
a
encontrem
mos ms de una moda. Se emple
ea el trmino poblacin
n n-modal a aquella qu
ue posee n
modas.
Loss dos grficcos siguien
ntes muesttran los his
stogramas de
d dos muuestras de las que la
a
primera tie
ene una sola
a moda, mie
entras que la segunda posee dos.
Grfico 4
Notar que para el estadstico de posicin moda M0 indica el valor de la variable con mayor
frecuencia muestral, y el estadstico media x proporciona la situacin del centro de gravedad de
la muestra. Asimismo, la mediana m de una muestra nos serva para situar un valor de la variable
que, con matizaciones, dejaba un 50% de los datos por debajo de l, y el restante 50% por
encima. Tambin las observaciones mnima y mxima pueden entenderse como medidas de
posicin: el 100% de los datos son superiores o iguales a la observacin mnima, y el 100% de los
datos son inferiores o iguales a la observacin mxima.
19
9
20
2
X
(x x)
(n 1)
2
X
f .(t x)
i
(n 1)
k
3.2.
Esttadsticos de
d dispersin
2
X
f .(z x)
i
.
2
(n 1)
Propiedades de la varianza:
i)
Si los datos xi se multiplican por un nmero a, yi = a.xi, las varianzas sx2 y sy2 estn
relacionadas por la frmula
sy2 = a2.sx2.
ii)
Si a los datos xi se les suma un nmero b, yi = xi + b, las varianzas sx2 y sy2 son
iguales:
sy2 = sx2.
iii)
Las varianzas sesgada e insesgada estn relacionadas por la igualdad:
SX2 =
iv)
Loss estadstico
os de dispe
ersin cuanttifican esta propiedad de los datoos: asignan cantidadess
numricas menores a los histo
ogramas me
enos dispe
ersos y may
yores a loss ms disp
persos. Porr
a medida de
e dispersin denomina
ada desviac
cin tpica toma
t
el val or 0.76 parra el primerr
ejemplo, la
histograma
a, 1.26 para
a el segundo
o y 2.45 pa ra el tercero
o:
Rango o rrecorrido: R = xmax xmin.
n
.sX2 .
n 1
Si M1 = (x1, x2, ..., xn) y M2= (y1, y2, ..., ym) son dos muestras de medias x e y , y
varianzas sx2 y sy2, respectivamente, entonces la varianza media de la unin de las
muestras M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente
varianza:
s2w =
n.sX2 + m.s2y
(n + m)
n.( x w )2 + m.( y w )2
(n + m)
donde (w1, w2, ..., wn+m)=(x1, x2, ..., xn, y1, y2, ..., ym).
Desviaciones tpicas:
Las desviacin tpica se define mediante la raz cuadrada positiva de la varianza:
La desviacin tpica sesgada:
La desviacin tpica insesgada:
o intercuarttlico: Q = q3 q1.
Recorrido
n
x x
i
n media: D =
Desviaci
gada
3.2.1. Varrianza sesg
La varianza o varianza sesgada
s
de
e una varia
able cuantitativa se deefine segn
n el tipo de
e
datos de la
a muestra:
n
2
X
( x x)
iii)
2
X
f .(t
i
x)
x2
fi .(zi x)2
1
n
.s X .
n 1
21
sX
.
x
S
Coeficiente de variacin insesgado: CVx = 100. X .
x
Coeficiente de variacin sesgado: cvx = 100.
22
Grfico 7
3.3.
d forma
Esttadsticos de
3.3.1. Coe
eficientes de
d asimetrra.
En primer luga
ar mostrare
emos un eje
emplo de tre
es conjunto
os de datoss que refleja
an diferente
e
tipo de sim
metra o asim
metra:
Grafico 6
mo se obse
erva en los tres histog ramas, con
nsiderando como
c
refereencia de ab
bscisas suss
Com
medias, ca
ada histogrrama queda
a dividido e
en dos parrtes, que lla
amaremos cola izquie
erda y cola
a
derecha. A
As,
Un histogra
ama es sim
mtrico si am
mbas colas son simtric
cas respectto a la media
Un histogrrama es asimtrico porr la izquierd
da si su colla izquierdaa es ms la
arga que su
u
cola derecha
or la derech
ha si su cola derecha es ms larga que su
u
Un histogrrama es asimtrico po
cola izquie
erda
(q1 + q3 2.m)
2
.
2.m
Propiedade
es:
i)
0 Adems, en este casso, x m M0
Si la assimetra es por la izqui erda: g1 < 0.
ii)
iii)
iv)
3.3.2. Coe
eficientes de
d apuntam
miento o cu
urtosis.
Loss coeficienttes de currtosis o ap
puntamiento
o dan una medida dee la situac
cin de un
n
histograma
a respecto a la curva normal
n
o cam
mpana de Gauss,
G
dada por la ecuuacin
y su repressentacin es:
e
23
3
Z
Zona centra
al
Cola
C
derechha
24
4
Si el histograma es platicrtico:
g2 < 3 (g2 < 0).
Si el histograma es mesocrtico:
g2 = 3 (g2 = 0).
Si el histograma es leptocrtico:
g2 > 3 (g2 > 0).
g2 es adimensional: no vara al realizar cambios lineales de la variable.
25