Академический Документы
Профессиональный Документы
Культура Документы
La estadstica es la parte de las matemticas que se ocupa de los procedimientos que permiten el tratamiento sistemtico de diversos tipos de datos con el fin de darles una interpretacin a partir de la cual tomar una decisin. En sus orgenes histricos, la Estadstica estuvo ligada a cuestiones de Estado (censos, recuentos, etc.) y de ah su nombre. Hoy en da la estadstica es una de las ramas matemticas ms usadas en todo tipo de ciencias (medicina, economa, biologa, etc.). La estadstica ha llegado a los medios de comunicacin, donde se nos presentan numerosos estudios estadsticos relativos a diversos temas, polticos, audiencias, deportivos En todo el tema trabajaremos con las siguientes tres estadsticas, que como veremos
3, 2, 1, 2, 0, 2, 1, 3, 2, 1, 1, 0, 2, 2, 1, 1, 3, 2, 1, 3, 2, 3, 1, 1, 0, 2, 2, 1, 2, 2, 0, 2,2,1,
72, 63, 88, 91, 65,77, 81, 60, 84, 70, 75, 73, 78, 88, 64, 69, 86, 77, 90. Ejemplo 3. Variable cualitativa: colores de los coches del claustro de profesores (20 profesores): rojo, rojo, blanco, negro, azul, gris, gris, negro, verde, amarillo, blanco, rojo, gris, amarillo, azul, azul, verde, amarillo, blanco, gris.
2. Conceptos bsicos.
Para entender mejor los conceptos bsicos que aparecen en cualquier estudio estadstico pongamos un ejemplo, el estudio de la altura media en Espaa: Poblacin: es el conjunto formado por todos los elementos que existen para el estudio de un determinado fenmeno y a los cuales nos referimos en el estudio. En nuestro ejemplo es la poblacin de Espaa Individuo u objeto estadstico: es cada uno de los elementos de la poblacin. Cada uno de los espaoles
ww
w.
at
2, 3, 2, 0, 1, 2.
em
at
ic
a1
.c
om
Muestra: es el subconjunto de individuos que tomamos de la poblacin para realizar el estudio. Como elegir esta muestra ser un tema de estudio ms adelante. Puede ocurrir (en poblaciones pequeas generalmente) que la muestra coincida con la poblacin. En nuestro ejemplo es el conjunto de espaoles a los cuales medimos para hacer el estudio.
Tamao de la muestra: es el nmero de individuos que forman la muestra elegida. Se denota generalmente como N.
Variable estadstica: cada una de las cualidades o propiedades referidas a la poblacin y que son objeto de estudio. En nuestro ejemplo ser la altura. Las variables estadsticas pueden ser de dos tipos: o Variables cualitativas o atributos: no se pueden medir
numricamente (por ejemplo: nacionalidad, color de la piel, sexo). o Variables cuantitativas: tienen valor numrico (edad, precio de un
valores numricos (por ejemplo: nmero de hijos de una familia, nmero de habitaciones en la casa) Continuas: pueden tomar cualquier valor real dentro de un
una persona)
ww
w.
at
em
at
ic
a1
.c
om
3. Generalmente se aaden otros parmetros estadsticos en las sucesivas columnas (filas) como la frecuencia relativa, frecuencias acumuladas y tanto por cien. La frecuencia relativa (hi): es el cociente entre la frecuencia absoluta y el nmero total de elementos de la encuesta, N. Se puede entender como el tanto por uno
Tanto por cien (pi): como su nombre indica nos indica el porcentaje relativo a 100 de la caracterstica respecto del total:
El porcentaje acumulado (Pi): es la suma de todos los porcentajes hasta el i-esimo (incluido), es decir
Para calcular las frecuencias acumuladas utilizar la relacin entre dos frecuencias acumuladas sucesivas: Fi+1=Fi+fi+1 , Hi+1=Hi+hi+1, Pi+1=Pi+pi+1 Veamos en los ejemplos anteriores como quedara la tabla de frecuencias:
ww
w.
at
em
at
ic
a1
.c
om
Ejemplo 1. Variable cuantitativa discreta: la siguiente lista representa el nmero de mensajes recibidos en los telfonos mviles de 40 personas en un da: 3, 2, 1, 2, 0, 2, 1, 3, 2, 1, 1, 0, 2, 2, 1, 1, 3, 2, 1, 3, 2, 3, 1, 1, 0, 2, 2, 1, 2, 2, 0, 2,2,1, 2, 3, 2, 0, 1, 2. xi=nsms 0 1 2 3 Total fi 5 12 17 6 40 hi 0,125 0,3 0,425 0,15 1 pi 12,5% 30% 42.5% 15% 100% Fi 5 17 34 40 Hi 0,125 0,425 0,85 1 Pi 12,5% 42,5% 85% 100%
ww
w.
ya que las caractersticas no son nmeros y por tanto no se pueden ordenar fi 3 3 2 4 2 3 3 20 hi 0,15 0,15 0,1 0,2 0,1 0,15 0,15 1 pi 15% 15% 10% 20% 10% 15% 15% 100%
at
em
at
ic
(20 profesores): rojo, rojo, blanco, negro, azul, gris, gris, negro, verde, amarillo, blanco,
a1
.c
om
Ejemplo 2. Variable cualitativa continua: Pesos de 20 asistentes a una reunin: 72, 63, 88, 91, 65,77, 81, 60, 84, 70, 75, 73, 78, 88, 64, 69, 86, 77, 90, 80. Hemos dejado esta para el final, pues hay que elaborar los intervalos. Para hacerlos debemos conocer el rango, que es la diferencia mxima entre dos valores, y el nmero de intervalos en los que deseamos clasificar la variable. Rango=R=xmax-xmin=91-60=31. Y vamos a agruparlos en 4 intervalos. Si queremos hacerlo exacto el numero rango de cada intervalos ser 31/4=7,75, aunque es ms lgico ampliar el rango con el fin de que este nmero sea exacto. En nuestro caso ampliaremos el rango a 32, con lo que cada intervalo tendr un recorrido de 32/4=8. Al ampliar dicho rango en 1 tendremos que comenzar 1 unidad antes o acabar 1 despus. Hagamos lo segundo (puede hacerse una u otra indistintamente) Intervalo Ii [60,68) [68,76) [76,84) [84,92] Total Marca de clase (xi) 64 72 80 88 fi 4 5 5 6 hi 0,2 0,25 pi Fi 4 9 14 20 Hi 0,2 0,45 0,7 1 Pi 20% 45% 70% 100%
a1
1
ic
0,3
at
0,25
em
ww w.
Las marcas de clase son los puntos medios de los intervalos. Nota: las amplitudes de las clases no tienen por qu ser iguales, esto lo tendremos muy en cuenta cuando representamos la grfica del histograma.
4. Representacin de graficas.
4.1. Variables cualitativas Las representaciones de las variables cualitativas son: Diagrama de barras Diagrama de sectores Pictogramas Cartogramas (variables relativas a zonas) Pirmides de poblacin (estudio de edad de una poblacin)
at
20
.c
25% 25% 30% 100%
om
20%
eje OX, donde se indican los valores de la variable y la altura de cada rectngulo (barra)
es proporcional a la frecuencia (relativa, absoluta o porcentaje es la misma proporcin).
color coche
4 3,5 3 2,5 2 1,5 1 0,5 0
Rojo Blanco Negro Gris Verde Amarillo Azul
ww
w.
at
color coche
15% 15%
15%
em
at
ic
15% 10% 20% 10%
a1
.c
om
color coche
6 4 2 0 3
3
4 2 2
Rojo
Blanco
Negro
Gris
Verde
Amarillo
Azul
ww
w.
at
em
at
ic
a1
.c
om
4.2. Variables cuantitativas discretas Los grficos ms utilizados para representar distribuciones de variable cuantitativas discretas son: Diagrama de barras o columnas Diagrama de frecuencia o polgono de frecuencia
Diagrama de barras: se representan por barras o columnas independientes y de igual anchura situadas encima del eje de la variable. La altura de las barras (o longitud de las columnas) es proporcional a la frecuencia. Veamos en nuestro ejemplo
n SMS
20 15 10 5 0 5 0 12 17 6
n SMS
60 40 20 0
ww
w.
at
em
at
n SMS
n SMS
ic
2 3
Nota: En muchas ocasiones se superponen dos diagramas de barras con el fin de comparar dos variables cuantitativas discretas. Veamos el siguiente ejemplo: ABANDONO DE NIOS
a1
.c
om
3
Diagrama de frecuencia o polgono de frecuencia: Se forman uniendo los extremos de las barras o columnas mediante una lnea quebrada. Son muy utilizados en las frecuencias acumuladas en el estudio de determinados fenmenos:
45 40 35 30 25 20 15 10 5 0 0
N SMS
son los distintos intervalos. La altura de los rectngulo son proporcionales a las frecuencias siempre y cuando sean intervalos de misma amplitud, en caso contrario las alturas sern tales que las reas de los rectngulos sean proporcionales a las frecuencias.
ww
variables continuas. La diferencia es que en los histogramas las bases de los rectngulos histogramas
w.
Histograma: son anlogos a los diagrama de barras pero se utilizan para representar
at
7 6 5 4 3 2 1 0
em
at
Peso
ic
a1
.c
om
frecuencia
6 5 4 5
60-68 68
68-76
76-84
84-92 84
rango de peso
Peso
Rango de peso
5. Parmetros estadsticos.
5.1. Parmetros de centralizacin. Estos parmetros nos indican en torno a que puntos se encuentran los valores de la
Moda
diversos tipos de media, siendo las ms utilizadas: Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra. La media aritmtica es el parmetro de centralizacin ms importante y ms usada. La media aritmtica de un conjunto de datos xi se representa por . Su clculo se realiza de la siguiente forma: a) Datos sin frecuencia:
N
ww
w.
Mediana
at
em
at
x
i =1 i
x + x 2 + ... + x N x = 1 = N
ic
N
a1
.c
om
i =1
x f + x 2 f 2 + ... + x k f k x= 1 1 = N
x f
i
c) Con datos ponderados: es cuando queremos dar ms peso a algunos datos que otro. Si llamamos li al peso en tanto por cien la media ponderada
es:
N
x l + x 2 l 2 + ... + x N l N x = 1 1 = 100
x l
i i =1
100
Ejemplo: nota media ponderada de 3 exmenes, el primero pondera 30% el segundo 30% y el tercero 40% exmenes. Veamos la media en los dos ejemplos cuantitativos que desarrollamos en el tema:
k
x =
x f
i
Ejemplo 1: x =
i =1
x=
i =1
columnas: los valores xi, las frecuencias absolutas fi, el producto xifi. En las celdas inferiores se hace la suma de todos los productos xifi, siendo la media por tanto esta suma entre N:
xi=nsms
0 1 2 3
fi
5 12 17 6 40
ww
xifi
0 12 34 18 64
w.
Para el clculo de la media muchas veces se realiza una tabla con las siguientes tres
at
em
x f
i
at
ic
a1
xi=peso
64 72 80 88
.c
om
fi
4 5 5 6 20
xifi
256 360 400 528 1544
Total
x=
64 = 1.6 40
x=
15444 = 77.2 20
x g = N ( xi ) i = N x1 1 x 2 2 ...x k
f f f i =1
fk
La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin central ms utilizada. Las medias (tanto en el caso de la media aritmtica como geomtrica) presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad
En nuestro ejemplo 1 la moda es 2 sms, pues es el de mayor frecuencia absoluta (17) Calculo en la variable continua: se puede hacer de forma aproximada con las marcas de clase, aunque si se quiere ser ms preciso se puede obtener mediante la expresin:
M 0 = Li +
siendo:
(f
f M 0 f M 0 1
M0
ww
w.
at
f M 0 1 + f M 0 f M 0 +1
) (
siguiente. Este valor M0 es la interseccin de las rectas que unen los extremos de la clase modal con los extremos ms prximos de las clases anterior y siguiente:
em
calcularlo basta con buscar el valor de la variable que presenta ms frecuencia. Puede
at
)c
ic
a1
.c
om
8 7 6 5 4 3 2 1 0
M0
En nuestro ejemplo 2, el valor aproximado de la moda es el intervalo [84,92], pues es el que tiene mayor frecuencia absoluta (6). Si queremos calcular M0 de forma exacta usemos la formula (Li=84, e=8, fi=6, fi-1=5, fi+1=0) M0=85,14.
porcentaje acumulado (o N/2 en frecuencia absoluta acumulada). Puede ocurrir cuando N es par que un dato tenga frecuencia acumulada de 50%, en este caso la mediana se
Calculo para variable cuantitativa continua: de forma aproximada se hace igual que para la variable discreta usndolas marcas de clase. Si se quiere ser ms exacto se debe buscar el valor de la recta frecuencia acumulada que valga N/2. La formula es la siguiente:
N FMe1 M e = Li + 2 c f Me
siendo:
ww
w.
considera la media entre el dato con dicha frecuencia acumulada y el siguiente dato. En
at
em
at
ic
Calculo para variable cuantitativa discreta: es el primer valor que supera el 50% en
a1
.c
om
N/2 FMe-1
Li
Me
Li+1
M e = 76 +
10 9 8 = 77.6 . 5
Cuartiles.
N FQ1 1 4 continua: Q1 = Li + c f Q1 Q3 (el primer valor que supere su frecuencia acumulada el 75%). En variable 3 N FQ3 1 4 continua: Q3 = Li + c f Q3 Nota: Q2=Me
ww
w.
de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno
at
1. Cuartiles: son 3 valores (Q1, Q2, Q3) que distribuyen la serie de datos, ordenada
em
Percentiles.
at
ic
a1
son:
.c
om
at
em
at
R=3-0=3, ejemplo 2
ic
a1
R=xmx-xmin
.c
om
R=91-60=31
ww
| x
i =1
x | f i
N
w.
DM = x x =
= Var ( x) = x x =
(x
i =1
x) 2 f i
N
= x x
( ) ()
2
x
=
i =1
2 i
fi
()
La varianza no tiene las mismas unidades que x (si x es metros 2 ser metros cuadrados). Es por eso que se utiliza ms la desviacin tpica.
Para calcularla se suele aadir la columna xi2fi a la derecha de la variable y de sus frecuencias absolutas. La suma de esta columna nos permite calcular dividiendo entre N el valor de x 2 . Veamos con el ejemplo de los mensajes y de los pesos:
( )
xi=nsms
0 1 2 3
fi
5 12 17 6 40
xi2fi
0 12 68 54 134
xi=peso
64 72 80 88
fi
4 5 5 6 20
xi2fi
16.384 25.920 32.000 46.464 120.768
2 Ejemplo 2: x =
= Var ( x) = 2
Ejemplo 1: = 0.79 = 0.89 Ejemplo 2: = 78.56 = 8.86 En la medida en que los parmetros de dispersin tomen valores ms o menos grandes esto nos indicara el grado de dispersin o alejamiento de los datos respecto de la media. En el caso trivial que todos los datos centrados en un mismo valor todos estos parmetros valdran cero. Para distribuciones normales (que veremos ms adelante) se cumple:
ww
( )
w.
at
( )
em
at
Total
ic
a1
.c
om
El 68,27% datos en el intervalo [ x -, x +] El 95,45% datos en el intervalo [ x -2, x +2] El 99,73% datos en el intervalo [ x -3, x +3]
em
CV =
at
ic
entre la desviacin tpica y la media, siendo por tanto adimensional. o en tanto por cien
CV (%) =
a1
.c
om
100%
ww
0.89 = 0.56 1.6 8.86 = 0.11 77.2
distribucin.
w.
at
g1 =
( x x) 3
(x
i =1
x) 3 f i
Los resultados pueden ser los siguientes: g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha) El Coeficiente de Curtosis analiza el grado de concentracin que presentan los
alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.
ww
w.
distribucin normal).
at
alrededor de los valores centrales de la variable (el mismo que presenta una
em
(x
i =1
g2 =
( x x)
3=
at
i
ic
x) 4 f i 3
a1
.c
om
Los resultados pueden ser los siguientes: g2 = 0 (distribucin mesocrtica). g2 > 0 (distribucin leptocrtica). g2 < 0 (distribucin platicrtica).
Las medidas de asimetra, sobre todo el coeficiente de asimetra de Fisher, junto con las medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una distribucin estadstica sigue la distribucin normal. Esto es necesario para realizar numerosos contrastes estadsticos en la teora de inferencia estadstica.
ww
w.
at
em
at
ic
a1
.c
om
Ejercicios finales
Ejercicio 1. Completar los datos que faltan en la siguiente tabla estadstica. Calcular
todos los parmetros estadsticos explicados en el tema e interpretar la distribucin
16
8 7 6 5 4 3 2 1 0
[0,2)
ww
[2,4)
w.
at
distribucin.
em
at
[4,6)
ic
a1
.c
[6,8)
om
[8,10]
Contestar razonadamente las siguientes preguntas: a) Cul de los dos grupos obtuvo mejores resultados? b) Cul es el grupo ms homogneo?
ww
w.
at
em
3 Horas estudio
at
ic
a1
4
.c
om