Академический Документы
Профессиональный Документы
Культура Документы
1. Preliminares
En este libro, estudiaremos la esencia de la generalizacin. Cmo es posible sacar conclusiones tiles sobre todas las unidades, observando solo unas pocas?. Intentaremos dar respuesta a la bella paradoja que surde de la pregunta: Sin conocer la verdad, Cmo es posible saber qu tan cerca de ella estamos?, que es el gran mrito de la estadstica. Exploraremos algunos trminos y lenguaje usado en la jerga de la estimacin estadstica. Estudiaremos la omnipresente distribucin normal, la reina de las distribuciones, finalmente estudiaremos la magia de la estimacin estadstica y el contraste de hiptesis.
Poblacin
Se identificar con este nombre al conjunto de elementos de inters en un estudio, sobre los cuales se desea informacin y hacia los cuales se extendern las conclusiones. El trmino poblacin no debe asociarse exclusivamente con poblacin humana; tiene sentido hablar de la poblacin de tornillos que se producen durante un da en una determinada fbrica, o de la poblacin constituida por todas las fincas de un pas o una regin. En todo estudio, la poblacin debe estar definida en forma muy precisa, de tal manera que pueda determinarse en algn momento si un elemento dado pertenece o no a la poblacin. Por ejemplo supngase que se va a realizar un estudio para determinar el porcentaje de desempleo en Cali a abril 4 de 1995; algunas reflexiones tendientes a caracterizar a la poblacin que concierne a dicho estudio son las siguientes: El estudio hace referencia a los caleos o a los residentes en Cali?. Que significa ser residente en Cali? una persona que lleg a Cali en abril 3 de 1995, pertenece a la poblacin? o una persona que se fue de Cali en la misma fecha?
97
Por la naturaleza del estudio los elementos de inters son las personas que "deberan estar empleadas" (de la observacin de estas se definir quienes lo estn y quienes no, para determinar el porcentaje de desempleo), entonces cabe la pregunta: cmo se caracterizan los que "deberan estar empleados" ? (edad, condiciones de salud, incapacidad, etc.). Estas reflexiones sugieren definiciones precisas que conducen a una determinacin adecuada de la poblacin. Muestra En muchas ocasiones se requiere conocer una caracterstica medible de la poblacin, para ello se puede observar, uno a uno, todos los elementos de la poblacin (Censo), lo cual casi siempre es impracticable o muy costoso; en estos casos puede "hacerse una idea" sobre la caracterstica poblacional, observando slo algunos elementos de la poblacin, stos constituyen una muestra de esa poblacin. Parmetro Se llamar parmetro a una caracterstica medible de la poblacin. Por ejemplo, la edad promedio de los estudiantes de una escuela, el porcentaje de varones; el dimetro promedio de los tornillos que se producen en una fbrica, la tasa de crecimiento promedio de la tilapia roja, el tiempo promedio entre fallas de una maquina etc. Un parmetro es una constante para la poblacin . Estadstica Se denominar estadstica a una caracterstica medible en la muestra por ejemplo la edad promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra; el dimetro promedio de los tornillos de una muestra de la poblacin de una fbrica, etc. En general una estadstica es una funcin de los datos de una muestra; como puede intuirse el valor que asume una estadstica depende de la muestra que se haya tomado. Generalmente se usan las estadsticas para hacerse una idea de los parmetros, cuando esto sucede se llaman estimadores. Ntese que una estadstica en general varia de una muestra a otra, en este sentido puede mirarse como una variable y drsele el tratamiento que expondremos para las variables.
98
Muestra
3.0
3.2
3.4
Salario
Salario
Estadistica
Muestra
media = 3.72
Parmetro
poblacin
Media = 3.75
99
Media
15
Media
Media
..Es la distribucin de una estadistica para un nmero muy grande de muestras. muestras.
Distribucin de muestreo
10
100
Como una estadstica es calculada con base en una muestra aleatoria, ella puede variar de muestra a muestra, por lo tanto podra mirarse como una variable aleatoria a la cual puede asociarse una distribucin de frecuencia ( o de probabilidad), es decir, puede ser representada por un histograma o una funcin de densidad.
Media
Desviacin estndar
Centro
Dispersin (Variabilidad)
101
Mayor dispersin
5 1 5 25
1 5
2 5
15
Muestra aleatoria
15 20
20
10
12 13 14
15 16
17 18
20
Media
x=
10 + 12 + 13 + ... + 18 + 20 = 15 10
2
10 12 13 14
10 10 15
15 20
20
15 16
17 18
20
Media
Varianza
2
s2 =
+ ...(20 15)
10 1
= 8.6
102
( x1 x )2 + (x2 x )2 + ...(xn x )2
n 1
1+ 8 + 9 + 2 + 3 + 7 =5 6
6 1
Media
= 11.6 Varianza
Desviacin estndar
1.2.
A continuacin damos paso a la distribucin ms importante que existe en estadstica y cuyo descubrimiento ha posibilitado el desarrollo tan extraordinario que tiene la estadstica en la actualidad. La comprensin de las caractersticas bsicas y su manejo operativo, son indispensables casi en todos los procedimientos que se han desarrollado con el propsito de hacer generalizaciones a partir de muestras. La desviacin estndar que se defini al principio, cobra de nuevo inters en el contexto de la distribucin normal y es a travs de sta como mejor puede interpretarse.
103
Ya se anunci al principio, la media y la desviacin estndar son la huella digital de la distribucin normal, nicamente con estos dos parmetros, queda perfectamente identificada una normal particular. La distribucin normal, es responsable de muy buena parte del gran xito de la estadstica, sobre todo por su maravilloso don de la ubicuidad. Ella, casi de repente aparece cuando menos se la espera. En este captulo estudiaremos algunas propiedades de la distribucin normal y ms adelante veremos su gran aporte en los procesos de estimacin.
El modelo Normal
La Reina de las distribuciones
15 15 15
20 20 20
25 25 25
10 12 14 16 18 20 22 24 26 28 30 10 12 14 16 18 20 22 24 26 28 30 10 12 14 16 18 20 22 24 26 28 30
12 12 12
14 14 14
16 16 16
18 18 18
20 20 20
22 22 22
24 24 24
26 26 26
28 28 28
30 30 30
0
10 10 10 20 20 30 30 30
15 15 15
25 25 25
35 35 35
5 0
10 10 10
15 15 15
20 20 20
25 25 25
30 30 30
35 35 35
Si de una poblacin con distribucin normal, sacamos al azar una muestra y con base en sus datos construimos un histograma, la apariencia del histograma es la que se observa a medida que la
104
muestra que se extrae es mas grande. Notemos que con 10.000 datos el histograma es ya casi una curva suave. Esta idealizacin nos conduce a la forma de la distribucin normal y su analoga con un histograma construid con nmero muy grande de datos.
El modelo Normal
Se conoce la expresin que define dicha curva? Qu propiedades tiene?
0 0 0
5 5 5
10 10 10
15 15 15
20 20 20
25 25 25
30 30 30
35 35 35
Cuales son las propiedades ms importantes de la distribucin normal (o modelo normal)?. Cul es la utilidad prctica de dichas propiedades? En adelante iremos descubriendo su importancia, sin embargo, ahora, intentaremos conocer las propiedades que se asocian con su aspecto visual.
La Distribucin Normal
Nmero de desviaciones
1 2
1 x 2 2
N ( ; )
Cambio de Curvatura
-3 -2 -1 +1 +2 +3
f (x ) =
+ 1
105
Es simtrica con respecto al eje que pasa por su centro (media). A lado y lado de la misma se ve la imagen especular de una especie de S alargada. El punto de la S en el que se produce el cambio de curvatura (punto de inflexin), es clave la distancia desde el centro hasta dicho punto, es exactamente igual a una desviacin estndar de la caracterstica de inters. Esos dos rasgos la caracterizan. Es decir, dos distribuciones que tengan la misma media (centro) y la misma desviacin estndar, son idnticas.
N (20;2)
+ 1
= 20
Al igual que el histograma, el rea bajo la curva informa sobre el porcentaje de datos o de unidades que tienen la caracterstica de inters comprendida en el rango que define el rea. La llamada regla de oro, hace referencia a ciertas regularidades que ocurren en todas las distribuciones normales. Por ejemplo, siempre el 68.3% de las unidades tienen su la medida de la caracterstica en estudio entre la media mas o menos una desviacin estndar.
106
Ejercicio
El contenido de grasa (en gramos) de una pieza de carne sigue una distribucin Normal con una media de 100 gramos/pieza y una desviacin estndar de 20 gramos.
N (100;20 )
En este ejercicio la media de la caracterstica es 100 gramos y su desviacin estndar es 20 gramos, si la distribucin es normal, se cumplir que el 68.3 % de las veces que saquemos una unidad al azar de la poblacin, esta tendr un peso comprendido entre 100 +/- 20, es decir, entre 80 y 120 gramos.
N (20;2 )
= 20
+ 2
Continuando con la regla de oro, siempre, en todas las distribuciones normales, el 95.5% de los datos o unidades tienen su caracterstica de inters entre la media mas o menos 2 desviaciones estndar. Por eso en el grfico se observa el 95.55 del rea atrapada entre los valores correspondientes a dos desviaciones estndar, a izquierda y derecha de la media.
107
Ejercicio
El contenido de grasa (en gramos) de una pieza de carne sigue una distribucin Normal con una media de 100 gramos/pieza y una desviacin estndar de 20 gramos.
N (100;20 )
En el mismo problema anterior, significa que le 95.5 % de todas las piezas de carne, tienen pesos comprendidos entre 100 +/- 2*20, es decir, entre 100+/-40 gramos, o sea entre 60 y 140 gramos.
N (20;2)
= 20
+ 3
Ahora, rematando la famosa regla de oro, podemos decir que casi todos los datos, (99.7%), poseen su caracterstica con valores comprendidos entre la media y ms o menos 3 desviaciones estndar. Es decir, que para efectos prcticos podramos decir que el rango de los datos es 6 desviaciones estndar. Tan solo un 0.3% tiene su caracterstica por fuera de este intervalo.
108
N (20;2 )
+ 3
Para el ejemplo, casi todas las piezas de carne que se produzcan, exactamente un 99.7%, tendrn su peso comprendido entre 100+/- 3*20 gramos, es decir, entre 40 y 160 gramos. Para el caso de la transparencia, que se refiere a una normal con media 20 y desviacin estndar 2, el 99,7% de las unidades, tendr su caracterstica comprendida entre 20+/- 3*2, es decir, entre 14 y 26.
Ejercicio = 10
20
80
En este ejercicio se nos invita a hacer una estimacin de la desviacin estndar de una caracterstica que se sabe por experiencia vara en el rango entre 20 y 80. Si suponemos que este rango corresponde a la media +/- 3 desviaciones estndar, entonces podramos razonablemente pensar que la media debe estar cerca de 50 y la desviacin estndar aproximadamente 10, que resulta de hacer caber 6 desviaciones estndar en las 60 unidades del rango.
109
La Normal Estndar
N (0;1)
+ k
En realidad la regla de oro, se puede extender a cualquier nmero de desviaciones estndar. En todas las distribuciones normales, el rea entre las media y mas o menos k desviaciones estndar, es la misma, para cualquier valor de k que se escoja. Por esta razn solo hace falta una sola distribucin normal para calcular el rea que se quiera en cualquier normal. Se ha escogido para tabular la normal con media cero (0) y desviacin estndar igual a uno (1), llamada distribucin normal estndar.
N (20;3)
24
Veamos como se calculara un porcentaje de datos en una normal cualquiera, si solo se dispone de las reas de la normal estndar, N(0;1).
110
Roberto Behar robehar@pino.univalle.edu.co
En este caso se trata de calcular el porcentaje de datos menores que 24, en una normal, N(20;3). Lo nico que tenemos que hacer, es averiguar que tan lejos est 24 de las media, medido en nmero de desviaciones estndar.
N (0;1)
z=
24 20 = 1.33 3
Z=+1.33
24 se aleja 4 unidades de la media, es decir 1.33 desviaciones estndares. Positivo porque se aleja por encima de la media. Como en todas las distribuciones normales esta rea es la misma, si se mide en nmero de desviaciones estndar, entonces vamos a la normal estndar, N(0;1) y lo calculamos. Como aqu la media es cero y la desviacin estndar 1, entonces el punto a buscar ser: 0+1.33*(1)=1.33. Buscamos en la tabla del apndice, el valor 1.33 y obtendremos el valor buscado.
Transformacin Z
Z=
111
En sntesis, el valor a buscar en la tabla de la normal estndar es un valor Z, resultante de calcular el nmero de desviaciones estndar que separan el valor X, de inters de su media. La manera de hallarlo ser hacer la diferencia entre el valor X y la media y luego averiguar cuantas desviaciones caben en dicha distancia. Veamos algunos ejemplos.