Trabajo de Estadistica

Introduccin:
En la estadstica se aplican varios mtodos para la determinacin de probabilidades

y sus propiedades (como lo pueden ser las muestras poblacionales, las medias muestrales,
etc.), algunos de ellos con una precisin casi exacta.
Se considera que dos poblaciones de las cuales provienen dos medias muestrales
tienen la misma varianza. En muchas situaciones existe la necesidad de demostrar la
significancia de las diferencias entre tres o ms medias muestrales o, de manera
equivalente, la hiptesis nula de que todas las medias muestrales son iguales.
Un problema importante de la interferencia estadstica es la estimacin de
parmetros poblacionales o simplemente parmetros (como la media y las varianzas
poblacionales), a partir de estadsticos muestrales correspondientes o estadsticos (como la
media y la varianza muestrales).
Otro de los aspectos ms relevantes de la Estadstica es el anlisis de la relacin o
dependencia entre variables. Frecuentemente resulta de inters conocer el efecto que una o
varias variables pueden causar sobre otra, e incluso predecir en mayor o menor grado
valores en una variable a partir de otra.
Para resolver todos estos problemas se desarrollaron una serie de mtodos o
procesos para poder dar con las respuestas de estas incgnitas como lo son el anlisis de
varianza, la prueba de hiptesis, la regresin lineal, el anlisis de varianza, entre otros. Al
momento de buscarle solucin a estos problemas existe la necesidad de apoyarse en
La distribucin ji-cuadrada () o chi-cuadrada es la distribucin de la varianza sus
muestras (S). Si se extraen todas las muestras posibles de una poblacin normal y a cada
muestra se le calcula su varianza, se obtendr la distribucin muestral de varianzas. La
distribucin tiene muchas aplicaciones en inferencia estadstica, por ejemplo en la
denominada prueba utilizada como prueba de independencia y como prueba de bondad
de ajuste y en la estimacin de varianzas.
Parte I:
Intervalo de confianza:
En estadstica, se llama intervalo de confianza a un par o varios pares de nmeros
entre los cuales se estima que estar cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se
calcula a partir de datos de una muestra, y el valor desconocido es un parmetro
poblacional. La probabilidad de xito en la estimacin se representa con 1 - y se
denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel
de significacin, esto es, una medida de las posibilidades de fallar en la estimacin
mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma
que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms
precisa, aumentan sus posibilidades de error
Para ello vamos a establecer la notacin a utilizar:
Es importante el uso de la calculadora para hallar estos valores en la muestra.

Hemos dicho que vamos a proponer un intervalo donde se encontrar el parmetro a
estimar, con una probabilidad de acierto alta. Al valor de esta probabilidad la
representaremos por 1-, y la llamaremos nivel de confianza. A mayor valor de 1- , ms
probabilidad de acierto en nuestra estimacin, por tanto eso implica que tendr que ser
pequeo, prximo a 0.
Recordemos que 1- representa siempre una probabilidad por lo que ser un valor
entre 0 y 1, si bien en la mayora de los enunciados de los problemas suele ser enunciado en
trminos de tanto por ciento. As cuando, por ejemplo, se dice que el nivel de confianza es
del 90%, significa que 1- vale 0,9 y por tanto vale 0,1.
Para interpretar bien estos conceptos veamos un ejemplo:
Supongamos que deseamos estimar la media de la estatura de una poblacin
mediante un intervalo de confianza al 95% de nivel de confianza, con una muestra de
tamao 50. Supongamos que tras los clculos necesarios, el intervalo en cuestin es (a,b).
Pues bien, esto quiere decir que si elegimos 100 muestras de tamao 50 y cada vez
calculamos el intervalo de confianza resultante, acertaremos en nuestro pronstico en 95 de
las 100 veces que realizaramos la estimacin con cada muestra.
4
Un dato importante como es de esperar, es el tamao de la muestra, que

representaremos por n. Es evidente que, a igual nivel de confianza, cuanto mayor tamao
tenga la muestra, el intervalo de confianza se reducir puesto que el valor obtenido en la
muestra se acercar ms al valor real de la poblacin y por tanto el margen de error
cometido (radio del intervalo) se har ms pequeo.
Si el tamao de la muestra permanece constante y variamos 1- . el tamao del
intervalo se har ms grande cuanto ms aumente 1- , es decir que el margen de error se
har ms grande cuanto ms precisin exijamos.
Clculo de intervalos de confianza. Mtodo del pivote.
El clculo de intervalos de confianza no es un proceso fcil cuando la variable en
estudio no sigue unas pautas de normalidad, por lo que nosotros vamos a suponer siempre
que la variable con la que vamos a trabajar sigue una distribucin normal.
Dicho esto, el proceso para obtener el intervalo es dar una variable aleatoria donde
intervenga el parmetro a estimar y el correspondiente de la muestra. A esta variable se le
llama estadstico pivote y debe seguir una distribucin de probabilidad conocida. Por
ejemplo para el clculo de un intervalo de confianza de la media se utiliza el siguiente
estadstico pivote:
Pues bien, esa expresin donde interviene la media muestral, la media poblacional,
la cuasi desviacin tpica y el tamao muestral, sigue una distribucin de probabilidad
conocida que se encuentra tabulada, llamada t-Student con n-1 grados de libertad. Se trata
pues de dar un intervalo (a, b) de modo que
P(a < g < b) = 1-a , siendo g el estadstico pivote correspondiente. Una vez
establecida esa desigualdad, despejamos el parmetro poblacional que es el que queremos
centrar en el intervalo.
Intervalo de confianza para la media.

Se utiliza es estadstico pivote:
que sigue una N (0,1)
Recordemos
distribucin normal de media
que es la media muestral, sigue una
y desviacin tpica
como probaremos a
continuacin:
Calculemos la esperanza y la varianza de
por tanto la desv. tip. Es

Estamos pues ante la siguiente situacin:
Hemos obtenido el intervalo que contiene a la media poblacional:
A la expresin
se le denomina margen de error y en ocasiones se expresa en
tanto por ciento. Obsrvese que se trata del radio del intervalo.
Ejemplo: Se desea estimar la media del tiempo empleado por un nadador en una
prueba olmpica, para lo cual se cronometran 10 pruebas, obtenindose una media de 41,5
6
minutos. Sabiendo por otras pruebas que la desviacin tpica de esta variable para este
nadador es de 0,3 minutos, obtener un intervalo de confianza con un 95% de confianza.
Cuantas pruebas habra que cronometrar para que el margen de error en la estimacin de la
media fuese inferior a tres segundos. (Suponemos siempre que la variable que mide el
tiempo del nadador sigue una distribucin normal.)
Estamos en el caso de un intervalo de confianza para la media conociendo la
desviacin tpica de la poblacin. Del enunciado del problema se desprenden directamente
los siguientes datos:
Tenemos que buscar un valor z/2, de modo que en la distribucin N(0,1) deje una
rea de probabilidad a la derecha igual a /2, es decir 0,025. Como la funcin de
distribucin de probabilidad de la tabla N (0,1) me da el rea de probabilidad acumulada, es
decir a la izquierda, tengo que ver que valor de z me deja a la izquierda 0,975, que se
corresponde para un valor de z=1,96.
As pues el intervalo buscado es:
Tambin se puede expresar as: Se estima que la media es 41,5 ms menos un

margen de error del 18,59%. (Recordemos que el margen de error cometido en la estima es
el radio del intervalo, es decir 0,1859) En cuanto a la segunda parte del problema, nos piden
el tamao de la muestra para que en las mismas condiciones el margen de error sea inferior
a 3 seg, es decir 0,05 minutos (Debemos pasar todo a las mismas unidades). Que el error
sea inferior al 5% es acotar el radio del intervalo de confianza con ese valor: , en nuestro
caso 1,96 0,05
En consecuencia, para obtener un error inferior a 0,05 minutos, deberemos tomar

una muestra de al menos 139 pruebas cronometradas.
Intervalo de confianza para la media, desconociendo la desviacin tpica de la
poblacin en una variable aleatoria normal.
Se utiliza el estadstico pivote:
que sigue una distribucin llamada t-Student con n-1 grados de libertad, que presenta una
forma en la curva muy similar a la de la distribucin normal.
Estamos pues ante la siguiente situacin:
Hemos obtenido el intervalo que contiene a la media poblacional:
A la expresin
se le denomina margen de error y en ocasiones se
expresa en tanto por ciento. Obsrvese que se trata del radio del intervalo.
Ejemplo: La puntuacin media de una muestra de 20 jueces de gimnasia rtmica,
elegidos al azar, para una misma prueba, present una media de 9,8525 y una cuasi
desviacin tpica muestral de 0,0965. Calcular un intervalo de confianza con un 95% para
la nota media. (Suponemos que la variable que mide la puntuacin sigue una distribucin
normal.)
Estamos en el caso de un intervalo de confianza para la media desconociendo la
desviacin tpica de la poblacin.
Del enunciado del problema se desprenden directamente los siguientes datos:
Tenemos que buscar un valor t/2, de modo que en la distribucin t-Student con 19
grados de libertad deje una rea de probabilidad a la derecha igual a /2, es decir 0,025.
Dicho valor se corresponde con un valor de t =2,0930.
8
Clculo del intervalo de confianza para la varianza de la poblacin en una variable

aleatoria normal
Se utiliza el estadstico pivote:
que sigue una distribucin llamada chi-cuadrado con n-1 grados de libertad,
que se representa por X2, que a diferencia de las anteriores presenta una curva no simtrica,
y las tablas dadas expresan el rea de probabilidad a la derecha de la variable. Estamos pues
ante la siguiente situacin:
Hemos obtenido el intervalo que contiene a la varianza poblacional:
Ejemplo: La puntuacin media de una muestra de 20 jueces de gimnasia rtmica,

elegidos al azar, para una misma prueba, present una cuasi desviacin tpica muestral de
0,0965. Calcular un intervalo de confianza con un 95% para la varianza. (Suponemos que la
variable que mide la puntuacin sigue una distribucin normal.) Del enunciado del
problema se desprenden directamente los siguientes datos:
Tenemos que buscar un valor

, de modo que en la distribucin chi-cuadrado
con 19 grados de libertad deje una rea de probabilidad a la derecha igual a 1-/2, es decir
0,975 y otro valor
que deje una rea de probabilidad a la derecha igual a /2, es decir
0,025. Ambos valores se corresponden respectivamente con 8,9065 y 32,852 As pues el
intervalo buscado para la varianza es:
Intervalo de confianza para la proporcin

Queremos estimar la proporcin p de que ocurra un determinado suceso en una
poblacin y tomamos una muestra de tamao n.
Consideramos la variable aleatoria X= p/n, donde p es el nmero de observacin
es de ese suceso en la muestra.
La variable X es obviamente una binomial (n, p). Para valores de n grande y p
prximos a 0,5, podemos aproximarla mediante una normal de media np y desviacin tpica
np(1 p) , por tanto
As pues:
Obteniendo como intervalo de confianza para p

10
Pero dado que desconocemos p, deberemos sustituirlo por p.
Alcanza un mximo en 1/4. Y por tanto esta ltima expresin se podra tomar como
radio del intervalo de confianza propuesto.
Ejemplo: En una encuesta hecha por alumnos y alumnas de un instituto a un total
de 100 votantes elegidos al azar en su Municipio, se obtiene que el 55% volvera a votar al
actual alcalde. Calcular un intervalo de confianza al 99% para la proporcin de votantes
favorables al actual alcalde. Cules deberan ser los tamaos muestrales, manteniendo el
mismo nivel de confianza, para tener la certeza que el alcalde actual ser reelegido por
mayora absoluta Los datos desprendidos del enunciado del problema son:
p'= 0,55
n = 100
1-a = 0,99
Tenemos que buscar un valor z/2, de modo que en la distribucin N(0,1) deje una
rea de probabilidad a la derecha igual a /2, es decir 0,005. Como la funcin de
distribucin de probabilidad de la tabla N (0,1) me da el rea de probabilidad acumulada, es
decir a la izquierda, tengo que ver que valor de z me deja a la izquierda 0,995, que se
corresponde para un valor de z=2,57.
En la segunda parte del problema, si queremos que tenga mayora absoluta, el

margen de error no puede ser inferior a 0,05. La explicacin es sta: Puesto que la mayora
absoluta la obtiene con ms de 0,50 de proporcin, y la proporcin muestral me ha dado
0,55, y como el intervalo de confianza est centrado en 055, el radio de dicho intervalo, es
decir el margen de confianza, no puede ser superior a 005, ya que si fuese 0,06 por
ejemplo, cabra la posibilidad de que el valor de la proporcin poblacional fuese 0,55-0,06
= 0,49 con lo cual el alcalde no tendra la mayora absoluta. As pues el planteamiento es
hacer el margen de error menor que 0,05, es decir:
11
En consecuencia, el nmero mnimo del tamao de la muestra para poder tener

certeza de que el alcalde va a tener mayora absoluta con un 99% de confianza es 654.
II Parte:
Prueba de Hiptesis:
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en
parmetro poblacional. Despus de recolectar una muestra aleatoria, se compara la
estadstica muestral, as como la media (x), con el parmetro hipottico, se compara con
una supuesta media poblacional (). Despus se acepta o se rechaza el valor hipottico,
segn proceda. Se rechaza el valor hipottico slo si el resultado muestral resulta muy poco
probable cuando la hiptesis es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0)
es el valor hipottico del parmetro que se compra con el resultado muestral resulta muy
poco probable cuando la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de
significancia del 5%, entonces se rechaza la hiptesis nula solamente si el resultado
muestral es tan diferente del valor hipottico que una diferencia de esa magnitud o mayor,
pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la
estadstica muestral (el estimador no segado del parmetro que se prueba) o una versin
transformada de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de
una media poblacional, se toma la media de una muestra aleatoria de esa distribucin
normal, entonces es comn que se transforme la media en un valor z el cual, a su vez, sirve
como estadstica de prueba.
Etapa 4.- Establecer el valor o valores crticos de la estadstica de prueba. Habiendo
especificado la hiptesis nula, el nivel de significancia y la estadstica de prueba que se van
a utilizar, se produce a establecer el o los valores crticos de estadstica de prueba. Puede
haber uno o ms de esos valores, dependiendo de si se va a realizar una prueba de uno o dos
extremos.
Etapa 5.- Determinar el valor real de la estadstica de prueba. Por ejemplo, al
probar un valor hipottico de la media poblacional, se toma una muestra aleatoria y se
determina el valor de la media muestral. Si el valor crtico que se establece es un valor de z,
entonces se transforma la media muestral en un valor de z.
Etapa 6.- Tomar la decisin. Se compara el valor observado de la estadstica
muestral con el valor (o valores) crticos de la estadstica de prueba. Despus se acepta o se
rechaza la hiptesis nula. Si se rechaza sta, se acepta la alternativa; a su vez, esta decisin
tendr efecto sobre otras decisiones de los administradores operativos, como por ejemplo,
mantener o no un estndar de desempeo o cul de dos estrategias de mercadotecnia
utilizar.
12
La distribucin apropiada de la prueba estadstica se divide en dos regiones: una

regin de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no
se puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona
correctamente.
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor
crtico en la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis
nula no se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del
tamao de la regin de rechazo.
Pasos de la prueba de hiptesis:
Expresar la hiptesis nula

Expresar la hiptesis alternativa
Especificar el nivel de significancia
Determinar el tamao de la muestra
Establecer los valores crticos que establecen las regiones de rechazo de las de no
rechazo.
Determinar la prueba estadstica.
Coleccionar los datos y calcular el valor de la muestra de la prueba estadstica
apropiada.
Determinar si la prueba estadstica ha sido en la zona de rechazo a una de no
rechazo.
Determinar la decisin estadstica.
Expresar la decisin estadstica en trminos del problema.
Pruebas de Hiptesis para Medias.

Sea
varianza
una muestra aleatoria de una de una poblacin con media

. Si el tamao de la muestra es grande y
del Lmite garantiza que

confianza aproximado al
es conocida, el Teorema Central
. Y de esta manera un Intervalo de

para
, donde
es de la forma:
13
Si
es desconocida, esta es estimada usando la varianza Muestral:
y un Intervalo de Confianza aproximado al
es de la forma:
Si
es un valor particular para
respecto al valor real de
, podemos establecer tres hiptesis alternativas
ZC
vs
% para
. Estadstico de Prueba:
xX
sX
Usando la parte interactiva del SAS se pueden calcular

y
para ser usados en
la inferencia respecto a la media de la poblacin. Cabe Anotar que la parte interactiva del
SAS asume que las poblaciones involucradas SON NORMALES independiente del
tamao de la muestra. Si las poblaciones no son normales, para realizar pruebas de
hiptesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente
pasa para la diferencia de medias de dos poblaciones con muestras grandes.
Ejemplo: Suponga que se tiene la creencia de que el promedio obtenido por los
estudiantes que no trabajan es superior al promedio de los que si trabajan. Para resolver esta
pregunta primero expliquemos el procedimiento general de la prueba para diferencia de
medias con muestras grandes.
Suponga que
que
representa los promedios de quienes no trabajan y

los promedios de quienes trabajan. Asuma que
14
,
, y que
muestras son independientes entre s.
Las hiptesis a probar son:
vs
. Ambas
De la teora vista sabemos que un estimador puntual para

es
. Como
los tamaos de cada muestra son apreciables, podemos usar el Teorema Central del Lmite
para hallar la distribucin de la diferencia entre las medias muestrales:
El estadstico de Prueba para esta hiptesis es:
y la regin de rechazo es de la forma: R.C. =
dado.
Para el Ejemplo en concreto se desea probar:
vs
.
De los resultados muestrales se obtuvo:
15
Usando la notacin esto es equivalente a:

,
El valor del estadstico de prueba es:

El valor P de la prueba ser:
Como este valor es grande no podemos rechazar la hiptesis Nula, es decir, que
segn la informacin suministrada, no existe suficiente evidencia para afirmar que la nota
promedio de los que NO trabajan sea superior a la nota promedio de los que trabaja: Pueden
asumirse iguales.
Prueba de Hiptesis para Proporciones
Suponga que X e Y son variables aleatorias Independientes tales que
y
. Las pruebas de hiptesis para proporciones asumen
que los tamaos n o m son grandes para utilizar la aproximacin dada por el TLC. Sea
un valor particular de
. Se desea probar alguna de las siguientes hiptesis:
vs
El estadstico de prueba y las regiones de rechazo respectivas son:
y R.C. =
dado
Ejemplo: Usando la base de datos anterior, suponga que se tiene la creencia de que
ms del 20% de los estudiantes en dicha universidad Trabajan. Es cierta dicha afirmacin?
Sea X: Nmero de Estudiantes en la muestra de 213 que trabajan. Entonces
, con p desconocida.
16

vs
. Veamos como probar
esta hiptesis usando la parte interactiva del SAS. Ingresamos al mdulo Analyst
Cargamos el archivo de datos que se encuentra en la librera WORK y cuyo nombre

es EST.
En el men seleccionamos Statistics Hyptesis Test y se obtiene el siguiente men:
Las pruebas de hiptesis para medias y diferencia de medias aqu relacionadas asumen
que las respectivas poblaciones son Normales.
17
La primera es una prueba de hiptesis para la media de una poblacin Normal con
varianza conocida
La segunda es una prueba de hiptesis para la media de una poblacin Normal con
varianza desconocida
La tercera es prueba de hiptesis para una proporcin poblacional. Se asume un
tamao de muestra grande
La cuarta es prueba de hiptesis para la varianza de una poblacin Normal
La quinta prueba de hiptesis para diferencia de medias de dos poblaciones
Normales con varianzas desconocidas. Aqu se relacionan dos casos: Varianzas
Iguales o Varianzas desiguales
La sexta es una prueba de medias para datos Pareados
La sptima es una prueba de hiptesis para la diferencia entre dos proporciones de
dos poblaciones diferentes. Se asumen tamaos de muestra grandes
La ltima es una prueba de hiptesis para igualdad entre varianzas de dos
poblaciones normales.
Retomando el ejemplo 3, escogemos la opcin 3: Prueba para una proporcin: Aparece

un recuadro donde se puede seleccionar el tipo de hiptesis alterna. Seleccionamos la
variable TRAB. El aspecto que nos interesa medir es los que trabajan. Seleccionamos la
opcin level of interest y hacemos click en SI. El valor de
Hypotheses Nula y Alternate respectivamente:
y la alternativa se colocan en
En la opcin Intervals puede pedirle al programa que calcule un Intervalo de

Confianza al nivel preferido para p.
Podemos calcular un Intervalo de Confianza al 95% para p.
18
Los resultados arrojados por el SAS son:
As, tanto el valor P (inferior a 0.0001) como el intervalo de confianza

, permiten concluir que la proporcin de estudiantes que trabajan en dicha
universidad es superior al 20%.
Intervalo de Confianza para Diferencia de Medias.
Si lo que se desea es comparar el comportamiento promedio de una misma
caracterstica en dos poblaciones diferentes, cuando los tamaos de muestra son pequeos,
no podemos usar el Teorema Central del Lmite para construir un Estadstico de Prueba
adecuado.
De nuevo, supongamos que
poblacin normal con media
y varianza
es una muestra aleatoria de una

X2
y que
aleatoria de otra poblacin normal con media

y varianza
desconocidas y ambas muestras independientes entre s.
es otra muestra
, donde
son
19
Un estimador insesgado para

Muestral de
es
, pero Cul es la distribucin
Consideremos dos casos:

Caso I:
Bajo el supuesto de Normalidad,
Y como ambas variables son independientes entre s y
, entonces:
. Adems:
. Entonces:
, donde
.
Caso II:
demostrar que:
. Bajo el supuesto de normalidad en las muestras aleatorias se puede
,donde
La demostracin de este hecho es un poco ms elaborada y por eso no se presentar

aqu. Las hiptesis a probar son entonces:
20
Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean
desconocidas, podemos usar un Intervalo de Confianza al
las varianzas poblacionales, es decir para
para el cociente de
Si dicho intervalo contiene el nmero 1, podemos afirmar que posiblemente las

varianzas sean iguales. Si no contiene el nmero 1, podemos asumir que las varianzas son
diferentes. Un Intervalo de Confianza al
para
distribucin F de Snedecor. Se puede mostrar que

X2
Intervalo de Confianza al
para
Y2
est basado en la
. As, un
es de la forma:
, donde
.
Los valores para
se encuentran tabulados, para valores pequeos de
. Usualmente se toman valores de

iguales a 0.05, 0.025, 0.01 (que corresponden a
Intervalos de Confianza del 90%, 95% y 98%).
Tambin se puede realizar una prueba de hiptesis para igualdad de Varianzas:
H0 :
X2
Y2
Estadstico de Prueba:
,
H0 :
vs
X2
Y2
1
.
R.C. =
dado.
21
Si la hiptesis Nula es rechazada, se concluye que las varianzas poblacionales no

son iguales. En caso contrario podemos asumir que las varianzas poblacionales son iguales.
Las hiptesis de inters a ser probadas son:
H0 :X Y 0
Usualmente
de Medias.
Caso I:
vs
, donde
es un valor particular.
se toma como cero y entonces hablamos de una prueba de Igualdad
. El estadstico de prueba es:
.
La regin crtica es similar al caso de una muestra aleatoria:
R.C. =
TC | TC t n m 2
,
dado. El valor P de esta prueba se calcula como:
.
TC
Caso II:
X Y
S
. El estadstico de Prueba es:
La regin crtica es similar al caso anterior: R.C. =

de esta prueba se calcula como:
2
X
2
Y
: t
dado. El valor P
Ejemplo: Suponga que se cree que los automviles con transmisin Mecnica
consumen en promedio ms gasolina que los automviles con transmisin Automtica.
Usando la base de datos anterior, es cierta esta afirmacin?
Usando la parte interactiva del SAS podemos obtener unas estadsticas descriptivas
bsicas respecto al Consumo de Gasolina en autos con ambos tipos de transmisiones:
22
Tenemos 18 automviles con transmisin automtica y 7 con transmisin mecnica.

De nuevo, supongamos que
es una muestra aleatoria que representa los
consumos de gasolina de los autos con transmisin mecnica, asumamos que estos
consumos se distribuyen normalmente con media
y varianza
X2
y que
es otra muestra aleatoria que representa los consumos de gasolina de los

autos con transmisin automtica, asumamos que estos consumos se distribuyen
normalmente con media
y varianza
muestras independientes entre s.
, donde
vs
son desconocidas y ambas
. Primero
X2
calculamos un Intervalo de Confianza al 95% para el cociente de las varianzas Y . En

SAS elegimos la opcin: Hiptesis Test Two Sample Test for Variantes.
2
Aparece un recuadro con un men de opciones. Seleccionamos grupos en una

variable, variable dependiente Y, grupo la variable TIPO. La variable TIPO permite
identificar la poblacin. En este caso la Poblacin 1, ser los autos con transmisin
Automtica y la Poblacin 2, ser los autos con transmisin mecnica (esto debido a que el
SAS organiza en orden alfabtico). Esto no Importa lo que interesa es determinar si el
Intervalo de Confianza contiene o no el nmero uno o el resultado de la Prueba de
Hiptesis. Las hiptesis a probar son:
23
H0 :
X2
Y2
vs
H0 :
X2
Y2
Seleccionamos la opcin Intervals, escogemos un nivel de confianza del 95% y la

opcin Interval. Los resultados obtenidos son:
observe que la Hiptesis Nula es rechazada, pues el valor P es pequeo. Al mismo tiempo
el Intervalo de Confianza para

NO contiene el nmero uno. Ambos resultados
permiten concluir que las varianzas poblacionales No son Iguales. As, para probar la
hiptesis inicial acerca del consumo de gasolina, debemos asumir que
24
El estadstico de Prueba es:

En SAS seleccionamos las opciones: Hyptesis Test Two-Sample t-test for
Means.
En el recuadro que aparece seleccionamos la variable dependiente Y, el grupo la

variable TIPO, la hiptesis Nula
, la hiptesis alternativa es Mean 1 Mean 2 < 0,
pues los grupos a comparar aparecen primero Automtica y Luego Manual, al revs de lo
planteado en la Hiptesis alterna inicial:
25
Los resultados obtenidos muestran las hiptesis tanto para varianzas iguales como
para varianzas diferentes:
Observe que el valor del estadstico de Prueba para Varianzas diferentes es negativo,
esto es porque para el SAS la poblacin 1 son los consumos de los autos con transmisin
Automtica y la Poblacin 2 los autos con transmisin Mecnica.
La conclusin de la prueba, usando el Intervalo de Confianza o el Valor P, permite
afirmar que el consumo de gasolina para los autos con transmisin Mecnica es
SUPERIOR al consumo de gasolina para autos con transmisin Automtica.
El siguiente grfico nos muestra evidencia inicial de que esta afirmacin es cierta.
26
Diferencias de proporciones:
En algunos diseos de investigacin, el plan muestral requiere seleccionar dos
muestras independientes, calcular las proporciones muestrales y usar la diferencia de las
dos proporciones para estimar o probar una diferencia entre las mismas. Las aplicaciones
son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen
datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios
diferentes salen resultados ligeramente diferentes pero qu tanta diferencia se requiere
para que sea estadsticamente significativo? De eso se tratan las pruebas estadsticas de
diferencias de proporciones.
El estadstico Z para estos casos se calcula de la siguiente manera:
27
Ejemplo: Harry Hutchings es propietario de un gimnasio y afirma que la ingestin

de ciertas vitaminas aumente la fuerza corporal. Se seleccionan aleatoriamente 10
estudiantes atletas y se les aplica una prueba de fuerza muscular. Despus de dos semanas
de tomar las vitaminas y de entrenamiento se les aplica nuevamente la prueba. Los
resultados se muestran a continuacin:
28
Varianza (chi-cuadrado):
La varianza como medida de dispersin es importante dado que nos ofrece una
mejor visin de dispersin de datos.
Por ejemplo: si se determina que la poblacin califica en promedio con 6 el
desempeo del gobierno; al decir que la varianza es de cero (y por lo tanto la desviacin
estndar es de cero) podemos confiar en que aproximadamente la misma calificacin le
asignara toda la poblacin, en otras palabras, en trminos generales la poblacin en su
conjunto ve al gobierno con la misma calificacin ya que no hay variacin o dispersin en
dicha calificacin.
Por el contrario, con la misma calificacin promedio de 6 pero con una varianza
muy alta podemos interpretar que hay gente contenta con el gobierno que le ha asignado
calificaciones muy arriba del 6; pero hay un conjunto poblacional muy molesto con el
gobierno que asigna calificaciones muy por debajo del 6. Este tipo de informacin solo es
posible mediante el anlisis de la varianza.
Otro campo del conocimiento donde la varianza se ocupa en gran medida es en
control de calidad; cuando un producto se elabora el rea de control de calidad busca que
los productos est dentro de ciertos lmites de tolerancia, pero tambin que la variabilidad
de un producto sea lo menor posible. De ah viene la filosofa seis sigma (significa seis
veces la varianza).
Nuevamente consideramos que la poblacin sigue una distribucin de probabilidad
normal, para lo cual usamos el siguiente estadstico de prueba:
(pronunciado
como "jicuadrado" y a
veces como
"chi-cuadrado")
Ejemplo: Una empresa est interesada en lanzar un nuevo producto al mercado. Tras
realizar una campaa publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25
no conocan el producto. A un nivel de significacin del 1% apoya el estudio las siguientes
hiptesis?
a. Ms del 3% de la poblacin no conoce el nuevo producto.
b. Menos del 2% de la poblacin no conoce el nuevo producto
Datos:
n = 1000
x = 25
29
Donde:
x = ocurrencias
n = observaciones
x
n
= proporcin de la muestra
= proporcin propuesta
Solucin:
a)
a = 0,01
H0 es aceptada, ya que zprueba (-0,93) es menor que ztabla (2,326), por lo que no es cierto
que ms del 3% de la poblacin no conoce el nuevo producto.
En Excel:
30
b)
a = 0,01
H0 es rechazada, ya que zprueba (1,13) es menor que ztabla (2,326), por lo que es cierto
que menos del 2% de la poblacin no conoce el nuevo producto.
III parte:
Regresin lineal:
El anlisis de regresin es una tcnica estadstica para investigar la relacin
funcional entre dos o ms variables, ajustando algn modelo matemtico.
La regresin lineal simple utiliza una sola variable de regresin y el caso ms
sencillo es el modelo de lnea recta. Supngase que se tiene un conjunto de n pares de
31
observaciones (xi,yi), se busca encontrar una recta que describa de la mejor manera cada
uno de esos pares observados.
Estimacin de Mnimos cuadrados:
De todas las curvas que se aproximan a un conjunto de datos definidos por un
punto, la curva que tiene la propiedad de que D12+D22+.+ DN2 es un mnimo que se
denomina curva de ajuste ptimo.
Se dice que una curva con esta propiedad se ajusta a los datos en el sentido de
mnimos cuadrados y se llama curva de mnimos cuadrado. Entonces, una recta con esta
propiedad se denomina recta de mnimos cuadrados, una parbola con esta propiedad se
denomina parbola de mnimos cuadrados, etc.
El mtodo de estimacin de Mnimos cuadrados, que consiste en encontrar aquellos
valores de a y de b que hagan mnima la suma de los cuadrados de las desviaciones de las
observaciones respecto de la recta que representa el modelo, en el sentido vertical.
En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados
se debe minimizar, para determinar a y b. Estos segmentos representan los errores e del
modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto
sobre el eje vertical.
La solucin est dada por las siguientes frmulas:
El estimador de mnimos cuadrados que introducimos en esta seccin utiliza como

criterio la minimizacin de la Suma de los Cuadrados de los Residuos (SCR), o tambin
Suma Residual, aunque hay que recordar que es una suma de cuadrados. Se trata, por tanto,
1
2
de seleccionar valores de los coeficientes
y
que resuelvan el problema:
32
Regresin lineal simple:

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que
modela la relacin entre una variable dependiente Y, las variables independientes Xi y un
trmino aleatorio .
Con frecuencia, nos encontramos en economa con modelos en los que el
comportamiento de una variable, Y, se puede explicar a travs de una variable X; lo que
representamos mediante:
Y = f (X )
Si consideramos que la relacin f, que liga Y con X, es lineal, entonces se puede
escribir as:
Y = 1 + 2 X t
Como quiera que las relaciones del tipo anterior raramente son exactas, sino que
ms bien son aproximaciones en las que se han omitido muchas variables de importancia
secundaria, debemos incluir un trmino de perturbacin aleatoria, t u , que refleja todos los
factores distintos de X -que influyen sobre la variable endgena, pero que ninguno de
ellos es relevante individualmente. Con ello, la relacin quedara de la siguiente forma:
La expresin anterior refleja una relacin lineal, y en ella slo figura una nica
variable explicativa, recibiendo el nombre de relacin lineal simple. El calificativo de
simple se debe a que solamente hay una variable explicativa.
Supongamos ahora que disponemos de T observaciones de la variable Y
( 1 2 , , ,T Y Y Y ) y de las correspondientes observaciones de X ( 1 2 , , ,T X X X ). Si
hacemos extensiva (3) a la relacin entre observaciones, tendremos el siguiente conjunto de
T ecuaciones:
Este sistema de ecuaciones se puede escribir:

33
Ejemplo: Representar la nube de puntos (grfico x-y) ventas vs. publicidad, junto
con la recta de regresin asociada. Piensas que el modelo obtenido sirve para explicar las
ventas obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha
gastado en publicidad?
Seleccionamos Stat > Regression > Fitted Line Plot :
34
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el
94% del comportamiento de las ventas a travs de la evolucin, por lo que es un buen ajuste
y por tanto, los residuos son mnimos.
Regresin lineal mltiple:
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o
razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir
relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose
Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se
encuentran variables que de alguna manera estn relacionados entre s, por lo que es posible
que una de las variables pueda relacionarse matemticamente en funcin de otra u otras
variables.
El modelo de regresin lineal mltiple con p variables predictoras y basado en n
observaciones tomadas es de la forma:
para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, ste puede ser
considerado como un sistema de ecuaciones lineales de la forma:
que puede ser escrita en forma matricial como:
donde Y es un vector columna n dimensional, X es una matriz n x p', con p'=p+1, b es el

vector de coeficientes de regresin a ser estimados, su dimensin es p' y e es un vector
columna aleatorio de dimensin n Por ahora, las nicas suposiciones que se requieren son
que E(e)=0 y que la matriz de varianza covarianzas de los errores est dada por Var(e)= 2
In, donde In es la matriz identidad de orden n.
35
Ejemplo: La entidad bancaria City Banking est estudiando el nmero de veces por da que
se usa el cajero automtico localizado en un barrio de una determina ciudad espaola del
sur. Los siguientes datos son las veces por da que fue usado el cajero en los ltimos 30
das:
a) Realiza un dotplot de los valores anteriores y comenta los resultados.

Para dibujar el dotplot, seleccionamos Graph > Dotplot:
Del grfico anterior podramos concluir que el valor que ms se repite es 84 y, adems,
podemos apreciar que los datos no parecen seguir una distribucin normal.
Parte IV:
Anlisis de varianza:
El anlisis de varianza es una tcnica que se puede utilizar para decidir si las medias
de dos o ms poblaciones son iguales. La prueba se basa en una muestra nica, obtenida a
partir de cada poblacin. El anlisis de varianza puede servir para determinar si las
diferencias entre las medias muestrales revelan las verdaderas diferencias entre los valores
36
medios de cada una de las poblaciones, o si las diferencias entre los valores medios de la
muestra son ms indicativas de una variabilidad de muestreo.
Si el valor estadstico de prueba (anlisis de varianza) nos impulsa a aceptar la
hiptesis nula, se concluira que las diferencias observadas entre las medias de las muestras
se deben a la variacin casual en el muestreo (y por tanto, que los valores medios de
poblacin son iguales). Si se rechaza la hiptesis nula, se concluira que las diferencias
entre los valores medios de la muestra son demasiado grandes como para deberse
nicamente a la casualidad (y por ello, no todas las medias de poblacin son iguales).
Los datos para el anlisis de varianza se obtienen tomando una muestra de cada
poblacin y calculando la media muestral y la variancia en el caso de cada muestra.
Existen tres supuestos bsicos que se deben satisfacer antes de que se pueda utilizar el
anlisis de variancia.
1) Las muestras deben ser de tipo aleatorio independiente.
2) Las muestras deben ser obtenidas a partir de poblaciones normales.
2
2
2
3) Las poblaciones deben tener variancias iguales (es decir 1= 2 ..= k )
El anlisis de varianza, como su nombre lo indica, comprende el clculo de
varianzas. La varianza de una muestra es el promedio de las desviaciones elevadas al
cuadrado de la media del grupo. Simblicamente, esto se representa de la siguiente manera:
Cabe observar que se debe utilizar n - 1, ya que se est trabajando con datos
muestrales. De ah que, para obtener la varianza muestral, el procedimiento sea el siguiente:
1) Calcular la media muestral
2) Restar la media de cada valor de la muestra.
3) Elevar al cuadrado cada una de las diferencias.
4) Sumar las diferencias elevadas al cuadrado.
5) Dividir entre n - 1
Distribucin de Fisher:
La necesidad de disponer de mtodos estadsticos para comparar las varianzas de
dos poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente se
desea comparar la precisin de un instrumento de medicin con la de otro, la estabilidad de
un proceso de manufactura con la de otro o hasta la forma en que vara el procedimiento
para calificar de un profesor universitario con la de otro.
A diferencia de otras pruebas de medias que se basan en la diferencia existente entre
dos valores, el anlisis de varianza emplea la razn de las estimaciones, dividiendo la
estimacin intermediante entre la estimacin interna
37
Esta razn F fue creada por Ronald Fisher (1890-1962), matemtico britnico, cuyas
teoras estadsticas hicieron mucho ms precisos los experimentos cientficos. Sus
proyectos estadsticos, primero utilizados en biologa, rpidamente cobraron importancia y
fueron aplicados a la experimentacin agrcola, mdica e industrial. Fisher tambin
contribuy a clarificar las funciones que desempean la mutacin y la seleccin natural en
la gentica, particularmente en la poblacin humana.
El valor estadstico de prueba resultante se debe comparar con un valor tabular de F,
que indicar el valor mximo del valor estadstico de prueba que ocurra si H 0 fuera
verdadera, a un nivel de significacin seleccionado. Antes de proceder a efectuar este
clculo, se debe considerar las caractersticas de la distribucin F.
Caractersticas de la distribucin F
- Existe una distribucin F diferente para cada combinacin de tamao de muestra y
nmero de muestras. Por tanto, existe una distribucin F que se aplica cuando se toman
cinco muestras de seis observaciones cada una, al igual que una distribucin F diferente
para cinco muestras de siete observaciones cada una. A propsito de esto, el nmero
distribuciones de muestreo diferentes es tan grande que sera poco prctico hacer una
extensa tabulacin de distribuciones. Por tanto, como se hizo en el caso de la distribucin t,
solamente se tabulan los valores que ms comnmente se utilizan. En el caso de la
distribucin F, los valores crticos para los niveles 0,05 y 0,01 generalmente se
proporcionan para determinadas combinaciones de tamaos de muestra y nmero de
muestras.
- La distribucin es continua respecto al intervalo de 0 a + . La razn ms pequea
es 0. La razn no puede ser negativa, ya que ambos trminos de la razn F estn elevados al
cuadrado. Por otra parte, grandes diferencias entre los valores medios de la muestra,
acompaadas de pequeas variancias muestrales pueden dar como resultado valores
extremadamente grandes de la razn F.
- La forma de cada distribucin de muestreo terico F depende del nmero de
grados de libertad que estn asociados a ella. Tanto el numerador como el denominador
tienen grados de libertad relacionados.
Determinacin de los grados de libertad
Los grados de libertad para el numerador y el denominador de la razn F se basan
en los clculos necesarios para derivar cada estimacin de la variancia de la poblacin. La
estimacin intermediante de variancia (numerador) comprende la divisin de la suma de las
diferencias elevadas al cuadrado entre el nmero de medias (muestras) menos uno, o bien, k
As, k - 1 es el nmero de grados de libertad para el numerador.
En forma semejante, el calcular cada variancia muestral, la suma de las diferencias
elevadas al cuadrado entre el valor medio de la muestra y cada valor de la misma se divide
entre el nmero de observaciones de la muestra menos uno, o bien, n - 1. Por tanto, el
38
promedio de las variancias muestrales se determina dividiendo la suma de las variancias de

la muestra entre el nmero de muestras, o k. Los grados de libertad para el denominador
son entonces, k(n -l).
Clculo de la razn F a partir de datos muestrales
Para calcular F se debe seguir el siguiente procedimiento

1) Calcular la estimacin interna (Denominador)
1.1) Determinar la variancia de cada muestra, utilizando la frmula
1.2) Obtener la estimacin interna de variancia (variancia promedio de la muestra),
mediante la frmula
2) Calcular la estimacin intermediante (Numerador)

2.1) Calcular la variancia de la medias muestrales, utilizando la frmula
2.2) Multiplicar la variancia de la medias muestrales por n
3) Razn F:
Ejemplo: Los pesos en kg por 1,7 m de estatura se ilustran en la siguiente tabla. La

finalidad es determinar si existen diferencias reales entre las cuatro muestras. Emplear un
nivel de significacin de 0,05
39
Solucin:
Las hiptesis Nula y Alternativa son:
H0: Todas las proporciones de la poblacin son iguales.
H1: No todas las proporciones de la poblacin son iguales.
Calculando los grados de libertad de numerador se tiene:
Calculando los grados de libertad del denominador se tiene:
Con 3 grados de libertad en el numerador, 20 grados de libertad en el denominador y con
un nivel de significacin =0,05 con lectura la tabla se obtiene F = 0,310. Para
tabla
calcular Fprueba se procede de la siguiente manera:

Calculando las medias aritmticas se obtiene:
Se llena la siguiente tabla para calcular las varianzas muestrales:
40
Remplazando los datos en la frmula de la varianza se obtienen las varianzas de las

4 muestras.
Calculando la estimacin interna de varianza se obtiene:
Para calcular la estimacin intermediante de varianzas primero se calculan las

varianzas de las medias aritmticas:
Para calcular la varianza de las medias aritmticas se calcula la media aritmtica de

las medias aritmticas, la cual es:
Se llena la siguiente tabla:
Se reemplaza los datos de la tabla para calcular las varianzas de las medias
aritmeticas:
Calculando la estimacin intermediante de varianza se obtiene:

41
Finalmente calculando Fprueba se obtiene:
Los clculos en Excel se muestran en la siguiente figura:
La grfica elaborada en Winstats y Paint se muestra en la siguiente figura:
42
Decisin: Como Fprueba es menor que Ftabla, H0 se aprueba, por lo tanto no existen
diferencias reales en los pesos de las 4 muestras, es decir, todas las proporciones de la
poblacin son iguales.
ANOVA:
El anlisis de la varianza (ANOVA del ingls Analysis of Variance) es una potente
herramienta estadstica, de gran utilidad tanto en la industria, para el control de procesos,
como en el laboratorio de anlisis, para el control de mtodos analticos. Los ejemplos de
aplicacin son mltiples, pudindose agrupar, segn el objetivo que persiguen, en dos
principalmente: la comparacin de mltiples columnas de datos y la estimacin de los
componentes de variacin de un proceso.
El ANOVA tambin puede utilizarse en situaciones donde ambas fuentes de
variacin son aleatorias. Un ejemplo sera el anlisis de algn compuesto de un vino
almacenado en un depsito. Supongamos que las muestras se toman aleatoriamente de
diferentes partes del depsito y se realizan diversos anlisis replicados. Aparte de la
variacin natural en la medida tendremos una variacin en la composicin del vino de les
diferentes partes del depsito.
Cuando tengamos un factor, controlado o aleatorio, aparte del error propio de la
medida, hablaremos del ANOVA de un factor. En el caso de que estuvisemos
desarrollando un nuevo mtodo colorimtrico y quisiramos investigar la influencia de
diversos factores independientes sobre la absorbancia, tales como la concentracin de
reactivo A y la temperatura a la que tiene lugar la reaccin, entonces hablaramos de un
ANOVA de dos factores. En los casos donde tenemos dos o ms factores que influyen, se
realizan los experimentos para todas las combinaciones de los factores estudiados, seguido
del ANOVA. Se puede deducir entonces si cada uno de los factores o una interaccin entre
ellos tienen influencia significativa en el resultado.
Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de
hiptesis, aunque se aceptan ligeras desviaciones de las condiciones ideales:
1. Cada conjunto de datos debe ser independiente del resto.
2. Los resultados obtenidos para cada conjunto deben seguir una distribucin normal.
3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa.
El anlisis de la varianza se basa en la descomposicin de la variabilidad total en
dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos
(variabilidad entre grupos o variabilidad explicada por el diseo) y otra parte que puede
considerarse como la variabilidad intrnseca de las observaciones (variabilidad dentro de
los grupos o residual).
La variabilidad entre grupos:
43
mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias
entre ellos (la hiptesis nula es cierta) obtendremos variabilidades pequeas. Si, por el
contrario, la hiptesis nula es falsa, cabe esperar que la variabilidad entre grupos sea
grande.
La variabilidad dentro de los grupos
mide la variabilidad intrnseca de las observaciones, es decir, si el experimento est bien

diseado y no se incluyen factores de variacin distintos al estudiado, debe ser error
puramente aleatorio producido como resultado de la variabilidad biolgica del material
experimental.
El contraste del Anlisis de la varianza se basa en la comparacin de la variabilidad
entre y la variabilidad dentro, rechazaremos la hiptesis nula siempre que la variabilidad
entre sea grande, pero utilizando como patrn de comparacin la variabilidad dentro.
Es decir, aceptaremos un efecto de los tratamientos siempre que estos produzcan mayores
diferencias en las unidades experimentales que las que habra sin la aplicacin de los
mismos.
Antes de proceder a la comparacin hemos de dividir las sumas de cuadrados por
sus correspondientes grados de libertad, relacionados con el nmero de observaciones con
las que se realiza el clculo.
De esta forma obtenemos los cuadrados medios o estimadores de las variabilidades.
La informacin completa se resume en la tabla siguiente. Es la que se conoce como tabla de
ANOVA y resume toda la informacin necesaria para realizar el correspondiente contraste.
El cociente entre la variabilidad entre y la variabilidad dentro, una vez que se

han hecho comparables, sigue una distribucin F de Snedecor con r-1 y n-r grados de
libertad. La distribucin nos sirve para buscar el valor a partir del cual el cociente es lo
44
suficientemente grande como para declarar las diferencias entre grupos estadsticamente
significativas.
Los estimadores de los efectos del os tratamientos se estiman a partir de:
y la parte propia de cada observacin (o residual):
Los residuales pueden servirnos para la validacin de las hiptesis bsicas.

Recurdese que, en realidad, un anlisis de la varianza de una va es equivalente a
un modelo de regresin en el que solo aparece una regresora cualitativa con r categoras
(mediante las correspondientes variables ficticias). La validacin de las hiptesis bsicas
puede hacerse entonces de la misma manera que en un modelo re regresin, utilizando
grficos de residuales.
Ejemplo: Se est investigando cual es el efecto de tres tipos de abono sobre dos tipos de
suelo. Se espera que el efecto de los distintos abonos se manifieste de forma diferente
dependiendo del tipo de suelo. Para el presente estudio tomaremos dos tipos de suelo, cido
y alcalino y tres tipos de abono que denotaremos con A, B y C. Tenemos as dos factores
(suelo y abono) con 2 y 3 niveles respectivamente, que resultan en 6 combinaciones.
Tomaremos un diseo factorial con dos factores y tres rplicas en cada una de las
combinaciones de los niveles de los dos factores. La respuesta es un ndice de abundancia
de una determinada especie tras la aplicacin de los distintos abonos. Los resultados se
muestran en la tabla siguiente.
45
46
47
48
Conclusin:
El intervalo de confianza no es ms que dar un intervalo donde afirmaremos o
pronosticaremos que en su interior se encontrar el parmetro a estimar, con una
probabilidad de acertar previamente fijada y que trataremos que sea la mayor posible, es
decir prxima a 1.
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma
que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms
precisa, aumentan sus posibilidades de error
El concepto de prueba de hiptesis se puede utilizar para probar hiptesis en
relacin con datos cualitativos
La regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin
entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio .
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o
razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir
relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose
Regresin mltiple.
Cuando es necesario hacer comparaciones entre tres o ms medias muestrales para
determinar si provienen de poblaciones iguales utilizamos la tcnica de anlisis de varianza.
Esta tcnica se realiza utilizando la distribucin de probabilidad F vista anteriormente. Para
el uso de esta tcnica es necesario seguir los siguientes supuestos:
1) Las poblaciones siguen una Distribucin de Probabilidad Normal
2) Las poblaciones tienen desviaciones estndar () iguales
3) Las muestras se seleccionan de modo independiente
La tcnica del anlisis de varianza descompone la variacin total en dos
componentes de variacin llamados variacin debida a los tratamientos y variacin
aleatoria.
49
Bibliografa.
50

Trabajo de Estadistica

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Trabajo de Estadistica

Загружено:

Авторское право:

Доступные форматы

Introduccin:

En la estadstica se aplican varios mtodos para la determinacin de probabilidades

Es importante el uso de la calculadora para hallar estos valores en la muestra.

Un dato importante como es de esperar, es el tamao de la muestra, que

Intervalo de confianza para la media.

que sigue una N (0,1)

que es la media muestral, sigue una

por tanto la desv. tip. Es

Hemos obtenido el intervalo que contiene a la media poblacional:

Tambin se puede expresar as: Se estima que la media es 41,5 ms menos un

En consecuencia, para obtener un error inferior a 0,05 minutos, deberemos tomar

Hemos obtenido el intervalo que contiene a la media poblacional:

As pues el intervalo buscado es:

Clculo del intervalo de confianza para la varianza de la poblacin en una variable

Hemos obtenido el intervalo que contiene a la varianza poblacional:

Ejemplo: La puntuacin media de una muestra de 20 jueces de gimnasia rtmica,

Tenemos que buscar un valor

Intervalo de confianza para la proporcin

Obteniendo como intervalo de confianza para p

Pero dado que desconocemos p, deberemos sustituirlo por p.

En la segunda parte del problema, si queremos que tenga mayora absoluta, el

En consecuencia, el nmero mnimo del tamao de la muestra para poder tener

La distribucin apropiada de la prueba estadstica se divide en dos regiones: una

Expresar la hiptesis nula

Pruebas de Hiptesis para Medias.

una muestra aleatoria de una de una poblacin con media

del Lmite garantiza que

es conocida, el Teorema Central

. Y de esta manera un Intervalo de

es desconocida, esta es estimada usando la varianza Muestral:

y un Intervalo de Confianza aproximado al

es un valor particular para

respecto al valor real de

, podemos establecer tres hiptesis alternativas

Usando la parte interactiva del SAS se pueden calcular

representa los promedios de quienes no trabajan y

Las hiptesis a probar son:

De la teora vista sabemos que un estimador puntual para

El estadstico de Prueba para esta hiptesis es:

y la regin de rechazo es de la forma: R.C. =

Usando la notacin esto es equivalente a:

El valor del estadstico de prueba es:

. Las pruebas de hiptesis para proporciones asumen

. Se desea probar alguna de las siguientes hiptesis:

El estadstico de prueba y las regiones de rechazo respectivas son:

Las hiptesis a probar son:

Cargamos el archivo de datos que se encuentra en la librera WORK y cuyo nombre

En el men seleccionamos Statistics Hyptesis Test y se obtiene el siguiente men:

Retomando el ejemplo 3, escogemos la opcin 3: Prueba para una proporcin: Aparece

En la opcin Intervals puede pedirle al programa que calcule un Intervalo de

Los resultados arrojados por el SAS son:

As, tanto el valor P (inferior a 0.0001) como el intervalo de confianza

es una muestra aleatoria de una

aleatoria de otra poblacin normal con media

Un estimador insesgado para

, pero Cul es la distribucin

Consideremos dos casos:

Bajo el supuesto de Normalidad,

Y como ambas variables son independientes entre s y

. Bajo el supuesto de normalidad en las muestras aleatorias se puede

La demostracin de este hecho es un poco ms elaborada y por eso no se presentar

las varianzas poblacionales, es decir para

Si dicho intervalo contiene el nmero 1, podemos afirmar que posiblemente las

diferentes. Un Intervalo de Confianza al