Академический Документы
Профессиональный Документы
Культура Документы
Parte I:
Intervalo de confianza:
En estadstica, se llama intervalo de confianza a un par o varios pares de nmeros
entre los cuales se estima que estar cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se
calcula a partir de datos de una muestra, y el valor desconocido es un parmetro
poblacional. La probabilidad de xito en la estimacin se representa con 1 - y se
denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel
de significacin, esto es, una medida de las posibilidades de fallar en la estimacin
mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma
que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms
precisa, aumentan sus posibilidades de error
Para ello vamos a establecer la notacin a utilizar:
Pues bien, esa expresin donde interviene la media muestral, la media poblacional,
la cuasi desviacin tpica y el tamao muestral, sigue una distribucin de probabilidad
conocida que se encuentra tabulada, llamada t-Student con n-1 grados de libertad. Se trata
pues de dar un intervalo (a, b) de modo que
P(a < g < b) = 1-a , siendo g el estadstico pivote correspondiente. Una vez
establecida esa desigualdad, despejamos el parmetro poblacional que es el que queremos
centrar en el intervalo.
Recordemos
distribucin normal de media
y desviacin tpica
como probaremos a
continuacin:
Calculemos la esperanza y la varianza de
A la expresin
se le denomina margen de error y en ocasiones se expresa en
tanto por ciento. Obsrvese que se trata del radio del intervalo.
Ejemplo: Se desea estimar la media del tiempo empleado por un nadador en una
prueba olmpica, para lo cual se cronometran 10 pruebas, obtenindose una media de 41,5
6
minutos. Sabiendo por otras pruebas que la desviacin tpica de esta variable para este
nadador es de 0,3 minutos, obtener un intervalo de confianza con un 95% de confianza.
Cuantas pruebas habra que cronometrar para que el margen de error en la estimacin de la
media fuese inferior a tres segundos. (Suponemos siempre que la variable que mide el
tiempo del nadador sigue una distribucin normal.)
Estamos en el caso de un intervalo de confianza para la media conociendo la
desviacin tpica de la poblacin. Del enunciado del problema se desprenden directamente
los siguientes datos:
Tenemos que buscar un valor z/2, de modo que en la distribucin N(0,1) deje una
rea de probabilidad a la derecha igual a /2, es decir 0,025. Como la funcin de
distribucin de probabilidad de la tabla N (0,1) me da el rea de probabilidad acumulada, es
decir a la izquierda, tengo que ver que valor de z me deja a la izquierda 0,975, que se
corresponde para un valor de z=1,96.
As pues el intervalo buscado es:
que sigue una distribucin llamada t-Student con n-1 grados de libertad, que presenta una
forma en la curva muy similar a la de la distribucin normal.
Estamos pues ante la siguiente situacin:
A la expresin
se le denomina margen de error y en ocasiones se
expresa en tanto por ciento. Obsrvese que se trata del radio del intervalo.
Ejemplo: La puntuacin media de una muestra de 20 jueces de gimnasia rtmica,
elegidos al azar, para una misma prueba, present una media de 9,8525 y una cuasi
desviacin tpica muestral de 0,0965. Calcular un intervalo de confianza con un 95% para
la nota media. (Suponemos que la variable que mide la puntuacin sigue una distribucin
normal.)
Estamos en el caso de un intervalo de confianza para la media desconociendo la
desviacin tpica de la poblacin.
Del enunciado del problema se desprenden directamente los siguientes datos:
Tenemos que buscar un valor t/2, de modo que en la distribucin t-Student con 19
grados de libertad deje una rea de probabilidad a la derecha igual a /2, es decir 0,025.
Dicho valor se corresponde con un valor de t =2,0930.
8
que sigue una distribucin llamada chi-cuadrado con n-1 grados de libertad,
que se representa por X2, que a diferencia de las anteriores presenta una curva no simtrica,
y las tablas dadas expresan el rea de probabilidad a la derecha de la variable. Estamos pues
ante la siguiente situacin:
As pues:
Alcanza un mximo en 1/4. Y por tanto esta ltima expresin se podra tomar como
radio del intervalo de confianza propuesto.
Ejemplo: En una encuesta hecha por alumnos y alumnas de un instituto a un total
de 100 votantes elegidos al azar en su Municipio, se obtiene que el 55% volvera a votar al
actual alcalde. Calcular un intervalo de confianza al 99% para la proporcin de votantes
favorables al actual alcalde. Cules deberan ser los tamaos muestrales, manteniendo el
mismo nivel de confianza, para tener la certeza que el alcalde actual ser reelegido por
mayora absoluta Los datos desprendidos del enunciado del problema son:
p'= 0,55
n = 100
1-a = 0,99
Tenemos que buscar un valor z/2, de modo que en la distribucin N(0,1) deje una
rea de probabilidad a la derecha igual a /2, es decir 0,005. Como la funcin de
distribucin de probabilidad de la tabla N (0,1) me da el rea de probabilidad acumulada, es
decir a la izquierda, tengo que ver que valor de z me deja a la izquierda 0,995, que se
corresponde para un valor de z=2,57.
As pues el intervalo buscado es:
11
II Parte:
Prueba de Hiptesis:
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en
parmetro poblacional. Despus de recolectar una muestra aleatoria, se compara la
estadstica muestral, as como la media (x), con el parmetro hipottico, se compara con
una supuesta media poblacional (). Despus se acepta o se rechaza el valor hipottico,
segn proceda. Se rechaza el valor hipottico slo si el resultado muestral resulta muy poco
probable cuando la hiptesis es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0)
es el valor hipottico del parmetro que se compra con el resultado muestral resulta muy
poco probable cuando la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de
significancia del 5%, entonces se rechaza la hiptesis nula solamente si el resultado
muestral es tan diferente del valor hipottico que una diferencia de esa magnitud o mayor,
pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la
estadstica muestral (el estimador no segado del parmetro que se prueba) o una versin
transformada de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de
una media poblacional, se toma la media de una muestra aleatoria de esa distribucin
normal, entonces es comn que se transforme la media en un valor z el cual, a su vez, sirve
como estadstica de prueba.
Etapa 4.- Establecer el valor o valores crticos de la estadstica de prueba. Habiendo
especificado la hiptesis nula, el nivel de significancia y la estadstica de prueba que se van
a utilizar, se produce a establecer el o los valores crticos de estadstica de prueba. Puede
haber uno o ms de esos valores, dependiendo de si se va a realizar una prueba de uno o dos
extremos.
Etapa 5.- Determinar el valor real de la estadstica de prueba. Por ejemplo, al
probar un valor hipottico de la media poblacional, se toma una muestra aleatoria y se
determina el valor de la media muestral. Si el valor crtico que se establece es un valor de z,
entonces se transforma la media muestral en un valor de z.
Etapa 6.- Tomar la decisin. Se compara el valor observado de la estadstica
muestral con el valor (o valores) crticos de la estadstica de prueba. Despus se acepta o se
rechaza la hiptesis nula. Si se rechaza sta, se acepta la alternativa; a su vez, esta decisin
tendr efecto sobre otras decisiones de los administradores operativos, como por ejemplo,
mantener o no un estndar de desempeo o cul de dos estrategias de mercadotecnia
utilizar.
12
, donde
es de la forma:
13
Si
es de la forma:
Si
ZC
vs
% para
. Estadstico de Prueba:
xX
sX
14
,
, y que
muestras son independientes entre s.
vs
. Ambas
dado.
Para el Ejemplo en concreto se desea probar:
vs
.
De los resultados muestrales se obtuvo:
15
que los tamaos n o m son grandes para utilizar la aproximacin dada por el TLC. Sea
un valor particular de
vs
y R.C. =
dado
Ejemplo: Usando la base de datos anterior, suponga que se tiene la creencia de que
ms del 20% de los estudiantes en dicha universidad Trabajan. Es cierta dicha afirmacin?
Sea X: Nmero de Estudiantes en la muestra de 213 que trabajan. Entonces
, con p desconocida.
16
Las pruebas de hiptesis para medias y diferencia de medias aqu relacionadas asumen
que las respectivas poblaciones son Normales.
17
La primera es una prueba de hiptesis para la media de una poblacin Normal con
varianza conocida
La segunda es una prueba de hiptesis para la media de una poblacin Normal con
varianza desconocida
La tercera es prueba de hiptesis para una proporcin poblacional. Se asume un
tamao de muestra grande
La cuarta es prueba de hiptesis para la varianza de una poblacin Normal
La quinta prueba de hiptesis para diferencia de medias de dos poblaciones
Normales con varianzas desconocidas. Aqu se relacionan dos casos: Varianzas
Iguales o Varianzas desiguales
La sexta es una prueba de medias para datos Pareados
La sptima es una prueba de hiptesis para la diferencia entre dos proporciones de
dos poblaciones diferentes. Se asumen tamaos de muestra grandes
La ltima es una prueba de hiptesis para igualdad entre varianzas de dos
poblaciones normales.
y la alternativa se colocan en
18
y varianza
y que
es otra muestra
, donde
son
19
es
, entonces:
. Adems:
. Entonces:
, donde
.
Caso II:
demostrar que:
,donde
Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean
desconocidas, podemos usar un Intervalo de Confianza al
para el cociente de
para
para
Y2
est basado en la
. As, un
es de la forma:
, donde
.
Los valores para
H0 :
X2
Y2
Estadstico de Prueba:
,
H0 :
vs
X2
Y2
1
.
R.C. =
dado.
21
H0 :X Y 0
Usualmente
de Medias.
Caso I:
vs
, donde
es un valor particular.
.
La regin crtica es similar al caso de una muestra aleatoria:
R.C. =
TC | TC t n m 2
,
dado. El valor P de esta prueba se calcula como:
.
TC
Caso II:
X Y
S
2
X
2
Y
: t
dado. El valor P
Ejemplo: Suponga que se cree que los automviles con transmisin Mecnica
consumen en promedio ms gasolina que los automviles con transmisin Automtica.
Usando la base de datos anterior, es cierta esta afirmacin?
Usando la parte interactiva del SAS podemos obtener unas estadsticas descriptivas
bsicas respecto al Consumo de Gasolina en autos con ambos tipos de transmisiones:
22
y varianza
X2
y que
, donde
vs
. Primero
X2
H0 :
X2
Y2
vs
H0 :
X2
Y2
observe que la Hiptesis Nula es rechazada, pues el valor P es pequeo. Al mismo tiempo
24
25
Los resultados obtenidos muestran las hiptesis tanto para varianzas iguales como
para varianzas diferentes:
Observe que el valor del estadstico de Prueba para Varianzas diferentes es negativo,
esto es porque para el SAS la poblacin 1 son los consumos de los autos con transmisin
Automtica y la Poblacin 2 los autos con transmisin Mecnica.
La conclusin de la prueba, usando el Intervalo de Confianza o el Valor P, permite
afirmar que el consumo de gasolina para los autos con transmisin Mecnica es
SUPERIOR al consumo de gasolina para autos con transmisin Automtica.
El siguiente grfico nos muestra evidencia inicial de que esta afirmacin es cierta.
26
Diferencias de proporciones:
En algunos diseos de investigacin, el plan muestral requiere seleccionar dos
muestras independientes, calcular las proporciones muestrales y usar la diferencia de las
dos proporciones para estimar o probar una diferencia entre las mismas. Las aplicaciones
son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen
datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios
diferentes salen resultados ligeramente diferentes pero qu tanta diferencia se requiere
para que sea estadsticamente significativo? De eso se tratan las pruebas estadsticas de
diferencias de proporciones.
El estadstico Z para estos casos se calcula de la siguiente manera:
27
28
Varianza (chi-cuadrado):
La varianza como medida de dispersin es importante dado que nos ofrece una
mejor visin de dispersin de datos.
Por ejemplo: si se determina que la poblacin califica en promedio con 6 el
desempeo del gobierno; al decir que la varianza es de cero (y por lo tanto la desviacin
estndar es de cero) podemos confiar en que aproximadamente la misma calificacin le
asignara toda la poblacin, en otras palabras, en trminos generales la poblacin en su
conjunto ve al gobierno con la misma calificacin ya que no hay variacin o dispersin en
dicha calificacin.
Por el contrario, con la misma calificacin promedio de 6 pero con una varianza
muy alta podemos interpretar que hay gente contenta con el gobierno que le ha asignado
calificaciones muy arriba del 6; pero hay un conjunto poblacional muy molesto con el
gobierno que asigna calificaciones muy por debajo del 6. Este tipo de informacin solo es
posible mediante el anlisis de la varianza.
Otro campo del conocimiento donde la varianza se ocupa en gran medida es en
control de calidad; cuando un producto se elabora el rea de control de calidad busca que
los productos est dentro de ciertos lmites de tolerancia, pero tambin que la variabilidad
de un producto sea lo menor posible. De ah viene la filosofa seis sigma (significa seis
veces la varianza).
Nuevamente consideramos que la poblacin sigue una distribucin de probabilidad
normal, para lo cual usamos el siguiente estadstico de prueba:
(pronunciado
como "jicuadrado" y a
veces como
"chi-cuadrado")
Ejemplo: Una empresa est interesada en lanzar un nuevo producto al mercado. Tras
realizar una campaa publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25
no conocan el producto. A un nivel de significacin del 1% apoya el estudio las siguientes
hiptesis?
a. Ms del 3% de la poblacin no conoce el nuevo producto.
b. Menos del 2% de la poblacin no conoce el nuevo producto
Datos:
n = 1000
x = 25
29
Donde:
x = ocurrencias
n = observaciones
x
n
= proporcin de la muestra
= proporcin propuesta
Solucin:
a)
a = 0,01
H0 es aceptada, ya que zprueba (-0,93) es menor que ztabla (2,326), por lo que no es cierto
que ms del 3% de la poblacin no conoce el nuevo producto.
En Excel:
30
b)
a = 0,01
H0 es rechazada, ya que zprueba (1,13) es menor que ztabla (2,326), por lo que es cierto
que menos del 2% de la poblacin no conoce el nuevo producto.
III parte:
Regresin lineal:
El anlisis de regresin es una tcnica estadstica para investigar la relacin
funcional entre dos o ms variables, ajustando algn modelo matemtico.
La regresin lineal simple utiliza una sola variable de regresin y el caso ms
sencillo es el modelo de lnea recta. Supngase que se tiene un conjunto de n pares de
31
observaciones (xi,yi), se busca encontrar una recta que describa de la mejor manera cada
uno de esos pares observados.
Estimacin de Mnimos cuadrados:
De todas las curvas que se aproximan a un conjunto de datos definidos por un
punto, la curva que tiene la propiedad de que D12+D22+.+ DN2 es un mnimo que se
denomina curva de ajuste ptimo.
Se dice que una curva con esta propiedad se ajusta a los datos en el sentido de
mnimos cuadrados y se llama curva de mnimos cuadrado. Entonces, una recta con esta
propiedad se denomina recta de mnimos cuadrados, una parbola con esta propiedad se
denomina parbola de mnimos cuadrados, etc.
El mtodo de estimacin de Mnimos cuadrados, que consiste en encontrar aquellos
valores de a y de b que hagan mnima la suma de los cuadrados de las desviaciones de las
observaciones respecto de la recta que representa el modelo, en el sentido vertical.
En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados
se debe minimizar, para determinar a y b. Estos segmentos representan los errores e del
modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto
sobre el eje vertical.
La solucin est dada por las siguientes frmulas:
32
La expresin anterior refleja una relacin lineal, y en ella slo figura una nica
variable explicativa, recibiendo el nombre de relacin lineal simple. El calificativo de
simple se debe a que solamente hay una variable explicativa.
Supongamos ahora que disponemos de T observaciones de la variable Y
( 1 2 , , ,T Y Y Y ) y de las correspondientes observaciones de X ( 1 2 , , ,T X X X ). Si
hacemos extensiva (3) a la relacin entre observaciones, tendremos el siguiente conjunto de
T ecuaciones:
Ejemplo: Representar la nube de puntos (grfico x-y) ventas vs. publicidad, junto
con la recta de regresin asociada. Piensas que el modelo obtenido sirve para explicar las
ventas obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha
gastado en publicidad?
Seleccionamos Stat > Regression > Fitted Line Plot :
34
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el
94% del comportamiento de las ventas a travs de la evolucin, por lo que es un buen ajuste
y por tanto, los residuos son mnimos.
Regresin lineal mltiple:
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o
razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir
relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose
Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se
encuentran variables que de alguna manera estn relacionados entre s, por lo que es posible
que una de las variables pueda relacionarse matemticamente en funcin de otra u otras
variables.
El modelo de regresin lineal mltiple con p variables predictoras y basado en n
observaciones tomadas es de la forma:
para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, ste puede ser
considerado como un sistema de ecuaciones lineales de la forma:
Ejemplo: La entidad bancaria City Banking est estudiando el nmero de veces por da que
se usa el cajero automtico localizado en un barrio de una determina ciudad espaola del
sur. Los siguientes datos son las veces por da que fue usado el cajero en los ltimos 30
das:
Del grfico anterior podramos concluir que el valor que ms se repite es 84 y, adems,
podemos apreciar que los datos no parecen seguir una distribucin normal.
Parte IV:
Anlisis de varianza:
El anlisis de varianza es una tcnica que se puede utilizar para decidir si las medias
de dos o ms poblaciones son iguales. La prueba se basa en una muestra nica, obtenida a
partir de cada poblacin. El anlisis de varianza puede servir para determinar si las
diferencias entre las medias muestrales revelan las verdaderas diferencias entre los valores
36
medios de cada una de las poblaciones, o si las diferencias entre los valores medios de la
muestra son ms indicativas de una variabilidad de muestreo.
Si el valor estadstico de prueba (anlisis de varianza) nos impulsa a aceptar la
hiptesis nula, se concluira que las diferencias observadas entre las medias de las muestras
se deben a la variacin casual en el muestreo (y por tanto, que los valores medios de
poblacin son iguales). Si se rechaza la hiptesis nula, se concluira que las diferencias
entre los valores medios de la muestra son demasiado grandes como para deberse
nicamente a la casualidad (y por ello, no todas las medias de poblacin son iguales).
Los datos para el anlisis de varianza se obtienen tomando una muestra de cada
poblacin y calculando la media muestral y la variancia en el caso de cada muestra.
Existen tres supuestos bsicos que se deben satisfacer antes de que se pueda utilizar el
anlisis de variancia.
1) Las muestras deben ser de tipo aleatorio independiente.
2) Las muestras deben ser obtenidas a partir de poblaciones normales.
2
2
2
3) Las poblaciones deben tener variancias iguales (es decir 1= 2 ..= k )
El anlisis de varianza, como su nombre lo indica, comprende el clculo de
varianzas. La varianza de una muestra es el promedio de las desviaciones elevadas al
cuadrado de la media del grupo. Simblicamente, esto se representa de la siguiente manera:
Cabe observar que se debe utilizar n - 1, ya que se est trabajando con datos
muestrales. De ah que, para obtener la varianza muestral, el procedimiento sea el siguiente:
1) Calcular la media muestral
2) Restar la media de cada valor de la muestra.
3) Elevar al cuadrado cada una de las diferencias.
4) Sumar las diferencias elevadas al cuadrado.
5) Dividir entre n - 1
Distribucin de Fisher:
La necesidad de disponer de mtodos estadsticos para comparar las varianzas de
dos poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente se
desea comparar la precisin de un instrumento de medicin con la de otro, la estabilidad de
un proceso de manufactura con la de otro o hasta la forma en que vara el procedimiento
para calificar de un profesor universitario con la de otro.
A diferencia de otras pruebas de medias que se basan en la diferencia existente entre
dos valores, el anlisis de varianza emplea la razn de las estimaciones, dividiendo la
estimacin intermediante entre la estimacin interna
37
Esta razn F fue creada por Ronald Fisher (1890-1962), matemtico britnico, cuyas
teoras estadsticas hicieron mucho ms precisos los experimentos cientficos. Sus
proyectos estadsticos, primero utilizados en biologa, rpidamente cobraron importancia y
fueron aplicados a la experimentacin agrcola, mdica e industrial. Fisher tambin
contribuy a clarificar las funciones que desempean la mutacin y la seleccin natural en
la gentica, particularmente en la poblacin humana.
El valor estadstico de prueba resultante se debe comparar con un valor tabular de F,
que indicar el valor mximo del valor estadstico de prueba que ocurra si H 0 fuera
verdadera, a un nivel de significacin seleccionado. Antes de proceder a efectuar este
clculo, se debe considerar las caractersticas de la distribucin F.
Caractersticas de la distribucin F
- Existe una distribucin F diferente para cada combinacin de tamao de muestra y
nmero de muestras. Por tanto, existe una distribucin F que se aplica cuando se toman
cinco muestras de seis observaciones cada una, al igual que una distribucin F diferente
para cinco muestras de siete observaciones cada una. A propsito de esto, el nmero
distribuciones de muestreo diferentes es tan grande que sera poco prctico hacer una
extensa tabulacin de distribuciones. Por tanto, como se hizo en el caso de la distribucin t,
solamente se tabulan los valores que ms comnmente se utilizan. En el caso de la
distribucin F, los valores crticos para los niveles 0,05 y 0,01 generalmente se
proporcionan para determinadas combinaciones de tamaos de muestra y nmero de
muestras.
- La distribucin es continua respecto al intervalo de 0 a + . La razn ms pequea
es 0. La razn no puede ser negativa, ya que ambos trminos de la razn F estn elevados al
cuadrado. Por otra parte, grandes diferencias entre los valores medios de la muestra,
acompaadas de pequeas variancias muestrales pueden dar como resultado valores
extremadamente grandes de la razn F.
- La forma de cada distribucin de muestreo terico F depende del nmero de
grados de libertad que estn asociados a ella. Tanto el numerador como el denominador
tienen grados de libertad relacionados.
Determinacin de los grados de libertad
Los grados de libertad para el numerador y el denominador de la razn F se basan
en los clculos necesarios para derivar cada estimacin de la variancia de la poblacin. La
estimacin intermediante de variancia (numerador) comprende la divisin de la suma de las
diferencias elevadas al cuadrado entre el nmero de medias (muestras) menos uno, o bien, k
As, k - 1 es el nmero de grados de libertad para el numerador.
En forma semejante, el calcular cada variancia muestral, la suma de las diferencias
elevadas al cuadrado entre el valor medio de la muestra y cada valor de la misma se divide
entre el nmero de observaciones de la muestra menos uno, o bien, n - 1. Por tanto, el
38
3) Razn F:
39
Solucin:
Las hiptesis Nula y Alternativa son:
H0: Todas las proporciones de la poblacin son iguales.
H1: No todas las proporciones de la poblacin son iguales.
Calculando los grados de libertad de numerador se tiene:
Calculando los grados de libertad del denominador se tiene:
Con 3 grados de libertad en el numerador, 20 grados de libertad en el denominador y con
un nivel de significacin =0,05 con lectura la tabla se obtiene F = 0,310. Para
tabla
40
Se reemplaza los datos de la tabla para calcular las varianzas de las medias
aritmeticas:
42
Decisin: Como Fprueba es menor que Ftabla, H0 se aprueba, por lo tanto no existen
diferencias reales en los pesos de las 4 muestras, es decir, todas las proporciones de la
poblacin son iguales.
ANOVA:
El anlisis de la varianza (ANOVA del ingls Analysis of Variance) es una potente
herramienta estadstica, de gran utilidad tanto en la industria, para el control de procesos,
como en el laboratorio de anlisis, para el control de mtodos analticos. Los ejemplos de
aplicacin son mltiples, pudindose agrupar, segn el objetivo que persiguen, en dos
principalmente: la comparacin de mltiples columnas de datos y la estimacin de los
componentes de variacin de un proceso.
El ANOVA tambin puede utilizarse en situaciones donde ambas fuentes de
variacin son aleatorias. Un ejemplo sera el anlisis de algn compuesto de un vino
almacenado en un depsito. Supongamos que las muestras se toman aleatoriamente de
diferentes partes del depsito y se realizan diversos anlisis replicados. Aparte de la
variacin natural en la medida tendremos una variacin en la composicin del vino de les
diferentes partes del depsito.
Cuando tengamos un factor, controlado o aleatorio, aparte del error propio de la
medida, hablaremos del ANOVA de un factor. En el caso de que estuvisemos
desarrollando un nuevo mtodo colorimtrico y quisiramos investigar la influencia de
diversos factores independientes sobre la absorbancia, tales como la concentracin de
reactivo A y la temperatura a la que tiene lugar la reaccin, entonces hablaramos de un
ANOVA de dos factores. En los casos donde tenemos dos o ms factores que influyen, se
realizan los experimentos para todas las combinaciones de los factores estudiados, seguido
del ANOVA. Se puede deducir entonces si cada uno de los factores o una interaccin entre
ellos tienen influencia significativa en el resultado.
Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de
hiptesis, aunque se aceptan ligeras desviaciones de las condiciones ideales:
1. Cada conjunto de datos debe ser independiente del resto.
2. Los resultados obtenidos para cada conjunto deben seguir una distribucin normal.
3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa.
El anlisis de la varianza se basa en la descomposicin de la variabilidad total en
dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos
(variabilidad entre grupos o variabilidad explicada por el diseo) y otra parte que puede
considerarse como la variabilidad intrnseca de las observaciones (variabilidad dentro de
los grupos o residual).
La variabilidad entre grupos:
43
mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias
entre ellos (la hiptesis nula es cierta) obtendremos variabilidades pequeas. Si, por el
contrario, la hiptesis nula es falsa, cabe esperar que la variabilidad entre grupos sea
grande.
La variabilidad dentro de los grupos
suficientemente grande como para declarar las diferencias entre grupos estadsticamente
significativas.
Los estimadores de los efectos del os tratamientos se estiman a partir de:
y la parte propia de cada observacin (o residual):
45
46
47
48
Conclusin:
El intervalo de confianza no es ms que dar un intervalo donde afirmaremos o
pronosticaremos que en su interior se encontrar el parmetro a estimar, con una
probabilidad de acertar previamente fijada y que trataremos que sea la mayor posible, es
decir prxima a 1.
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma
que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms
precisa, aumentan sus posibilidades de error
El concepto de prueba de hiptesis se puede utilizar para probar hiptesis en
relacin con datos cualitativos
La regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin
entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio .
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o
razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir
relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose
Regresin mltiple.
Cuando es necesario hacer comparaciones entre tres o ms medias muestrales para
determinar si provienen de poblaciones iguales utilizamos la tcnica de anlisis de varianza.
Esta tcnica se realiza utilizando la distribucin de probabilidad F vista anteriormente. Para
el uso de esta tcnica es necesario seguir los siguientes supuestos:
1) Las poblaciones siguen una Distribucin de Probabilidad Normal
2) Las poblaciones tienen desviaciones estndar () iguales
3) Las muestras se seleccionan de modo independiente
La tcnica del anlisis de varianza descompone la variacin total en dos
componentes de variacin llamados variacin debida a los tratamientos y variacin
aleatoria.
49
Bibliografa.
50