Вы находитесь на странице: 1из 45

UNIDAD ACADMICA No. 03.

Nombre de la Unidad: Pruebas de Hiptesis

Introduccin:
Cuando se tiene preconcebida una idea del valor de un parmetro poblacional
implica que participan dos teoras o hiptesis, este es otro aspecto de la,
inferencia estadstica en esta unidad se desarrollar una metodologa paso a
paso que permita hacer inferencias sobre un parmetro muestral mediante el
anlisis diferencial entre los resultados observados y de esta manera disponer de
una slida fundamentacin conceptual para realizar apropiadamente una
evaluacin y sustentacin a una decisin.
Objetivo General de la Unidad: En esta unidad se presentara el concepto de la
prueba de hiptesis estadstica, las distribuciones mustrales presentadas en el
anterior capitulo sirven para construir pruebas con muestras grandes o pequeas
con los valores de los parmetros poblacionales de inters para el Ingeniero o
cientfico.
Objetivos Especficos del Unidad:

Manejar las pruebas para muestras grandes en una y dos poblaciones .


Comprender y aplicar las pruebas para muestras pequeas en una y dos
poblaciones.

RESUMEN
En el presente capitulo se describirn las pruebas de hiptesis para: medias y
varianzas en variables cuantitativas y pruebas para las proporciones en
variables con aplicaciones en ciencias e Ingeniera.

GLOSARIO
HIPOTESIS : Afirmacin o conjetura acerca de dos o ms poblaciones.
HIPOTESIS NULA: Se define como la hiptesis que se desea contrastar. El
nombre de "nula" significa sin valor, efecto o consecuencia, lo cual sugiere
que H0, debe identificarse con la hiptesis de no cambio (a partir de la
opinin actual); no diferencia, no mejora, etc.

Pgina 1 de 45

HIPOTESIS ALTERNATIVA: Representada por H1, es la afirmacin


contradictoria a Ho, y sta es la hiptesis del investigador.
ERROR DE TIPO I : Tambin denominado error de tipo alfa () o falso
positivo, es el error que se comete cuando el investigador no acepta la
hiptesis nula (Ho) siendo esta verdadera en la poblacin.
ERROR DE TIPO II : Tambin llamado error de tipo beta () que es la
probabilidad de que exista este error o falso negativo, se comete cuando el
investigador no rechaza la hiptesis nula siendo esta falsa en la poblacin.
Desarrollo temtico.
Desarrollo temtico.
3.1 Hiptesis Estadsticas conceptos.
3.2 Elementos de una Prueba de Hiptesis Estadstica
3.3 Pruebas con respecto a una sola media con varianza poblacional conocida
3.4 Pruebas con respecto a una sola media con varianza poblacional desconocida
3.5 Pruebas con respecto a dos medias con varianzas poblacionales conocidas
3.6 Pruebas con respecto a dos medias con varianzas poblacionales
desconocidas, asumiendo que son iguales.
3.7 Pruebas con respecto a dos medias con varianzas poblacionales
desconocidas, asumiendo que son diferentes
3.8 Prueba de hipotesis para observaciones pareadas.
3.9 Pruebas con respecto a la proporcin en una poblacin.
3.10 Pruebas con respecto a la proporcin en dos poblaciones
3.11 Prueba de hiptesis para la varianza

3.1 Hiptesis Estadsticas conceptos.


Muchas veces el Ingeniero o cientfico no necesita la estimacin del parmetro
poblacional sino ms bien una metodologa para tomar una decisin que se base
en evidencias (datos), por ejemplo un ingeniero tenga que decidir sobre la muestra
si hay una diferencia entre la precisin de dos tipos de medidores, primero
definamos algunos conceptos en una hiptesis estadstica.
Hiptesis Estadsticas: Es una afirmacin o conjetura respecto a una o ms
poblaciones.
Hiptesis Nula: Se refiere a la afirmacin que se quiere probar se denota
mediante H0
Hiptesis Alternativa: Lo que responde a la inquietud del investigador.

Pgina 2 de 45

Error de tipo I: Se presenta cuando se rechaza la hiptesis nula siendo


verdadera.
Error de tipo II: Se presenta cuando no se rechaza la hiptesis nula siendo falsa.
Decisin

Ho es verdadera

Ho es falsa

Aceptar Ho

No hay error

Error tipo II

Rechazar Ho

Error tipo I

No hay error

Potencia de una Prueba : Es la probabilidad de rechazar la hiptesis nula dado


que la alternativa es verdadera.
Pruebas de una cola: Se les denomina tambin unilaterales pueden ser derechas
o izquierdas as:
Unilateral Derecha

H0
H1

Unilateral Izquierda

H0
H1
Pruebas de dos colas: Se le denomina tambin bilateral se enuncia as:

H0
H1

3.2 Elementos de una Prueba de Hiptesis Estadstica


Una prueba de hiptesis consta de cinco partes:
Planteamiento de la Hiptesis nula H 0

Planteamiento de la Hiptesis alternativa H 1


Prueba estadstica y su valor p
Establecimiento de la regin de rechazo
Conclusin

Ejemplos de formulacin de una hiptesis:


1) Un fabricante de bombillos afirma que la duracin media de su producto es
mayor de 800 horas. Establezca las hiptesis nulas y alternativa a utilizar
para probar esta afirmacin.

Pgina 3 de 45

La afirmacin del fabricante se deber rechazar solo si es mayor de 800 horas


y no se debe rechazar si es menor o igual a 800 horas entonces probamos:

H 0 800
H1 800
Unilateral Derecha
2) En cierta ciudad la alcalda afirma que la proporcin de hogares con gas
natural es del 45% . Para probar esta afirmacin, se inspecciona una
muestra grande de viviendas, la proporcin de estas viviendas con gas
natural se registra y se utiliza como estadstico de prueba. Establezca la
hiptesis nula y alternativa a utilizarse en esta prueba .
Si el estadstico de prueba es mayor o menor que p= 0,45 rechazaramos la
afirmacin de la alcalda , por lo que la hiptesis quedara:

H 0 0,45
H 1 0,45
3.3 Pruebas con respecto a una sola media con varianza poblacional
conocida.
En este caso se trabajara la distribucin normal y el estadgrafo que me permitir
aceptar o rechazar la hiptesis nula ser:

Se establecer segn el tipo de prueba (unilateral o bilateral), un nivel de


significancia , si por ejemplo es unilateral derecha tendremos:

Ejemplo 1:

Pgina 4 de 45

La estatura promedio de los estudiantes varones en el primer semestre de cierta


universidad es de 172 cm, con una desviacin estndar de 9 cm, Hay alguna
razn para creer que hay algn cambio en la estatura promedio, si una muestra de
65 estudiantes en el grupo actual de primer semestre tiene una altura promedio de
175 cm? Utilice un nivel de significancia de 0,05 .
La formulacin de la hiptesis ser:

H 0 172
H 1 172
El nivel de significancia: =0,05
La regin critica estar:

Aplicando el estadgrafo:

175 172
2,69
7
65

Como el estadgrafo dio mayor podemos concluir que con la evidencia tomada el
promedio de las estaturas de los estudiantes es mayor de 172 cm , la potencia de
la prueba ser :

P PZ 2,69 0,0035726 4 / 1000 , el grafico:

Pgina 5 de 45

Es decir, aproximadamente en 4 de 1000 muestras de tamao 65 se aceptara la


hiptesis nula.
Ejemplo 2
La resistencia media a la rotura de una varilla de construccin es de 60000 P.S.I.
con una desviacin estndar de 1000 P.S.I. Para verificar la afirmacin se toma
una muestra aleatoria de 50 varillas que se fallan y se obtuvo una media de 59000
P.S.I. Pruebe la hiptesis de que la media de las varillas es de 60000 P.S.I. Utilice
un nivel de significancia de 0,01.
La formulacin de la hiptesis ser:

H 0 60000 P.S .I
H1 60000 P.S .I
El nivel de significancia: =0,01
La regin critica estar:

Pgina 6 de 45

Aplicando el estadgrafo:

59000 60000
2,32
1000
50

Como el estadgrafo dio entre los lmites podemos concluir que con la evidencia
tomada el promedio de la resistencia a la rotura de las varillas no es diferente de
60000 P.S.I.

3.4 Pruebas con respecto a una sola media con varianza poblacional
desconocida.
Si tenemos una variable aleatoria que representa una distribucin normal con y
desconocidas, entonces la variable aleatoria tiene una distribucin t de student
con n-1 grados de libertad. La estructura es igual que la anterior, excepto que el
valor de se reemplaza por la desviacin estndar muestral s y la distribucin
normal estndar se sustituye con la distribucin t, el estadstico a emplear es:

Pgina 7 de 45

x
s
n

Si formulramos una hiptesis bilateral el grafico ser:

Ejemplo
Un fabricante de pinturas afirma que el tiempo medio de secado de uno de sus
productos bajo ciertas condiciones de temperatura exterior y superficie a aplicar,
es de 2 horas, para verificar o rechazar dicha afirmacin se toma una muestra
aleatoria de 10 especmenes bajo las condiciones que especifica el fabricante, los
resultados de los tiempos de secado en horas fueron:
xi

2,3

2,5

3,2

1,8

1,9

3,2

2,8

2,5

2,6

1,7

Con un nivel de significancia de 0,05 de la evidencia tomada, podemos afirmar


que el tiempo de secado de la pintura es mayor?.
Nota: Asumir que los tiempos de secado se comportan de forma aproximadamente
normal.
La formulacin de la hiptesis:

H 0 2 horas
H1 2horas

Pgina 8 de 45

De la muestra tenemos:

x 2,45
s 0,535931173
n 10
Los grados de libertad

v n 1
v 10 1 9
El valor crtico en la t de student para los 9 grados de libertad ser:

El estadgrafo de prueba:

2,45 2
2,66
0,535931173
10

Como el estadstico es mayor que el valor crtico podemos concluir que el tiempo
medio de secado es mayor a 2 horas, la potencia de la prueba estar dada por:

P Pt 2,66 0,013124928 1%

Pgina 9 de 45

Que se puede interpretar como: de 100 muestras de tamao 10, en una de estas
se cumplir la hiptesis nula.
3.5 Pruebas con respecto a dos medias con varianzas poblacionales
conocidas.
Es fcil comprender que la relacin entre las pruebas de hiptesis e intervalos de
confianza, las pruebas con respecto a dos medias constituyen una herramienta
muy importante para el ingeniero o cientfico, ya que permite comparar procesos.
Si tenemos dos muestras aleatorias independientes de tamao n1 y n2, de dos
poblaciones con medias 1 y 2 y varianzas 12 y 22 , la Variable aleatoria tiene
una distribucin normal estndar con n1 y n2, suficientemente grandes, el
estadstico es:

x 2 1 2
12 22

n n
2
1

Ejemplo:
1

Un Ingeniero Qumico est interesado en reducir el tiempo de secado de una


pintura tapa poros. Se prueban dos frmulas de pintura; la frmula 1 tiene el
contenido qumico estndar, y la frmula 2 tiene un nuevo ingrediente secante que
debe reducir el tiempo de secado. De la experiencia se sabe que la desviacin
estndar del tiempo de secado es diez minutos, y esta variabilidad inherente no
debe verse afectada por la adicin del nuevo ingrediente. Se pintan diez
especmenes con la frmula 1, y quince con la frmula 2. Los dos tiempos
promedio de secado mustrales son 121 min y 112 min respectivamente. A qu
conclusiones puede llegar el diseador del producto sobre la eficacia del nuevo
ingrediente, utilizando un nivel de significancia de 0,05.?
1

Problema Propuesto en:

http://www.itch.edu.mx/academic/industrial/estadistica1/cap02b.html

La formulacin de la hiptesis:

H 0 : 1 2 0
H1 : 1 2 0

Pgina 10 de 45

Es una prueba unilateral derecha puesto que se busca rechazar Ho si el nuevo


ingrediente disminuye el tiempo promedio de secado, por eso se pone la diferencia
mayor a cero o sea positiva para poder probar que 1 es menor que 2 .

Segn las observaciones tenemos:

Formula 1

Formula 2

x1 121

x 2 112
2 10

1 10
n 1 10

n 2 15

El estadstico
Z

121 112 0 2,20


10 2 10 2

10 15

Conclusin: como el estadstico dio mayor que el valor crtico, con la evidencia
tomada se puede afirmar que el tiempo medio de secado es menor con la
frmula 2.
La potencia de la prueba

P PZ 2,20 0,01374317 1%

Pgina 11 de 45

3.6 Pruebas con respecto a dos medias con varianzas poblacionales


desconocidas, asumiendo que son iguales.
En la prctica las varianzas poblacionales generalmente no se conocen, motivo
por el cual si tenemos dos poblaciones que se comporten de forma
aproximadamente normal y asumimos que la variabilidad entre ambos grupos es
similar, se puede utilizar la prueba t combinada (prueba t de dos muestras), el
estadstico de prueba es:

x x
1

Sp *

1 1

n1 n2

Donde
2

SP

n1 1s12 n2 1s22

n1 n2 2

v n1 n2 2 " Grados de Libertad "


Ejemplo:
Los siguientes datos registrados en das, representan el tiempo de recuperacin
para pacientes que se tratan al azar con uno de los medicamentos para curar
infecciones graves de la vejiga:
Medicamento 1

Medicamento 2

n1 = 20

n2 = 22

Pacientes

Pacientes

x 1 =17

x 2 =19

das

das

s12 = 1.5

s22 = 1.8

Con un nivel de significancia del 0,01 probar si el medicamento 1 es ms eficiente


que el 2, suponga poblaciones normales con varianzas iguales.

Pgina 12 de 45

Similar al ejercicio de estimacin por intervalos ( pag 297 9.41) en el libro de :


Probabilidad y Estadstica para Ingeniera y Ciencias Autores: Walpole , Myers y
Myers Ye, Editorial Pearson , edicin Octava 2007
La formulacin de la hiptesis:

H 0 : 2 1 0
H1 : 2 1 0
El valor crtico para
v=20+22-2= 40 Grados de libertad
=0,05
es:

t0,05 1,684

Para el clculo del estadgrafo primero determinamos la varianza muestral asociada.

S P2

20 11,5 22 11,8 1,6575

20 22 2
S P 1,28743932
El estadstico

x1 2 1

Sp *
t

1
1

n1 n2

19 17 0
1
1
1,28743932 *

20 22

5,03

Conclusin: Como el estadgrafo dio mayor que el valor critico se rechaza la


hiptesis nula es decir el medicamento 2 es ms eficiente (funciona ms
rpidamente) que el medicamento 1.
Potencia de la prueba

P Pt 5,03 5,41249E - 06 5 por cada 1000.000

Pgina 13 de 45

Es decir en 5 muestras de un milln posibles con tamaos 20 y 22, se cumplir la


hiptesis nula.
3.7 Pruebas con respecto a dos medias con varianzas poblacionales
desconocidas, asumiendo que son diferentes.
En muchas situaciones el investigador no puede suponer que 12 22 en tal caso,
el estadstico es:
T

x 2 1 2
s12 s 22

n1 n2

Con distribucin t para:

s12 s 22

n1 n2

s12
s 22


n
1 n2
n1 1 n2 1

Grados de libertad.
Ejemplo
Una compaa de taxis trata de decidir si comprar neumticos de la marca A o de
la B para su flotilla. Para estimar la diferencia de las dos marcas, se lleva a cabo
un experimento utilizando 12 neumticos de cada marca .Los neumticos se
utilizan hasta que se desgastan, los resultados fueron:

Neumati cos A

Neumati cos B

x1 36.300 km
n1 12

x 2 38.100 km
n2 12

s1 5.000 km

s2 8.500 km

Con un nivel de significancia de 0,05 determinar si los neumticos de la marca B


duran ms que los de la marca A, suponga poblaciones normales con varianzas
diferentes.

Pgina 14 de 45

Problema Propuesto (pg. 359 10.36) en el libro de : Probabilidad y


Estadstica para Ingeniera y Ciencias Autores: Walpole , Myers y Myers Ye,
Editorial Pearson , edicin Octava 2007

La formulacin de la hiptesis:

H 0 : 2 1 0
H1 : 2 1 0
El valor crtico para
2

5000 2 8500 2

12
12

v
17,79847307 18
2
2
5000 2
8500 2

12 12
12 1
12 1

v= 18 grados de libertad es: t

1,734

El estadstico
T

x 2 1 2
s12 s22

n1 n2

38100 36300 0 0,632


85002 50002

12
12

Conclusin: Como el estadgrafo dio menor que el valor critico se acepta la


hiptesis nula, con la evidencia tomada no hay razn para creer que los
neumticos A tienen mayor duracin que la marca B.

Pgina 15 de 45

3.8 PRUEBA DE HIPOTESIS PARA OBSERVACIONES PAREADAS


Para hacer inferencias estadsticas sobre dos poblaciones, se necesita tener una
muestra de cada poblacin. Las dos muestras sern dependientes o
independientes de acuerdo a la forma de seleccionarlas. Si la seleccin de los
datos de una poblacin no est relacionada con la de los datos de la otra, son
muestras independientes. Si las muestras se seleccionan de manera que cada
medida en una de ellas pueda asociarse naturalmente con una medida en la otra
muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una
fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se
obtienen de la misma fuente, se puede pensar que las medidas estn pareadas.
En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son
dependientes. Note que si dos muestras son dependientes, entonces
necesariamente tienen el mismo tamao.
Muchas aplicaciones prcticas requieren hacer comparaciones entre dos
poblaciones con base en datos pareados o en muestras dependientes. Las
aplicaciones que pueden involucrar muestras dependientes incluyen:

Medicina.- Poner aprueba los efectos de una dieta mediante la obtencin


de las medidas del peso en la misma persona antes y despus de aplicar
una dieta.
Enseanza.- Probar la efectividad de una estrategia de enseanza
aplicando exmenes antes y despus a los mismos individuos.
Agricultura.- Poner a prueba los efectos de dos fertilizantes en la
produccin de frijol de soya comparando la produccin de parcelas
similares en las mismas condiciones.
Finanzas.- Comparar las estimaciones de dos talleres de autos chocados
para las mismas unidades.
Industria.- Poner a prueba dos marcas de llantas en cuanto al desgaste del
piso colocando una de cada marca en los rines traseros de una muestra de
coches del mismo tipo.

Si se tienen dos muestral aleatorias dependientes de tamao n, donde cada


elemento de la primera muestra es pareja de un elemento de la segunda,
entonces estas dos muestras dan lugar a una de parejas o a una diferencias,
como lo indica la siguiente figura. La muestra de diferencias d = x1 x2 se puede
pensar como una muestra de la poblacin de diferencias de datos pareados de
dos poblaciones. La media de la poblacin de diferencias es igual a la diferencias
de las medias poblacionales.

Pgina 16 de 45

Se puede demostrar que la media de las diferencias es la diferencias de las


mismas considerando las dos poblaciones siguientes con cuyos elementos se han
formado parejas:
Poblacin 1

Poblacin 2

Diferencia d

2 5 = -3

4 6 = -2

62=4

84=4

10

10 8 = 2

Suma 30

25

Media 6

La diferencia entre medias poblacionales es:


1-

2=6

5 =1

y la media de la poblacin de diferencias se representa:

Pgina 17 de 45

En consecuencia se ve que la media de la poblacin de diferencias es igual a la


diferencia entre las medias poblacionales. Siguiendo la misma lnea de
razonamiento, se puede demostrar que, para dos muestras dependientes, la
media de sus diferencias muestrales es igual a la diferencia entre sus medias
muestrales. Esto es, si x1 x2 = d, entonces
Si se tiene una muestra aleatoria de n pares de datos y si las diferencias d se
distribuyen normalmente, entonces el estadstico:

tiene una distribucin muestral que es una distribucin t con gl=n-1, donde
sd representa la desviacin estndar de la muestra de puntajes diferencia.
Estadstico

donde g.l = n-1


Lmites del intervalo
dependientes

de

confianza

para

Ejemplos:

Pgina 18 de 45

1-

cuando

se usa muestras

1. Se hizo un estudio para definirse si los ejercicios aerbicos reducen el ritmo


cardiaco de una persona durante el descanso, y al examinar a diez
voluntarios antes y despus de seguir un programa de ese tipo durante seis
meses, sus pulsaciones, en latidos por minuto, dieron los siguientes
registros:
Voluntario

10

Antes

73

77

68

62

72

80

76

64

70

72

Despus

68

72

64

60

71

77

74

60

64

68

Use

= 0.05 para calcular si los ejercicios aerbicos reducen el ritmo


cardiaco durante el reposo. Calcule el valor de P.

Solucin:
Ensayo de hiptesis:
Ho;

A-

D=

H1;

A-

D>

Regla de decisin:
Si tR

1.833 No se rechaza Ho

Si tR > 1.833 se rechaza Ho

Pgina 19 de 45

Clculos:
Se proceder a calcular las diferencias de cada par:
Voluntario

10

Antes

73

77

68

62

72

80

76

64

70

72

Despus

68

72

64

60

71

77

74

60

64

68

Diferencia

Al calcular la media de las diferencias nos da 3.6 con una s d = 1.58.

Justificacin y decisin:
Como 7.20 es mayor que 1.833, se rechaza H0, y se concluye con un nivel
de significancia de 0.05 que los datos indican que los ejercicios aerbicos
disminuyen significativamente el ritmo cardiaco durante el reposo.
Para calcular el valor de P se busca el 7.20 en el rengln de 9 grados de
libertad en la tabla t, y se observa que el valor mayor que aparece en dicha
tabla es 4.781 al cual le corresponde una rea a la derecha de 0.0005,
entonces se puede concluir que el valor de P es prcticamente cero.
Ejemplo
2) Diez hombres se sometieron a una dieta especial registrando sus pesos
antes de comenzarla y despus de un mes de estar en ella. Los resultados
de los pesos, en libras, se muestran a continuacin:
Hombre

Antes

181

172

190

186

210

202

166

173

183

184

Despus

178

175

185

184

207

201

160

168

180

189

Pgina 20 de 45

Haga una prueba con


= 0.05 para determinar si la dieta logr alguna
diferencia, ya sea positiva o negativa. Calcule el valor de P.
Solucin:
Ensayo de hiptesis:
Ho;

H1;

Regla de decisin:
Si 2.262

tc

2.262 No se rechaza Ho,

Si la tc < -2.262 si tc > 2.262 se rechaza Ho.


Clculos:
Se proceder a calcular las diferencias de cada par:
Hombre

Antes

181

172

190

186

210

202

166

173

183

184

Despus

178

175

185

184

207

201

160

168

180

189

Diferencia

-3

-5

Al calcular la media de las diferencias nos da 2 con una s d = 3.53.

Pgina 21 de 45

Justificacin y decisin:
Como 1.79 est entre los dos valores crticos de 2.262 y 2.262, por lo
tanto no se rechaza H0, y se concluye con un
= 0.05 que no existe
evidencia estadstica que apoye la efectividad de la dieta para variar el
peso.
Para calcular el valor de P se interpola entre 0.10 y 0.05, con 9 grados de
libertad obteniendo un rea de 0.0574, pero como el ensayo es bilateral
este sera un valor de P/2, por lo tanto el valor de P = (2)(0.0574) = 0.1148

Pgina 22 de 45

3.9 Pruebas con respecto a la proporcin en una poblacin.


Como ya se ilustro en el captulo anterior si se requiere investigar la proporcin de
algn atributo en una muestra ( variables cualitativas). La distribucin muestral de
proporciones es la adecuada para dar respuesta a estas situaciones, la
distribucin muestral de proporciones est basada en la aproximacin de la
distribucin normal a la binomial . Esta frmula nos servir para calcular la
probabilidad del comportamiento de la proporcin en la muestra.

pP

p*q
n
Donde :
p : Pr oporcion Muestral

P : Pr oporcion Poblaciona l
q 1 p
n : Tamao de Muestra

Ejemplo:
El alcalde de una ciudad asegura que el 45% de los habitantes de una ciudad
posee gas natural, para corroborar o desvirtuar dicha afirmacin, un investigador
toma una muestra aleatoria de 500 viviendas y en 200 tienen gas natural, con
esta evidencia se puede demostrar que en la ciudad hay menos proporcin de
hogares con gas en la cuidad? , utilizar un nivel de significancia de 0,01.
La formulacin de la hiptesis:
^

H 0 : P 0,45
^

H 1 : P 0,45
El valor crtico para el nivel de significancia

Z 2.33
El estadstico

Pgina 23 de 45

200
0,45
500
-2,28
p*q
200 300
*
n
500 500
500

pP

Como el estadstico quedo dentro la regin de aceptacin se corrobora la


afirmacin del alcalde.
3.10 Pruebas con respecto a la proporcin en dos poblaciones.
Con bastante frecuencia necesitamos probar hiptesis de proporciones
comparando dos grupos, en tal situacin el estadgrafo es:

p1 p2 P1 P 2

p1 * q1 p2 * q2

n1
n2

Ejemplo
Se evalan dos tipos diferentes de soluciones para pulir, para su posible uso en
una operacin de pulido en la fabricacin de lentes intraoculares utilizados en el
ojo humano despus de una ciruga de cataratas. Se pulen 320 lentes con la
primera solucin y, de stos, 253 no presentaron defectos inducidos por el pulido.
Despus se pulen otros 320 lentes con la segunda solucin, de los cuales 196
resultan satisfactorios. Existe alguna razn para creer que las dos soluciones
para pulir son diferentes? Utilice un nivel de significancia del 0,04
Tomado de : http://www.itch.edu.mx/academic/industrial/estadistica1/u0102.pdf
la hiptesis
^

H 0 : P1 P2 0
H 1 : P1 P2 0
Los valores crticos en esta prueba bilateral son:

Z 0,02 2.05
Z 0,98 2,05

Pgina 24 de 45

El estadstico

p1 p 2 P 1 P 2

p1 * q1 p 2 * q 2

n1
n2

253 196

0
320 320
5,02
253 67 196 124
*
*
320 320 320 320
320
320

Conclusin: como el estadstico dio mayor que el valor critic podemos afirmar que
con la primera solucin se presentan ms defectos inducidos puesto que qued en
la regin derecha de rechazo.
Potencia de la prueba

P PZ 5,02 2,58236E - 07
3.11 Prueba de hiptesis para la varianza
Si se extrae una muestra aleatoria de tamao n de una poblacin normal con
media , y varianza 2 ,y se calcula la varianza muestral , se obtiene el valor del
estadstico s2 que se utilizar para conocer la 2, mediante una variable aleatoria
chi cuadrada con n-1 grados de libertad . Formalizando con el siguiente teorema:
si s2 es la varianza de una muestra aleatoria de tamao n que se toma de una
poblacin normal que tiene varianza 2 entonces el estadstico:

n 1s 2

Tiene una distribucin chi cuadrado con v n 1 , grados de libertad.


Ejemplo:
Un fabricante de bateras garantiza que su producto dura en promedio 2,5 aos
con una desviacin estndar de 0,8 aos. Si se toma una muestra aleatoria de 8
bateras y result que x 2,8 y s 1,2 Con la evidencia tomada tiene razn el
fabricante respecto a la desviacin estndar poblacional?. Utilice un nivel se
significancia de 0,01
la hiptesis

Pgina 25 de 45

H 0 : 2 0,8
H 1 : 2 0,8
Calculamos el estadstico

8 1 *1,2 2

0,8 2

15,75

Para el nivel de significancia de 0,99, debemos remitirnos a la distribucin chi


cuadrado con v=8-1 = 7 grados de libertad, el valor crtico ser:

21 18,475
Como el estadstico qued dentro de la regin de aceptacin, con la evidencia
tomada podemos aceptar la afirmacin del fabricante.

3.12 Prueba de hiptesis para el cociente de varianzas


Supngase que se tiene inters en dos poblaciones normales independientes,
donde las medias y las varianzas de la poblacin son desconocidas. Se desea
probar la igualdad de las dos varianzas, ya que para poder comparar las medias
de estas dos poblaciones se utiliza la distribucin t de Student, en la cual podemos
tener varianzas iguales o diferentes en la poblacin.
Para conocer esto ltimo se requiere de la distribucin Fisher, y despus de
utilizarla, se tomar la decisin de tener o no varianzas iguales en la poblacin,
dando pi a realizar la comparacin de las dos medias segn estemos hablando.
Primer caso en que las varianzas de la poblacin son desconocidas pero iguales,
o en el caso dos donde se tienen varianzas desconocidas pero dismiles.
Para el ensayo de hiptesis se utilizar la relacin de varianzas, la cual puede dar
tres resultados:

Pgina 26 de 45

En base a lo que se quiera probar, el ensayo podr ser unilateral derecho,


izquierdo o bilateral.
Ejemplos:
1. La variabilidad en la cantidad de impurezas presentes en un lote de
productos qumicos, utilizada para un proceso en particular, depende del
tiempo que tarda el proceso. Un fabricante que emplea dos lneas de
produccin 1 y 2, hizo un pequeo ajuste al proceso 2, con la esperanza de
reducir la variabilidad, as como la cantidad media de impurezas en los
productos qumicos. Muestras de n1=25 y n2=20 mediciones de dos lotes
produjeron las siguientes medias y varianzas:

Presentan los datos evidencia suficiente para indicar que las variaciones
del proceso son menores para el 2? Realice una prueba con un
= 0.05.
Solucin:
Datos:
Poblacin 1

n1 = 25

Poblacin 2

n2 = 20

= 0.05
Ensayo de hiptesis:

Estadstico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor .

Pgina 27 de 45

Entonces los grados de libertad uno ser el tamao de la muestra de la poblacin


uno menos uno. 1= 25-1 = 24 y 2 = 20-1=19.

Regla de decisin:
Si Fc

2.11 No se rechaza Ho,

Si la Fc > 2.11 se rechaza Ho.


Clculo:

Decisin y Justificacin:
Como 2.04 es menor que 2.11 no se rechaza Ho, y se concluye con un
= 0.05
que no existe suficiente evidencia para decir que la varianza del proceso 2 es
menor que la del proceso 1.
2. Las capas de xido en las obleas semiconductoras son depositadas en una
mezcla de gases para alcanzar el espesor apropiado. La variabilidad del
espesor es una caracterstica crtica de la oblea, y lo deseable para los
siguientes pasos de la fabricacin es tener una variabilidad baja. Para ello
se estudian dos mezclas diferentes de gases con la finalidad de determinar
con cul se obtienen mejores resultados en cuanto a la reduccin en la
variabilidad del espesor del xido. Veintin obleas son depositadas en cada
gas. Las desviaciones estndar de cada muestra del espesor del xido son
s1 = 1.96 angstroms y s2 = 2.13 angstroms. Existe evidencia que indique
una diferencia en las desviaciones? Utilice =0.05.
Solucin:

Pgina 28 de 45

Datos:
s1= 1.96
n1 = 21
s2 = 2.13
n2= 21
Ensayo de hiptesis:

Estadstico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor .


Entonces los grados de libertad uno ser el tamao de la muestra de la poblacin
uno menos uno. 1= 21-1 = 20 y 2 = 21-1=20.

Regla de decisin:
Si 0.406

Fc

2.46 No se rechaza Ho,

Si la Fc < 0.406 si Fc > 2.46 se rechaza Ho.


Clculo:

Pgina 29 de 45

Decisin y Justificacin:
Como 0.85 esta entre los dos valores de Ho no se rechaza , y se concluye con
un
= 0.05 que existe suficiente evidencia para decir que las varianza de las
poblaciones son iguales.
UNIDAD ACADMICA No. 04.
Nombre de la Unidad: Regresin Lineal

Introduccin:
En ciencias e Ingeniera es frecuente que se requiera resolver problemas donde
se relacionan dos variables, es decir que una variable responda ( dependiente) a
otra ( independiente), por ejemplo si tenemos un artculo y lo ofrecemos a
diferentes precios(variable independiente) la demanda ( variable dependiente)
cambiara en funcin del precio o que La distancia requerida(dependiente) para
frenar un automvil es una funcin de su rapidez ( independiente) , si esta relacin
es exacta se trata de un modelo determinista entre dos variables y no contendra
ningn componente aleatorio o probabilstico. Sin embargo, en los ejemplo
mencionados, la relacin no es determinstica (es decir a un valor de x no
siempre produce el mismo valor de y), por lo tanto el concepto de anlisis de
regresin tiene que ver con encontrar la mejor relacin entre variables aleatorias y
cuantificar la intensidad de la relacin empleando mtodos que permitan los
valores de respuesta ante los valores dados del regresor x
Objetivo General de la Unidad: Establecer una funcin lineal o polinmica a
partir de unos datos experimentales para realizar estimaciones entre los datos
observados y cuantificar la medida de la calidad de ajuste coeficiente de
determinacin
Objetivos Especficos del Unidad:

Interpolar mediante una funcin lineal un conjunto de datos y establecer


el coeficiente de determinacin
Interpolar mediante una funcin polinomica un conjunto de datos y
establecer el coeficiente de determinacin
Resolver problemas de aplicacin a la Ingeniera y Ciencias.

RESUMEN

Pgina 30 de 45

En el presente captulo se describir el procedimiento para obtener una


relacin funcional lineal o polinomica entre variables y la calidad de ajuste, para
datos que tienen comportamiento aleatorio.
GLOSARIO
Variable Dependiente: La variable que se predice o explica. Se designa con la
letra y
Variable Independiente: Variable que predice o explica. Se designa con la letra x
Regresin: Tcnica estadstica que relaciona una variable dependiente (y) con la
informacin suministrada por otra variable independiente (x).ambas variables
deben ser continuas. Si asumimos relacin lineal, utilizaremos la regresin lineal
simple. Entre las restricciones de la RLS se incluyen:
- Los residuos deben ser normales.
- Las observaciones independientes.
- La dispersin de los residuos debe mantenerse a lo largo de la recta de
regresin.
Coeficiente de determinacin: Es el cuadrado del coeficiente de correlacin.
Expresado en tanto por ciento mide el grado de informacin compartida entre dos
variables continuas.
Recta de regresin: Es el modelo que sirve para explicar una variable respuesta
continua en trminos de un nico factor o variable explicativa.
Coeficientes de regresin: En un modelo de regresin lineal son los valores de a
y b que determinan la expresin de la recta de regresin y=a + bx.
Correlacin: Expresa la concordancia entre dos variables segn el sentido de la
relacin de estas en trminos de aumento disminucin.
Desarrollo temtico.
4.1 Recta de regresin y los supuestos del modelo
4.2 Mtodo de los mnimos cuadrados
4.3 Varianza de los estimadores
4.4 Inferencias sobre los coeficientes de regresin

Pgina 31 de 45

4.5 Coeficiente de determinacin


4.6 Regresin lineal modelo matricial

4.1 Recta de regresin y los supuestos del modelo


El anlisis de regresin se aplica a situaciones donde las relaciones entre las
variables no son deterministas ( no son exactas). En otras palabras, debe existir
un componente aleatorio en la ecuacin que relaciona las variables. El
componente aleatorio toma en cuenta consideraciones que no se miden, o que en
realidad no son comprendidas por los cientficos o ingenieros. La mayora de
^

aplicaciones de regresin la ecuacin lineal y a bx , es una aproximacin


simplificada de algo desconocido, esta estructura lineal sencilla y de naturaleza
^

emprica se denominan modelos empricos. La respuesta y ,se relaciona con la


variable independiente x a travs de la ecuacin:
^

y a bx ,
En la cual ( a y b) son los parmetros desconocidos de la interseccin con el eje
vertical a y la pendiente b y es una variable aleatoria que se supone esta

distribuida con E 0 y Var .Es frecuente que a la cantidad de 2


se le denomine varianza del error o varianza residual.
Debe recordarse que en la prctica ( a y b) se desconocen y deben estimarse a
partir de los datos. Como resultado, en la prctica nunca se observan los valores
reales de , por lo que nunca se puede trazar la verdadera recte de regresin
(aunque se acepta que ah est). nicamente es posible dibujar una recta
estimada, el ejemplo abajo ilustra la naturaleza de los datos (x, y) hipotticos
dispersos alrededor de la verdadera recta de regresin.
2

Ejemplo
El vendedor de un almacn de repuestos automotrices desea conocer la demanda
de cierto repuesto en funcin de su precio. La siguiente tabla presentan las ventas
que el ha observado cuando le cambia el precio al mismo repuesto:
Precio (x)
Demanda (y)

$ 25.000
100

$ 30.000
90

$ 38.000
78

Pgina 32 de 45

$ 42.000
60

$ 43.500
50

Demanda (y)
110
100
90
80

70
60
50
40
$20.000

$25.000

$30.000

$35.000

$40.000

$45.000

Como se observa la recta pasa por el centro de los datos


4.2 Mtodo de los mnimos cuadrados
Para encontrar los valores de ( a y b) de manera que la suma de los cuadrados de
los residuos i sea mnima (ver grfico tomado de Probabilidad y estadstica
para ingeniera y ciencias edicin octava pag 392)

Pgina 33 de 45

La suma residual de los cuadrados de los errores respecto de la recta de regresin


se denota como SSE. Este procedimiento de minimizacin para estimar los
parametrros se llama mtodo de mnimos cuadrados que se encuentran mediante:
2

SSE yi yi Sea Minima

i 1

SSE yi a bxi

i 1
n

Como yi a bxi reemplazando

SSE yi a bxi
i 1

Para minimizar se debe derivar parcialmente e igualar a cero

SSE
0
a

SSE
0
b

La derivada con respecto a a


n

2 yi a bxi 1 0
i 1

Distribuyendo la sumatoria
n

i 1

i 1

i 1

y i a b xi 0
Como
n

a na
i 1
n

y na b x 0
i 1

i 1

i 1

i 1

na b xi yi Ecuacin 1

La derivada con respecto a b


n

2 yi a bxi xi 0
i 1

Distribuyendo la sumatoria

Pgina 34 de 45

x y
i 1

i 1

i 1

a xi b xi 0
2

i 1

i 1

i 1

2
a xi b xi xi yi Ecuacin 2

De la ecuacin 2 si despejamos a
n

xi y i b xi
i 1

i 1

x
i 1

Reemplazando lo anterior en la ecuacin 1


n
n
2
xi y i b xi
n
n
i 1
b x y
n i 1

i
i
n


i 1
i 1
x

i
i 1

n
n
2
n xi y i b xi
i 1
i 1
b
n

x
i 1

i 1

i 1

xi y i

n
n
n
n
2
n xi y i b xi b xi xi
i 1
i 1
i 1
i 1

x
i 1

i 1

i 1

y
i

i 1

i 1

i 1

n xi yi nb xi b xi xi yi
2

i 1

n
n
n
n
n
2
2
b xi n xi xi yi n xi yi
i 1
i 1
i 1
i 1
i 1
n

xi yi n xi yi
i 1

i 1

x
i 1

i 1

n xi

i 1

Para encontrar a la despejamos de la ecuacin 1

Pgina 35 de 45

y b x
i

i 1

n
n

i 1

y
i

i 1

Como

b xi
i 1

xi
i 1

y
i

i 1

n
a y bx

Ejemplo:
El vendedor de un almacn de repuestos automotrices desea conocer la demanda
de cierto repuesto en funcin de su precio. La siguiente tabla presentan las ventas
que el ha observado cuando le cambia el precio al mismo repuesto:
Precio (x)
Demanda (y)

$ 25.000
100

$ 30.000
90

$ 38.000
78

$ 42.000
60

$ 43.500
50

Hallar la recta de regresin por el mtodo de los mnimos cuadrados y estimar la


demanda cuando el precio sea de $35.000
a) Construimos una tabla con los siguientes elementos

xi

xi y i

yi

i 1

Sumas
N Datos
Medias

25000
30000
38000
42000
43500
178500
6
29750

100
90
78
60
50
378

2500000
2700000
2964000
2520000
2175000
12859000

63

Para calcular b la pendiente

Pgina 36 de 45

x
i 1

2
i

625000000
900000000
1444000000
1764000000
1892250000
6625250000

x y n x y
i

i 1

i 1

i 1

i 1

i 1

2
2
xi n xi

Evaluando
b

178500378 5 *12859000 -0,0025142


1785002 56625250000

El punto de corte a con el eje y


a y bx

Evaluando

a 63 0,002514229750
a 165,35839
El modelo de regresin quedara
^

yi 165,35839 - 0,0025142xi
b) Si el precio es de $35.000 la demanda estimada ser:
^

yi 165,35839 - 0,0025142 35.000


^

yi 77,359968 77
4.3 Varianza de los estimadores
Para realizar inferencias sobre (a y b), es necesario llegar a una estimacin del
parmetro

2 que refleja una variacin aleatoria o variacin del error experimental

alrededor de la recta de regresin. Si empleamos la notacin:


n

s xx xi x

i 1

El estimador insesgado de

,s yy yi y

i 1

esta dado por:

Pgina 37 de 45

,s xy xi x yi y
i 1

y yi
n i
SSE
s yy b * s xy
s2

n 2 i 1 n 2
n2

Ejemplo:
Calcular el estimador insesgado de

para el ejemplo anterior.

La tabla seria:

xi

Sumas
N Datos
Medias
b=

25000
30000
38000
42000
43500
178500
5
35700
-0,00251424

yi

100
90
78
60
50
378

114490000
32490000
5290000
39690000
60840000
252800000

x xy
i

595,36
207,36
5,76
243,36
655,36
1707,2

75,6

s xx 252800000
s yy 1707,2
s xy -635600
Por lo tanto:

s2

s yy b * s xy

n2
1707,2 0,00251424 * 635600
s2
36,38291
52
s 6,031825

Pgina 38 de 45

-261080
-82080
5520
-98280
-199680
-635600

4.4 Inferencias sobre los coeficientes de regresin pendiente


Un intervalo de confianza 1- para el parmetro en la recta de regresin es:

t
*

2
S xx

s
b t *
2
S xx

Limite Superior

Limite Inferior

Donde
b: Pendiente de la recta.

t : Valor critico en la distribucin t de student para un intervalo de confianza 1-. Con


2

v= n-2 grados de libertad

s: Desviacin estandart de los estimadores.


n

s xx xi x

i 1

Ejemplo:
Encontrar un intervalo de confianza de 95% para del ejemplo anterior.
El valor critico en la distribucin t de student para v=n-2 grados de libertad en
este caso v=5-2 = 3

La inferencia estar dada por:

Pgina 39 de 45


- 0,00251 3,182 *

- 0,00251 3,182 *

6,031825
- 0,0013071 Limite Superior
252800000
6,031825
- 0,0037214 Limite Inferior
252800000

4.4.1 Inferencias sobre los coeficientes de regresin interseccin


Un intervalo de confianza 1- para el parmetro en la recta de regresin es:
n

2
s * xi

i 1
a t *

2
n * S xx

n
2

s * xi

i 1
a t *
2
n * S xx

Limite Superior

Limite Inferior

Donde
a: Interseccin de la recta con el eje y.

t : Valor critico en la distribucin t de student para un intervalo de confianza 1-. Con


2

v= n-2 grados de libertad

s: Desviacin estandart de los estimadores.


n

s xx xi x

i 1

Ejemplo:
Encontrar un intervalo de confianza de 95% para del ejemplo anterior.
El valor critico en la distribucin t de student para v=n-2 grados de libertad en
este caso v=5-2 = 3

Pgina 40 de 45

La inferencia estar dada por:

6,031825 * 6625250000
209,30005 Limite Superior
165,35839 3,182 *
5
*
252800000

165,35839 3,182 * 6,031825 * 6625250000 121,41672 Limite Inferior

5 * 252800000
Al graficar estas inferencias se obtiene:

Pgina 41 de 45

Demanda de Herramienta en funcion del Precio


140

120

Demanda

100

80
Datos

Recta de Regresion
60

Recta Sup Inferencias

Recta Inferior Inferencias


40

20

0
20000

25000

30000

35000

40000

45000

Precio

4.5 Coeficiente de determinacin


El coeficiente de determinacin R2 es la medida de la proporcin de la
variabilidad explicada por el modelo ajustado est dado por:

R2 1

SSE
SST

Donde
n

SSE yi yi

i 1
n

SST yi yi

i 1

SSE : Suma cuadrtica de los errores, es la variacin debida al error, o variacin


no explicada.

Pgina 42 de 45

SST: Suma total de los cuadrados corregida, representa la variacin en los valores
de respuesta que idealmente serian explicados con el modelo.
Ejemplo:
Hallar el coeficiente de determinacin para el mismo ejemplo:
La tabla y el clculo son:

xi

Sumas
N Datos
Medias

25000
30000
38000
42000
43500
178500
5
35700

yi

yi

100
90
78
60
50

102,5023734
89,93117089
69,81724684
59,76028481
55,98892405

378

yi yi

6,261872722
0,004737447
66,95744935
0,057463372
35,86721128
109,1487342

yi

595,36
207,36
5,76
243,36
655,36
1707,2

75,6

SSE 109,148734 2
SST 1707,2

R2 1

109,148734 2
0,9360656
1707,2

La interpretacin de (R2 ) nos dice que el 94% de los datos se ajusta la lnea de
regresin.
4.6 Regresin lineal modelo matricial
Para un conjunto de puntos (x1,y1) , (x2, y2) (xn, yn) si pasamos una recta
que se ajuste a la tendencia del conjunto de datos dado, la recta que presenta el
mejor ajuste se define como el que minimiza el error de la suma de cuadrados y se
denomina recta de regresin por mnimos cuadrados el modelo viene dado por :

f x a0 a1 x
Donde a0 y a1 Son los coeficientes del modelo y vienen dados por:

Pgina 43 de 45

a0
t
a x * x
1

* x
1

*y

Las matrices x ^ y se definen como:

1
1

1
x
.

x1
x2
x3

.
.

xn

y1
y
2
y
, y 3
.
.

y n

Ejemplo 1: El vendedor de un almacn de repuestos automotrices desea conocer


la demanda de cierto repuesto en funcin de su precio. La siguiente tabla
presentan las ventas que l ha observado cuando le cambia el precio al mismo
repuesto:
Precio (x)
Demanda (y)

$ 25.000
100

$ 30.000
90

$ 38.000
78

$ 42.000
60

$ 43.500
50

17
60

18.5
50

Solucin:
a) Para no trabajar con valores tan altos podemos hacer
x 25.000
z
1.000
La nueva tabla:
z
Demanda (y)

0
100

5
90

13
78

b) Definimos las matrices x ^ y


1
1

x 1

1
1

0
5
13

17
18.5

100
90

, y 78

60
50

c) Realizando Operaciones:
a0
t
a x * x
1

* x
1

*y

Pgina 44 de 45

1
a0 1 1 1 1
a 0 5 13 17 18.5 * 1
1
1

0
100

90
5

1
1 1 1 1

13 *
*
78

0 5 13 17 18.5
17
60

50
18.5

129.563

a 0 1.264
a 1.589
1

632

El modelo quedara:
f z

129.563 1.589

*z
1.264
632

Si graficamos las observaciones con la recta de ajuste:

Como se observa la recta pasa por el centro de los puntos dados.

4.9 REFERENCIAS BIBLIOGRFICAS

Probabilidad y Estadstica para Ingeniera y Ciencias , Walpole , Myres ,


Myres Ye .Steven, Octava Edicin , Pearson Educacin 2007. p 1-28.

Apuntes de Clase Probabilidad y Estadstica, Ing. Nstor Humberto Agudelo


Daz. 1998-2013.

Pgina 45 de 45

Вам также может понравиться