Вы находитесь на странице: 1из 28

Regresión con dos variables: estimación por intervalos y pruebas de hipótesis

1 Estimación por intervalos: algunas ideas básicas

¿Qué tan confiables son los coeficientes de nuestras estimaciones?

debido a las fluctuaciones muestrales,


es probable que una sola estimación difi era del valor verdadero, aunque en un muestreo
repetido se espera que el promedio de los valores sea igual al valor verdadero. [Nota: E(βˆ2) = β2.]

En estadística, la confi abilidad de un estimador puntual se mide por su error


estándar. Por tanto, en lugar de depender de un solo estimador puntual, se puede construir un
intervalo alrededor del estimador puntual, por ejemplo, dentro de dos o tres errores estándar a
cada lado del estimador puntual, tal que este intervalo tenga, por ejemplo, 95% de probabilidad
de incluir al verdadero valor del parámetro. Ésta es, a grandes rasgos, la idea básica de la estimación
por intervalos.

Para ser más específi co, supongamos que se desea encontrar qué tan “cerca” está, por ejemplo,
βˆ2 de β2. Con este fi n, se trata de encontrar dos números positivos, δ y α, este último situado entre
0 y 1, de modo que la probabilidad de que el intervalo aleatorio (βˆ2 − δ, βˆ2 + δ) contenga al
verdadero β2 sea 1 − α. Simbólicamente,

5.2.1

Tal intervalo, si existe, se conoce como intervalo de confianza

1 − α = se le denomina coeficiente de confianza


α = (0 < α < 1) se conoce como nivel de significancia (ERROR)

Los extremos del intervalo de confi anza se conocen como límites de confi anza (también denominados valore
βˆ2 − δ como límite de confi anza inferior
βˆ2 + δ como límite de confi anza superior.

El estimador por intervalo proporciona así una gama de valores dentro de los cuales puede encontrarse el verdadero β2.

Es muy importante conocer los siguientes aspectos de la estimación por intervalos:


1. La ecuación (5.2.1) no afi rma que la probabilidad de que β2 se encuentre entre los límites dados sea 1 − α.
2. El intervalo (5.2.1) es un intervalo aleatorio; es decir, variará de una muestra a la siguiente debido a que se b
3. Como el intervalo de confi anza es aleatorio, los enunciados probabilísticos que le corresponden deben ente
4. Como mencionamos en 2, el intervalo (5.2.1) es aleatorio siempre y cuando βˆ2 sea desconocido.

2 Intervalos de confi anza para los coefi cientes de regresión β1 y β2


Intervalo de confianza para β2

EJEMPLO:
De vuelta al ejemplo de regresión del salario promedio por hora (Y) y el nivel de escolaridad (X),
recuerde que en la tabla 3.2 descubrimos que βˆ2 = 0.7240; ee (βˆ2) 0.0700
Como hay 13 observaciones, los grados de libertad (gl) son 11. Si suponemos
que α = 5%, es decir, un coefi ciente de confi anza a 95%, entonces la tabla t muestra que para
11 gl el valor crítico tα/2 = 2.201. Al sustituir estos valores en.

α = 0.05
gl = 11 INTERVALO DE CONFIANZA PARA B^2
ERROR B^1 = 0.87462392 1.92504724 -1.9395 -0.0145 1.9106
ERROR B^2 = 0.06958134
T TABLAS = 2.201 INTERVALO DE CONFIANZA PARA B^2
B^1 = -0.0145 0.15314854 0.5709 0.7241 0.8772
B^2 = 0.7241

INTERPRETACIÓN:
Dado el coefi ciente de confi anza de 95%, observamos que en 95 de cada 100 casos, los intervalos de
confianza son 0.5709 y 0.8772, los cuales contendrán al verdadero valor de β2.

3 Prueba de hipótesis

En estadística, la hipótesis planteada se conoce como hipótesis nula, y se denota


con el símbolo H0. La hipótesis nula suele probarse frente a una hipótesis alternativa
denotada con H1, que puede plantear, por ejemplo, que el verdadero β2 es diferente a la unidad
La hipótesis alternativa puede ser simple o compuesta

Pruebas de hipótesis: método del intervalo de confi anza

Prueba bilateral o de dos colas


Regla de decisión: Si el β2 en H0 se encuentra dentro de este intervalo de confi anza, no rechace H0,
pero si está fuera del intervalo, rechace H0.

Supongamos que se postula que: H0: β2 = 0.5


H1: β2 ≠ 0.5

B^2 = 0.7241
ZONA DE
RECHAZO
ZONA DE
RECHAZO
ZONA DE ACEPTACIÓN

0.5709 0.8772
0.5

CONCLUSIÓN:
Según esta regla, para el ejemplo hipotético, es claro que H0:β2 = 0.5 se encuentra fuera del
intervalo de confi anza a 95% dado en (5.3.9). Por consiguiente, rechazamos la hipótesis de que la
verdadera pendiente sea 0.5, con 95% de confi anza
En estadística, cuando se rechaza la hipótesis nula, se dice que el hallazgo es estadísticamente signifi cativo.
Por otra parte, cuando no se hace, se dice que el resultado no es estadísticamente signifi cativo.

Pruebas de hipótesis: enfoque de la prueba de signifi cancia

Prueba de signifi cancia de los coefi cientes de regresión: la prueba t

Un enfoque alterno pero complementario al de intervalos de confianza para probar hipótesis estadísticas es el
En términos generales, una prueba de significancia es un procedimiento que utiliza los resultados muestrales p

En el procedimiento de intervalo de confi anza se trata de establecer un rango o intervalo que tenga una proba
al verdadero aunque desconocido β2, mientras que en el enfoque de prueba de signifi cancia se somete a hip
y se ve si el βˆ2 calculado se encuentra dentro de límites (de confi anza) razonables alrededor del valor someti

Si suponemos que H0: β2 = β*2 = 0.5


H1: β2 ≠ 0.5

0.3469 ≤ β^2 ≤ 0.6531

tc = 3.22
0.3469

CONCLUSIÓN:
valor que con claridad se encuentra en la región crítica de la fi gura 5.4. La conclusión se mantien
es decir, rechazamos H0.

INTERPRETACIÓN:
prueba t. En el lenguaje de las pruebas de signifi cancia, se dice que un estadístico es
estadísticamente signifi cativo si el valor del estadístico de prueba cae en la región crítica.
En este caso, se rechaza la hipótesis nula. De la misma manera, se dice que una prueba no es
estadísticamente signifi cativa si el valor del estadístico de prueba cae en la región de aceptación
En esta situación, no se rechaza la hipótesis nula. En el ejemplo, la prueba t es signifi cativa
y por tanto se rechaza la hipótesis nula.
Por consiguiente, un valor “grande” de |t| será evidencia en contra de la hipótesis nula.

AHORA HALLAR LA PRUEBA DE SIGNIFICANCIA DE UNA COLA:

Prueba de hipótesis: algunos aspectos prácticos

Signifi cado de “aceptar” o “rechazar” una hipótesis

Si decidimos “aceptar” la hipótesis nula, todo lo que se afi rma es que, con base en la evidencia dada por la m
razón para rechazarla; no se sostiene que la hipótesis nula sea verdadera con absoluta certeza. ¿Por qué?
Formación de las hipótesis nula y alternativa13

las expectativas teóricas o el trabajo empírico previo o ambos pueden ser la base para formular hipótesis. Sin
la forma de postular hipótesis, es en extremo importante que el investigador plantee estas hipótesis antes de l

Selección del nivel de signifi cancia α

error tipo I: la probabilidad de rechazar la hipótesis cuando es verdadera


error tipo II: la probabilidad de aceptar la hipótesis cuando es falsa

Nivel exacto de signifi cancia: Valor p

Esta probabilidad se denomina valor p (es decir, valor de probabilidad), también conocido como nivel observad
o probabilidad exacta de cometer un error tipo I. Más técnicamente, el valor p se defi ne como nivel de signifi
bajo al cual puede rechazarse una hipótesis nula.
(también denominados valores críticos)

contrarse el verdadero β2.

re los límites dados sea 1 − α.


la siguiente debido a que se basa en βˆ2, el cual es aleatorio. (¿Por qué?)
e le corresponden deben entenderse en un sentido de largo plazo, es decir, para muestreo repetido.
ˆ2 sea desconocido.
TAMBIEN LLAMADOS VALORES CRITICOS

anza, no rechace H0,


tra fuera del
ipótesis de que la

adísticamente signifi cativo.


te signifi cativo.

bar hipótesis estadísticas es el método de la prueba de signifi cancia


iza los resultados muestrales para verificar la verdad o falsedad de una hipótesis nula.

intervalo que tenga una probabilidad determinada de contener


signifi cancia se somete a hipótesis algún valor de β2
les alrededor del valor sometido a hipótesis.
0.6531

5.4. La conclusión se mantiene;

e un estadístico es
ae en la región crítica.
dice que una prueba no es
ae en la región de aceptación.
prueba t es signifi cativa

de la hipótesis nula.

en la evidencia dada por la muestra, no existe


soluta certeza. ¿Por qué?
e para formular hipótesis. Sin embargo, sin importar
ntee estas hipótesis antes de la investigación empírica

conocido como nivel observado o exacto de signifi cancia,


e defi ne como nivel de signifi cancia más
CASO 01
SE PRESENTA EL SIGUIENTE CASO EN DONDE SE LE SOLICITA REALIZAR UN ANALISIS ESTADISTICO-ECONOMETRICO EN DO

1 COMPLETAR LA TABLA
PRECI DE BS Q. CONSUMO DE
SUSTITUTOS CAFÉ
X Y
300 2,500
330 2,700
340 2,800
340 3,000
350 3,500
360 3,600
360 3,800
360 3,900
400 3,900
450 4,200
3,590 33,900

2 ECUACIÓN DE LA LINEA DE REGRESIÓN

B2 B1 Y^ = +
12.3194168323 -1032.6706428
CONSUMO DE CAFE^ = +

3 CALCULO DE LA VARIANZA RESIDUAL O VARIANZA ESTIMADA POBLACIONAL

A) FUNCION DE ERRORES Y RESIDUOS: … es del analisis ANOVA

B) FUNCION DE DATOS OBSERVADOS Se =

4 CALCULO DE LA VARIANZA y DE LA DESV. ESTANDAR DE LOS ESTIMADORES

VAR (B2) 7.279824477 B^2 = STD. ERROR

VAR (B1) 949,216.31 B^1 = STD. ERROR

5 PRUEBA DE HIPOTESIS DE LOS PARAMETROS POBLACIONALES


PRUEBA PARA EL PARAMETRO B2 CONFIANZA

ALFA =

H0: B^2 = 0 T tablas (0.975, 8 ) = 2.31


H1: B^2 =/ 0
T calculado t

INTERPRETACIÓN

PRUEBA PARA EL PARAMETRO B1 CONFIANZA

ALFA =

H0: B^1 = 0 T tablas (0.975, 8 ) = 2.31 .. ES EL MISMO


H1: B^1 =/ 0
T calculado t

INTERPRETACIÓN

6 INTERVALOS DE CONFIANZA [95% confianza intervalo]


B^2
PARAMETRO B^2 6.10 <= 12.3194 =>

B^1
PARAMETRO B^1 -3,279.36 <= -1032.6710 =>

7 COEFICIENTE DE CORRELACIÓN

r= 85.01% RAIZ (R - squared x 100)


rcuad es en maquinas de arriba

el coeficiente de correlacion entre el precio de los bienes sustitutos y la cantidad de café consumida es positiva on un grad
asociacion y esto es bueno para el modelo

8 COEFICIENTE DE DETERMINACIÓN R2 AJUSTADO

r^2= 72.27% R - squared r^2 AJUSTADO= 68.80%


x 100
Se observa que el PBS explica al consumo de café en un 72.27%
El precio del bien sustituto explica en un 85% a la cantidad consumida de café, se observa u

9 CALCULO DEL ANALISIS DE VARIANZA

FUENTES DE SUMA DE GRADOS DE CUADRADOS


VARIACIÓN CUADRADOS LIBERTAD MEDIOS
REGRESIÓN 2,290,170.59 1 2,290,179.59
RESIDUOS 878,820.41 8 109,852.551
TOTAL 3,168,991.00 9.00 2,400,032.14

10 PRUEBA DE HIPOTESIS DEL COEFICIENTE DE DETERMINACIÓN POBLACIONAL


Los grados de libertad
H0: r^2 = 0 df
H1: r^2 > 0 F T (1, 8)= 5.32

FC= 20.85 F (1, 8)

no existe R^2 negativo


r = -1 ; 1
r=0;1

INTERPRETACIÓN
Como el FC es mayor y cae fuera del area de Aceptamos la hipotesis alternatica y rechazamos la nila
La muestra obtenida proviene de una poblacion donde R^2 poblacional es mayor que 0 y por lo tanto si hay un grado de e
Por lo tanto aceptamos el modelo con una probabilidad del 95%
11 PREDICCIÓN

SUPONGAMOS QUE DESEAMOS PREDECIR UN Y PARA UN X = 500

A) PREDICCIÓN PUNTUAL cuando x=500 Y^ = 5,126.83

cuando x=450 Y^ = 4,510.88

cuando x=550 Y^ = 5,742.78

12 PRESENTACIÓN DE LOS RESULTADOS

LINEA DE REGRESIÓN -1032.6706 12.319

p-value = 0.320 0.002


ee B^1 y ee B^2 974.28 2.70

COEF. CORRELACIÓN 85.01%

COEF. DETERMINACIÓN 72.27%

TABLAS CALCULADO
T = 2.31 4.57
F = 5.32 20.85

CONCLUSIONES

1 Como concecuencia de la prueba F de Fisher se considera al modelo que esta bien determinado y lo acept
2 Por otro lado se observa que existe una asociacion muy estrecha y positiva entre la CCC y el PBS con un gra
3 El precio de los Bienes Sustitutos explica a la cantidad consumida de Café en un 72.27% y el resto correspo
4 Los coeficientes estimados son estadisticamente significativos: B2 se acepta con un nivel de significancia de

TRABAJO FINDE
ISTICO-ECONOMETRICO EN DONDE SE PUEDA VERIFICAR LA VIABILIDAD DEL MODELO

X +u

PRECIO + u

nalisis ANOVA

331.44 error tipico


ROOT MSE

STD. ERROR

STD. ERROR

GRAFICA DE DOS COLAS


ZONA DE
RECHAZO
ZONA DE
RECHAZO
ZONA DE ACEPTACIÓN

GRAFICA DE DOS COLAS

ZONA DE
RECHAZO
ZONA DE
RECHAZO
ZONA DE ACEPTACIÓN

anza intervalo]

18.54 … ESTE ES EL INTERVALO QUE CONTIENE AL VERDADERO B^2


Este es el intervalo de confianza que contiene al verdadero coeficiente con un nivel de confianza d

1,214.07 … ESTE ES EL INTERVALO QUE CONTIENE AL VERDADERO B^1


onsumida es positiva on un grado de asociacion del 85%, por lo tanto existe un alto nivel de

adj squared

con el analisis anova se quiere determinar la veracidad de las medias del modelo

GRAFICA DE UNA SOLA COLA

ZONA DE
RECHAZO

ZONA DE ACEPTACIÓN

por lo tanto si hay un grado de explicacion


precio del bien sustituto

ta bien determinado y lo aceptamos con un nivel de confianza del 95%


entre la CCC y el PBS con un grado de correlacion de 85.01%
n un 72.27% y el resto corresponde a otras variables que no han sido incluidas en el modelo
a con un nivel de significancia del 5% , B1 no se puede aceptar con un nivel de significancia del 5%
on un nivel de confianza del 95%
. rvfplot, yline(0)
600
400200
Residuals
0 -200
-400

2500 3000 3500 4000 4500


Fitted values
4500

Вам также может понравиться