Вы находитесь на странице: 1из 16

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS ECONOMICAS


UNIDAD DE POST GRADO
INFORMATICA PARA ECONOMISTAS

ANALISIS DE REGRESION CON DOS VARIABLES


En esta seccin se analizaran dos problemas. El primero, denominado Regresin, implica
necesariamente el desarrollo de una ecuacin mediante la cual pueda estimarse el valor
medio de una variable aleatoria desde el conocimiento de los valores tomados por una o
ms variables. El segundo, denominado Correlacin, consistente en medir la fuerza de la
relacin lineal entre dos variables aleatorias.

INTRODUCCION AL ANALISIS DE REGRESION

Estamos interesados en una variable aleatoria simple Y. Se supone que el valor tomado
por esta variable aleatoria depende o est influenciada por los valores tomados por una o
ms variables diferentes. La variable aleatoria Y se denomina variable dependiente o
respuesta; las variables que influencian a Y, simbolizadas por la letra X, se denominan
variables independientes, variables predictoras o regresores. Al realizar estimaciones
o predicciones, los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el momento en
que debe hacerse la prediccin no se determinan al azar.
Supongamos que deseamos desarrollar una ecuacin para describir la temperatura del
agua fuera de la plataforma continental. Como la temperatura depende en parte de la
profundidad del agua, hay dos variables implicadas. Estas son X, la profundidad del agua,
e Y, la temperatura del agua. No estamos interesados en hacer inferencias sobre la
profundidad del agua. En cambio, queremos describir el comportamiento de la
temperatura del agua bajo la suposicin de que la profundidad del agua se conoce de
antemano con precisin. La temperatura del agua es la respuesta; la profundidad del agua
es el nico regresor considerado.

Incluso si la profundidad del agua est fijada en algn valor x, la temperatura del agua
variar debido a otras influencias aleatorias. Por ejemplo, si se toman varias mediciones
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 1
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
de temperatura en diferentes lugares, cada una a una profundidad de x = 1000 pies, los
valores de las mediciones variarn. Por esta razn, debemos admitir que para una x dada,
estamos realmente tratando con una variable aleatoria condicional, que indicamos
mediante Y/x (Y dado que X = x). Esta variable aleatoria condicional tiene una media
indicada mediante Y/ x . Resulta obvio que la temperatura media del agua del ocano
depende en parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable suponer........ Para
descubrirlo. Sin embargo, por razones prcticas, estos valores deberan representar una
gama bastante amplia de los valores posibles de la variable independiente X. A veces se
pueden preseleccionar los valores utilizados. Por ejemplo, al estudiar la relacin entre la
temperatura del agua y la profundidad del agua, podemos saber que nuestro modelo debe
utilizarse para predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad deseada
dentro de esta gama. Por ejemplo podemos tomar mediciones en incrementos de 1000
pies. De esta manera prefijamos nuestros valores x a x 1 = 100; x 2 = 2000; x 3 = 3000; x 4
= 4000; x 5 = 5000. Cuando se preseleccionan los valores X utilizados para desarrollar la
ecuacin de regresin, se dice que el estudio est controlado. A menudo los valores X
utilizados para desarrollar la ecuacin se eligen mediante algn mecanismo aleatorio. Por
ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del agua de lluvia, nos
veremos forzados a seleccionar una muestra de das, anotar la lectura de la calidad del
aire de ese da y medir el pH del agua de lluvia. En este caso, los valores de X utilizados
para desarrollar la ecuacin de regresin no estn preseleccionados por el investigador.
Representan un conjunto de valores de X tpicos. Los estudios de este tipo se denominan
estudios observacionales. Veamos.

EJEMPLO. Un Farmacutico quiere predecir la concentracin de un determinado frmaco


en la corriente sangunea, cinco minutos despus de su administracin (Y), en base al
conocimiento del tamao de la dosis inicial (X). En este caso, la variable aleatoria Y es la
variable dependiente; X es la variable independiente. En un experimento controlado en
laboratorio, el experimentador selecciona los valores tomados por X. Por ejemplo,
podramos elegir experimentar con dosis de 0.05, 0.10, 0.20 y 0.30 ml. Puesto que la
eleccin de las dosis experimentales est en manos del investigador, este es un estudio
controlado.

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 2
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
Independientemente de si el estudio es controlado u observacional, el objeto del anlisis
de regresin es encontrar una ecuacin de prediccin o regresin razonable.

REGRESION

Es el mtodo estadstico que investiga y define la relacin funcional entre dos o ms


variables. La ecuacin o funcin matemtica constituye la funcin o lnea de regresin.
Dadas las variables (X, Y) podemos expresarlas como

Y = f(X) o X = f(Y)

lo cual dignifica que tales relaciones funcionales permitirn estimar, explicar o predecir el
valor de una variable dado el valor de la otra variable.

DIAGRAMA DE ESPARCIMIENTO (Grfica de Calibracin)

Si tenemos n observaciones bidimensionales, cada par de datos (X, Y) puede


representarse en un sistema de eje de coordenadas cartesianas. Cada pareja de
observaciones se representa por un punto sobre el plano y la totalidad de puntos
registrados se denomina diagrama de dispersin o, para casos de equipos, grficas de
calibracin.

NOTA: una buena estimacin de un parmetro depender del grado de asociacin que
exista entre las variables X, Y y de que la funcin elegida se ajuste lo mejor posible a la
nube de puntos en el plano de ejes cartesianos.

CORRELACION

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 3
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
Es el anlisis del grado de asociacin o de afinidad entre las variables expresada a travs
de la funcin o modelo de regresin. Para que exista correlacin es necesario dos
variables, es decir, dos medidas que vayan cambiando valores.

MODELO LINEAL BIDIMENSIONAL

Dadas las relaciones existentes entre una variable dependiente Y, y una variable
independiente o explicatoria X, debemos probar la hiptesis sobre el tipo de relacin que
hay entre ellas y sobre la capacidad de prediccin. Tal relacin o modelo queda definido
por:

Yi 1 2 X i

Como es poco probable que los puntos (X, Y) caigan precisamente sobre una recta, la
relacin lineal exacta de la ecuacin debe ser modificada para incluir un trmino de
perturbacin aleatoria, llamado tambin error o trmino estocstico . As tenemos:

Y i 1 2 X i i

Yi: variable dependiente.


Xi: variable independiente.

1: int ercepto; 2 : pendiente de la recta; : perturbaciones aleatorias.

El propsito bsico del anlisis de regresin es estimar los parmetros estructurales, es


decir, el intercepto y la pendiente de la recta respectivamente.

Si existe una relacin lineal entre la seal analtica de un instrumento (Y) y la


concentracin de un analito (X) nos propondremos calcular la mejor lnea recta que pasa
a travs de los puntos de la grfica de calibracin, cada uno de los cuales est sujeto a un
error experimental.

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 4
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
HIPOTESIS RELATIVAS A LAS PERTURBACIONES

1.Toda perturbacin aleatoria tiene Media cero


E i 0 para i 1, 2, 3, ... , n

2.Todas las perturbaciones aleatorias tienen la misma Variancia. Homocedasticidad.


E 2i 2 para i 1,2,3,..., n

3.Las perturbaciones son independientes entre si. Covariancia.


E i j 0 i j

4.Las perturbaciones se distribuyen normalmente con Media 0 y variancia 2 . Adems

son independientes del valor x. La funcin de distribucin de probabilidad de i es:

1 2 2

f , P exp

La estimacin de estos parmetros estructurales se lleva a cabo mediante el mtodo de


los Mnimos Cuadrados, que busca determinar los estimadores b1 y b2 .

CALCULO DE LOS ESTIMADORES

Suponiendo: yi b1 b2 xi ei

Los estimadores se determinan mediante las siguientes relaciones

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 5
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
x 2i y i x i x i y i
b1
n x 2i x i
2

n x i y i x i y i
b2
n x 2i x i
2

o tambin b1 y b 2 x

CALCULO DE LA VARIANCIA DE LOS ESTIMADORES

Asumiendo la siguiente proposicin:

2 s 2e
e 2i

y 2 b1 y b 2 x y
n2 n2

Entonces

2
Var b2 Sb22
x x
2
i

2 x 2i

Var b 1 S 2b
xi x
2 1

INTERVALOS DE CONFIANZA DE LOSPARAMETROS

Por definicin
b i
t i es decir i bi t Sb
Sb i
i

con (n - 2) grados de libertad (g de l) y un % de significancia.

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 6
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
ndice de Determinacin R2 e ndice de Correlacin R.


b 22 x 2i
x i 2
n

R2

y2 y
2
i
i

n

VERIFICACION

Variation Total = Variacin Explicada + Variacin No Explicada

CT = SCR + SCE

y i y y y y i y i
2 2 2

PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F


2 x x
2

i
Variancia Explicada b2
FCALCULADA
Variancia No Explicada S 2e

se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5% de


significancia o 1% de significancia estadstica.

PRUEBA DE COHERENCIA DE LOS ESTIMADORES. Prueba t

bi
t CALCULADO
Sb i

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 7
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
se compara con un tTABULADO en tablas con (n - 2) grados de libertad y una significancia
estadstica dada del 1% o del 5%.

CASO PRACTICO

En un ensayo calorimtrico para glucosa (GLU) el equipo detecta absorbancia (Y) de


soluciones estndares de glucosas, cuyas concentraciones medidas en miliMoles (mM) y
asumidas como variables independientes genera la siguiente tabla

Muestra ( n ) 1 2 3 4 5 6 7 8 9 10

Concentracin 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)

Absorbancia (y) 40 44 46 48 52 58 60 68 74 80

Se requiere desarrollar un anlisis de regresin.

SOLUCION: ELABORACION DEL DIAGRAMA DE DISPERSION (Grfica de calibracin)

ABSORVANCIA
90

80
CONCENTRACION DE GLUCOSA

70

60

50

40

30
40 50 60 70 80

2. CALCULO DE LOS ESTIMADORES

a) Desarrollamos la siguiente tabla

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 8
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
n Yi Xi (Y Y ) ( X X ) ( X X ) (Y Y ) ( X X ) 2

1 40 6 -17 -12 204 144


2 44 10 -13 -8 104 64
3 46 12 -11 -6 66 36
4 48 14 -9 -4 36 16
5 52 16 -5 -2 10 4
6 58 18 1 0 0 0
7 60 22 3 4 12 16
8 68 24 11 6 66 36
9 74 26 17 8 136 64
10 80 32 23 14 322 196
Suma
Total 570 180 0 0 956 576

Debemos hallar :

Y i b 0 b 1 X i i

n = 10, Media (X) = 18; Media (Y) = 57

x i x y i y 956; x i x y i y
2 2
576; 1 634

Clculo de Estimadores:

b 1
X i XYi Y
956
X i X 166
2 .
576
b 0 Y b 1 X 57 1. 66 * 18 27. 12

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 9
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
La recta de la regresin ser:

Y 27. 12 1. 66 X i
i

ABSORVANCIA
1.00

.75
PROBABILIDAD ACUMULADA

.50

.25

0.00
0.00 .25 .50 .75 1.00

PROBABILIDAD OBSERVADA ACUMULADA

3. PRUEBA DE SIGNIFICACION DE ESTIMACION DE PARAMETROS

Hacemos uso de la siguiente tabla

n Yi Xi Yi ei e2 i X2 i ( Xi X)2 (Yi Y)2


1 40 6 37.08 2.92 8.5264 36 144 289
2 44 10 43.72 0.28 0.0784 100 64 169
3 46 12 47.04 -1.04 1.0816 144 36 121
4 48 14 50.36 -2.36 5.5696 196 16 81
5 52 16 53.68 -1.68 2.8224 256 4 25
6 58 18 57.00 1.00 1.0000 324 0 1
7 60 22 63.64 -3.64 13.2496 484 16 9
8 68 24 66.96 1.04 1.0816 576 36 121
9 74 26 70.28 3.72 13.8384 676 64 289
10 80 32 80.24 -0.24 0.0576 1024 196 529
Total
Suma 570 180 0 47.3056 3816 576 1634

a) Clculo de la Variancia No Explicada


2
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 10
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
S2e = 47. 3056 / ( 10 - 2 ) = 5. 9132

b) Clculo de las Variancias y Desviaciones Estndares de los Estimadores

Sb20 = (47.3056) (3816) / (10 - 2) 10 (576) = 3.92


Sb1 = 1.98

Sb21 = 47.3056 / (10- 2) 576 = 0.01


Sb2 = 0.1

c) Prueba de Coherencia de los estimadores


Estimador Intercepto

Hiptesis Nula Ho : b 0 = 0 (No existe coherencia)


Hiptesis Alternante H 1 : b 0 = 0 (Existe Coherencia)

b 0 b 0 b 0 27. 12
tC 13. 7
S b0 S b0 1. 98

t TABULADO = t (0.05, 8 g de l) = 2.306

Asimismo. Estimador Pendiente

Hiptesis Nula Ho : b 1 = 0 (No existe coherencia)

Hiptesis Alternante H 1 : b 1 = 0 (Existe Coherencia)

b 1 b 1 b 1 1. 66
tC 2. 306
S b1 S b1 0. 1

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 11
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
H1: b1 0 t T 2.306 con 8 g. l. y 0.05

t TABULADO = t (0.05, 8 g de l) = 2.306

Como tCALCULADO cae en la zona de rechazo, rechazaremos Ho. Luego Xi si influye


significativamente sobre Yi.

Entonces b 0 yb 0 son estadsticamente significativos a un nivel de significacin


del 5%.

3. Prueba de Bondad de Ajuste ( R2 ) y de Correlacin ( R )

b 1 X i X Yi Y 9. 56
R 2
1. 66 0.971212
Yi Y 2 1634

Es decir, la ecuacin de regresin explica alrededor del 97.12% de la variacin total

Asimismo R = 0.9854, es decir, 98.54%, lo cual es un alto ndice de correlacin lineal.

5. Prueba de Confiabilidad del Modelo (Tabla F)

Hiptesis Nula Ho :El modelo no tiene la confianza estadstica del 95%


Hiptesis Alternante H 1 :El modelo si tiene la confianza estadstica del 95%

Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0

X i X 1. 66 2 576
2

FC b 2
S 2e

47. 3056
268. 421

10 2

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 12
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
FTABULADO = F [ 0.05; 1 y (n - 2) g de l] = F ( 0.05: 1 y 8 g de l ) = 5.32

Se acepta la hiptesis alternante

6. Prediccin Puntual de Yi si Xi = 40.

Como la Ecuacin de la Recta de Regresin es:


27. 12 1. 66 X
Yi i
27. 12 1. 66 X 27. 12 .1. 66 * 40 93. 52
Reemplazando valores tenemos: Y i i

NOTA SOBRE EL ERROR ESTANDAR DE ESTIMACION O VARIANCIA NO


EXPLICADA
Al observar la siguiente grfica podemos notar que

El error estndar de estimacin es una medida de esparcimiento alrededor de una lnea


de regresin. Es la desviacin estndar de los valores observados Yi con respecto a los
valores de Y estimados ( Y i ) por la lnea de regresin.

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 13
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede ser menor
o mayor en la medida que los n puntos del diagrama de esparcimiento estn ms o
menos cerca de la lnea de regresin.

El error estndar de estimacin o de regresin cumple las mismas propiedades de la


desviacin estndar. La diferencia est en que el error estndar de regresin mide las
dispersiones de los valores alrededor de la lnea de regresin y la desviacin estndar
alrededor de la media.

CORRELACION LINEAL

Se ha asumido que la variable independiente (X) se conocen sin error. Aun cuando esto
es aplicable a mltiples experimentos, existen tambin problemas en los cuales tanto las
X como las Y son variables aleatorias. Este es el caso de la relacin entre las
precipitaciones pluviales y la produccin de ciertos cultivos; entre el medio ambiente y
cultivos de bacterias, etc. A esta clase de problemas se les llama problema de anlisis de
correlacin. El coeficiente de correlacin de una poblacin queda definido por la
relacin

2
2
1
22

donde

2 es una medida de la variacin de las Y cuando X se conoce.

2
2 Es una medida de la variacin de las Y cuando la X no es conocida

2
2 2
es una medida de la variacin de las Y que se explica por la relacin
lineal entre X
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 14
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
2
nos indica qu proporcin de la variacin de las Y puede atribuirse a la relacin lineal
de X

Estos mismos argumentos se aplica tambin a R 2, el cuadrado del coeficiente de


correlacin muestral, que es definido por

R
X X Y Y
X X Y Y
2 2

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL


ANALISIS DE REGRESION LINEAL 15
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS ECONOMICAS
UNIDAD DE POST GRADO
DOCTORADO EN NEGOCIOS GLOBALES
ESTADISTICA APLICADA

PRACTICA N 9

REGRESIN LINEAL

Propuesta N1

Con los datos:

a. Elaboracin un diagrama
b. Calcular los coeficientes del la recta de regresin
c. Analizar el grado de relacin que tiene el nivel de hidrocarburos en la fuerza de
Oxigeno
d. Comprobar si existe influencia de la variable X sobre la variable Y
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 16
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ

Вам также может понравиться