Академический Документы
Профессиональный Документы
Культура Документы
Estamos interesados en una variable aleatoria simple Y. Se supone que el valor tomado
por esta variable aleatoria depende o est influenciada por los valores tomados por una o
ms variables diferentes. La variable aleatoria Y se denomina variable dependiente o
respuesta; las variables que influencian a Y, simbolizadas por la letra X, se denominan
variables independientes, variables predictoras o regresores. Al realizar estimaciones
o predicciones, los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el momento en
que debe hacerse la prediccin no se determinan al azar.
Supongamos que deseamos desarrollar una ecuacin para describir la temperatura del
agua fuera de la plataforma continental. Como la temperatura depende en parte de la
profundidad del agua, hay dos variables implicadas. Estas son X, la profundidad del agua,
e Y, la temperatura del agua. No estamos interesados en hacer inferencias sobre la
profundidad del agua. En cambio, queremos describir el comportamiento de la
temperatura del agua bajo la suposicin de que la profundidad del agua se conoce de
antemano con precisin. La temperatura del agua es la respuesta; la profundidad del agua
es el nico regresor considerado.
Incluso si la profundidad del agua est fijada en algn valor x, la temperatura del agua
variar debido a otras influencias aleatorias. Por ejemplo, si se toman varias mediciones
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 1
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
de temperatura en diferentes lugares, cada una a una profundidad de x = 1000 pies, los
valores de las mediciones variarn. Por esta razn, debemos admitir que para una x dada,
estamos realmente tratando con una variable aleatoria condicional, que indicamos
mediante Y/x (Y dado que X = x). Esta variable aleatoria condicional tiene una media
indicada mediante Y/ x . Resulta obvio que la temperatura media del agua del ocano
depende en parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable suponer........ Para
descubrirlo. Sin embargo, por razones prcticas, estos valores deberan representar una
gama bastante amplia de los valores posibles de la variable independiente X. A veces se
pueden preseleccionar los valores utilizados. Por ejemplo, al estudiar la relacin entre la
temperatura del agua y la profundidad del agua, podemos saber que nuestro modelo debe
utilizarse para predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad deseada
dentro de esta gama. Por ejemplo podemos tomar mediciones en incrementos de 1000
pies. De esta manera prefijamos nuestros valores x a x 1 = 100; x 2 = 2000; x 3 = 3000; x 4
= 4000; x 5 = 5000. Cuando se preseleccionan los valores X utilizados para desarrollar la
ecuacin de regresin, se dice que el estudio est controlado. A menudo los valores X
utilizados para desarrollar la ecuacin se eligen mediante algn mecanismo aleatorio. Por
ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del agua de lluvia, nos
veremos forzados a seleccionar una muestra de das, anotar la lectura de la calidad del
aire de ese da y medir el pH del agua de lluvia. En este caso, los valores de X utilizados
para desarrollar la ecuacin de regresin no estn preseleccionados por el investigador.
Representan un conjunto de valores de X tpicos. Los estudios de este tipo se denominan
estudios observacionales. Veamos.
REGRESION
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirn estimar, explicar o predecir el
valor de una variable dado el valor de la otra variable.
NOTA: una buena estimacin de un parmetro depender del grado de asociacin que
exista entre las variables X, Y y de que la funcin elegida se ajuste lo mejor posible a la
nube de puntos en el plano de ejes cartesianos.
CORRELACION
Dadas las relaciones existentes entre una variable dependiente Y, y una variable
independiente o explicatoria X, debemos probar la hiptesis sobre el tipo de relacin que
hay entre ellas y sobre la capacidad de prediccin. Tal relacin o modelo queda definido
por:
Yi 1 2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una recta, la
relacin lineal exacta de la ecuacin debe ser modificada para incluir un trmino de
perturbacin aleatoria, llamado tambin error o trmino estocstico . As tenemos:
Y i 1 2 X i i
E i 0 para i 1, 2, 3, ... , n
E 2i 2 para i 1,2,3,..., n
E i j 0 i j
1 2 2
f , P exp
Suponiendo: yi b1 b2 xi ei
n x i y i x i y i
b2
n x 2i x i
2
o tambin b1 y b 2 x
2 s 2e
e 2i
y 2 b1 y b 2 x y
n2 n2
Entonces
2
Var b2 Sb22
x x
2
i
2 x 2i
Var b 1 S 2b
xi x
2 1
Por definicin
b i
t i es decir i bi t Sb
Sb i
i
b 22 x 2i
x i 2
n
R2
y2 y
2
i
i
n
VERIFICACION
CT = SCR + SCE
y i y y y y i y i
2 2 2
2 x x
2
i
Variancia Explicada b2
FCALCULADA
Variancia No Explicada S 2e
bi
t CALCULADO
Sb i
CASO PRACTICO
Muestra ( n ) 1 2 3 4 5 6 7 8 9 10
Concentracin 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
Debemos hallar :
Y i b 0 b 1 X i i
x i x y i y 956; x i x y i y
2 2
576; 1 634
Clculo de Estimadores:
b 1
X i XYi Y
956
X i X 166
2 .
576
b 0 Y b 1 X 57 1. 66 * 18 27. 12
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
b 0 b 0 b 0 27. 12
tC 13. 7
S b0 S b0 1. 98
b 1 b 1 b 1 1. 66
tC 2. 306
S b1 S b1 0. 1
b 1 X i X Yi Y 9. 56
R 2
1. 66 0.971212
Yi Y 2 1634
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
X i X 1. 66 2 576
2
FC b 2
S 2e
47. 3056
268. 421
10 2
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun cuando esto
es aplicable a mltiples experimentos, existen tambin problemas en los cuales tanto las
X como las Y son variables aleatorias. Este es el caso de la relacin entre las
precipitaciones pluviales y la produccin de ciertos cultivos; entre el medio ambiente y
cultivos de bacterias, etc. A esta clase de problemas se les llama problema de anlisis de
correlacin. El coeficiente de correlacin de una poblacin queda definido por la
relacin
2
2
1
22
donde
2
2 Es una medida de la variacin de las Y cuando la X no es conocida
2
2 2
es una medida de la variacin de las Y que se explica por la relacin
lineal entre X
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 14
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
2
nos indica qu proporcin de la variacin de las Y puede atribuirse a la relacin lineal
de X
R
X X Y Y
X X Y Y
2 2
PRACTICA N 9
REGRESIN LINEAL
Propuesta N1
a. Elaboracin un diagrama
b. Calcular los coeficientes del la recta de regresin
c. Analizar el grado de relacin que tiene el nivel de hidrocarburos en la fuerza de
Oxigeno
d. Comprobar si existe influencia de la variable X sobre la variable Y
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 16
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ