Академический Документы
Профессиональный Документы
Культура Документы
Tipos de relacin
Determinista: Conocido el valor de X, el valor de Y queda perfectamente
establecido. Son del tipo:
y = f (x)
Si se considera que la relacin puede ser de tipo lineal, la formalizacin vendra
determinada por una ecuacin como la siguiente:
Y 0 1 X
Ejemplo: La relacin existente entre la temperatura en grados centgrados (X) y
grados Fahrenheit (Y) es:
y = 1,8x + 32
y = f (x) + e
Donde, e es una perturbacin desconocida (variable aleatoria).
Dado que las relaciones en las ciencias sociales no son exactas se incluye el
trmino de perturbacin aleatoria
Y 0 1 X
Ejemplo: Se tiene una muestra del volumen de produccin (X) y el costo total (Y)
asociado a un producto en un grupo de empresas.
1
Si
1
Si
Y1 0 1 X 1 1
Y2 0 1 X 2 2
------------------------------------
Yn 0 1 X n n
De forma abreviada el sistema de ecuaciones se puede escribir de la siguiente
manera:
Yi 0 1 X i i
i 1, 2, 3,..., n
0
El objetivo del anlisis de regresin es la estimacin de los parmetros,
0
(Denominados coeficientes de regresin, donde
: Intercepto y
1
y
1
: Pendiente)
0
0
, respectivamente.
1
y
de la
0 1
cuadrados de los errores, se determinan los valores de
n
Q yi 0 1 xi
i 1
2
i
, as:
i 1
Q
2 yi 0 1 xi 1 0
.
(1)
Q
2 yi 0 1 xi xi 0
1
..
(2)
Al sistema formado por las ecuaciones (1) y (2) se les denomina ecuaciones
normales. Resolviendo las ecuaciones normales, se tiene:
0 y 1 x
n
x y
i 1
x y
i 1
i 1
x
i
n
xi2 i 1
n
i 1
n
s xy
s x2
Y 0 1 X
1
El coeficiente de regresin ( ) Est expresado en las mismas unidades de
medida de la variable X e indica el nmero de unidades que vara Y cuando se
produce cambio en una unidad en X (pendiente de la recta de regresin).
1
Si
=0, se dice que no existe relacin lineal entre las dos variables y que estas
son independientes.
El primer paso es la representacin grfica de las variables (y, x) en un diagrama
de dispersin.
y i
yi
La diferencia entre cada valor
de la variable y su estimacin
i yi y i
residuo:
se llama
E i 0
V i 2
.La
dispersin de los datos debe ser constante para que los datos sean
homocedsticos.
E i j 0
N (0, ).
INTERVALOS DE CONFIANZA
En muchos casos es de inters conocer entre que valores se encuentra el
0
coeficiente de regresin de la poblacin
1
para un cierto grado de
confianza fijada, este procedimiento permite hallar los valores llamados lmites de
confianza, as:
0 t
1 t
sR
1 x2
n s xx
sR
s xx
R2
sR2
El error cuadrado medio (
ecuacin:
) es el estimado de
. Se calcula mediante la
sR2
SSE
n2
SSE
n2
sR
y/x
y 0 t
R
1 ;n 2
2
1 x0 x
n
s xx
y 0 t
R
1 ;n 2
2
1 x x
1 0
n
s xx
H 0 : 1 0
H 0 : 1 0
Anlisis de variancia para probar la significancia de la regresin.
Fuente de Variacin
Suma de Cuadrados
Grados de Libertad
Cuadrados Medios
Regresin
Error o Residual
SS R 1S xy
SSE S yy 1S xy
Total
i
y
n
2
i 1
S yy yi
n
i 1
n
n-2
MSR
MSR
MSE
MSE
n-1
El Coeficiente de Correlacin
Llamado tambin coeficiente de correlacin de Pearson, se representa por r y es
una medida que representa el grado de asociacin entre dos variables
cuantitativas X e Y.
Se calcula por:
s xy
s xx s yy
Una correlacin que cae entre -0.3 y 0.3 es considerada muy baja.
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo de regresin hallado.
R2
SSR
SST
Dnde:
SSR representa la suma de cuadrados debido a la regresin y
SST representa la suma de cuadrados del total.
El coeficiente de determinacin es simplemente el cuadrado del coeficiente de
correlacin.
El coeficiente de Determinacin vara entre 0 y 1, aunque es bastante comn
expresarlo en porcentaje.
Un R2 mayor del 70 % indica una buena asociacin lineal entre las variables, luego
la variable X puede usarse para predecir Y.
PARBOLA DE REGRESIN
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente
a la situacin real dada.
La
expresin
general
de
y 0 1 x 2 x
un
polinomio
de
grado
es:
0 , 1 y 2
Donde
Para
encontrar los valores de a, b y
c que hacen mnima la expresin anterior, deberemos igualar las derivadas
parciales de D con respecto a dichos parmetros a cero y resolver el sistema
resultante. Las ecuaciones que forman dicho sistema se conocen
como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).
y 1 2 x2 3 x3 ... k xk u
Esta ecuacin es conocida como funcin de regresin poblacional (FRP) o
hiperplano poblacional.
Ahora, supongamos que tenemos una muestra aleatoria de tamao n,
y ,x
i
2i
y x u
Dnde:
y es un vector n1,
X es una matriz nk,
es un vector k 1 y
u es un vector n1.
1 , 2 , 3 ,..., k
, a partir de una muestra dada.
La
FRM,
que
es
una
estimacin
de
la
FRP, que
viene
dada
nos
permite
calcular
el
por
valor
yi
) correspondiente a cada
y x
Obtencin de estimadores MCO
Denominando S a la suma de los cuadrados de los residuos,
j
mltiple, calculamos la primera derivada de S con respecto a cada
expresin anterior:
en la
xx xy
, con notacin matricial,
o
Al sistema anterior se le denomina genricamente sistema de ecuaciones
normales del hiperplano. En notacin matricial ampliada, el sistema de ecuaciones
normales es el siguiente:
xx
x y
j
El coeficiente
regresores fijos.
En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de
variables x1, x2 ,, x5 y la variable peso (Y).
En la prctica deberemos de elegir cuidadosamente qu variables vamos a
considerar como explicativas. Algunos criterios que deben de cumplir sern los
siguientes: