Análisis de Regresión y Correlación

Introducción a la unidad
El uso de la regresión lineal simple es muy utilizado para observar el tipo de

relación que existe entre dos variables y poder llevar a cabo la toma de decisiones
correspondiente dependiendo de la relación entre dichas variables, así por
ejemplo, pudiera darse el caso en el que después de aplicar la regresión lineal no
exista relación entre las variables involucradas y en consecuencia la decisión
podría ser buscar cuál es la variable independiente que tiene influencia sobre la
dependiente y volver a realizar el estudio completo; pero si fuera el caso en el cual
si existiera una relación positiva entre las variables involucradas, la obtención del
coeficiente de correlación nos daría más información sobre el porcentaje de
relación existente y pudiendo determinar si es necesario la inclusión de otra
variable independiente en el problema mismo, para lo cual el análisis de regresión
ya sería del tipo múltiple.
Análisis de Regresión y Correlación

El análisis de regresión consiste en emplear métodos que permitan determinar la mejor
relación funcional entre dos o más variables concomitantes (o relacionadas). El análisis de
correlación estudia el grado de asociación de dos o más variables.
Análisis de Regresión
Una relación funcional matemáticamente hablando, está dada por:
Y = f(x1, . . . , xn; θ1, . . . , θm)
Donde:
Y: Variable respuesta (o dependiente)
Xi: La i-esima variable independiente (i=1,.., n)
θj : El j-esimo parámetro en la función (j=1,..,m)
f : La función
Para elegir una relación funcional particular como la representativa de la población
bajo investigación, usualmente se procede:
1) Una consideración analítica del fenómeno que nos ocupa, y
2) Un examen de diagramas de dispersión.
Una vez decidido el tipo de función matemática que mejor se ajusta (o representa
nuestro concepto de la relación exacta que existe entre las variables) se presenta
el problema de elegir una expresión particular de esta familia de funciones; es
decir, se ha postulado una cierta función como término del verdadero estado en la
población y ahora es necesario estimar los parámetros de esta función (ajuste de
curvas).
Como los valores de los parámetros no se pueden determinar sin errores por que
los valores observados de la variable dependiente no concuerdan con los valores
esperados, entonces la ecuación general replanteada, estadísticamente, sería:
Y = f(x1, . . . xn; θ1, . . . , θm) + ε
Donde ε representa el error cometido en el intento de observar la característica en
estudio, en la cual muchos factores contribuyen al valor que asume ε.
Regresión Lineal Simple
Cuando la relación funcional entre las variables dependiente (Y) e independiente

(X) es una línea recta, se tiene una regresión lineal simple, dada por la ecuación.
Y = βo + β1X + ε
Donde:
𝛽𝑜 : El valor de la ordenada donde la linea de regresion se intersecta al eje Y.
𝛽 : El coeficiente de regresion poblacional (pendiente de la linea recta)
𝜀 : El error.
Suposiciones de la regresión lineal
1. Los valores de la variable independiente X son "fijos".

2. La variable X se mide sin error (se desprecia el error de medición en X)
3. Existe una subpoblación de valores Y normalmente distribuido para cada valor
de X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la misma recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
Independientes.
Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se
distribuyen normalmente con media cero y variancia 𝜎2. Terminología:
Promedios.
∑ 𝑦𝑖 ∑ 𝑥𝑖
𝑦̅ = ; 𝑥̅ =
𝑛 𝑛
Sumas de cuadrados y productos de X e Y.
𝑆𝐶𝑌 = ∑(𝑦𝑖 − 𝑦)2 ; 𝑆𝐶𝑋 = ∑(𝑥𝑖 − 𝑥)2 ; 𝑆𝑃𝑋𝑌 = ∑(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
SCY también corresponde a la suma de cuadrados total = SC total
Estimación de parámetros
La función de regresión lineal simple es expresado como:
Y = βo + β1X + ε
La estimación de parámetros consiste en determinar los parámetros βo y β1 a
partir de los datos muéstrales observados; es decir, deben hallarse valores como
𝑏𝑜 𝑦 𝑏1 de la muestra, que represente a βo + β1 , respectivamente.
Empleando el método de los mínimos cuadrados, es decir minimizando la suma de
cuadrados de los errores, se determinan los valores de 𝑏𝑜 𝑦 𝑏1, asi:
Q = ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝛽𝑜 − 𝛽1 𝑥)2

bo = 𝑦̅ − 𝑏1 𝑥̅
𝑠𝑝𝑥𝑦
𝑏1 =
𝑠𝑐𝑥
𝑏0 : es el valor que representa (estimador) a 𝛽0 constituye el intercepto cuando
X=0;
𝑏1: es el valor que representa (estimador) a 𝛽1.
Regresión Múltiple: Este tipo se presenta cuando dos o más variables
independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).
AJUSTE DE CURVAS
En múltiples ocasiones se encuentran situaciones en las que se requiere analizar la
relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este
análisis serán:
• Determinar si dichas variables están asociadas y en qué sentido se da dicha
asociación (es decir, si los valores de una de las variables tienden a aumentar
–o disminuir- al aumentar los valores de la otra);
• Estudiar si los valores de una variable pueden ser utilizados para predecir el
valor de la otra.
•
La forma correcta de abordar
el primer problema es
recurriendo a coeficientes de
correlación. Sin embargo, el estudio
de la correlación es insuficiente para
obtener una respuesta a la
segunda cuestión: se limita a
indicar la fuerza de la asociación
mediante un único número, tratando las variables de modo simétrico, mientras que
lo que interesa es modelizar dicha relación y usar una de las variables para
explicar la otra.
Para tal propósito se recurrirá a la técnica de regresión. Aquí se analizará el caso
más sencillo en el que se considera únicamente la relación entre dos variables (x e
y). Así mismo, se limita al caso en el que la relación que se pretende modelizar es
de tipo lineal. En este caso, la media de la distribución de las y sobre x está dada
por 𝛼 + 𝛽. 𝑥.
REGRESIÓN CURVILÍNEA
Se considerará primero el caso en que la graficacion en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n
puntos (𝑥𝑖, 𝑦𝑖) "se enderezan" cuando son graficados sobre ejes escalados
adecuadamente. E este caso, al ser representados sobre papel semilogarítmico,
indican que la curva de regresión de y sobre x es exponencial, es decir para
cualquier x considerada, la media de la distribución está dada por la siguiente
ecuación predictora 𝑦 = 𝛼 . 𝛽 𝑥, tomando logaritmos en ambos miembros:
log(y) = log(α) + 𝑥 log(β)
Y se puede estimar ahora 𝑙𝑜𝑔(𝛼) 𝑦 𝑙𝑜𝑔(𝛽), y de ahí obtener 𝛼 𝑦 𝛽, aplicando los
métodos anteriores a los n pares de valores [𝑥𝑖, 𝑙𝑜𝑔(𝑦𝑖)].
Correlación.
Recordemos que para el caso de una variable, la varianza era un parámetro que
nos mostraba cuanta variación existía entre la media un conjunto de datos. En el
mismo tenor, estamos en determinar la dependencia entre dos variables por lo que
una primera propuesta es construir una medida que nos permita en forma análoga
tratar la “variación”.
Se define la covarianza como la variación que existe entre los datos de dos
variables, expresada como:
(𝑥1 − 𝑥̅ )(𝑦1 |−𝑦̅)
𝑠𝑥𝑦 = ∑
𝑛
Donde 𝑥1 𝑦 𝑦1 son las variables para n datos que intervienen en el estudio.
En realidad la correlación es una medida sobre el grado de relación entre dos
variables, sin importar cuál es la causa y cuál es el efecto. La dependencia de la
que se habla en este sentido es la dependencia entre la varianza de las variables.
Como hemos visto el manejo de unidades adimensionales nos permiten tener un

Coeficiente sobre el que de forma cómoda se pueda trabajar, por lo que podemos
dividir entre el producto de las desviaciones de las variables, es decir:
𝑠𝑥𝑦
𝑟=
𝑛(𝑠𝑥 𝑠𝑦 )
Los valores para este coeficiente están comprendidos entre -1 y 1.
Se tiene los siguientes criterios para r
𝑟 = 1 𝑙𝑎 𝑐𝑜𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑠 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎, 𝑑𝑖𝑟𝑒𝑐𝑡𝑎 𝑜 𝑐𝑜𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎
𝑟 = 𝑟 = 0 𝑛𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑜 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑛𝑢𝑙𝑎
𝑟 = −1 𝑙𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑠 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 , 𝑖𝑛𝑣𝑒𝑟𝑠𝑎 𝑜 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎
Entre más se aproxima a los valores 1 y -1 la aproximación a una correlación se
considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene
menos confianza en la dependencia lineal por lo que una aproximación lineal será
lo menos apropiado, sin embargo no significa que no existe dependencia, lo único
que podemos decir es que la dependencia no es lineal. Un valor positivo para r
indica que a medida que una variable crece la otra también lo hace, por el
contrario si su valor es negativo, lo que podemos decir es que a medida que una
variable crece la otra decrece.
Cannavos G. Probabilidad y Estadística Aplicación y métodos. Ed. en español Mc

GRAW- HILL/INTERAMERICANA DE MEXICO.1995.
http://www.eumed.net/libros/2006a/rmss/a8.htm
Devore, J.L. (2000). Probabilidad y Estadística para Ingeniería y Ciencias, Quinta
Edición, Thomson Learning.
Mendenhall, W. (1998). Estadística para Administradores, Segunda Edición, Grupo
Editorial Iberoamérica.
Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadística Aplicadas a la
Ingeniería, Primera Edición, Mc Graw Hill.
Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadística para Ingeniería,
Primera Edición, Grupo Editorial Iberoamérica.
Spiegel, M.R. (1970). Estadística, Primera Edición, Serie Schaum, Mc Graw Hill.
Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadística para
Ingenieros,Sexta Edición, Prentice Hall.
Weimer, R.C. (1996). Estadística, Segunda Edición, CECSA.

Análisis de Regresión y Correlación

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Análisis de Regresión y Correlación

Загружено:

Авторское право:

Доступные форматы

Introducción a la unidad

El uso de la regresión lineal simple es muy utilizado para observar el tipo de

Análisis de Regresión y Correlación

Regresión Lineal Simple

Cuando la relación funcional entre las variables dependiente (Y) e independiente

1. Los valores de la variable independiente X son "fijos".

Q = ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝛽𝑜 − 𝛽1 𝑥)2

Como hemos visto el manejo de unidades adimensionales nos permiten tener un

Cannavos G. Probabilidad y Estadística Aplicación y métodos. Ed. en español Mc

Вам также может понравиться