Вы находитесь на странице: 1из 7

Estadı́stica Inferencial

REGRESIÓN LINEAL Y CORRELACIÓN

Logro de sesión
Al finalizar la sesión el estudiante conoce y aplica los conceptos de regresión lineal y cor-
relación en diferentes contextos de la vida real.

Análisis de regresión y correlación


Existen dos métodos distintos pero relacionadas para determinar si existe algún tipo de
relación entre dos variables.
El primer método consiste en determinar el grado o nivel de asociación entre las variables que
se estudian. Este método se denomina análisis de correlación.
El segundo método consiste en determinar una relación funcional de la variable dependiente Y
con respecto a una variable independiente X con el fin de predecir valores de Y . Este método,
es el análisis de regresión.
Los métodos de regresión y correlación entre variables se clasifican de acuerdo al numero de vari-
ables independientes, se denomina simple si hay una sola variable independiente y se denomina
múltiple si hay dos o más variables independientes.

1. Diagrama de dispersión
Sean (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) n valores de la variable bidimensional (X, Y ), observados
en una muestra, donde los xi son los valores de la variable X y los yi son los valores de la
variable Y .
Se denomina diagrama de dispersión o nube de puntos, a la representación gráfica de los
distintos valores (xi , yi ) de las variables X e Y en el mismo sistema cartesiano.

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

2. Covarianza
La covarianza mide el grado de dispersión o variabilidad conjunta de dos variables X e Y
con respecto a sus medias respectivas (x, y).
La covarianza de n valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) de una variable bidimensional (X, Y ) y
es dado por:
Pn Pn
i=1 (xi − x)(yi − y) xi y i
sXY = = i=1 −x y
n n

3. Coeficiente o ı́ndice de correlación


El coeficiente de correlación lineal de Pearson de n pares de valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn )
de la variable bidimensional (X, Y ), es denotado por r y es dado por:

n ni=1 xi yi − ni=1 xi ni=1 yi


P P P
sXY
r= = p Pn 2
n i=1 xi − ( ni=1 xi )2 n ni=1 yi2 − ( ni=1 yi )2
p P
sX sY
P P

donde, sXY es la covarianza de X e Y , sX es la desviación estándar de X y sY es la desviación


estándar de Y
El coeficiente de correlación r es número comprendido entre -1 y 1, esto es, −1 ≤ r ≤ 1.
Interpretación:

Si r = 1, se dice que hay una correlación perfecta positiva.

Si r = −1, se dice que hay una correlación perfecta negativa.

Si r = 0, se dice que no hay correlación entre las dos variables.

4. Estimación del modelo de regresión lineal


Dado (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) una muestra de tamaño n de una variable bidimensional
(X, Y ), el modelo de regresión lineal simple de Y (variable dependiente) con respecto de X
(variable independiente), consiste en determinar la ecuación de la recta:

Y = a + bX

que mejor se ajuste a los datos de la muestra, con el fin de predecir o estimar Y a partir de X.
El valor yb denominado valor estimado o predecido,representa un valor de Y calculado de la
ecuación Y = a + bX cuando X = xi .
Para determinar dicha ecuación de regresión utilizaremos el método de mı́nimos cuadrados.

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

4.1. Método de mı́nimos cuadrados


Cuando se considera la ecuación de regresión lineal muestral, cada dato (xi , yi ) de la muestra,
satisface la ecuación:
yi = a + bxi + ei
en donde ei = yi − ybi se denomina error o residuo y describe el error en el ajuste del modelo de
regresión muestral en el punto i de los datos.
Consideremos
Pn la suma
Pn de cuadrados de errores:
SCE = i=1 ei = i=1 (yi − ybi ) = ni=1 (yi − a − bxi )2
2 2
P
Determinar una recta de regresión de mı́nimos cuadrados consiste en hallar los valores de a y
b de tal manera que SCE sea mı́nimo. Derivando SCE con respecto a a y con respecto a b y
luego igualando a cero se obtiene las siguientes ecuaciones:
n
X n
X
yi = na + b xi
i=1 i=1

n
X n
X n
X
xi y i = a xi + b x2i
i=1 i=1 i=1

Resolviendo el sistema de ecuaciones se obtiene:

n ni=1 xi yi − ni=1 xi ni=1 yi


P P P
b=
n ni=1 x2i − ( ni=1 xi )2
P P
sXY
es equivalente a: b = s2X

a = y − bx
Interpretación:

Si b > 0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X se


tiene mayores valores de Y .

Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X se


tiene menores valores de Y .

Si b = 0, se dice que no hay regresión muestral.

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

5. Coeficiente de determinación
El coeficiente de determinación mide el porcentaje de variación en la variable respuesta,
explicada por la variable independiente, es denotada por r2 y se define por:
2
2 2 sX
r = b 2
sY
es equivalente a:
SCR SCE
r2 = =1−
SCT SCT
Donde, las sumas de cuadrados:

SCT = SCE + SCR

son respectivamente
n
X n
X n
X
(yi − y)2 = (yi − yb)2 + y − y)2
(b
i=1 i=1 i=1
SCT : Suma de cuadrados total
SCE: Suma de cuadrados de los errores
SCR: Suma de cuadrados debido a la regresión
Cuanto mayor es el valor de r2 menor es la dispersión y mayor el ajuste de la recta de regresión
a los datos.

EJERCICIOS EXPLICATIVOS
1. Un comerciante mayorista encargó un estudio para determinar la relación entre los gastos
de publicidad semanal por radio y las ventas de sus productos. En el estudio se obtuvieron
los siguientes resultados:
Gastos de publicidad ($) 30 20 40 50 70 60 80 70 80
Ventas ($) 300 250 400 550 750 630 930 700 840

a) Realice el diagrama de dispersión, e indicar la tendencia de los datos.


Solución:

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

b) Calcular la recta de regresión con el fin de predecir las ventas e interprete la pendiente
de la regresión.
Solución:

c) Estime la venta si en una semana el gasto de publicidad es de $90.


Solución:

d ) Si la venta es de $800, ¿cuánto es el gasto de publicidad?


Solución:

e) Determine e interprete el coeficiente de correlación.


Solución:

f ) Determine e interprete el coeficiente de determinación.


Solución:

2. Se han estudiado las calificaciones de 20 alumnos en dos asignaturas: Matemática (X) y


Estadı́stica (Y), obteniéndose los siguientes resultados:

x = 13, y = 15, s2X = 4, s2Y = 2,25

Además se sabe que el coeficiente de correlación de ambas variables es r = 0,90. ¿Qué nota
se puede predecir en la asignatura de Estadı́stica, para un alumno que ha obtenido 14 en
Matemática?
Solución:

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

EJERCICIOS ADICIONALES
1. Una compañı́a de alimentos maneja una cadena de tiendas al menudeo. Para medir la
eficiencia de las tiendas se estudió la relación del número de empleados (X) y el promedio
del volumen de ventas mensuales (Y ) expresadas en cientos de dólares para todas las
tiendas durante el año pasado. La gráfica de los datos sugiere una relación lineal entre las
variables.PSe tiene la siguiente
Pn información:
n = 100, i=1 xi = 600, i=1 yi = 1600, ni=1 xi yi = 13600, ni=1 x2i = 5200, ni=1 yi2 =
n P P P
37700

a) Hallar la recta de mı́nimos cuadrados para estimar las ventas a partir del número
de empleados.
b) ¿En cuánto se estiman las ventas para una tienda de 8 empleados?
c) ¿Qué porcentaje de la varianza de las ventas es explicada por la variabilidad del
número de empleados?
d ) ¿Cuántos empleados tiene la tienda cuya venta se estima en $1100?

2. Un profesor de estadı́stica se interesa en la relación entre las horas de estudio y los puntos
obtenidos en el curso. A continuación vemos los datos reunidos de 9 alumnos que acaban
de tomar el curso.

Horas de estudio 45 30 90 60 105 65 90 80 55


Total de puntos obtenidos 40 35 75 65 90 50 90 80 45

a) Determine e interprete el coeficiente de correlación.


b) Realice el diagrama de dispersión, e indicar la tendencia.
c) Determine la ecuación de regresión que estime el total de puntos obtenidos en el
curso y comente sobre la pendiente.
d ) Estime el total de puntos obtenidos por un alumno que estudio 95 horas.
e) Determine e interprete el coeficiente de determinación.

3. Se ha registrado el crecimiento de una especie extraña de flor silvestre en la selva del Perú,
un investigador ha registrado dicho crecimiento en centı́metros y el volumen de agua en
cm3 que caı́a sobre dicha flor. Los resultados se muestran a continuación:
Volumen de agua (cm3 ) 1.5 2.5 2.5 3.5 4.5 4.5 5.5 6.5
Crecimiento (cm) 2.2 3.3 4.1 4.5 4.2 6.4 5.2 7.6

a) Determine e interprete el coeficiente de correlación.


b) Determine el modelo de regresión lineal e interprete su pendiente.
c) ¿Cuánto será el crecimiento de planta cuando un jardinero riegue su volumen de
agua de 10 cm3 .

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

TAREA DOMICILIARIA
1. Al estudiar la relación entre la edad (X) y la presión sanguı́nea (Y ) a partir de una
muestra de mujeres, se obtuvo la siguiente información:
sX = 7,5, sY = 10, x = 50, y = 120, r = 0,90

a) Hallar la relación lineal de la presión con respecto a la edad e interprete su pendiente.


b) Predecir la presión sanguı́nea para una mujer de 45 años.
c) Calcule e interprete el coeficiente de determinación.

2. Se supone que el alargamiento de un cable de acero está relacionado linealmente con la


intensidad de la fuerza aplicada. Cinco especı́menes idénticos de cable dieron los resulta-
dos siguientes:

Fuerza (X) 1 1.5 2 2.5 3


Alargamiento (Y) 3 3.5 5.4 6.9 8.4

a) Determine e interprete el coeficiente de correlación.


b) Determine la ecuación de regresión lineal que relacione la fuerza aplicada y el alargamien-
to. Interprete su pendiente.
c) Determine e interprete el coeficiente de determinación.

UTP sede Arequipa Guı́a N◦ 18

Вам также может понравиться