Вы находитесь на странице: 1из 18

ESTADÍSTICA

INFERENCIAL
Semana 14 - Sesión 01
LOGRO DE LA SESIÓN

Al finalizar la sesión de aprendizaje el estudiante conoce y


aplica los conceptos de regresión lineal y correlación en
diferentes contextos de la vida real.
Análisis de regresión y correlación
Existen dos métodos distintos pero relacionadas para determinar si existe
algún tipo de relación entre dos variables. El primer método consiste en
determinar el grado o nivel de asociación entre las variables que se
estudian. Este método se denomina análisis de correlación. El segundo
método consiste en determinar una relación funcional de la variable
dependiente Y con respecto a una variable independiente X con el fin de
predecir valores de Y . Este método, es el análisis de regresión. Los
métodos de regresión y correlación entre variables se clasifican de acuerdo
al numero de variables independientes, se denomina simple si hay una sola
variable independiente y se denomina múltiple si hay dos o más variables
independientes.
Diagrama de dispersión
Sean (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 ), n valores de la variable bidimensional (X,Y ), observados en una muestra,
donde los 𝑥𝑖 son los valores de la variable X y los 𝑦𝑖 son los valores de la variable Y . Se denomina diagrama
de dispersión o nube de puntos, a la representación gráfica de los distintos valores (𝑥𝑖 , 𝑦𝑖 ) de las variables X
e Y en el mismo sistema cartesiano.
Covarianza
La covarianza mide el grado de dispersión o variabilidad conjunta de dos variables X e Y con respecto a
sus medias respectivas 𝑥, 𝑦 .
La covarianza de n valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 )de una variable bidimensional (X,Y ) es dado por:

Coeficiente o índice de correlación


El coeficiente de correlación lineal de Pearson de n pares de valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 ) de la
variable bidimensional (X,Y ), es denotado por “r” y es dado por:
donde, 𝑠𝑋𝑌 es la covarianza de X e Y , 𝑠𝑋 es la desviación estándar de X y 𝑠𝑌 es la desviación
estándar de Y . El coeficiente de correlación r es un número comprendido entre -1 y 1, esto es,
−1 ≤ r ≤ 1.

Interpretación: Si r = 1, se dice que hay una correlación perfecta positiva. Si r = −1, se dice que
hay una correlación perfecta negativa. Si r = 0, se dice que no hay correlación lineal entre las
dos variables.
Estimación del modelo de regresión lineal
Dado (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 ), una muestra de tamaño n de una variable bidimensional (X,Y ), el
modelo de regresión lineal simple de Y (variable dependiente) con respecto de X (variable independiente),
consiste en determinar la ecuación de la recta:
𝑌 = 𝑎 + 𝑏𝑋
que mejor se ajuste a los datos de la muestra, con el fin de predecir o estimar Y a partir de X. El valor 𝑦
denominado valor estimado o predecido, representa un valor de Y calculado de la ecuación Y = a +bX
cuando X = 𝑥𝑖 . Para determinar dicha ecuación de regresión utilizaremos el método de mínimos
cuadrados.
Método de mínimos cuadrados
Cuando se considera la ecuación de regresión lineal muestral, cada dato (𝑥𝑖 , 𝑦𝑖 ) de la muestra, satisface
la ecuación:

en donde 𝑒𝑖 = 𝑦𝑖 -𝑦𝑖 se denomina error o residuo y describe el error en el ajuste del modelo de regresión
muestral en el punto i de los datos. Consideremos la suma de cuadrados de errores:

Determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de tal
manera que SCE sea mínimo. Derivando SCE con respecto a a y con respecto a b y luego igualando a
cero se obtiene las siguientes ecuaciones:
Resolviendo el sistema de ecuaciones se obtiene:

es equivalente a:

Interpretación:
Si b > 0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X se tiene
mayores valores de Y .
Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X se tiene
menores valores de Y .
Si b = 0, se dice que no hay regresión muestral.
Coeficiente de determinación
El coeficiente de determinación mide el porcentaje de variación en la variable respuesta, explicada por
la variable independiente, es denotada por 𝑟 2 y se define por:

es equivalente a:

Donde, las sumas de los cuadrados:

son respectivamente

SCT : Suma de cuadrados total.


SCE : Suma de cuadrados de los errores.
SCR : Suma de cuadrados debido a la regresión.
Cuanto mayor es el valor de 𝑟 2 menor es la dispersión y mayor el ajuste de la recta
de regresión a los datos.
Ejercicios explicativos
Jensen Tire & Auto está por decidir si firma un contrato de mantenimiento para su nueva
máquina de alineamiento y balanceo de neumáticos. Los gerentes piensan que los gastos
de mantenimiento deberán estar relacionados con el uso y recolectan los datos siguientes
sobre uso semanal (horas) y gastos anuales de mantenimiento (en cientos de dólares).

a. Realice el diagrama de dispersión, e indicar la tendencia de los datos.

Se tiene una tendencia de


datos lineal positiva
b. Calcular la recta de regresión con el fin de predecir los gastos anuales en mantenimiento e
interprete la pendiente de la regresión.
𝑌 = 𝑎 + 𝑏𝑋 𝑋: Uso semanal (horas) de la máquina de alineamiento y balanceo de neumáticos
𝑌 : gastos anuales de mantenimiento (en cientos de dólares )
a =10.528 𝑌 = 10.528 + 0.9534 𝑋
b =0.9534
b > 0 a mayor uso semanal (horas) de la máquina mayores serán los gastos anuales de
mantenimiento
c. Estime el gasto anual en mantenimiento, si la máquina se usa 35 horas a la semana
𝑌 = 10.528 + 0.9534 𝑋
Y= 10.528+0.9534 (35)
Y= 43.897 en cientos de dólares

d. Si el gasto anual en mantenimiento para una de estas máquinas fue de cinco mil dólares, ¿cuántas horas a la
semana se usó la máquina?
𝑌 = 10.528 + 0.9534 𝑋
50=10.528+0.9534 𝑋
𝑋= 41.4013 horas de uso
e. Determine e interprete el coeficiente de correlación.

R= 0.9253 existe una correlación fuerte positiva entre uso semanal (horas) de la
máquina y gastos anuales de mantenimiento (en cientos de dólares )

f. Determine e interprete el coeficiente de determinación

𝑟 2 =0.8562
El 85.62% de la variabilidad de gastos anuales de mantenimiento (en cientos de
dólares ) es explicada por la variabilidad del uso semanal (horas) de la máquina
Ejercicios explicativos
Se han estudiado las calificaciones de 20 alumnos en dos asignaturas: Matemática (X) y Estadística
(Y ), obteniéndose los siguientes resultados:

Además se sabe que el coeficiente de correlación lineal entre ambas variables es r = 0.90. ¿Qué nota
se puede predecir en la asignatura de Estadística, para un alumno que ha obtenido 14 en Matemática?
Solución
𝑆𝑥𝑦 𝑆𝑥𝑦
𝑟=𝑆 0.9 = 𝑆𝑥𝑦 =2.7
𝑥 𝑆𝑦 2 1.5
𝑆𝑥𝑦 2.7
b= = =0.675
𝑆𝑥2 4
𝑎 =𝑦 − 𝑏𝑥 ; 𝑎 =15-0.675(13)=6.225
𝑌 = 𝑎 + 𝑏𝑥
𝑌 = 6.225 + 0.675𝑋
𝑌 = 6.225 + 0.675 (14)
𝑌 = 15.675 = 16 La nota que se puede predecir en la asignatura de Estadística es de 16
Regresión y correlación lineal
TAREA DOMICILIARIA

Resuelve los ejercicios de la tarea domiciliaria


del archivo S14.s1 – Teoría y práctica y adjunta a
tu archivo en la tarea S14.s1 – Resolver
ejercicios.

Вам также может понравиться