Вы находитесь на странице: 1из 6

Regresión y correlación lineal

El análisis de regresión lineal es un método de análisis de datos estadístico y se


utiliza analizar la relación o dependencia que hay entre dos variables o más.
Mediante la creación de una línea de "mejor ajuste" para todos los puntos de datos.
En un sistema de dos variables, los valores de ”y” (variable dependiente o
regresora) pueden predecirse a partir de valores conocidos de “x”(variable
independiente o predictora).

El modelo matemático de regresión lineal se emplea continuamente en disciplinas


como la Ingeniería, la biomedicina, la economía, en las ciencias sociales, etc. A
priori el abordaje analítico para encontrar relación lineal entre dos variables
aleatorias es infinito, es decir todo es relacionable, y se aplica para predecir eventos,
gestionar la calidad del producto y analizar una variedad de tipos de datos para la
toma de decisiones.

Nos interesará cuantificar la intensidad de dicha relación lineal entre las variables a
través de un coeficiente de correlación lineal que designaremos por la letra “r”
también conocido como coeficiente de Pearson.

Las ecuaciones matemáticas nos dan una relación de causa-efecto y por medio
de estas representamos los diversos fenómenos de la naturaleza.

Ejemplo: si colocamos diferentes pesos a un resorte, éste se va a estirar


dependiendo del peso que se le haya colocado, sería útil para nosotros (por ejemplo
para construir una balanza), predecir cuanto será la elongación del resorte
dependiendo del peso que le coloquemos.

Asumamos que no hemos escuchado hablar de la ley de Hooke y que lo que


hacemos es tomar una serie de datos de la elongación versus el peso utilizado; la
graficamos para "ver" que comportamiento tiene, y tratamos de esbozar una relación
matemática de los datos tabulados:

Se tomaron las siguientes mediciones de elongación (x) para diferentes pesos (F)
y se obtuvo la siguiente tabla:

11
Dato 1 2 3 4 5 6 7 8 9 10

F 0 5 10 15 20 25 30 35 40 45 50

Elong. 0 1.557 1.290 3.153 4.227 4.660 5.201 6.996 7.074 9.706 10.464

12 13 14 15 16 17 18 19 20 21 22
55 60 65 70 75 80 85 90 95 100 105
11.446 11.8 12.189 14.702 15.898 15.022 17.623 18.986 19.67 19.701 21.121
Gráficamente todo esto se puede plasmar mediante un diagrama de dispersión
(nube de puntos) con su correspondiente recta ajustada.

Grafica Fuerza vs Elongación


25
y = 0.2043x - 0.1597
20
R² = 0.9917
Elongacion 15
10
5
0
-5 0 20 40 60 80 100 120
Fuerza

Luego de observar la gráfica, podemos inferir que los datos siguen un comportamiento
lineal, entonces la pregunta es, ¿cuál es la recta que mejor se ajusta a los datos? Para
responder a esta cuestión debemos encontrar la ecuación de la recta que esté lo más
cercana posible a todos los puntos, y para esto podemos utilizar el método de los mínimos
cuadrados para encontrar los parámetros “a” y “b”

De la expresión Y=a + bx (ecuación de la recta)

Donde a = intercepto de la recta con el eje y


b = el coeficiente de la variable X

para calcular los coeficientes a y b utilizaremos las fórmulas que a continuación se muestran.

𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 −( ∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 ) 𝑆𝑥𝑦 𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑏= 2 𝑜𝑏= 𝑠𝑥2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 )

Una vez calculados los valores de b y a se sustituyen en la ecuación Y=a+bx

Coeficientes de correlación de Pearson(r)


Estas son medidas que indican la situación relativa de los mismos sucesos, es decir,
son la expresión numérica que nos indica el grado de relación existente entre las dos
variables(“x”, “y”) y en qué medida se relacionan. Son valores cuantitativos que varían
entre los límites [1 , -1]. Su magnitud indica el grado de asociación entre las variables;
el valor r = 0 indica que no existe relación entre las variables; los valores= 1 son
indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece
Y) o negativa (Al crecer o decrecer X, decrece o crece Y).
No existe correlación lineal Correlación positiva

Para interpretar el coeficiente de correlación utilizamos la siguiente escala:

Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta

Para calcular el coeficiente de correlación de Pearson(r) se utiliza la siguiente


expresión:
𝑆𝑥𝑦 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑥𝑦 𝑆𝑥𝑦
𝑟=𝑠 = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑥𝑦
𝑥 𝑠𝑦 𝑑𝑒𝑠𝑣𝑒𝑠𝑡𝑑 𝑥)(𝑑𝑒𝑠𝑣𝑒𝑠𝑡 𝑦) 𝑅 2 = √𝑠 = √𝑑𝑒𝑠𝑣𝑒𝑠𝑡𝑑 𝑥)(𝑑𝑒𝑠𝑣𝑒𝑠𝑡 𝑦)
𝑥 𝑠𝑦

Coeficiente de correlación de Pearson Coeficiente de determinación

Es de vital importancia también determinar el coeficiente de determinación (R 2) o


bondad del ajuste.

Este nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal.
A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la
variable y. De modo que se trata de una medida de la proximidad o de ajuste de la
recta de regresión a la nube de puntos.
Para calcular ls variables marginles a utilizar en las ecuciones de la recta y la del coeficiente de
correlacion (r) y el el de determinacion R2. Se utlizan las siguientes formulas.

Formulas estadísticas para calcular las variables marginales


∑𝑛𝑖=1 𝑥𝑖 𝑛𝑖 ∑𝑛𝑖=1 𝑦𝑖 𝑛𝑖
𝑥̅ = (𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑋) 𝑦̅ = = ( 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑌)
𝑛 𝑛
∑𝑛𝑖=1 (𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1 (𝑦𝑖 − 𝑦̅ )2
2 2
𝑠𝑥 = (𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑥) 𝑠𝑦 = (𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑦)
𝑁 𝑁
𝑠𝑥
𝑠𝑦 = √𝑠𝑦2 = (𝐷𝑒𝑠𝑣𝑒𝑠𝑡 𝑠𝑡𝑑 𝑑𝑒 𝑦)
𝑛
∑𝑖=1 (𝑥𝑖 − 𝑥̅ ) 2
=√ (𝐷𝑒𝑠𝑣𝑒𝑠𝑡 𝑠𝑡𝑑 𝑑𝑒 𝑥)
𝑁
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 𝑛𝑖
𝑠𝑥𝑦 = − 𝑥𝑦
̅̅̅ (𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎)
𝑛
𝑛𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎, 𝑒𝑠 𝑑𝑒𝑐𝑖𝑟 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑎𝑝𝑎𝑟𝑒𝑐𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟

La forma más sencilla para calcular todas estas variables marginales es construir
tablas con los datos de las variables que pretendemos analizar, tal y como se
muestra en la hoja de cálculo adjunta con el primer ejemplo:

Una vez construida la tabla de entrada simple, aplicaremos las fórmulas


anteriormente descritas para calcular las variables marginales, como se observa en
la siguiente imagen:
En esta hoja de cálculo se han puesto en dos filas distintas los conceptos
“calculados” y “Excel” respectivamente, las variables calculadas a través de las
fórmulas expresadas más arriba y las calculadas mediante las funciones
estadísticas equivalentes en Excel, que como no puede ser de otro modo son
coincidentes tal y como se observa en la imagen de la figura de la hoja de calculo.
En este sentido, a continuación se muestran las funciones estadísticas de Excel
utilizadas para dichos cálculos:

PROMEDIO () = calcula la media de un rango determinado.


VAR.P () = calcula la varianza de toda la población.
COVAR ()= determina la covarianza.
DESVEST.P ()= calcula la desviación típica de toda la población.
PEARSON ()= determina el factor r de correlación.
COEFICIENTE.CORR() determina el factor r de correlación.
COEFICIENTE.R2()= calcula el coeficiente de determinación o bondad del ajuste.

“ Tal y como se aprecia en la figura la relación lineal establecida entre la F y


Elongcion sigue la ecuación de la recta y = 0.2043x – 0.1597 con una correlación
de Pearson muy alta (r=0.9958) y su coeficiente de determinación (R2) es 0.9979,
es decir conseguiremos explicar el 99,79% de las elongaciones del resorte, fijando
pesos o fuerzas a un resorte partiendo de una serie de datos experimentales.
Podemos aseverar por tanto que la correlación lineal entre las variables aleatorias
analizadas es muy fuerte con un alto poder predictivo de la variable dependiente
“Y”.

Otro ejemplo sencillo para ilustrar este post será buscar correlación lineal
Por último, para obtener la recta de regresión y el factor de determinación,

Obteniendo por fin lo que buscábamos:

Вам также может понравиться