Вы находитесь на странице: 1из 2

Fórmulas básicas en la regresión lineal simple

Como ejemplo de análisis de regresión, describiremos el caso de Pizzería Armand,


cadena de restaurantes de comida italiana. Los lugares donde sus establecimientos han
tenido más éxito están cercanos a establecimientos de educación superior. Se cree que
las ventas trimestrales (representadas por y) en esos restaurantes, se relacionan en forma
positiva con la población estudiantil (representada por x). Es decir, que los restaurantes
cercanos a centros escolares con gran población tienden a generar más ventas que los
que están cerca de centros con población pequeña. Aplicando el análisis de regresión
podremos plantear una ecuación que muestre cómo se relaciona la variable dependiente
“y” con la variable independiente “x”

El modelo de regresión y la ecuación de regresión

En el ejemplo, cada restaurante está asociado con un valor de x (población estudiantil en


miles de estudiantes) y un valor correspondiente de y (ventas trimestrales en miles de $).
La ecuación que describe cómo se relaciona y con x y con un término de error se llama
modelo de regresión. Éste usado en la regresión lineal simple es el siguiente:

Modelo de regresión lineal simple: y = β0 + β1 x + ε β0 y β1 son los parámetros del


modelo. ε es una variable aleatoria, llamada error, que explica la variabilidad en y que no
se puede explicar con la relación lineal entre x y y. Los errores, ε, se consideran variables
aleatorias independientes distribuidas normalmente con media cero y desviación estándar
σ. Esto implica que el valor medio o valor esperado de y, denotado por E(Y/x), es igual a
β0 + β1 x..

La ecuación estimada de regresión (lineal simple)

Los parámetros, β0 y β1, del modelo se estiman por los estadísticos muestrales b0 y b1,
los cuales se calculan usando el método de mínimos cuadrados.

Ecuación Estimada de regresión lineal simple: ŷ = b0 + b1 x

En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de


regresión estimada. ŷ es el valor estimado de y para un valor específico de x.

R CUADRADO (COEFICIENTE DE DETERMINACIÓN)

El R Cuadrado se define como la proporción de la varianza total de la variable explicada


por la regresión. El R Cuadrado, también llamado coeficiente de determinación, refleja la
bondad del ajuste de un modelo a la variable que pretender explicar.

Es importante saber que el resultado del R Cuadrado oscila entre 0 y 1. Cuanto más cerca
de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos
intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará
el modelo y, por tanto, menos fiable será
Interpretación del R Cuadrado

Supongamos que queremos explicar la cantidad de goles que anota Cristiano Ronaldo
según la cantidad de partidos que juega. Suponemos que, a mayor cantidad de partidos
jugados, más goles meterá. Los datos pertenecen a las últimas 8 temporadas. De tal
manera que tras extraer los datos el modelo arroja la siguiente estimación: Cómo
podemos ver en el gráfico, la relación es positiva. A más partidos jugados, como es lógico,
más goles anota en la temporada. El ajuste, según el cálculo del R Cuadrado, es de
0.835. Lo cual quiere decir que es un modelo cuyas estimaciones se ajustan bastante bien
a la variable real. Aunque técnicamente no sería correcto, podríamos decir algo así como
que el modelo explica en un 83.5% a la variable real.

EL R CUADRADO AJUSTADO

El R Cuadrado ajustado es la medida que define el porcentaje explicado por la varianza


de la regresión en relación con la varianza de la variable explicada. Es decir, lo mismo
que el R Cuadrado, pero con una diferencia. Esa diferencia se encuentra en que el R
Cuadrado ajustado penaliza la inclusión de variables.

Cómo hemos dicho anteriormente el R Cuadrado de un modelo aumenta aunque las


variables que incluyamos no sean relevantes. Ya que esto supone un problema, para
intentar solventarlo el R Cuadrado ajustado queda tal que:

Donde N es el tamaño de la muestra y k el número de variables explicativas. Por


deducción matemática, a valores más altos de k, más alejado estará el R Cuadrado
ajustado del R Cuadrado normal. Al revés a valores más bajos de k, más cerca estará de
1 la fracción central y, por tanto, más parecidos serán el R Cuadrado ajustado y el R
Cuadrado normal. Recordando que k es el número de variables explicativas, deducimos
que éste no puede ser cero. Si fuese cero, no existiría modelo. Como mínimo tendremos
que explicar una variable en función de otra variable. Dado que k debe ser como mínimo
1, el R Cuadrado ajustado y el R Cuadrado normal no pueden tener el mismo valor. Es
más, el R Cuadrado ajustado será siempre inferior al R Cuadrado normal.