Вы находитесь на странице: 1из 8

INTRODUCCIÓN

Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o


dependencia entre variables. Frecuentemente resulta de interés conocer el efecto que
una o varias variables pueden causar sobre otra, e incluso predecir en mayor o menor
grado valores en una variable a partir de otra. Por ejemplo, supongamos que las alturas
de los padres influyen significativamente en la de los hijos. Podríamos estar interesados
en estimar la altura media de los hijos cuyos padres presentan una determinada estatura.
Los métodos de regresión estudian la construcción de modelos para explicar o
representar la dependencia entre una variable respuesta o dependiente (Y ) y la(s)
variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos el modelo de
regresión lineal, que tiene lugar cuando la dependencia es de tipo lineal, y daremos
respuesta a dos cuestiones básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y? ¿Es significativa la
dependencia lineal entre esas dos variables?
• De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir
la variable dependiente (Y ) a partir de valores observados en la independiente (X).
1. ANÁLISIS DE REGRESIÓN LINEAL

Concepto:
En estadística, el análisis de la regresión es un proceso estadístico para estimar las
relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de
diversas variables, cuando la atención se centra en la relación entre una variable
dependiente y una o más variables independientes (o predictoras). Más específicamente,
el análisis de regresión ayuda a entender cómo el valor de la variable dependiente varía
al cambiar el valor de una de las variables independientes, manteniendo el valor de las
otras variables independientes fijas. Más comúnmente, el análisis de regresión estima la
esperanza condicional de la variable dependiente dadas las variables independientes - es
decir, el valor promedio de la variable dependiente cuando se fijan las variables
independientes. Con menor frecuencia, la atención se centra en un cuantil, u otro
parámetro de localización de la distribución condicional de la variable dependiente
dadas las variables independientes. En todos los casos, el objetivo de la estimación es
una función de las variables independientes llamada la función de regresión. En el
análisis de regresión, también es de interés caracterizar la variación de la variable
dependiente en torno a la función de regresión, la cual puede ser descrita por una
distribución de probabilidad.
El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde
su uso tiene superposición sustancial en el campo de aprendizaje automático. El análisis
de regresión se utiliza también para comprender cuales de las variables independientes
están relacionadas con la variable dependiente, y explorar las formas de estas relaciones.
En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir
relaciones causales entre las variables independientes y dependientes. Sin embargo, esto
puede llevar a ilusiones o relaciones falsas, por lo que se recomienda precaución,1 por
ejemplo, la correlación no implica causalidad.
Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión.
Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos
ordinarios son paramétricos, en que la función de regresión se define en términos de un
número finito de parámetros desconocidos que se estiman a partir de los datos. La
regresión no paramétrica se refiere a las técnicas que permiten que la función de
regresión consista en un conjunto específico de funciones, que puede ser de dimensión
infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la


forma del proceso de generación de datos, y cómo se relaciona con el método de
regresión que se utiliza. Dado que la forma verdadera del proceso de generación de
datos generalmente no se conoce, el análisis de regresión depende a menudo hasta cierto
punto de hacer suposiciones acerca de este proceso. Estos supuestos son a veces
comprobables si una cantidad suficiente de datos está disponible. Los modelos de
regresión para la predicción son frecuentemente útiles aunque los supuestos sean
violados moderamente, aunque no pueden funcionar de manera óptima. Sin embargo, en
muchas aplicaciones, sobre todo con pequeños efectos o las cuestiones de causalidad
sobre la base de datos observacionales, los métodos de regresión pueden dar resultados
engañosos
El análisis de regresión es, con mucho la técnica multivariable más utilizada y versátil,
aplicable en muchísimos campos de la toma de decisiones en marketing. El análisis de
regresión es una técnica estadística utilizada para analizar la relación entre una sola
variable dependiente y varias independientes, siendo su formulación básica la siguiente:

El objetivo de esta técnica es usar las variables independientes, cuyos valores se


conocen, para predecir el de la variable dependiente. Cada variable independiente está
ponderada por unos coeficientes que indican la contribución relativa de cada una de las
variables para explicar la dependiente.

MODELOS DE REGRESIÓN
Regresión lineal simple
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar
una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

a (ordenada en el origen, constante)


b (pendiente de la recta)
A la cantidad e=Y-Ŷ se le denomina residuo o error residual.
Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5
cm por cada cm del padre
FÓRMULAS BÁSICAS EN LA REGRESIÓN LINEAL SIMPLE

Como ejemplo de análisis de regresión, describiremos el caso de Pizzería Armand,


cadena de restaurantes de comida italiana. Los lugares donde sus establecimientos han
tenido más éxito están cercanos a establecimientos de educación superior. Se cree que
las ventas trimestrales (representadas por y) en esos restaurantes, se relacionan en forma
positiva con la población estudiantil (representada por x). Es decir, que los restaurantes
cercanos a centros escolares con gran población tienden a generar más ventas que los
que están cerca de centros con población pequeña. Aplicando el análisis de regresión
podremos plantear una ecuación que muestre cómo se relaciona la variable dependiente
“y” con la variable independiente “x”
El modelo de regresión y la ecuación de regresión
En el ejemplo, cada restaurante está asociado con un valor de x (población estudiantil en
miles de estudiantes) y un valor correspondiente de y (ventas trimestrales en miles de
$). La ecuación que describe cómo se relaciona y con x y con un término de error se
llama modelo de regresión. Éste usado en la regresión lineal simple es el siguiente:
Modelo de regresión lineal simple: y = β0 + β1 x + ε
β0 y β1 son los parámetros del modelo. ε es una variable aleatoria, llamada error, que
explica la variabilidad en y que no se puede explicar con la relación lineal entre x y y.
Los errores, ε, se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviación estándar σ. Esto implica que el valor medio o
valor esperado de y, denotado por E(Y/x), es igual a β0 + β1 x.

1.1. EL MODELO DE REGRESIÓN LINEAL

El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre


una variable dependiente (variable respuesta) Y un conjunto de variables independientes
(variables explicativas) X1,..., Xn.
En un modelo de regresión lineal simple tratamos de explicar la relación que existe
entre la variable respuesta Y y una única variable explicativa X.
Ejemplo: En la muestra de la miel vamos a ver si existe relación lineal entre la acidez
libre (AcLib) y la acidez total (AcTot). Para ver si un modelo de regresión lineal tiene
sentido, comenzamos dibujando un diagrama de dispersión.

Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos
una función que sea una buena aproximación de una nube de puntos (xi,yi), mediante
una curva del tipo:

Yˆ = f (X )
El modelo de regresión lineal simple tiene la siguiente expresión:

En donde  es la ordenada en el origen (el valor que toma Y cuando X vale 0),  es la
pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad) y  una
variable que incluye un conjunto grande de factores, cada uno de los cuales influye en la
respuesta sólo en pequeña magnitud, a la que llamaremos error. X e Y son variables
aleatorias, por lo que no se puede establecer una relación lineal exacta entre ellas.
1.2. MÉTODO DE MÍNIMOS CUADRADOS

Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar
una recta de la forma:

Yˆ ˆ ˆX  a  bX

de modo que se ajuste a la nube de puntos.


Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en
minimizarla suma de los cuadrados de los errores:

Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados
(yi) y los valores estimados ( yˆi ).

Con este método, las expresiones que se obtiene para a y b son las siguientes:
Estos parámetros se calculan como:

La cantidad b se denomina coeficiente de regresión de Y sobre X, lo denotamos por


bY / X

acidez libre) son los siguientes:

dondeY es la acidez total y X es la acidez libre

Para calcular la recta de regresión de X sobre Y se hace aproximando X por Xˆ , del


modo:

Es totalmente incorrecto despejar X de la ecuación para calcular la recta de

regresión de X sobre Y

Вам также может понравиться