Вы находитесь на странице: 1из 7

Universidad Tecnológica de Panamá

Centro Regional de Panamá Oeste

Estadística II
Investigación
Métodos de regresión y correlación

Jean Carlo Tapia


8-914-1294

Profesor: Edgar Rodríguez


Año: 2019
Modelo de regresión lineal simple

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado


para aproximar la relación de dependencia entre una variable dependiente Y, las
variables independientes Xi y un término aleatorio ε.
El modelo lineal relaciona la variable dependiente Y con K variables explícitas Xk (k
= 1,...K), o cualquier transformación de éstas que generen un hiperplano de
parámetros Bk desconocidos:

Donde ε es la perturbación aleatoria que recoge todos aquellos factores de la


realidad no controlables u observables y que por tanto se asocian con el azar, y es
la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una
sola variable explícita, el hiperplano es una recta:

El problema de la regresión consiste en elegir unos valores determinados para los


parámetros desconocidos Bk, de modo que la ecuación quede completamente
especificada. Para ello se necesita un conjunto de observaciones. En una
observación i-ésima (i= 1,... I) cualquiera, se registra el comportamiento simultáneo
de la variable dependiente y las variables explícitas (las
perturbaciones aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parámetros Bk, son


los coeficientes de regresión sin que se pueda garantizar que coincidan con
parámetros reales del proceso generador. Por tanto, en

Los valores 𝜀𝑖 son por su parte estimaciones o errores de la perturbación aleatoria.


Ejemplo de una regresión lineal con una variable dependiente y una
variable independiente.
Recta que mejor se ajusta (Método de mínimos cuadrados)
Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del
conjunto de datos dado.

Es usada para estudiar la naturaleza de la relación entre dos variables.

Una recta que mejor se ajusta puede ser determinada aproximadamente usando el
método visual al dibujar una línea recta en una gráfica de dispersión para que tanto
el número de puntos arriba de la recta y debajo de la recta sean casi iguales (y la
línea pasa a través de tantos puntos como sea posible).

Una forma más precisa de encontrar la recta que mejor se ajusta es el método de
mínimos cuadrados.

Use los pasos siguientes para encontrar la ecuación de la recta que mejor se ajusta
para un conjunto de parejas ordenadas.

Paso 1: Calcule la media de los valores de x y la media de los valores de y.

Paso 2: Realice la suma de los cuadrados de los valores de x.

Paso 3: Realice la suma de cada valor de x multiplicado por su valor


correspondiente y.

Paso 4: Calcule la pendiente de la recta usando la fórmula:

Paso 5: Calcule la intercepción en y de la recta usando la fórmula:

donde son las medias de las coordenadas de x y y de los puntos de datos


respectivamente.

Paso 6: Use la pendiente y la intercepción en y para formar la ecuación de la recta.


Medición del coeficiente de correlación
En estadística, el coeficiente de correlación de Pearson es una medida lineal entre
dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson
como un índice que puede utilizarse para medir el grado de relación de dos variables
siempre y cuando ambas sean cuantitativas y continuas.
Suponiendo que se están estudiando dos variables aleatorias X y Y sobre
una población; siendo la expresión que nos permite calcularlo:

El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo el


sentido de la relación:

 Si r = 1, existe una correlación positiva perfecta. El índice indica una


dependencia total entre las dos variables denominada relación directa: cuando
una de ellas aumenta, la otra también lo hace en proporción constante.
 Si 0 < r < 1, existe una correlación positiva.
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales entre
las dos variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una
de ellas aumenta, la otra disminuye en proporción constante.
Medición del coeficiente de determinación
El coeficiente de determinación, se define como la proporción de la varianza total de la
variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.

Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.


Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado
estará el modelo y, por tanto, menos fiable será.
Medición del error de estimación
Es una medida de su precisión que se corresponde con la amplitud del intervalo de
confianza. Cuanta más precisión se desee en la estimación de un parámetro, más
estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el
error, más observaciones deberán incluirse en la muestra estudiada. En caso de no
incluir nuevas observaciones para la muestra, más error se comete al aumentar la
precisión. Se suele llamar E, según la fórmula E = (θ2 - θ1)/2.

Вам также может понравиться