Академический Документы
Профессиональный Документы
Культура Документы
Un análisis de regresión genera una ecuación para describir la relación estadística entre
uno o más predictores y la variable de respuesta y para predecir nuevas observaciones.
Analisis de Regresion
Una relacion funcional matemáticamente hablando, está dada por:
Y = f(x1,...,xn; θ1,...,θm)
donde:
Y : Variable respuesta (o dependiente)
xi : La i-ésima variable independiente (i=1,..,n)
θj : El j-ésimo parámetro en la función (j=1,..,m)
f : La función
Para elegir una relación funcional particular como la representativa de la población bajo
investigación, usualmente se procede:
1) Una consideración analítica del fenómeno que nos ocupa, y
2) Un examen de diagramas de dispersión.
El término regresión fue utilizado por primera vez como un concepto estadístico en 1877
por sir Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los
niños nacidos de padres altos tiende a retroceder o “regresar” hacia la estatura media de
la población. Designó la palabra regresión como el nombre del proceso general de
predecir una variable (la estatura de los niños) a partir de otra (la estatura del padre o de
la madre). Más tarde, los estadísticos acuñaron el término regresión múltiple para
describir el proceso mediante el cual se utilizan varias variables para predecir otra.
Esta nos sirve para estimar la línea de regresión poblacional a partir de la nube de
puntos se utiliza el método de los mínimos cuadrados ordinarios (MCO), que considera
como recta que mejor se ajusta a la que minimiza la suma de los cuadrados de los
residuos.
Si la recta de mejor ajuste es los errores o residuos se definen como: y los estimadores
por MCO de la ordenada en el origen, y de la pendiente, son:
Para evaluar la bondad del ajuste se calcula el coeficiente de determinación R2 y, para
medir la dispersión de los puntos alrededor de la recta estimada, el error típico de la
estimación Su. Estas medidas se definen como:
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores
de A lo hacen los de B, la relación es directa (pendiente positiva); si al crecer los valores
de A disminuyen los de B, la relación es inversa (pendiente negativa).
Relación directa
Una relación directa también se puede quemar relación positiva. Una relación directa
ocurre cuando ambas variables en un espacio producen resultados que incrementan o
disminuyen en valor. Esto significa que, si la variable de ingreso incrementa, al igual que
la variable de salida, y viceversa. Por ejemplo, en la ecuación y=3+6x, si x es 2, entonces
y sería 15. Si x incrementará 3, entonces y también incrementaría, a 21. Ambas variables
se mueven en la misma dirección en la línea numérica.
Para los valores de X mayores que la media le corresponden valores de Y mayores también.
Para los valores de X menores que la media le corresponden valores de Y menores también.
Relación inversa
Una relación inversa también se puede llamar relaciones negativas. Ocurre cuando el
incremento en el valor de una de las variables da como resultado la disminución en el
valor de la otra variable. Esto significa que, si la variable de interés incrementa, la variable
de salida disminuye. En la ecuación y=25-4x, si sustituyes 4 por x, entonces y será igual
a 9. Si x incrementa a 5, entonces el valor de y será 5. El valor de x ha incrementado y
como resultado el valor de y ha disminuido. El valor de las variables se moverá en
dirección opuesta sobre la línea numérica cuando tengan una relación inversa.
En las relaciones lineales, las líneas trazadas a través de los puntos representan una
relación directa, los puntos están relativamente cerca de esta línea, podemos decir que
existe un alto grado de asociación entre X, Y la relación descrita por los puntos está
bien definida por una línea recta, mientras que en las relaciones curvilíneas la relación
de las variables X, Y puede tomar la forma de una curva.
El primer paso para determinar si existe una relación entre dos variables es examinar la
gráfica de los datos observados (o conocidos). Esta gráfica, o dibujo, se llama diagrama
de dispersión. Un diagrama de dispersión nos puede dar dos tipos de información.
Visualmente, podemos identificar patrones que indiquen que las variables están
relacionadas. Si esto sucede, podemos ver qué tipo de línea, o ecuación de estimación,
describe esta relación.
Desarrollaremos y utilizaremos un diagrama de dispersión específico. Suponga que el
director de admisiones de una universidad nos pide determinar si existe una relación entre
las calificaciones de un estudiante en su examen de admisión y su promedio general al
graduarse. El director ha reunido una muestra aleatoria de datos de los registros de la
universidad. La tabla que sigue contiene esta información.
Calificaciones de
estudiantes en
exámenes de admisión Estudiante A B C D E F G H
y promedios de
generales acumulados Calificaciones de examen de admisión (100 =
al graduarse máxima calificación posible) 74 69 85 63 82 60 79 91
Promedio general acumulado (4.0 = 𝐴) 2.6 2.2 3.4 2.3 3.1 2.1 3.2 3.8
Para comenzar, debemos transferir la información de la tabla anterior a una gráfica.
Puesto que el director desea utilizar las calificaciones de los exámenes para pronosticar
éxitos en la universidad, hemos colocado el promedio de calificaciones acumulado (la
variable dependiente) en el eje vertical o Y, y la calificación del examen de admisión (la
variable independiente) en el eje horizontal o X. La figura de la izquierda nos muestra el
diagrama de dispersión completo.