Вы находитесь на странице: 1из 22

Correlación y regresión Lineal

Prof. Jorge Figueroa P.


Tablas Bivariados
Hasta ahora se han estudiado las representaciones de una sola variable por
individuo y por muestra. Son las distribuciones univariadas. En un individuo se
pueden estudiar conjuntamente dos o más variables con objeto de ver si hay
relación o dependencia entre ellas. Cuando son dos se llaman bivariadas o
bidimensionales.
A una de las variables Ejemplos:
se la llama variable Ejemplos:
Ambas variables sexo y hábito de fumar,
independiente y se talla y peso, edad y
pueden ser sexo y peso al nacer,
representa por X. A la tensión arterial,
cuantitativas o velocidad de un
otra se la denomina frecuencia cardiaca y
cualitativas. vehículo y distancia de
variable dependiente frecuencia respiratoria.
y su símbolo es Y. frenada.
Tablas de Contingencia
En la primera columna se categoriza una de
las variables (por ejemplo, sexo)

En la primera fila, se categoriza la otra


variable (por ejemplo, mano con la cual
escribe)
Diestro Zurdo TOTAL

Hombre 43 9 52

Mujer 44 4 48
En la esquina inferior derecha
TOTAL 87 13 100 se registra el total de individuos
observados.

Las cifras en la columna de la derecha y en la


fila inferior reciben el nombre de frecuencias
marginales.
Graficos
El tipo de gráfico a utilizar
depende de los tipos de
variables

Si una o ambas variables son del tipo Si ambas variables son cuantitativas y
cualitativo o si están agrupadas en están registrados de manera aislada (es
intervalos, se usará un gráfico de barras en decir, sin tabla), se utilizará un gráfico de
3D llamado estéreograma. dispersión (o nube de puntos).
Cálculos en una tabla de contingencia
La suma de los datos de la variable X y de laos datos de la
variable Y por separado

El promedio de los datos de la variable X y los de la


variable Y por separado

Cuando los datos corresponden


a variables cuantitativas y están La suma de los cuadrados de los datos de la variable X y
registrados de forma aislada o de los cuadrados de los datos de la variable Y por
por intervalos, se puede separado
calcular:
El promedio de los cuadrados de los datos de la variable X
y el de los cuadrado de los datos de la variable Y por
separado

La suma del producto de cada dato de la variable X con su


respectivo datos de la variable Y.
Ejemplo
Índices de Asociación
• Cuando las variables bidimensionales son del tipo cuantitativo, se pueden
calcular dos índices o parámetros de asociación.

• Correlación: Significa relación mutua y expresa el grado de asociación


existente entre las variables dos variables, el CUANTO de la relación. Su
parámetro es el coeficiente de correlación y su símbolo es r.

La finalidad de la correlación es examinar la dirección y la fuerza de la


asociación entre dos variables cuantitativas. Así conoceremos la
intensidad de la relación entre ellas y si, al aumentar el valor de una
variable, aumenta o disminuye el valor de la otra variable.

• Regresión: Es la forma, el COMO de esa asociación. Expresa la relación


entre las variables X e Y, mediante la ecuación de regresión (Y:f(x) ) y su
representación gráfica, la línea de regresión
Coeficiente de correlación (r)
• Mide la intensidad de la asociación entre las
variables.
• Es un número abstracto; es decir, no tiene
unidades de medida.
• También recibe el nombre de coeficiente de
Pearson.
• Puede adoptar cualquier valor entre -1 y 1.
Características del coeficiente de
correlación
De acuerdo al valor obtenido, se debe interpretar de la
siguiente forma:

•Si r: -1 hay una correlación total (perfecta) negativa.

•Si está entre -1 y 0, la correlación es parcial y negativa.

•Si r: 0 no hay correlación.

•Si está entre 0 y 1, la correlación es parcial y positiva.

•Si r: 1 hay una correlación total (perfecta) positiva.


Gráficamente
¿Como se calcula el coeficiente de
correlación?
Ejemplo:
Se consultó a cinco estudiantes de la carrera de
Administración sobre la cantidad de días que
habían llegado atrasados en la semana anterior
(variable X) y el número de preguntas incorrectas
que tuvieron en una prueba aplicada en la semana
actual (variable Y), obteniendo los siguientes
resultados:
X: {2, 1, 3, 2, 5}
Y: {3, 5, 4, 2, 6}

a) Calcular el Coeficiente de correlación


Solución:
Se puede construir la siguiente tabla auxiliar, para facilitar el cálculo de algunos
valores involucrados en la fórmula anterior
Se aplica la formula

Se Interpreta:
Dado que se obtuvo un valor entre 0 y 1, se puede concluir que hay una
asociación parcial positiva entre las variables estudiadas; es decir, al aumentar los
atrasos durante una semana, se aumenta también el número de preguntas
erróneas en la prueba.
Grafico de dispersión y puntos
Regresión Lineal
• También se llama recta de regresión, pues su
representación gráfica es una línea recta.
• Es una expresión algebraica que relaciona cada
dato de la variable independiente X con su
respectivo dato de la variable dependiente Y.
• Centraremos nuestra atención en la recta de
mejor ajuste. Es la que presenta menos errores al
estimar el correspondiente valor de Y para cada
valor de X.
• Se escribe de la forma
Y=bX +a.
Coeficiente de regresión
Ejemplo:
Se consultó a cinco estudiantes de la carrera de
Administración sobre la cantidad de días que habían
llegado atrasados en la semana anterior (variable X) y el
número de preguntas incorrectas que tuvieron en una
prueba aplicada en la semana actual (variable Y),
obteniendo los siguientes resultados:
X: {2, 1, 3, 2, 5}
Y: {3, 5, 4, 2, 6}

a) Obtener la Recta del mejor ajuste (Regresion Lineal)


Solución
Se puede construir la siguiente tabla auxiliar, para facilitar el cálculo de algunos
valores involucrados en la fórmula anterior
Se aplica la formula

Se escribe la Recta:
Se interpreta:

• Coeficiente de Correlación: B = 0,543 es la pendiente de la recta. En este


caso es positiva, por lo tanto hay una asociación directa entre el número
de atrasos de la semana (X) y el número de preguntas incorrectas en la
prueba (Y) (ambas aumentan).

• Intercepto con x = 0: Cuando X = 0 (es decir, si no hay atrasos en la


semana anterior), se obtiene Y = 2,587 (es decir, obtendría entre 2 y 3
preguntas erróneas en una prueba

• Interpolación :Al reemplazar X por 4 (un valor dentro de los datos


registrados para X), se obtiene Y = 4,759, lo que significaría que aquel
estudiante que en 4 ocasiones llegue atrasado en la semana anterior,
tendría prácticamente 5 incorrectas.

• Extrapolación: Al reemplazar X por 6 (un valor fuera de los datos


registrados para X), se obtiene Y=5,845, lo que significaría que aquel
estudiante que en 6 ocasiones llegue atrasado en la semana anterior,
tendría prácticamente 6 preguntas incorrectas.

Вам также может понравиться