Вы находитесь на странице: 1из 6

ESTADÍSTICA II

Taller 5: Regresión Lineal


2017-II

Objetivo: Plasmar en términos prácticos los conceptos de Regresión Lineal


Dinámica: En parejas resolver los siguientes ejercicios para entregarse el JUEVES 16 de noviembre, al
iniciar la clase. Tome como base para resolver los ejercicios los libros de base para este curso, y las
diapositivas de la clase. Pueden usar herramientas como Excel, R (RStudio) para resolver los ejercicios. Para
tener crédito total, es necesario que muestren el procedimiento usado en los cálculos.
Código: Nombre: Nota:
47152067 Cristian Madrid

1) Defina con sus propias palabras ¿qué es correlación en estadística?

Correlación es la relación(es) que hay entre diferentes variables. Nos indica si hay o no ndependencia
entre dos variables.

2) ¿Qué mide el coeficiente de correlación lineal de Pearson (𝜌)?

El coeficiente de correlación mide el grado de dependencia entre las variables x e y

3) ¿Qué relación existe entre el concepto de independencia y el de correlación? Describa un ejemplo donde dos variables
tengan un coeficiente de correlación lineal de Pearson cercano a cero, pero que no sean independientes.

La relación entre correlación e independencia es que al ser la correlación lineal 0 hay independencia.

4) ¿Cuál es la hipótesis nula y la alternativa, en términos matemáticos y textual, en una prueba de sobre el coeficiente
de correlación lineal de Pearson (𝜌)?
La hipótesis nula es igual a cero lo que indica independencia y la hipótesis alternativa es un valor cercano
a 1 o a -1 lo que indica dependencia.
S xy
r
Sx  S y
-1  r  1;
H0: r = 0
Ha: r ≠ 0

5) En sus propias palabras ¿Cómo se puede interpretar el valor r2?

Que tanta variabilidad de y es explicada por x


6) ¿Por qué correlación no necesariamente implica causación?
Una causación necesariamente implica una correlación, sin embargo, una correlación puede o no implicar una
causación.

Esto se debe que una correlacion puede tomar otro tipos de dependencias, y tomar variables que no tengan
relación alguna.

7) (7) Acciones y el Súper Bowl. Se registraron los valores máximos del Promedio Industrial Dow Jones (Dow Jones
Industrial Average, DJIA) y el número total de puntos anotados en el Súper Bowl en 21 años. Se utilizó Excel para
calcular el valor del coeficiente de correlación lineal 𝑟 = −0,133
a) ¿Existe una correlación lineal entre el valor máximo del DJIA y los puntos en el Súper Bowl? Explique.

No ya que el coeficiente de relación aunque es diferente de cero es muy cercano a este por lo que la nueve
de puntos estaría muy dispersa.

b) ¿Qué proporción de la variación de los puntos del Súper Bowl puede explicarse por la variación del valor máximo
del DJIA?

El 13,3 % de la variación de los puntos del Súper Bowl puede explicarse por la variación del valor máximo
del DJIA

8) (11) Efectos de un valor extremo. Remítase al siguiente diagrama de dispersión:

a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación entre x y y.

Si parece existir una correlación entre x y y

b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor del coeficiente de
correlación r y determine si existe una correlación lineal.

Cor=0.9056604, si existe una correlación lineal

c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b).

a) no parece existir una correlación entre x y y ya que la nube se encuentra muy diversa.
b) Cor=0, no existe una correlación lineal

2
d) ¿Qué concluye cerca del posible efecto de un solo par de valores?

Que un par de valores pueden provocar que dos variables puedan o no ser dependientes.

9) Mediciones de presión sanguínea. Catorce estudiantes de medicina del segundo año midieron la presión sanguínea
del mismo paciente; los resultados se presentan a continuación (según datos del doctor Marc Triola). ¿Existe una
correlación entre los valores sistólicos y diastólicos? Además de la correlación, ¿hay algún otro método que se podría
utilizar para estudiar un aspecto importante que sugieren los datos?

Sistólica 138 130 135 140 120 125 120 130 130 144 143 140 130 150
Diastólica 82 91 100 100 80 90 80 80 80 98 105 85 70 100

Si existe una correlación entre los valores sistólicos y diastólicos, se podría utilizar una regresión.

Identificación de errores de correlación. En los ejercicios 11 a 14, describa el error en la conclusión.


10) (33) Se sabe que: Los datos muéstrales apareados de las edades de sujetos y sus puntuaciones en una prueba de
razonamiento dan como resultado un coeficiente de correlación lineal muy cercano a 0.
Conclusión: Las personas más jóvenes tienden a obtener puntuaciones más altas.

El error está en que al ser el coeficiente de correlación muy cercano a cero no habría dependencia
inversa como plantea la conclusión

11) (34) Se sabe que: Existe una correlación lineal significativa entre los ingresos personales y los años de escolaridad.
Conclusión: Una mayor escolaridad causa que se incrementen los ingresos de una persona.

A mayor escolaridad mayor ingresos personales pero esto no quiere decir que la causa de que los ingresos
personales aumenten por esta variable

12) (35) Se sabe que: Sujetos resuelven una prueba de habilidades verbales y una prueba de destreza manual, y esos pares
de puntuaciones dan como resultado un coeficiente de correlación lineal muy cercano a 0.
Conclusión: Las puntuaciones en ambas pruebas no tienen ninguna relación.

El error está en que si puede haber una relación entre estas variables pero es muy pequeña o casual. Mas
no se puede decir que no hay ninguna relación.

13) (36) Se sabe que: Existe una correlación lineal entre las cargas del impuesto estatal promedio y los ingresos estatales
promedio.

3
Conclusión: Existe una correlación lineal entre las cargas de impuestos individuales y los ingresos individuales.

El error está en que no se puede suponer que al existir una correlación lineal entre promedios también
exista para sus valores individuales ya que el promedio es una forma de ajustar datos.

14) (37) Correlaciones con datos transformados. Además de probar una correlación lineal entre x y y, con frecuencia podemos
utilizar transformaciones de datos para explorar otras relaciones. Por ejemplo, podríamos reemplazar cada valor de x por x2 y
emplear los métodos de esta sección para determinar si existe una correlación lineal entre y y x2. A partir de los datos apareados
en la siguiente tabla, construya el diagrama de dispersión y luego realice una prueba de correlación lineal entre y y cada uno de
los siguientes elementos. ¿Cuál de estos casos da por resultado el valor más grande de r?
a. x b. x2 c. Log x d. √𝑥 e. 1/𝑥

x 1.3 2.4 2.6 2.8 2.4 3.0 4.1


y 0.11 0.38 0.41 0.45 0.39 0.48 0.61

Cor= 0.971591 para x vs y

Cor= 0.9052964 para x2 vs y

Cor= 0.9994067 para Log x vs y

Cor= 0.9915132 para √𝑥 vs y

Cor= -0.9838736 para 1/𝑥 vs y

El coeficiente de correlación más grande es el del log x

15) Defina con sus propias palabras ¿qué es regresión en estadística y qué usos tiene?

La regresión en estadística es un proceso estadístico que se utiliza para determinar la relación o dependencia
entre dos variables

16) Defina con sus propias palabras ¿qué diferencia hay entre las variables independientes (de predicción) y la variable
dependiente (respuesta) en un modelo de regresión lineal?

La diferencia entre una variable de predicción y una de respuesta es que la primera se utiliza para
determinar o hallar la segunda variable. También que al generarse un cambio en la variable independiente
se genera un cambio en la variable dependiente pero no sucede esto de la forma contraria.

17) Defina con sus propias palabras ¿qué es nos indica el intercepto en la ecuación de regresión?

Nos indica el punto de corte con el eje debido a la pendiente

4
18) Defina con sus propias palabras ¿qué nos indica la pendiente en la ecuación de regresión de una sola variable
independiente?

La pendiente nos indica la inclinación de la recta debido al cambio que se genera en la variable y debido
ax

19) Defina con sus propias palabras ¿qué son los puntos de influencia en regresión?

Los puntos de influencia en regresión son aquellos que determinan si hay relación o no entre dos variables
y la dirección y sentido a la recta.

20) Defina con sus propias palabras ¿qué son los residuales en regresión?

Son los puntos verticales que se alejan de la línea de tendencia o recta que une a la mayor cantidad de
puntos

21) Defina con sus propias palabras ¿qué es la propiedad de mínimos cuadrados?

La propiedad de mínimos cuadrados es la propiedad que nos permite encontrar la recta que pase lo más
cerca posible de todos los puntos, esto se logra obteniendo la mínima suma de los cuadrados de las
distancias verticales o diferencias entre los valores teóricos y los observados.

22) Explique con sus propias palabras ¿Cuál es la relación entre el coeficiente correlación lineal de Pearson y la pendiente
de la recta de regresión lineal?

La relación es que por medio de ambos se puede determinar la relación entre dos variables, su similitud
también se evidencia en sus fórmulas.

23) (5) Puntuaciones de CI de gemelos separados al nacer. Se obtuvieron las puntuaciones de CI de gemelos separados al nacer,
elegidos al azar. Para 20 de estos gemelos, el coeficiente de correlación lineal es 0,870 y la ecuación de la recta de regresión es
𝑦̂ = −3,22 + 1,02𝑥 , donde 𝑥 representa la puntuación de CI del gemelo que nació primero. Asimismo, los 20 valores de 𝑥
tienen una media de 104,2 y los 20 valores de 𝑦 tienen una media de 103,1. ¿Cuál es el mejor CI predicho de un gemelo que nació
en segundo lugar, dado que el gemelo que nació primero tiene un CI de 110?

24) (19) Mediciones de presión sanguínea. Calcule la mejor presión sanguínea diastólica predicha para una persona con una lectura
sistólica de 140.
Sistólica 138 130 135 140 120 125 120 130 130 144 143 140 130 150
Diastólica 82 91 100 100 80 90 80 80 80 98 105 85 70 100

5
25) (36) Gráfica residual. Considere los datos de la siguiente tabla.

x 0 1 2 3 4 5 6 7 8 9 10
y 0 1 4 9 16 25 36 49 64 81 100

a. Examine los datos e identifique la relación entre x y y.

La relación es cuadrática

b. Calcule el coeficiente de correlación lineal y úselo para determinar si existe una correlación lineal significativa entre x y y.

r=0.9631427 existe una correlación lineal significativa

c. Construya un diagrama de dispersión. ¿Qué sugiere el diagrama acerca de la relación entre x y y?

Sugiere que hay una relación cuadrática, a medida que aumenta x el


valor de y se duplica.

d. Construya una gráfica residual. ¿Existe algún patrón evidente? ¿Qué sugiere la gráfica residual acerca de la relación entre
x y y?

Вам также может понравиться