Вы находитесь на странице: 1из 20

UNIVERSIDAD CATOLICA DE TEMUCO

ESCUELA DE CIENCIAS DE LA SALUD


BIOESTADISTICA CCB1107
GUIA CATEDRA X BIOESTADISTICA

Prof.: Dra. Carola del Valle, M.V.


Diplomada en en Epidemiología Clínica
Magíster en Epidemiología Clínica
Análisis de regresión.

El concepto regresión fue introducido por Francis Galton. (Duddeston, 1822


- Haslemere, 1911) Antropólogo y geógrafo inglés. Estudió medicina en el
hospital de Birmingham, en Londres y en Cambridge. Terminados los
estudios en 1844, emprendió -como su primo el gran Charles Darwin, y
también como muchos estudiosos ingleses de la época- una larga serie de
viajes: en 1845-46 estuvo en Sudáfrica; en 1850 exploró el Damaraland en
el sudoeste africano; fruto de tales andanzas fueron dos libros: Explorer in
Tropical South Africa (1853) y Arte de viajar (Art of Travel, 1855). En
1860 emprende nuevo viaje, esta vez a España. Sólo a partir de 1860 se
dedica íntegramente a la investigación científica, primero a la meteorología,
y en 1863 publica Meteorographica, notable obra en la que se contiene la
primera exposición de una teoría de los anticiclones (él es el inventor de
este vocablo) y en la que se hace también por primera vez un uso
sistemático de mapas meteorológicos. Inspirado por la reciente publicación
del Origen de las especies, de Darwin, se dedicó a continuación a la
antropología, teoría de la herencia y estadística demográfica, escribiendo
sobre tales temas muchos libros, de los cuales los más notables
son Hereditary Genius (1869) y La herencia natural (1889). Mientras su
contribución a la teoría de la herencia (leyes de la regresión filial y de la
herencia ancestral), que gozaron de mucha popularidad en su tiempo, ha sido
modernamente superada por el desarrollo de la genética mendeliana-
weismaniana, sus estudios de estadística, por el contrario, dedicados sobre
todo a la investigación de las correlaciones de los caracteres cuantitativos,
conservan todavía un cierto valor.
El análisis de regresión (r2) utiliza para su estimación dos variables
cuantitativas una X fija y una variable Y de respuesta o dependiente
aleatoria.
Conformándose gráficamente como:
a
l
e
a
t
Cuantitativa fija
i
En el típico dispersiograma que usted ya conoce a través del análisis de correlación

Lo que el análisis de correlación intenta es explicar el comportamiento de la


variable dependiente “Y” a través de una o más variables “X” o llamadas
variables explicativas porque como se menciono intenta explicar el
comportamiento de “Y” (regresión simple una X explicativa o múltiple dos o
más X explicativas)

Es un método cuyo objetivo es la estimación, evaluación y validación de una o


varias ecuaciones de predicción aplicadas sobre variables aleatorias
cuantitativas que dependen funcionalmente de variables cuantitativas fijas.

El análisis de regresión (r2) es un modelo estadístico que determina la


relación entre una variable dependiente “Y” (aleatoria, cuantitativa) y una o
varias variables independientes “X” (Fija o no aleatoria, cuantitativa y muy,
pero muy excepcionalmente aleatoria cualitativa)
Puede ser expresado como:

donde es el error asociado a la medición del valor y siguen los supuestos de modo
que (media cero, varianza constante e igual a un y con ).
El análisis de regresión lineal (r2) consiste en emplear métodos que permitan
determinar la mejor relación de dependencia funcional entre dos o más
variables relacionadas.

En términos generales, el análisis de regresión (r2) trata sobre el estudio de


la dependencia de un fenómeno respecto de una o varias variables
explicativas o predictoras, se adapta a una amplia variedad de situaciones
pasando desde las investigaciones sociales, investigaciones de mercado
hasta investigaciones médicas.

Como ya se mencionó la regresión lineal (r2) puede ser simple (dos variables
una “Y” y una “X”) o múltiple (más de dos variables una “Y” y muchas “X”), el
análisis de regresión lineal puede utilizarse para explorar y cuantificar la
relación entre una variable dependiente “Y” y una o más variables
independientes “X” o explicativas o predictoras.

Supuestos del modelo de regresión lineal

Para poder crear un modelo de regresión lineal, es necesario que se cumpla


con los siguientes supuestos:

Supuestos del análisis de regresión


El análisis de regresión trabaja con ciertos supuestos o
condiciones de las cuales se destacan las siguientes:
1. Las variables independientes y las variables dependientes
d e b e n e s t a r m e d i d a s e n escalas intervales o de razón (variables
cuantitativas continuas).
2. Los valores de la variable dependiente deben estar
n o r m a l m e n t e d i s t r i b u i d o s e n l a población de la cual proceden.
3. Los valores del término de error tienen una distribución
normal.
4. Los valores del término de error no están correlacionados con los valores
de la variable independiente.
5. Las desviaciones estándar de los valores de la variable dependiente que
corresponden a cada valor de la variable independiente son iguales
entre sí. Esta condición recibe el nombre de supuesto de
homocedasticidad.
Objetivos del análisis de regresión (r2):

Caracterizar una tendencia: una vez determinadas las incognitas de la


ecuación de regresión es posible determinar valores predichos de la variable
dependiente sustituyendo valores asignados de la o las variable (s)
independiente(s).

Y = a + b * (X)

Pronosticar: el pronóstico puede ser interpolación o extrapolación cuando la


predicción se realiza sobre valores que están fuera del rango observado es
extrapolación. Se considera de mayor estabilidad las interpolaciones que las
extrapolaciones.

Evaluar la relevancia de las variables explicativas o predictoras: seleccionar


las mejores variables predictoras o explicativas “X” del comportamiento
de “Y”

Estimar variabilidad de una respuesta funcional: Estimar la variabilidad de


la respuesta individual (IC) y el IC para el promedio de la predicción.

Existen diferentes modelos de regresión


• Lineal
• Cuadrática
• Exponencial
• Cubica
• Potencial
• Potencial-exponencial
• De porcentajes
• Logística, etc…

Etapas de la regresión:

1.- Proposición de un modelo tentativo:


Simple Y = β0 + β1*X
Múltiple Y = β0 + β1*(X1) + β2*(X2)

2.- Estimación de las incógnitas de la o las ecuaciones (Beta estandarizado)


los β son las incógnitas o conocidos como coeficientes de regresión

El numero o el valor estimar o el valor numérico de los β los obtengo con la


ecuación.
3.- Evaluación de la bondad de ajuste: hace referencia a que tan cerca están
los datos reales respecto a la ecuación de predicción y se conoce como r2,
que también lo podría obtener con la ecuación de regresión:

En que el valor final de la correlación lo eleva al cuadrado y obtiene r2

4.-Evaluación de la validez del modelo o adecuación del modelo

Se realiza a través de un ANOVA de la regresión si se tiene un valor p que


pone en tela de juicio si la variable “X” empleada es significativa en la
población o universo

5.- Pruebas de hipótesis de los coeficientes: se refiere a la estimación de


los coeficiente de regresión y veo su significancia para ver si es nulo o no en
la población.

6.-Validación del modelo o verificación de supuestos estadísticos

Los resultados son validos solo si se cumplen los supuestos normalidad y


homocedasticidad

Debo aplicar estas pruebas sobre el residual de la predicción

7.- Refinamiento del modelo: Consiste en determinar si las variables “X”


utilizadas para predecir el comportamiento de “Y” corresponden o es
necesario usar otras variables en la ecuación o hacer transformaciones
como la logaritmo o arco seno o reciproca.
Para entender en términos simples explicaremos un ejemplo de Galton, en
una de sus famosas publicaciones Galton planteó que a pesar de la presencia
de una tendencia en la que los padres de estatura alta tenían hijos altos y
los padres de estatura baja tenían hijos bajos, la estatura promedio de los
niños de padres con una estatura determinada dada tendía a moverse o
“regresar” hacia la media o estatura promedio de la población total. En
otras palabras, la estatura de los hijos inusualmente altos o de padres
inusualmente bajos tienden a moverse hacia la estatura promedio de la
población. Esto se conoce como la Ley universal de Galton, que fue
confirmada por su amigo Karl Pearson, quien reunió más de mil registros de
estaturas de miembros de grupos familiares, encontrándose con que la
estatura promedio de los hijos de un grupo de padres de estatura alta era
menor que la estatura de sus padres y la estatura promedio de los hijos de
estatura baja era mayor que la estatura de sus padres, generándose un
fenómeno mediante el cual los hijos altos e hijos bajos, “regresaban” hacia
la estatura promedio de la población. Situación que Galton describió como
“regresión hacia la mediocridad”

Los conceptos modernos de regresión sugieren que se trata del estudio de


la dependencia de la variable dependiente Y de una o más variables
independientes X o llamadas en regresión variables explicativas, pero OJO
el objetivo de esto es estimar o predecir la media o valor promedio
poblacional, tal como lo hiciera Galton en su estudio sobre la estatura.

Si volvemos al ejemplo de La Ley de regresión universal de Galton, este


estaba interesado en averiguar porque existía esta estabilidad en la
distribución de la estatura dentro de una población. En el enfoque moderno
lo que se intenta es averiguar la manera como cambia la estatura promedio
de los hijos, dada la estatura de los padres, o sea se está intentando
predecir la estatura promedio de los hijos si se conoce la estatura de los
padres.
*
E
* *
H * * *
i
* * * *
j
o * * * *
s * * *
*

Estatura Padres

H
i
j
o
s
La gráfica muestra como se distribuyen las estaturas de los hijos en una
población hipotética, dado un conjunto de valores fijos de estatura de los
padres. Note que para cualquier estatura dada de un padre existe un rango
de estaturas de los hijos y la estatura de los hijos aumenta en la medida que
aumenta la estatura de los padres, para esto se trazo una línea recta a
través de los puntos dispersos, esta línea muestra claramente como
aumenta la estatura promedio de los hijos con la estatura de los padres,
esto se conoce como línea de regresión.

Otro ejemplo en que se analiza la distribución de una población de la


estatura de niños a una determinada edad, note que existe un rango de
estaturas para una edad determinada, ya que todos los niños a una edad
determinada no pueden medir lo mismo, entonces habrá un rango de
estatura para una edad determinada, pero al trazar la línea de regresión
aparece la estatura promedio para una determinada edad y esta estatura
promedio se predice conociendo la edad.

*
E
s * *
t * * *
a
* * *
t
u * * *
r *
a

Edad de los niños

H
i
Ejemplo con jla
finalidad de determinar la dependencia entre la
o
productividad del
trabajo de operarios de una empresa de ensamblaje
s
(número de piezas/hora) explicado por el puntaje obtenido en un test de
destreza manual:

Datos:
X Y
10 6
20 8
30 9
40 10
50 11
60 13
70 14
80 16

Al ingresar sus datos a SPSS se encontrará con la siguiente pantalla:

Luego va a las siguientes opciones:

Y ahora ingresa sus variables dependiente e independiente y aceptar:


Su primera tabla de resultados solo muestra la variable que se uso como X o
variable predictora

Variables introducidas/eliminadas(b)

Variables Variables
Modelo introducidas eliminadas Método
1 Destreza
. Introducir
manual(a)
a Todas las variables solicitadas introducidas
b Variable dependiente: Productividad laboral

Este valor es el r2 y significa que la variable “X” tiene un muy alto valor predictivo
de “Y”, para esto apóyese en los siguientes rangos:

0 - 0,2 BAJO
0,21 - 0,4 MEDIO
0,41 - 0,6 MEDIO-ALTO
0,61 - 0,8 ALTO
0,81 - 0,99 MUY ALTO

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,994(a) ,989 ,987 ,38058
a Variables predictoras: (Constante), Destreza manual

O sea significa cuan buena predictora es la destreza manual “Y” de la


productividad y podríamos concluir que “X” o sea la destreza manual de los
operarios sirve mucho para predecir su productividad laboral “Y”

ANOVA(b)

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 76,006 1 76,006 524,753 ,000(a)
Residual ,869 6 ,145
Total 76,875 7
a Variables predictoras: (Constante), Destreza manual
b Variable dependiente: Productividad laboral

El ANOVA de la regresión a través del valor F me indica varias situaciones:


1.- debo observar el total es la varianza de Y respecto a la media y eso es 76,875
o sea la variabilidad de los datos de “Y” respecto a su promedio y 76,006 es la
varianza de “Y” o la variabilidad de la variable “Y”, pero explicada por el
comportamiento de “X” o sea explica cuanto varían los datos por el efecto de “X”
y 0,145 hace referencia a cuanta variabilidad de los datos de la variable “Y” no
logro explicar “X” de la variabilidad total de “Y”
Y la significancia del ANOVA de la regresión me indica un p menor al α (0,05) y eso
indica que tanto la variable “X” como la ecuación completa empleada son
significativas en la población o universo.

El siguiente resultado me indica donde intercepta al eje “Y” la ecuación de


regresión cuando “X” vale cero; entonces me indicará que cuando “X” vale cero “Y”
vale 4,821 o sea cuando “X” es cero “Y” es 4,821 y además me indica que por cada
unidad de desplazamiento en “X”, “Y” aumenta 0,135 unidades.
La significancia es menor al α (0,05) eso me indica que en la población la ecuación
de regresión no pasa por el origen y además no es paralela al eje X por lo tanto la
pendiente y la variable “X” deben mantenerse en la ecuación.

Coeficientes(a)

Coeficientes
Coeficientes no estandarizado
estandarizados s

Modelo B Error típ. Beta t Sig.


1 (Constante) 4,821 ,297 16,259 ,000
Destreza
,135 ,006 ,994 22,907 ,000
manual
a Variable dependiente: Productividad laboral

Graficamente:
18

16

14

12

10

8
Productividad laboral

0
0 20 40 60 80 100

Destreza manual

Esta grafica me muestra los valores reales entregados de “Y”, luego usted debe
aplicar la ecuación de regresión a la gráfica y aparecerán los valores de “Y” que
predice la ecuación de regresión y se llama línea de regresión y se obtiene de la
siguiente manera:
Doble clic sobre el grafico para modificarlo luego seleccione la opción diseño y
opciones:
Aparecerá la siguiente tabla, en donde debe seleccionar con un clic en ajustar línea
la opción total y luego aceptar

Aparecerá la ecuación de predicción en la grafica a través de una línea recta:

18

16

14

12

10

4
PRODUCTI

0
0 20 40 60 80 100

DESTREZA

Este gráfico a través de la línea de regresión me muestra que la ecuación predice


que dado estos valores de “X” en promedio “Y” debiera presentar los siguientes
valores (note que la ecuación es muy certera en su predicción). O sea los valores
reales de Y son los puntos azules y el promedio de Y predicho por la
ecuación de regresión es la línea recta central

Luego debe obtener:


La línea curva que está más cerca de la línea recta central corresponde a los
intervalos de confianza del 95% del promedio de la predicción indica que en
la población los valores de la predicción de la regresión poblacional se
podrían encontrar en ese intervalo de confianza. Y se obtiene de la
siguiente manera; doble clic sobre el grafico nuevamente para
reacondicionarlo

En diseño y opciones aparecerá la siguiente tabla y seleccione opciones de ajuste

Aparecerá esta pantalla donde debe seleccionar


18

16

14

12

10

4
PRODUCTI

0
0 20 40 60 80 100

DESTREZA

La línea curva que está más cerca de la línea recta central corresponde a los
intervalos de confianza del 95% del promedio de la predicción (o entiéndalo
como el rango en que se pueden encontrar en la población los valores que se
predicen con la ecuación de regresión) o sea indica que en la población los
valores de la predicción de la regresión poblacional se podrían encontrar en
ese intervalo de confianza (o rango)

Luego debe obtener:


El intervalo de confianza del 95% de un dato único cualquiera de Y e indica
que en la población los valores reales de un individuo cualquiera se podrían
encontrar en ese intervalo de confianza.
y se obtiene de la siguiente manera:

doble clic sobre el grafico nuevamente para reacondicionarlo


En diseño y opciones aparecerá la siguiente tabla y seleccione opciones de ajuste

Aparecerá esta pantalla donde debe seleccionar y luego continuar y aceptar


Se encontrará con la siguiente modificación a su grafico:
La línea curva que esta mas lejos de la línea recta central (Línea de
Regresión) corresponde a los intervalos de confianza del 95% de un dato
único cualquiera de “Y” e indica que en la población los valores reales de un
individuo cualquiera se podrían encontrar en ese intervalo de confianza, o
sea nuevamente se puede entender como un rango en que se pueden
encontrar los valores reales de “Y” de la población.

18

16

14

12

10

4
PRODUCTI

0
0 20 40 60 80 100

DESTREZA

Finalidad Guía Cátedra

1.- Repasar los contenidos ya vistos en esta asignatura y en asignaturas


relacionadas.
2.- Comprender los contenidos hasta acá vistos en esta asignatura y en
asignaturas relacionadas.
3.- Aclarar las dudas conceptuales y procedimentales de los contenidos
hasta acá vistos.
4.- Resumir los principales conceptos de esta guía para extraer la
información más útil a ocupar de aquí en adelante.
5.- Indicar las principales críticas y comentarios en general de la guía

Al finalizar su lectura deberá estar en condiciones de:

1.- Explique CLARAMENTE que es el análisis de regresión


2.- Explique los conceptos regresión simple y múltiple, sea claro y preciso
3.- Explique la importancia que usted cree tiene el análisis de regresión
4.- Explique qué significa en R2
5.- Explique que indica el valor F del ANOVA de regresión
6.- Que indica un R2 de 0,458
7.- Podemos decir que el real objetivo de este método es la predicción,
explique claramente su respuesta (se breve)
7.- La siguiente actividad deberá desarrollarla en forma individual (por
ejemplo en su casa), explicando paso a paso cada valor obtenido que se
indica a continuación.

Ejemplo con la finalidad de determinar la dependencia entre la


productividad del trabajo de operarios de una empresa de ensamblaje
(número de piezas/hora) explicado por el puntaje obtenido en un test de
atención a los detalles:

Datos:
X Y
20 6
30 8
40 9
50 10
55 11
60 13
65 14
70 16

Los resultados que debe interpretar son los siguientes:

Variables introducidas/eliminadas(b)

Variables Variables
Modelo introducidas eliminadas Método
1 Atención a los
. Introducir
detalles(a)
a Todas las variables solicitadas introducidas
b Variable dependiente: Productividad laboral

Interprete:_______________________________________________
________________________________________________________

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,971(a) ,944 ,934 ,85070
a Variables predictoras: (Constante), Atención a los detalles
Interprete:_______________________________________________
________________________________________________________
ANOVA(b)

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 72,533 1 72,533 100,227 ,000(a)
Residual 4,342 6 ,724
Total 76,875 7
a Variables predictoras: (Constante), Atención a los detalles
b Variable dependiente: Productividad laboral

Interprete:_______________________________________________
________________________________________________________

Coeficientes(a)

Coeficientes
Coeficientes no estandarizado
estandarizados s

Modelo B Error típ. Beta t Sig.


1 (Constante) 1,895 ,946 2,003 ,092
Atención a los
,184 ,018 ,971 10,011 ,000
detalles
a Variable dependiente: Productividad laboral

Interprete:_______________________________________________
________________________________________________________

18

16

14

12

10

8
Productividad laboral

0
0 10 20 30 40 50 60 70 80

Atención a los detalles

Interprete:_______________________________________________
________________________________________________________
Cómo ve la variabilidad de los datos de la muestra “Y” en relación al intervalo de
confianza poblacional.

Вам также может понравиться