Вы находитесь на странице: 1из 20

AO DE LA CONSOLIDACION ECONOMICA SOCIAL DEL PERU UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA
TEMA : ANLISIS DE REGRESIN Y CORRELACIN LINEAL EN DOS VARIABLES : MEDICINA HUMANA

ESCUELA

ALUMNOS

: ACEVEDO CASTILLO KATHERINE BERR VILLALOBOS SANDRA MARTINEZ MUOZ MERCEDES MATOREL RUIZ MARIA NEYRA VELI ROCIO : TERCERO

CICLO ACADEMICO

Piura, Agosto de 2011

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

INTRODUCCION

En temas anteriores hemos estudiado lo que se denomina estadstica descriptiva univariada (una sola variable), sin embargo la mayor parte de investigaciones llevadas a cabo no solo pretenden describir fenmenos en base a la distribucin de sus variables principales, sino que intentan encontrar relacin entre algunas de las variables estudiadas. A la parte de la estadstica que se encarga de estudiar este tipo de relaciones entre variables se le denomina estadstica descriptiva bivariada o multivariada. En el siguiente trabajo vamos a detenernos en el estudio de algunas de las pruebas estadsticas que debemos utilizar cuando queremos encontrar relacin o asociacin entre las diferentes variables del estudio. Ya se ha estudiado, que los datos de una distribucin de frecuencias se ordenaban en tablas de distribucin. En el caso de la estadstica bivariada tambin se observar que se organizan los datos en tablas, que en este caso se denominan tablas de contingencia. Una tabla de contingencia es una distribucin con dos o ms dimensiones (bidimensional), en la cual las frecuencias de dos o ms variables se tabulan de manera cruzada. A pesar de que se pueden construir tablas de contingencia con varias variables y categoras las ms frecuentemente utilizadas son las tablas de contingencia de 2x2 (dos filas por dos columnas), es decir dos variables que presentan dos categoras cada una de ellas. Daremos a conocer pues, Conceptos especficos del anlisis de Regresin y Correlacin Lineal en dos variables, as como ejemplos aplicativos de este tema, de una manera sencilla y entendible.

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

ANLISIS DE REGRESIN Y CORRELACIN LINEAL EN DOS VARIABLES


El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso. Si disponemos de dos series de datos emparejadas, con frecuencia es til conocer si ambas variables estn relacionadas, y, en caso afirmativo, encontrar la expresin que refleja dicha relacin. Si la ecuacin que mejor relaciona dichas variables es la de una recta, decimos que existe correlacin lineal. En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad.

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

I.

REGRESIN DE VARIABLES ESTADISTICAS


Regresin: Consiste en obtener una ecuacin que se pueda usar para predecir el valor de una variable, teniendo en cuenta un valor asignado a otra variable. La regresin de variables como tcnica estadstica, una de ellas la regresin lineal simple y la regresin multifactorial, analiza la relacin de dos o ms variables continuas, cuando analiza las dos variables a esta se le conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresin nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresin es una tcnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder. Siendo as la regresin una tcnica estadstica, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo que es necesario realizar una seleccin adecuada de las variables que van a construir las formulas matemtica, que representen a la regresin, por eso hay que tomar en cuenta variables que tiene relacin, de lo contraria se estara matematizando un galimatas. Se pueden encontrar varios tipos de regresin, por ejemplo: 1. Regresin lineal simple 2. Regresin mltiple ( varias variables) 3. Regresin logstica La regresin lineal tcnica que usa variables aleatorias, continuas se diferencia del otro mtodo analtica que es la correlacin, porque esta ltima no distingue entre las variables respuesta y la variable explicativa por que las trata en forma simtrica. La matematizacin nos da ecuaciones para manipular los datos, como por ejemplo medir la circunferencia bicipital (como indicador del estado

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

nutricional) de los nios y nias y que parece incrementarse entre las edades de 2 meses y 18 aos, aqu podemos inferir o predecir que las circunferencias del crneo cambiara con la edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la edad la variable explicativa.

En la regresin tenemos ecuaciones diferentes clases de regresin:

que

nos

representan

las

Regresin Regresin + BLn(x) Regresin Ac(bx) Regresin Bx +Cx2

Lineal: y = A + Bx Logartmica: y = A Exponencial: y = Cuadrtica: y = A +

Para obtener un modelo de regresin es suficiente establecer regresin para eso se hace uso del coeficiente de correlacin: R.

la

R = Coeficiente de correlacin, este mtodo mide el grado de relacin existente entre dos variables, el valor de R vara de -1 a 1, pero en la prctica se traba con un valor absoluto de R. El valor del coeficiente de relacin se interpreta de modo que a media que R se aproxima a 1, es ms grande la relacin entre los datos, por lo tanto R (coeficiente de correlacin) mide la aproximacin entre las variables. El coeficiente de correlacin se puede clasificar de la siguiente manera: CORRELACIN VALOR O RANGO

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

1) 2) 3) 4) 5)

Perfecta 1) R = 1 Excelente 2) R = 0.9 < = R < 1 Buena 3) R = 0.8 < = R < 0.9 Regular 4) R = 0.5 < = R < 0.8 Mala 5) R < 0.5

DISTRIBUCION DIVARIANTE La correlacin, mtodo por el cual se relacionan dos variables se pude graficar con un diagrama de dispersin de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un grfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos ms cercanos de una recta hablaran de una correlacin ms fuerte, ha esta recta se le denomina recta de regresin, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente. Tambin se puede describir un diagrama de dispersin en coordenadas cartesianas valores como en la distribucin divariante, en donde la nube de puntos representa los pares de valores. GRAFICOS DE RECTA DE REGRESIN

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Por ltimo se pueden graficar las lneas de tendencia, herramienta muy til para el mercadeo por que es utilizada para evaluar la resistencia que proyectan los precios. Cuando una lnea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque ocurre un cambio en los precios, por lo tanto las lneas de tendencia pueden ser alcista cuando se unen los puntos sucesivos y bajista cuando se unen los puntos mximos.

Tambin existen grficos que representan la dispersin de datos dentro de las coordenadas cartesianas, sea las nubes de puntos y que pueden darse segn la relacin que representa, que puede ser lineal, exponencial y sin relacin, esta ltima cuando los puntos estn dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relacin. Los grficos siguientes nos muestran esta relacin: RELACION LINEAL

RELACION EXPONENCIAL

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

SIN RELACION

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

II.

EJEMPLOS DE REGRESIN LINEAL

EJEMPLO 1: En un trabajo de investigacin a pacientes con cirrosis heptica, en la provincia de Piura, se not que en el primer da de hospitalizacin todos los pacientes tenan en su sangre niveles altos de la enzima TGO (aminotransferasa de aspartato), siendo los valores superiores a lo muy normal, y que estos valores iban disminuyendo con el pasar de los das. Ahora bien se extrajo un paciente aleatoriamente para ver su evolucin, siendo los resultados los siguientes: Da de hospitalizaci n 1 2 3 4 5 6 7 8 9 Niveles de TGO (UI/L) 130 119 111 99 87 71 61 58 49

Obtener el modelo de regresin lineal que mejor aproxima los niveles de TGO en funcin del nmero de das. Utilizando este modelo, calcular de modo aproximado la cantidad de los niveles de TGO esperada cuando para el da 10. Se pide, expresar los niveles de la TGO en funcin de los das. DESARROLLO: Variable independiente: Das (x) Variable dependiente: Niveles de TGO (y)

Para hallar los coeficientes de esta funcin, debemos considerar, para b:

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Y la frmula para el valor de a ser:

Colocamos los datos en esta tabla:

(Das) 1 2 3 4 5 6 7 8 9 Total: 45

(TGO) 130 119 111 99 87 71 61 58 49 785

1 4 9 16 25 36 49 64 81 285

16900 14161 12321 9801 7569 5041 3721 3364 2401 75279

130 238 333 396 435 426 427 464 441 3290

Adems:

Hallamos el valor para b:

Hallamos el valor para a:

Reemplazamos:

Ahora con la frmula ya encontrada queda hallar el nivel de TGO para el dcimo da (entonces x valdr 10) y el nivel de TGO ser:

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

140 120 100 80 60 40

130

Nivel deT GO
119 111 99 87 71 61 58 49

Nivel de TGO Lineal (Nivel de TGO)

) L / I U ( O G T d i a r t e c n o C

20 0 0 2 4 6 8 10 D a s de hos pita liza c in

GRAFICO DEL EJEMPLO 1 EJEMPLO 2: Los pacientes quemados que han sufrido una quemadura del tipo 3 en ms del 50% de su superficie corporal, experimentan trastornos muy, variados, uno de ellos es la prdida de la albmina (la protena ms importante en la sangre). Los pacientes pierden la albmina a un ritmo muy acelerado. A pesar de los esfuerzos de los mdicos, la magnitud de la quemadura en un paciente quemado en un hospital, era tal que haba un alarmantemente el descenso de albmina en las 6 primeras horas de su hospitalizacin, siendo los valores los siguientes: Horas tras la hospitalizacin 1 2 3 4 5 6 Niveles de Albmina (gr/dL) 4.5 3.7 3.1 2.4 1.9 1.8

Obtener el modelo de regresin lineal que mejor aproxima los niveles de albmina en funcin del nmero de horas. Utilizando este modelo, pronosticar el nivel de albmina para la octava ora de hospitalizacin.

DESARROLLO: BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Variable independiente: Horas de hospitalizacin (x) Variable dependiente: Niveles de Albmina (y)

Para hallar los coeficientes de esta funcin, debemos considerar, para b:

Y para a:

Colocamos los datos en esta tabla:

2 3 4 5 6 Total: 21

4.5 4.1 3.7 3.3 3.1 2.9 21,6

1 4 9 16 25 36 91

20.25 16.81 13.69 10.89 9.61 8.41 79,66

4.5 8.2 11.1 13.2 15.5 17.4 69,9

Adems

Hallamos el valor para b:

Hallamos el valor para a:

Reemplazamos

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Si queremos predecir el valor de la albmina para la stima hora, debemos reemplazar en la funcin anterior x = 7

5 4.5 4 3.5 3 2.5 2 1.5 1

4.5 4.1 3.7 3.3

Nivel de Albm ina


3.1 2.9 2.43

Nivelesde albm ina Lineal (Niveles de albm ina)

) L / g ( m b l A d i a r t e c n o C

0.5 0 0 2H 4s lahos 6 liz ora stra pita a c in 8 10

GRAFICA DEL EJEMPLO 2

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

III.

CORRELACIN ESTADSTICA

Correlacin: Se utiliza para obtener una medida del grado o la fuerza de la asociacin entre dos variables cuantitativas. La correlacin estadstica determina la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas. CORRELACION LINEAL EN 2 VARIABLES Esta correlacin ocurre cuando dos variables X, Y tiende a seguir un patrn lineal. Por ejemplo podemos investigar la relacin lineal que existe entre peso y estatura, promedio de la escuela superior y puntuacin en el examen de ingreso a la universidad, ingreso mensual y gastos mensuales, coeficiente intelectual y promedio universitario, edad e ingreso mensual entre otras. Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aqu nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si as ocurre diremos que hay correlacin lineal. La recta se denomina recta de regresin.

Hablaremos de correlacin lineal fuerte cuando la nube se parezca mucho a una recta y ser cada vez ms dbil (o menos fuerte) cuando la nube vaya desparramndose con respecto a la recta. En el grfico observamos que en nuestro ejemplo la correlacin es bastante fuerte, ya que la recta que hemos dibujado est prxima a los puntos de la nube.

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Cuando la recta es creciente la correlacin es positiva o directa: al aumentar una variable, la otra tiene tambin tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlacin es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir. COEFICIENTE DE CORRELACIN LINEAL Mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal (es decir, si representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta).

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen. El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra.

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r <1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. PROPIEDADES 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. 2. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 3. El signo del coeficiente de correlacin es el mismo que el de la covarianza. 4. Si la covarianza es positiva, la correlacin es directa. 5. Si la covarianza es negativa, la correlacin es inversa. 6. Si la covarianza es nula, no existe correlacin. 7. El coeficiente de correlacin lineal es un nmero real comprendido entre menos 1 y 1. 8. 1 r 1 9. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 10.Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 11.Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 12.Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

IV.

EJERCICIO DE CORRELACIN LINEAL

EJERICICIO 1 El nutricionista de un equipo de baloncesto de la NBA esta interesado en determinar si existe una correlacin entre las estaturas y pesos de los jugadores de su equipo obteniendo los siguientes resultados para 10 de ellos Estatura (X) Pesos (Y) 186 85 189 85 190 86 192 90 193 87 193 91 198 93 201 103 203 100 205 101

Calcular el coeficiente de correlacin. xi 186 189 190 192 193 193 198 201 203 205 1 950 yi 85 85 86 90 87 91 93 103 100 101 921 xi2 34 596 35 721 36 100 36 864 37 249 37 249 39 204 40 401 41 209 42 025 380 618 yi2 7 225 7 225 7 396 8 100 7 569 8 281 8 649 10 609 10 000 10 201 85 255 xi yi 15 810 16 065 16 340 17 280 16 791 17563 18 414 20 703 20 300 20 705 179 971

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

Correlacin positiva muy fuerte. EJERCICIO 2 El clculo del coeficiente de correlacin (r) entre peso y talla de 20 nios varones se muestra en la tabla 1. La covarianza, que en este ejemplo es el producto de peso (kg) por talla (cm), para que no tenga dimensin y sea un coeficiente, se divide por la desviacin tpica de X (talla) y por la desviacin tpica de Y (peso) con lo que obtenemos el coeficiente de correlacin de Pearson que en este caso es de 0.885 e indica una importante correlacin entre las dos variables. Es evidente que el hecho de que la correlacin sea fuerte no implica causalidad. Si elevamos al cuadrado el coeficiente de correlacin obtendremos el coeficiente de determinacin (r2=0.783) que nos indica que el 78.3% de la variabilidad en el peso se explica por la talla del nio. Por lo tanto existen otras variables que modifican y explican la variabilidad del peso de estos nios. La introduccin de ms variable con tcnicas de anlisis multivariado nos permitir identificar la importancia de que otras variables pueden tener sobre el peso. Clculo del Coeficiente de correlacin de Pearson entre las variables talla y peso de 20 nios varones Y Peso (Kg) 9 10 6 8 10 5 8 7 4 11 7 X Talla (cm) 72 76 59 68 60 58 70 65 54 83 64 5.65 9.65 -7.35 1.65 -6.35 -8.35 3.65 -1.35 -12.35 16.65 -2.35 1.4 2.4 -1.6 0.4 2.4 -2.6 0.4 -0.6 -3.6 3.4 -0.6 7.91 23.16 11.76 0.66 -15.24 21.71 1.46 0.81 44.46 56.61 1.41

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA 7 6 8 5 11 5 9 6 10 66 61 66 57 81 59 71 62 75 -0.35 -5.35 -0.35 -9.35 14.65 -7.35 4.65 -4.35 8.65

FACULTAD DE MEDICINA HUMANA -0.6 -1.6 0.4 -2.6 3.4 -2.6 1.4 -1.6 2.4 0.21 8.56 -0.14 24.31 49.81 19.11 6.51 6.96 20.76

Sx = Desviacin tpica x = 8.087 Sy = Desviacin tpica y = 2.137

BIOESTADISTICA

19

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA

BIBLIOGRAFA

http://www.cienciaytrabajo.cl/pdfs/22/pagina%20185.pdf http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf http://www.fisicanet.com.ar/matematica/estadisticas/ap07_regresion_y_c orrelacion.php

http://tarwi.lamolina.edu.pe/~fmendiburu/indexfiler/academic/metodos1/R egresion.pdf

BIOESTADISTICA

19

Вам также может понравиться