Вы находитесь на странице: 1из 6

Formacin Metodolgica: Correlacin y regresin Julia Garca

Anlisis de datos en los estudios epidemiolgicos III Correlacin y regresin


Julia Garca Salinero. Departamento de Investigacin Fuden

Introduccin
En el capitulo anterior estudiamos lo que se denomina estadstica descriptiva univariada (una sola variable), sin embargo la mayor parte de investigaciones llevadas a cabo no solo pretenden describir fenmenos en base a la distribucin de sus variables principales, sino que intentan encontrar relacin entre algunas de las variables estudiadas. A la parte de la estadstica que se encarga de estudiar este tipo de relaciones entre variables se le denomina estadstica descriptiva bivariada o multivariada. En los siguientes captulos vamos a detenernos en el estudio de algunas de las pruebas estadsticas que debemos utilizar cuando queremos encontrar relacin o asociacin entre las diferentes variables del estudio. Ya indicamos en el capitulo anterior que los datos de una distribucin de frecuencias se ordenaban en tablas de distribucin. En el caso de la estadstica bivariada tambin organizamos los datos en tablas, que en este caso se denominan tablas de contingencia. Una tabla de contingencia es una distribucin con dos o ms dimensiones (bidimensional), en la cual las frecuencias de dos o ms variables se tabulan de manera cruzada. A pesar de que se pueden construir tablas de contingencia con varias variables y categoras las ms frecuentemente utilizadas son las tablas de contingencia de 2x2 (dos filas por dos columnas), es decir dos variables que presentan dos categoras cada una de ellas. Volveremos ms tarde sobre este tema.

Los conceptos de Correlacin y Regresin


Correlacin Se utiliza para obtener una medida del grado o la fuerza de la asociacin entre dos variables cuantitativas. El mtodo ms comnmente utilizado para describir la relacin entre dos variables es el coeficiente de correlacin. Este tipo de relaciones puede ilustrarse de forma grafica, o bien, como sucede casi siempre, calcularse a travs de la realizacin de una prueba que defina la magnitud de esa relacin. La representacin grfica de una correlacin entre dos variables se denomina grafica o diagrama de dispersin, que no ser estudiado en este capitulo, ya que no suele ser muy utilizado. En la figura 1 observamos un ejemplo de un diagrama de dispersin que expresa la relacin existente entre la dosis de un determinado frmaco hipotensor y los valores de la presin sangunea. A pesar de la utilizacin de diagramas, el ndice ms frecuentemente empleado, para determinar la intensidad de la relacin entre dos variables X e Y, es el coeficiente de correlacin de Pearson. Este coeficiente se calcula cuando las variables de estudio fueron medidas en escala de intervalos o de proporcin. Cuando las variables fueron medidas en escala ordinal, se suele utilizar el coeficiente de correlacin de rho de Sperman. Sus valores oscilan entre -1 y +1. Un valor de Pearson igual a 0 indica la ausencia de relacin, es decir que las dos variables son independientes. Valores grandes de dicho coeficiente (r), ya sean positivos o negativos, indican una fuerte relacin entre las dos variables. Un valor de r positivo indica que valores grandes de la variable X se asocian con valores grandes de la variable Y; y los valores bajos de la variable X se asocian con valores bajos de la variable Y. Por su parte, un valor de r negativo indica que los valores grandes de la variable X se asocian con valores bajos de la variable Y, y que valores bajos de la variable X se asocian con valores altos de la variable Y. En la figura 2 observamos diferentes tipos de correlacin, aunque nosotros solo nos detendremos en el anlisis de la correlacin lineal. El coeficiente de correlacin de Pearson depende fundamentalmente de: La variabilidad del grupo. A mayor variabilidad de la poblacin , el r tiene mayor fuerza; El influjo de una tercera variable que pudiera enmascarar los resultados obtenidos. Las correlaciones perfectas son muy poco frecuentes en investigacin y resulta difcil indicar qu valor se considera razonable para determinar la magnitud de una correlacin, dependiendo fundamentalmente del tipo de variable en estudio. Por ejemplo si intentamos buscar correlacin entre la medida de la glucemia basal con diferentes mtodos, una correlacin entre las diferentes medidas de 0,70 puede considerarse baja; sin embargo este mismo valor para variables de tipo social o psicolgico indicara

Nure Investigacin, N 18, Septiembre 2005

Formacin Metodolgica: Correlacin y regresin Julia Garca

una correlacin muy alta. En realidad el nico criterio que podemos seguir es remitirnos a estudios anteriores. Por otra parte el coeficiente de correlacin de Pearson indica nicamente que dos variables independientes, varan conjuntamente, pero hay que dejar claro que esta variacin conjunta no indica necesariamente que exista causalidad entre ambas A pesar de que su calculo es laborioso y que como otras pruebas estadsticas (descriptivas o inferenciales) rara vez se realizan en la actualidad de forma manual, sino a travs de paquetes estadsticos como el SPSS, vamos a intentar explicar su clculo a travs de un ejemplo Imaginemos que estamos realizando un estudio para encontrar la relacin entre el consumo de un determinado frmaco y la presin sangunea en un grupo de cinco individuos. A la variable consumo del frmaco la denominaremos X y la categorizamos en diferentes niveles en funcin de la dosis en mg. A la variable presin sangunea la denominaremos Y, y la expresaremos en mm de Hg. Las dosis de frmacos seran: 1, 2, 3, 4 y 5 mg. Los valores de presin arterial seran: 278, 260, 198,160 y 154 mm Hg. Como podemos observar estos datos no tienen sentido en la forma en que estn presentados, por lo que procederemos a organizarlos (tabla 1) Para estudiar la existencia o no de relacin entre estos dos factores o variables de estudio se calcular el coeficiente de correlacin de Pearson (Figura 3). La correlacin nos permitir medir el grado o la fuerza de relacin entre estas dos variables. Para facilitar la aplicacin de la formula organizamos pues los datos de la tabla anterior (tabla 2). En nuestro ejemplo hemos obtenido un coeficiente de correlacin negativo, lo cual interpretamos como que ambas variables no son independientes, es decir que a mayor valor de la variable X menor valor obtenemos en la variable Y. Cuanto mayor es la dosis del frmaco menor es el valor de la Presin sangunea. Regresin Consiste en obtener una ecuacin que se pueda usar para predecir el valor de una variable, teniendo en cuenta un valor asignado a otra variable. Regresin lineal simple: Una de las condiciones que deben cumplirse para calcular el coeficiente de correlacin de Pearson es que los puntos del diagrama de dispersin tiendan a la linealidad. Como indicamos anteriormente utilizamos la regresin para obtener una ecuacin que nos permita predecir los valores de una variable en funcin de los datos observados en la otra. Por lo tanto, la ecuacin de regresin ser la ecuacin de la recta que mejor represente a todos los puntos del diagrama y que nos permitir pronosticar el valor de una variable en funcin de otra con la que esta relacionada (regresin). La ecuacin de la recta viene dada por la formula siguiente: Y = a+bx Donde b es la pendiente de la recta y mide algo as como la velocidad de ascenso; y a es el punto donde la recta corta al eje Y, denominndose ordenada en el origen. En esta ecuacin los valores de la variable Y dependern de los valores de la variable X. La frmula para el clculo de a y b se recoge en el grfico 4 Como sabemos, una recta queda definida por dos puntos, por tanto, si asignamos dos valores cualesquiera a la variable independiente X obtenemos los valores correspondientes de la variable Y. As para x = 1 y = 3+2.1= 5 y=5 X=3 y = 3+ 2.3 = 9 y = 9 En la figura 5 se muestran varios ejemplos de rectas de regresin. A pesar de que como indicamos para el clculo del coeficiente de correlacin, actualmente se utilizan paquetes estadsticos, vamos a tratar de explicar el procedimiento del clculo de la regresin utilizando el mismo ejemplo de la dosis de un frmaco hipotensor y los valores de presin sangunea (tabla 3). Si realizsemos un grafico con su diagrama de dispersin observaramos que los puntos representados tienden a la linealidad (condicin para clculo del coeficiente de correlacin). Sin embargo somos conscientes de que es imposible encontrar una lnea recta que pase por todos los puntos de forma simultnea. La solucin pasara por encontrar una lnea recta que se aproxime lo ms posible a estos puntos. As pues para cada valor de la variable X tenemos dos valores de la variable Y. Por un lado, el valor Y obtenido, y por otro el valor y calculado mediante la ecuacin de regresin y = a+ bx. La diferencia entre la puntuacin Y obtenida y el valor de y calculada se denomina error de preedicin. As pues podemos definir la ecuacin de regresin como la ecuacin de la recta que hace mnimos los errores de prediccin, tal como observamos en la figura 6.

Nure Investigacin, N 18, Septiembre 2005

Formacin Metodolgica: Correlacin y regresin Julia Garca

Seguirnos con nuestro ejemplo y procedemos a organizar la tabla 4, que nos permitir aplicar la formula con mayor facilidad. De acuerdo a las frmulas recogidas en la figura 4, los valores de a y b son 314,4 y -34,8 respectivamente. Por tanto nuestra ecuacin de regresin seria Y = 314,4 - 34,8X Aplicando la ecuacin de regresin, podemos predecir la presin sangunea de cualquier paciente sometido a un tratamiento con una determinada dosis de frmaco. No debemos olvidar que nuestra prediccin no es exacta, puesto que observamos que cuando la dosis era de 1 mg (X= 1) el valor de la presin era de 278 mm en HG (Y= 278) para el primer paciente. Sin embrago en nuestra prediccin el valor era de 279,6, la mejor que podamos hacer. As pues nuestro error de preedicin ser la diferencia entre el valor real obtenido Y = 278 y el valor de preedicin Y = 279,6. Observmoslo en la figura 7. Existen tambin otros procedimientos estadsticos multivariados de regresin ms complejos como son la regresin mltiple y la regresin logstica que no sern abordados en este capitulo, debido a la complejidad de su clculo.

Bibliografa
Carrasco JL. El mtodo estadstico en la investigacin mdica. Editorial Ciencia 3. 6 Edicin. 1995 Rodrguez Mion P. Estadstica Aplicada a la Biologa. Editorial UNED. 3 Edicin. 1984. Polit Denise y Hungler Bernadette. Investigacin cientfica en ciencias de la salud. Editorial McGraw-Hill Interamericana. 6 edicin. 2000.

Nure Investigacin, N 18, Septiembre 2005

Formacin Metodolgica: Correlacin y regresin Julia Garca

Tablas y grficos

Fig. 1

Fig. 2

Nure Investigacin, N 18, Septiembre 2005

Formacin Metodolgica: Correlacin y regresin Julia Garca

X 1 2 3 4 5 Tabla 1

Y 278 260 198 160 154

r xy =

N XY x Y N X 2 ( X )
2

5.2802 15.1050
2

N Y ( Y )
2

5.55 152 5.233404 10502

= -0,968

Fig. 3 X 1 2 3 4 5 Y 278 260 198 160 154 1050 XY 278 520 594 640 770 2802

X 1 4 9 16 25

77284 67600 39204 25600 23716 233404

= 15
Tabla 2

55

a = Yb X
Fig. 4

b=

N XY X Y N X 2 ( X )
2

Fig. 5

Nure Investigacin, N 18, Septiembre 2005

Formacin Metodolgica: Correlacin y regresin Julia Garca

X ( dosis de frmaco ) 1 2 3 4 5 Tabla 3

Y ( Valores de PA) 278 260 198 160 154

Fig. 6

Nivel de dosis X 1 2 3 4 5

Presin Sangunea 278 260 198 160 154 1050 Media de Y = 210

XY 278 520 594 640 770 2802

= 15
Media de X = 3 Tabla 4

X 1 4 9 16 25 55

Fig. 7

Nure Investigacin, N 18, Septiembre 2005

Вам также может понравиться