Вы находитесь на странице: 1из 13

COLEGIO DE BACHILLERES DEL ESTADO DE PUEBLA ORGANISMO PBLICO DESCENTRALIZADO PLANTEL 11 PROBABILIDAD Y ESTADSTICA CORRELACIN Y REGRESIN LINEAL Presentan:

6 C MATUTINO Xicotepec, Pu, 13 de Mayo de 2010 INDICE INTRODUCCION | | MARCO TEORICO | | DISTRIBUCION BIDIMENCIONAL | | PARAMETROS DE DISTRIBUCION BIDIMANCIONAL | | REGRESION LINEAL | | ECUACION LINEAL | | DETERMINACION DE LA ECUACION MATEMATICA | | METODOS DE MINIMOS CUADRADOS | | INFERENCIA EN EL ANALISIS DE REGRESION | | EL ERROR ESTANDAR DE ESTIMACION | | ANALISIS DE REGRESION LINEAL MULTIPLE | | RECTAS DE REGRESION | | ANALISIS DE CORRELACION | | CONCLUSION | | BIBLIOGRAFIA | | INTRODUCCION En el presente trabajo tiene como objetivo mostrar un gran panorama de lo que es el tema de correlacin y regresin lineal en el rea de la Estadstica Inferencial. A grandes rasgos se puede decir que la correlacin y la

regresin son una herramienta muy til cuando se trata de relacionar 2 o ms variables, relacionadas entre si. Pero esta definicin ser ms explicita y detallada a lo largo del trabajo. No solo se manejara la definicin del tema, se darn ejemplos, ejemplos prcticos en diferentes reas, se mostraran tablas y graficas de correlacin y regresin lineal. Este trabajo ser realizado para comprender este tema de una manera terica y prctica. La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden una forma de estimacin. En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de la correlacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando un investigador o analista trata de determinar que variables son potenciales importantes, el inters radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de variables relacionadas. Para entender bien este tema debemos tener en cuelta algunos conceptos como los siguientes DISTRIBUCIN BIDIMENSIONAL Distribucin estadstica en la que intervienen dos variables, x e y, y, por tanto, a cada individuo le corresponden dos valores, xi, yi. Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi) representado en un diagrama cartesiano. As, a cada

individuo de la distribucin le corresponder un punto, y toda la distribucin se ver representada mediante un conjunto de puntos. Por ejemplo, supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les pasan unas pruebas que miden la aptitud musical (Mu) y la aptitud para las matemticas (Ma), se obtienen los siguientes resultados: INDIVIDUO | A | B | C | D | E | VALORACIN Mu | 5 | 7 | 8 | 4 | 2 | VALORACIN Ma | 6 | 10 | 5 | 6 | 4 | | Esta tabla es una distribucin bidimensional porque intervienen dos variables: valoracin Mu, valoracin Ma. A cada individuo le corresponden dos valores: A (5,6), B (7,10), C (4,5), D (8,6), E (2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano: B |

A C

Esta representacin grfica de una distribucin bidimensional se llama nube de puntos o diagrama de dispersin. PARAPETROS DE DISTRIBUCION BIDIMENCIONAL: Cada una de las dos variables x, y de una distribucin bidimensional tiene sus propios parmetros. Para el estudio de la correlacin se necesitan sus medias y sus desviaciones tpicas, x, y. Hay adems un nuevo parmetro, xy, llamado covarianza, que sirve para medir el grado de relacin entre las dos variables: cmo vara cada una con relacin a la otra.

La covarianza de una distribucin bidimensional de n individuos dados por los pares de valores (x1,y1), (x2,y2),, (xn,yn), se calcula mediante la frmula siguiente: XY=x1y1n-xy La segunda expresin es ms cmoda de aplicar cuando las medias no son nmeros enteros. El coeficiente de correlacin, r, se obtiene dividiendo la covarianza por el producto de las desviaciones tpicas: =xyxy Este parmetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud y la y un peso, los valores x y x son longitudes, y sus valores varan segn que los datos estn dados en centmetros, en metros; los valores de y y y son pesos, y sus valores varan segn las unidades en que se expresen los datos; la covarianza, xy, es el producto de una longitud por un peso, y su valor vara segn las unidades en que se den xi, yi; sin embargo, el coeficiente de correlacin es un nmero abstracto cuyo valor no depende de las unidades en que se hallen los valores de las variables. Adems, el hecho de que r tome valores entre 1 y 1 (-1 r 1) hace que resulte muy cmodo interpretar sus resultados. Por todo ello, r es un parmetro sumamente adecuado para calcular la correlacin entre dos variables estadsticas. REGRESIN LINEAL La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin matemtica lineal que describe la reaccin entre dos variables. La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.

La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuacin de regresin es para explicar los valores de una variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. Ni con regresin ni con la correlacin se pude establecer si una variable tiene causa ciertos valores de otra variable. Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos:[] 1. La relacin entre las variables es lineal. 2. Los errores son independientes. 3. Los errores tienen varianza constante. 4. Los errores tienen una esperanza matemtica igual a cero. 5. El error total es la suma de todos los errores. Ecuacin Lineal Dos caractersticas importantes de una ecuacin lineal 1) la independencia de la recta 2) la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma y = a + bx En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de predecir, y x es la variable predictora. Determinacin de la ecuacin matemtica En la regresin, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.

Mtodos de mnimos cuadrados EL procedimiento ms utilizado por adaptar una recta aun conjunto de punto se le que conoce como mtodo de mnimos cuadrados. La recta resultante presenta 2 caracterstica importantes 1) es nula la suma desviaciones verticales en los puntos a partir de la recta 2) es mnima la suma de los cuadrados de dicha desviaciones (yi yc)2 En el cual Yi = valor esperado de y Yc= valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor correspondientes x para yi Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviacin ecuaciones normales y = na + (x) xy= a (x) +b (x2) En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.

n(xy)- (x)(y) b=

n(x2)-(x)2 y b x a= n Inferencia en el anlisis de regresin Los supuestos para el anlisis de regresin son como: 1. Existen datos de medicin para a x y z. 2. la variable dependiente es una variable aleatoria. 3. para cada valor de x, existe una distribucin condicional de la qu es de naturaleza normal 4. la desviacin estndar de toda las distribuciones condicionales son iguales EL error estndar de estimacin La determinante primaria de la exactitud es el grado de dispersin de la poblacin: cuanto ms dispersa este, menor ser la exactitud de la estimacin. El grado de dispersin en la poblacin se puede estimar a partir del grado de dispersin en las observaciones de la muestra con respecto a la lnea de regresin calculada, utilizando la formula. Se = (yi yc) n-2 en la cual: yi = cada valor de y yc = valor de lnea de regresin correspondiente a partir de la ecuacin de regresin. n = nmeros de observaciones. La formula anterior no se utiliza por lo general para clculos reales, es ms fcil trabajar con la formula simplificada

Se y2 a y b xy n2 Inferencia de acerca de la pendiente de una lnea de regresin Aun cuando es muy poca o nula relacin entre dos variables de aun poblacin, es posible obtener valores maestrales que hacen que parezca que la variables estn relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parmetros verdaderos no son cero), Si no existe ninguna relacin se esperara obtener aun pendiente cero, se pone a prueba la hiptesis nula contra la hiptesis alternativa. La significacin del coeficiente de regresin se puede probar comparndolo con su desviacin estndar

t = valor de la muestra valor esperado Desviacin estndar

Anlisis de regresin lineal mltiple La regresin mltiple comprende tres o ms variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operacin al desarrollo de una ecuacin que se puede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresin lineal simple. Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de regresin. Yc= a +b1x1+b2x2+bkxk

a = ordenada en el origen b1= pendiente k = numero de variables independientes Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a (k +1) dimensiones. Rectas de regresin Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste. [] * La recta de regresin de Y sobre X: * La recta de regresin de X sobre Y: La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno; si r es cercano o igual a 0, se tratar de un ajuste malo. Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin. EJEMPLO En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes estadsticos: Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15. Solucin: Lo que se busca es la recta , que mejor aproxima los valores de Y (segn el criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las

1.500 observaciones. Los coeficientes de esta recta son: As, el modelo lineal consiste en: Por tanto, si x=15, el modelo lineal predice un valor de Y de: En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a continuacin. ANLISIS DE CORRELACIN EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre observaciones por partes. EL termino correlacin significa relacin mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres tcnicas de correlacin uno para datos de medicin, otro para datos jerarquizados y el ltimo para clasificaciones nominales. la correlacin indica la fuerza y la direccin de una relacin lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad Cuando r = 1 existe una relacin funcional entre las dos variables de modo que el valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube estn todos situados sobre una recta de pendiente positiva. Esto ocurre, por ejemplo, cuando una barra metlica se somete a distintas temperaturas, x1, x2,, xn, y se miden

con precisin sus correspondientes longitudes, y1, y2,, yn. Las longitudes se obtienen funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que se va a calentar, se podra obtener la longitud que tendra la barra. Cuando r es positivo y grande (prximo a 1) se dice que hay una correlacin fuerte y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la nube se sitan prximos a una recta de pendiente positiva.

Es el caso de las estaturas, x1, x2,, xn, y los pesos, y1, y2, , yn, de diversos atletas de una misma especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones. Cuando r es prximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlacin es muy dbil (prcticamente no hay correlacin). La nube de puntos es amorfa.

Es lo que ocurrira si lanzramos simultneamente dos dados y anotramos sus resultados: puntuacin del dado rojo, xi; puntuacin del dado verde, yi. No existe ninguna relacin entre las puntuaciones de los dados en las diversas tiradas. Cuando r es prximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlacin fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube estn prximos a una recta de pendiente negativa. Si en un conjunto de pases en vas de desarrollo se miden sus rentas per cpita, xi, y sus ndices de natalidad, yi, se obtiene una distribucin de este tipo, pues suele ocurrir que, grosso modo, cuanto mayor sea la renta per cpita menor ser el ndice de natalidad.

Cuando r = -1 todos los puntos de la recta estn sobre una recta de pendiente negativa. Existe una relacin funcional entre las dos variables. La relacin entre dos super variables cuantitativas queda representada mediante la lnea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una lnea de ajuste y, por lo tanto, de una correlacin, son la fuerza, el sentido y la forma: * La fuerza extrema segun el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin es fuerte; si la nube de puntos tiene una tendencia elptica o circular, la relacin es dbil. * El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relacin es positiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa. * La forma establece el tipo de lnea que define el mejor ajuste: la lnea rectal, la curva monotnica o la curva no monotnica. La correlacin, mtodo por el cual se relacionan dos variables se pude graficar con un diagrama de dispersin de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un grfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlacin mas fuerte, ha esta recta se le denomina recta de regresin, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente. Tambin se puede describir un diagrama de dispersin en coordenadas cartesianas valores como en la distribucin divriate, en donde la nube de puntos representa los pares de valores. Conclusin Ya se han mostrado ejemplos, se ha definido y entendido el

tema. En ocasiones nos puede interesar el estudiar si existe o no alguna relacin entre dos tipos de variables, ya sea como ejemplo, la relacin entre dos calificaciones de un alumno o niveles de hormonas durante el embarazo, la regresin y correlacin, siendo una rama de la estadstica inferencia, nos ayudara a poder calcula u obtener esta relacin. En conclusin podemos decir que la relacin y correlacin comprende el anlisis de datos mustrales para saber como se relaciones entre si dos o mas variables de una poblacin. BIBLIOGRAFIA * http://web.usal.es/~javisan/hidro/practicas/correlacion/Correla cion_explicacion.pdf * http://www.eumed.net/cursecon/medir/index.htm * http://www.monografias.com/trabajos26/estadisticainferencial/estadistica-inferencial.shtml * PROBABILIDAD Y ESTADSTICA 4 Ed. Editorial McGraw-Hill (2006) * PROBABILIDAD Y ESTADISTICA. Ed. Nueva Librera. Alejandro D. Zylberberg. (2005) * PROBABILIDAD Y ESTADSTICA. Editorial: Thomson (2001)

Вам также может понравиться