Академический Документы
Профессиональный Документы
Культура Документы
Prctica de Laboratorio N 13
Prueba de Hiptesis para los parmetros de la
Ecuacin de Regresin Lineal: Y = a + bX
Competencia 1: el estudiante realiza pruebas de hiptesis para los parmetros de
a ecuacin de regresin lineal
Competencia 2: analiza el comportamiento de los fenmenos explicados por una
curva de ajuste.
Regresin
Las tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una
relacin. Si sobre un grupo de personas observamos los valores que toman las variables
Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de personas
es
A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que
denominamos regresin.
Figura: Mediante las tcnicas de regresin de una variable Y sobre una variable X, buscamos una
funcin que sea una buena aproximacin de una nube de puntos (Xi,Yi), mediante una curva del tipo
. Para ello hemos de asegurarnos de que la diferencia entre los valores yi e sea tan
pequea como sea posible.
Pgina
Mediante las tcnicas de regresin inventamos una variable como funcin de otra variable X (o
viceversa),
Esto es lo que denominamos relacin funcional. El criterio para construir , tal como citamos
anteriormente, es que la diferencia entre Y e sea pequea.
Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una poblacin, en los que se
miden ciertas variables X e Y:
Estamos interesamos en hacer regresin para determinar, de modo aproximado, los valores de Y
conocidos los de X, debemos definir cierta variable , que debe tomar los valores
de modo que:
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los
autnticos valores de Y y los tericos suministrados por la regresin,
y calculando de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una
variable cuya media debe ser 0, y cuya varianza debe ser pequea (en comparacin con la de
Pgina
Si el ajuste de Y mediante la curva de regresin es bueno, cabe esperar que la cantidad
tome un valor prximo a 1. Anlogamente si nos interesa encontrar una curva de regresin
para X como funcin de Y, definiramos
Las cantidades y sirven entonces para medir de qu modo las diferencias entre los
verdaderos valores de una variable y los de su aproximacin mediante una curva de regresin son
pequeos en relacin con los de la variabilidad de la variable que intentamos aproximar. Por esta
razn estas cantidades miden el grado de bondad del ajuste.
Regresin lineal
La forma de la funcin f en principio podra ser arbitraria, y tal vez se tenga que la relacin ms
exacta entre las variables peso y altura definida anteriormente sea algo de la forma
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos
vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos conformamos con
encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se
pueda escribir
de forma que sea una variable que toma valores prximos a cero.
Observacin
Pgina
Por tanto, en el caso de las variables peso y altura lo lgico ser encontrar que b>0.
El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir de un
conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar
son de forma esquemtica, las que siguen:
2. Una aproximacin de
Y, se define a partir de dos cantidades a y b. Vamos a calcular aquellas que minimizan la funcin
Posteriormente
encontraremos frmulas para el
clculo directo de a y b que sirvan para cualquier problema.
Regresin de Y sobre X
Para calcular la recta de regresin de Y sobre X nos basamos en la figura.
Una vez que tenemos definido el error de aproximacin mediante la relacin anterior) las
cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero
(procedimiento de los mnimos cuadrados):
Pgina
La cantidad b se denomina coeficiente de regresin de Y sobre X.
Regresin de X sobre Y
Las mismas conclusiones se sacan cuando intentamos hacer la regresin de X sobre Y, pero
atencin!: Para calcular la recta de regresin de X sobre Y es totalmente incorrecto despejar de
Pues esto nos da la regresin de X sobre , que no es lo que buscamos. La regresin de X sobre Y
se hace aproximando X por , del modo
donde
pues de este modo se minimiza, en el sentido de los mnimos cuadrados, los errores entre las
Ejemplo 3:
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los
resultados se muestran resumidos en los siguientes estadsticos:
Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este
modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin:
Pgina
Lo que se busca es la recta, , que mejor aproxima los valores de Y (segn el
criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano
(X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:
En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable. Para dar
una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a continuacin.
Proposicin
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las
variables X e Y y sus aproximaciones y , pues slo se mantienen en un factor de r2, es decir,
Demostracin
Basta probar nuestra afirmacin para la variable Y, ya que para X es totalmente anlogo:
Observacin
Como consecuencia de este resultado, podemos decir que la proporcin de
y por tanto
Pgina
La cantidad que le falta a la varianza de regresin, , para llegar hasta la varianza total de Y,
Por ello
y el coeficiente de determinacin (que sirve para determinar la bondad del ajuste de X en funcin
de Y) vale:
Pgina
Proposicin
Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinacin son iguales a r2, y
por tanto representan adems la proporcin de varianza explicada por la regresin lineal:
Por ello:
Ejemplo 4
De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la
siguiente informacin:
Calcule:
a) La recta de regresin de Y sobre X. Explique el significado de los parmetros.
b) El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de
la variacin de Y que no est explicada por el modelo lineal de regresin.
Solucin:
a) En primer lugar calculamos las medias y las covarianza entre ambas variables:
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida
que X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de la ordenada en el
origen, a, tenemos:
Pgina
Es decir, el modelo de regresin lineal explica el de la variabilidad de Y en funcin de la de X.
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior, hay
una razonable cantidad de variabilidad que no es explicada por el modelo.
Ejemplo 5:
En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y edad, obtenindose los
siguientes resultados:
Resultado de las mediciones
Existe una relacin lineal importante entre ambas
variables? Calcular la recta de regresin de la edad edad 12 8 10 11 7 7 10 14
en funcin del peso y la del peso en funcin de la peso 58 42 51 54 40 39 49 56
edad. Calcular la bondad del ajuste En qu
medida, por trmino medio, vara el peso cada ao? En cunto aumenta la edad por cada kilo de
peso?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de correlacin
lineal, que vale:
ya que
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ngulo entre el vector formado por
Pgina
las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor
medio, , es:
es decir, entre esos vectores hay un buen grado de paralelismo (slo unos 19 grados de desviacin).
La recta de regresin del peso en funcin de la edad es
por tanto podemos decir que el de la variabilidad del peso en funcin de la edad es
explicada mediante la recta de regresin correspondiente. Lo mismo podemos decir en cuanto a la
variabilidad de la edad en funcin del peso. Del mismo modo puede decirse que hay un
Por ltimo la cantidad en que vara el peso de un paciente cada ao es, segn la recta de regresin
del peso en funcin de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/ao. Cuando dos
personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad
b2=0,3136 aos/Kg de diferencia.
Tarea
Ejercicio 1. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la
concentracin de estrona en saliva(X) para predecir la concentracin del esteroide en plasma libre
(Y). Se extrajeron los siguientes datos de 14 varones sanos:
X 1,4 7,5 8,5 09 09 11 13 14 14,5 16 17 18 20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68
Pgina
b) Obtener la ecuacin que se menciona en el enunciado del problema.
c) Determinar la variacin de la concentracin de estrona en plasma por unidad de
estrona en saliva.
X 89 90 75 30 51 75 62 45 90 20
Y 2 3 4 4,5 5,5 7 9 13 15 14
Ejercicio 4. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un
lago, se toman medidas de la concentracin de nitrato en el agua. Para monitorizar la variable se ha
utilizado un antiguo mtodo manual. Se idea un nuevo mtodo automtico. Si se pone de
manifiesto una alta correlacin positiva entre las medidas tomadas empleando los dos mtodos,
entonces se har uso habitual del mtodo automtico. Los datos obtenidos son los siguientes:
Pgina
c) Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal
de regresin para X en funcin de Y, e Y en funcin de X, es decir, e .
d) Calcule los errores para cada una de dichas predicciones, es decir, las variables
e .
e) Que relacin hay entre las medias de X y ? Y entre las de Y e ?
Pgina
Pgina