Академический Документы
Профессиональный Документы
Культура Документы
SUPERIOR DE MISANTLA
INGENIERÍA EN SISTEMAS
COMPUTACIONALES
UNIDAD IV:
REGRESION LINEAL
PROBABILIDAD Y ESTADISTICA
QUE PRESENTA
SERGIO IVAN AQUINO GARCIA
Contenido
Introducción ............................................................................................................................ 1
5.1.3 Correlación........................................................................................................ 5
Conclusión ............................................................................................................................ 11
Bibliografía ........................................................................................................................... 12
i
Introducción
En la estadística existen en algunas ocasiones ciertos eventos en los cuales existen variables,
las cuales nos permiten el entendimiento a los problemas, es decir que los eventos
(respuestas) dependen de ellas. Por lo cual en este apartado se hablará de esta situación
conocida como regresión lineal, y así como de los conceptos que se añaden a este.
1
Regresión lineal
5. Regresión lineal
A través de las investigaciones anteriores se hablo acerca de diversos temas que son
indispensables para que el ingeniero tenga herramientas necesarias para el campo en donde
se ha de desenvolver.
Pues en la práctica, muchas veces se requiere resolver problemas que implican conjuntos de
variables de las cuales se sabe que tienen alguna relación inherente entre sí. Por ejemplo, en
una situación industrial quizá se sepa que el contenido de alquitrán en el flujo de salida de un
proceso químico está relacionado con la temperatura en la entrada. Podría ser de interés
desarrollar un método de pronóstico, es decir, un procedimiento que permita estimar el
contenido de alquitrán para varios niveles de temperatura de entrada a partir de información
experimental. Desde luego, es muy probable que para muchos ejemplos concretos en los que
la temperatura de entrada sea la misma, por ejemplo 130 °C, el contenido de alquitrán de
salida no sea el mismo. Esto es muy similar a lo que ocurre cuando se estudian varios
automóviles con un motor del mismo volumen; no todos tienen el mismo rendimiento de
combustible. El contenido del alquitrán y el rendimiento del combustible son variables
dependientes naturales. La temperatura y el volumen del motor son variables independientes
o regresores, respectivamente. Una forma razonable de relación entre la respuesta “Y” y el
regresor x es la relación lineal:
(5. 1)
𝑌 = 𝛽0 + 𝛽1 𝑥
En la que por supuesto, β0 es la intersección y β1 es la pendiente. Esta relación se ilustra en
la figura 5.1.
2
Regresión lineal
Figura 5. 1
Cuantificando la fuerza de esa relación, y empleando métodos que permitan predecir los
valores de la respuesta dados los valores del regresor x.
𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 (5. 2)
5.1Regresión y correlación.
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos,
conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión
lineal consiste en generar una ecuación (modelo) que, basándose en la relación existente entre
ambas variables, permita predecir el valor de una a partir de la otra.
3
Regresión lineal
5.1.1 Diagrama de dispersión.
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de
datos que aparecen en pares (por ejemplo, (x, y), uno de cada conjunto). El diagrama muestra
estos pares como una nube de puntos. Las relaciones entre los conjuntos asociados de datos
se infieren a partir de la forma de las nubes.
Una relación positiva entre X y Y significa que los valores crecientes de x están asociados
con los valores crecientes de y. Una relación negativa significa que los valores crecientes de
x están asociados con los valores decrecientes de y.
Recolectar datos pareados (x, y) a partir de dos conjuntos asociados de datos cuya
relación va a ser objeto de estudio. Es conveniente contar con 30 pares de datos
aproximadamente.
Rotular el eje x y el eje y.
Encontrar los valores mínimo y máximo, tanto para X como para Y y utilizar estos
valores para elaborar la escala de los ejes horizontal (x) y vertical (y). Ambos deben
tener aproximadamente la misma longitud.
Plotear los datos pareados (x, y). Cuando haya dos pares de datos que tengan los
mismos valores, dibujar círculos concéntricos al punto ploteado o plotear el segundo
punto a una corta distancia.
Examinar la forma de la nube de puntos para descubrir los tipos y las fuerzas de las
relaciones.
Teniendo como objetivo estudiar la relación de:
4
Regresión lineal
5.1.2 Regresión lineal simple.
Un análisis de la relación entre x y Y requiere el planteamiento de un modelo estadístico. Con
frecuencia un estadístico utiliza un modelo como representación de un ideal que, en esencia
define como percibimos que el sistema en cuestión generó los datos. La base para el uso de
un modelo estadístico se relaciona con la manera en que la variable aleatoria Y cambia con
x y el componente aleatorio. El modelo también incluye lo que se asume acerca de las
propiedades estadísticas del componente aleatorio. La respuesta Y se relaciona con la
variable independiente x a través de la ecuación:
𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜖. (5. 3)
𝐸(𝜖) = 𝑜 (5. 4)
Y
𝑉𝑎𝑟(𝜖) = 𝜎 2 (5. 5)
5.1.3 Correlación.
En la situación de la regresión lineal se hace uso de una variable científica o física, o
denominada, con frecuencia, variable matemática. Para el caso contrario existe el análisis de
correlación, el cual intenta medir la fuerza de las relaciones entre dos variables por medio de
un solo número denominado coeficiente de correlación.
La medida p de la asociación lineal entre dos variables X y Y se estima por medio del
coeficiente de correlación muestral r, donde
𝑆𝑥𝑦 (5. 6)
𝑟=
√𝑆𝑥𝑥 𝑆𝑦𝑦
5
Regresión lineal
5.1.4 Determinación y análisis de los coeficientes de correlación y de determinación.
Para poder contar con un indicador que permita, por un lado, establecer la covariación
conjunta de dos variables, y por otro, que tenga la universalidad suficiente para poder
establecer comparaciones entre distintos casos, se utiliza el coeficiente de correlación (lineal,
de Pearson). La correlación es, pues una medida de covariación conjunta que nos informa del
sentido de esta y de su relevancia, que está acotada y permite la comparación entre distintos
casos.
El coeficiente de correlación entre dos variables puede definirse como la covarianza existente
entre sus dos variables tipificadas y tiene por expresión de cálculo:
𝑆𝑥𝑦 (5. 7)
𝑟𝑥𝑦 = 𝑆𝑢𝑣 =
𝑆𝑥 𝑆𝑦
Interpretación:
Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido inverso.
A valores altos de una de ellas le suelen corresponder valor bajo de la otra y viceversa.
Cuánto más próximo a -1 esté el coeficiente de correlación más patente será esta
covariación extrema. Si r = -1 se habla de correlación negativa perfecta lo que supone
una determinación absoluta entre las dos variables (en sentido inverso): Existe una
relación funcional perfecta entre ambas (una relación lineal de pendiente negativa).
Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A
valores altos de una le corresponden valores altos de la otra e igualmente con los valores
bajos. Cuánto más próximo a +1 esté el coeficiente de correlación más patente será esta
covariación. Si r = 1 hablaremos de correlación positiva perfecta lo que supone una
determinación absoluta entre las dos variables (en sentido directo): Existe una relación
lineal perfecta (con pendiente positiva).
Si r = 0 se dice que las variables están in-correlacionadas: no puede establecerse ningún
sentido de covariación.
Propiedad importante: Si dos variables son independientes estarán in-correlacionadas,
aunque el resultado recíproco no es necesariamente cierto.
6
Regresión lineal
El coeficiente de determinación, se define como la proporción de la varianza total de la
variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
∑ 𝑇
𝑡=1
̂𝑡 − 𝑌̅)2
(𝑌 (5. 8)
𝑅2 = 𝑇
∑𝑡=1(𝑌𝑡 − 𝑌̅)2
𝑇 (5. 9)
2
∑(𝑌̂𝑡 − 𝑌̅)
𝑡=1
La primera diferencia es que la Y lleva un circunflejo o, lo que los profesores llaman de forma
didáctica, “sombrerito”. Ese sombrerito lo que detalla es que esa Y es la estimación de un
modelo sobre lo que según las variables explicativas vale Y, pero no es el valor real de Y,
sino una estimación de Y.
En segundo lugar, faltaría dividir entre T. Que, en otros casos, se nota como N o número de
observaciones. Sin embargo, dado que la fórmula del denominador también la llevaría, se
eliminan los denominadores (parte de abajo) de ambas fórmulas para simplificar la expresión.
De esta manera es más fácil trabajar con ella.
A continuación, se realiza el mismo análisis con la parte del denominador (parte de abajo).
𝑇 (5. 10)
∑(𝑌𝑡 − 𝑌̅)2
𝑡=1
7
Regresión lineal
En este caso, la única diferencia existente respecto a la fórmula original de la varianza es la
ausencia de su denominador. Es decir, no divide entre T o N. Hecho, que ya se ha aclarado
anteriormente.
Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos resultados
son posibles. A uno de estos se denomina «éxito» y tiene una probabilidad de ocurrencia p y
al otro, «fracaso», con una probabilidad q = 1 - p. En la distribución binomial el experimento
se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un
determinado número de éxitos.
Para representar que una variable aleatoria X sigue una distribución binomial de parámetros
n y p, se escribe:
𝑛 (5. 12)
𝑓(𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑧 ; 0 ≤ 𝑝 ≤ 1
𝑥
Dónde: x= {0,1, 2, …, n}
siendo
𝑛 𝑛! (5. 13)
( )=
𝑥 𝑥! (𝑛 − 𝑥)!
8
Regresión lineal
5.1.6 Intervalos de confianza y pruebas para el coeficiente de correlación.
El Intervalo de Confianza (IC) proporciona los valores del parámetro más compatibles con
la información muestral. Para obtenerlos, tomaremos de R los valores de 2 nuevas
distribuciones: la t de Student y la ² (Ji Cuadrado).
En resumen, los IC cuantifican el conocimiento, tanto sobre el auténtico valor, como sobre
la incertidumbre que sobre él tenemos: mayor amplitud del intervalo, mayor imprecisión. No
es necesario que recuerde o aplique las fórmulas, pero SÍ que compruebe que sabe obtener
con R los resultados e interpretar su significado. Como siempre, no es necesario que entre a
fondo en los puntos marcados con asterisco; pero SÍ que conviene que recuerde que aquí
tiene la solución a ese problema por si alguna vez se le presenta.
5.1.7 Errores de medición.
Aunque es imposible conocer todas las causas del error es conveniente conocer todas las
causas importantes y tener una idea que permita evaluar los errores más frecuentes. Las
principales causas que producen errores se pueden clasificar en:
10
Regresión lineal
Conclusión
Aunque en cierta medida se logra dar a entender los conceptos anteriores son muy amplios,
y requieren de una explicación detallada se ha logrado proporcionar lo indispensable para
que el lector adquiere conocimiento para el campo en donde se ha de desenvolver.
11
Regresión lineal
Bibliografía
12