Вы находитесь на странице: 1из 14

INSTITUTO TECNOLÓGICO

SUPERIOR DE MISANTLA

INGENIERÍA EN SISTEMAS
COMPUTACIONALES

UNIDAD IV:
REGRESION LINEAL

PROBABILIDAD Y ESTADISTICA
QUE PRESENTA
SERGIO IVAN AQUINO GARCIA

ASESOR: ING. PABLO COLORADO POSADAS

MISANTLA, VERACRUZ 2019


Regresión lineal

Contenido
Introducción ............................................................................................................................ 1

5. Regresión lineal .................................................................................................................. 2

5.1 Regresión y correlación............................................................................................ 3

5.1.1 Diagrama de dispersión. ................................................................................... 4

5.1.2 Regresión lineal simple. .................................................................................... 5

5.1.3 Correlación........................................................................................................ 5

5.1.4 Determinación y análisis de los coeficientes de correlación y de determinación.


6

5.1.5 Distribución normal bidimensional. ................................................................. 8

5.1.6 Intervalos de confianza y pruebas para el coeficiente de correlación............... 9

5.1.7 Errores de medición. ......................................................................................... 9

Conclusión ............................................................................................................................ 11

Bibliografía ........................................................................................................................... 12

i
Introducción
En la estadística existen en algunas ocasiones ciertos eventos en los cuales existen variables,
las cuales nos permiten el entendimiento a los problemas, es decir que los eventos
(respuestas) dependen de ellas. Por lo cual en este apartado se hablará de esta situación
conocida como regresión lineal, y así como de los conceptos que se añaden a este.

1
Regresión lineal

5. Regresión lineal

A través de las investigaciones anteriores se hablo acerca de diversos temas que son
indispensables para que el ingeniero tenga herramientas necesarias para el campo en donde
se ha de desenvolver.
Pues en la práctica, muchas veces se requiere resolver problemas que implican conjuntos de
variables de las cuales se sabe que tienen alguna relación inherente entre sí. Por ejemplo, en
una situación industrial quizá se sepa que el contenido de alquitrán en el flujo de salida de un
proceso químico está relacionado con la temperatura en la entrada. Podría ser de interés
desarrollar un método de pronóstico, es decir, un procedimiento que permita estimar el
contenido de alquitrán para varios niveles de temperatura de entrada a partir de información
experimental. Desde luego, es muy probable que para muchos ejemplos concretos en los que
la temperatura de entrada sea la misma, por ejemplo 130 °C, el contenido de alquitrán de
salida no sea el mismo. Esto es muy similar a lo que ocurre cuando se estudian varios
automóviles con un motor del mismo volumen; no todos tienen el mismo rendimiento de
combustible. El contenido del alquitrán y el rendimiento del combustible son variables
dependientes naturales. La temperatura y el volumen del motor son variables independientes
o regresores, respectivamente. Una forma razonable de relación entre la respuesta “Y” y el
regresor x es la relación lineal:

(5. 1)
𝑌 = 𝛽0 + 𝛽1 𝑥
En la que por supuesto, β0 es la intersección y β1 es la pendiente. Esta relación se ilustra en
la figura 5.1.

2
Regresión lineal

Figura 5. 1

Cuantificando la fuerza de esa relación, y empleando métodos que permitan predecir los
valores de la respuesta dados los valores del regresor x.

En muchas aplicaciones habrá más de un regresor, es decir, más de una variable


independiente que ayude a explicar a Y. Por ejemplo, si se tratara de explicar las razones
para el precio de una casa, se esperaría que una de ellas fuera su antigüedad, en curo calo la
estructura múltiple de la regresión se podría escribir como

𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 (5. 2)

Donde Y es el precio, x1 son los metros cuadrados y x2 es la antigüedad de la casa en años.


El análisis resultante se denomina regresión múltiple; en tanto que le análisis del caso son
un solo regresor recibe el nombre de regresión simple.

5.1Regresión y correlación.
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos,
conviene destacar algunas diferencias:

La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión
lineal consiste en generar una ecuación (modelo) que, basándose en la relación existente entre
ambas variables, permita predecir el valor de una a partir de la otra.

El cálculo de la correlación entre dos variables es independiente del orden o asignación de


cada variable a X e Y, mide únicamente la relación entre ambas sin considerar dependencias.
En el caso de la regresión lineal, el modelo varía según qué variable se considere dependiente
de la otra (lo cual no implica causa-efecto).

3
Regresión lineal
5.1.1 Diagrama de dispersión.
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de
datos que aparecen en pares (por ejemplo, (x, y), uno de cada conjunto). El diagrama muestra
estos pares como una nube de puntos. Las relaciones entre los conjuntos asociados de datos
se infieren a partir de la forma de las nubes.

Una relación positiva entre X y Y significa que los valores crecientes de x están asociados
con los valores crecientes de y. Una relación negativa significa que los valores crecientes de
x están asociados con los valores decrecientes de y.

El procedimiento para su elaboración se muestra a continuación:

 Recolectar datos pareados (x, y) a partir de dos conjuntos asociados de datos cuya
relación va a ser objeto de estudio. Es conveniente contar con 30 pares de datos
aproximadamente.
 Rotular el eje x y el eje y.
 Encontrar los valores mínimo y máximo, tanto para X como para Y y utilizar estos
valores para elaborar la escala de los ejes horizontal (x) y vertical (y). Ambos deben
tener aproximadamente la misma longitud.
 Plotear los datos pareados (x, y). Cuando haya dos pares de datos que tengan los
mismos valores, dibujar círculos concéntricos al punto ploteado o plotear el segundo
punto a una corta distancia.
 Examinar la forma de la nube de puntos para descubrir los tipos y las fuerzas de las
relaciones.
Teniendo como objetivo estudiar la relación de:

 Dos factores o causas relacionadas con la calidad.

 Dos problemas de calidad.

 Un problema de calidad y su posible causa.

4
Regresión lineal
5.1.2 Regresión lineal simple.
Un análisis de la relación entre x y Y requiere el planteamiento de un modelo estadístico. Con
frecuencia un estadístico utiliza un modelo como representación de un ideal que, en esencia
define como percibimos que el sistema en cuestión generó los datos. La base para el uso de
un modelo estadístico se relaciona con la manera en que la variable aleatoria Y cambia con
x y el componente aleatorio. El modelo también incluye lo que se asume acerca de las
propiedades estadísticas del componente aleatorio. La respuesta Y se relaciona con la
variable independiente x a través de la ecuación:

𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜖. (5. 3)

En la cual β0 y β1 son los parámetros desconocidos de la intersección y la pendiente,


respectivamente, y ϵ es una variable aleatoria que se supone está distribuida con

𝐸(𝜖) = 𝑜 (5. 4)
Y

𝑉𝑎𝑟(𝜖) = 𝜎 2 (5. 5)

Es frecuente que a la cantidad de la varianza se le denomine varianza del error o varianza


residual, en este caso.

5.1.3 Correlación.
En la situación de la regresión lineal se hace uso de una variable científica o física, o
denominada, con frecuencia, variable matemática. Para el caso contrario existe el análisis de
correlación, el cual intenta medir la fuerza de las relaciones entre dos variables por medio de
un solo número denominado coeficiente de correlación.

La medida p de la asociación lineal entre dos variables X y Y se estima por medio del
coeficiente de correlación muestral r, donde

𝑆𝑥𝑦 (5. 6)
𝑟=
√𝑆𝑥𝑥 𝑆𝑦𝑦

5
Regresión lineal
5.1.4 Determinación y análisis de los coeficientes de correlación y de determinación.
Para poder contar con un indicador que permita, por un lado, establecer la covariación
conjunta de dos variables, y por otro, que tenga la universalidad suficiente para poder
establecer comparaciones entre distintos casos, se utiliza el coeficiente de correlación (lineal,
de Pearson). La correlación es, pues una medida de covariación conjunta que nos informa del
sentido de esta y de su relevancia, que está acotada y permite la comparación entre distintos
casos.
El coeficiente de correlación entre dos variables puede definirse como la covarianza existente
entre sus dos variables tipificadas y tiene por expresión de cálculo:

𝑆𝑥𝑦 (5. 7)
𝑟𝑥𝑦 = 𝑆𝑢𝑣 =
𝑆𝑥 𝑆𝑦

Interpretación:
 Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido inverso.
A valores altos de una de ellas le suelen corresponder valor bajo de la otra y viceversa.
Cuánto más próximo a -1 esté el coeficiente de correlación más patente será esta
covariación extrema. Si r = -1 se habla de correlación negativa perfecta lo que supone
una determinación absoluta entre las dos variables (en sentido inverso): Existe una
relación funcional perfecta entre ambas (una relación lineal de pendiente negativa).
 Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A
valores altos de una le corresponden valores altos de la otra e igualmente con los valores
bajos. Cuánto más próximo a +1 esté el coeficiente de correlación más patente será esta
covariación. Si r = 1 hablaremos de correlación positiva perfecta lo que supone una
determinación absoluta entre las dos variables (en sentido directo): Existe una relación
lineal perfecta (con pendiente positiva).
 Si r = 0 se dice que las variables están in-correlacionadas: no puede establecerse ningún
sentido de covariación.
Propiedad importante: Si dos variables son independientes estarán in-correlacionadas,
aunque el resultado recíproco no es necesariamente cierto.

6
Regresión lineal
El coeficiente de determinación, se define como la proporción de la varianza total de la
variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.

Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.


Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado
estará el modelo y, por tanto, menos fiable será.

∑ 𝑇
𝑡=1
̂𝑡 − 𝑌̅)2
(𝑌 (5. 8)
𝑅2 = 𝑇
∑𝑡=1(𝑌𝑡 − 𝑌̅)2

En la expresión anterior se tiene una fracción. En primer lugar, se analiza el numerador, es


decir, la parte de arriba.

𝑇 (5. 9)
2
∑(𝑌̂𝑡 − 𝑌̅)
𝑡=1

La primera diferencia es que la Y lleva un circunflejo o, lo que los profesores llaman de forma
didáctica, “sombrerito”. Ese sombrerito lo que detalla es que esa Y es la estimación de un
modelo sobre lo que según las variables explicativas vale Y, pero no es el valor real de Y,
sino una estimación de Y.
En segundo lugar, faltaría dividir entre T. Que, en otros casos, se nota como N o número de
observaciones. Sin embargo, dado que la fórmula del denominador también la llevaría, se
eliminan los denominadores (parte de abajo) de ambas fórmulas para simplificar la expresión.
De esta manera es más fácil trabajar con ella.

A continuación, se realiza el mismo análisis con la parte del denominador (parte de abajo).

𝑇 (5. 10)
∑(𝑌𝑡 − 𝑌̅)2
𝑡=1

7
Regresión lineal
En este caso, la única diferencia existente respecto a la fórmula original de la varianza es la
ausencia de su denominador. Es decir, no divide entre T o N. Hecho, que ya se ha aclarado
anteriormente.

5.1.5 Distribución normal bidimensional.


En estadística, la distribución binomial es una distribución de probabilidad discreta que
cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre
sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos.

Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos resultados
son posibles. A uno de estos se denomina «éxito» y tiene una probabilidad de ocurrencia p y
al otro, «fracaso», con una probabilidad q = 1 - p. En la distribución binomial el experimento
se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un
determinado número de éxitos.

Para representar que una variable aleatoria X sigue una distribución binomial de parámetros
n y p, se escribe:

𝑋 ~𝐵(𝑛, 𝑝) (5. 11)

Su función de probabilidad es:

𝑛 (5. 12)
𝑓(𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑧 ; 0 ≤ 𝑝 ≤ 1
𝑥

Dónde: x= {0,1, 2, …, n}
siendo

𝑛 𝑛! (5. 13)
( )=
𝑥 𝑥! (𝑛 − 𝑥)!

las combinaciones de 𝑛 en 𝑥 (𝑛 elementos tomados de 𝑥 en 𝑥 ).

8
Regresión lineal
5.1.6 Intervalos de confianza y pruebas para el coeficiente de correlación.
El Intervalo de Confianza (IC) proporciona los valores del parámetro más compatibles con
la información muestral. Para obtenerlos, tomaremos de R los valores de 2 nuevas
distribuciones: la t de Student y la ² (Ji Cuadrado).

Como el parámetro es un valor poblacional, se pretende conocer verdades absolutas y dar


respuestas universales. Verdades universales, aunque reducidas a la población objetivo, con
sus condiciones y criterios.

En resumen, los IC cuantifican el conocimiento, tanto sobre el auténtico valor, como sobre
la incertidumbre que sobre él tenemos: mayor amplitud del intervalo, mayor imprecisión. No
es necesario que recuerde o aplique las fórmulas, pero SÍ que compruebe que sabe obtener
con R los resultados e interpretar su significado. Como siempre, no es necesario que entre a
fondo en los puntos marcados con asterisco; pero SÍ que conviene que recuerde que aquí
tiene la solución a ese problema por si alguna vez se le presenta.
5.1.7 Errores de medición.

El error de medición se define como la diferencia entre el valor medido y el "valor


verdadero". Los errores de medición afectan a cualquier instrumento de medición y pueden
deberse a distintas causas. Las que se pueden de alguna manera prever, calcular, eliminar
mediante calibraciones y compensaciones, se denominan deterministas o sistemáticos y se
relacionan con la exactitud de las mediciones. Los que no se pueden prever, pues dependen
de causas desconocidas, o estocásticas se denominan aleatorios y están relacionados con la
precisión del instrumento.

Aunque es imposible conocer todas las causas del error es conveniente conocer todas las
causas importantes y tener una idea que permita evaluar los errores más frecuentes. Las
principales causas que producen errores se pueden clasificar en:

Error debido al instrumento de medida.


Error debido al operador.
9
Regresión lineal
Error debido a los factores ambientales.
Error debido a las tolerancias geométricas de la propia pieza

10
Regresión lineal

Conclusión
Aunque en cierta medida se logra dar a entender los conceptos anteriores son muy amplios,
y requieren de una explicación detallada se ha logrado proporcionar lo indispensable para
que el lector adquiere conocimiento para el campo en donde se ha de desenvolver.

11
Regresión lineal

Bibliografía

A. Johnson, R. (2012). Probabilidad y estadistica para ingenieros. México: Pearson


Educacion de México.
E. Walpole, R., H. Myers, R., Ye, K., & L. Myers, S. (2012). Probabilidad y estadística para
ingeniería y ciencias. México: Pearson Educación de Mexico.
Gutiérrez Gonzáles, E., & Vladimirovna Panteleeva, O. (2014). Probabilidad y estadistica;
aplicaciones a la ingenieria y las ciencias. Mexico: Patria.

12

Вам также может понравиться