Regresion Lineal

ESPOL
PROYECTO DE ESTADÍSTICA
(REGRESION LINEAL)
INTEGRANTES:
LENIN JAIR LIMA PAGUAY
RODRIGO FARINANGO PEÑARRETA

PROFESORA:
ING. JOFRE SANCHEZ

Paralelo: 2

Fecha: 7/Febrero/2016
Contenido
1. INTRODUCCIÓN .......................................................................................................................... 3
2. OBJETIVOS .................................................................................................................................. 3
2.1. OBJETIVO GENERAL ........................................................................................................... 3
2.2. OBJETIVOS ESPECÍFICOS .................................................................................................... 3
3. MARCO TEÓRICO ........................................................................................................................ 4
3.1. Estadística Inferencial. ...................................................................................................... 4
3.1.1. Estimación de Parámetros. ........................................................................................... 4
3.1.2. Estimación por intervalo. .............................................................................................. 4
3.1.3. Intervalos de confianza para la media (µ) de una población normal. .......................... 5
3.1.4. Intervalos de Confianza para la Varianza (𝝈𝟐) de una Población Normal. ................... 7
3.2. Prueba de hipótesis. ......................................................................................................... 9
3.3 Regresión Lineal .................................................................................................................. 11
4. ESTADÍSTICAS DESCRIPTIVAS .................................................................................................... 12
4.1 Resultados de recolección de datos ................................................................................ 12
Tabla de Datos .......................................................................................................................... 12
Gráfico Peso vs Estatura ........................................................................................................... 13
4.2 Análisis de Datos ............................................................................................................. 13
5. CONCLUSIONES ........................................................................................................................ 16
6. RECOMENDACIONES. ............................................................................................................... 16
7. BIBLIOGRAFÍA. .......................................................................................................................... 16
7.1. Trabajos citados .............................................................................................................. 16

1. INTRODUCCIÓN
El siguiente escrito se realizó por medio de caminatas las áreas del campus Espol, la cual se
obtuvo el peso y altura en kg y metros respectivamente, obteniendo 10 datos en total, en los
cuales se procedió a realizar los diferentes procesos estadísticos.
De los datos obtenidos se procedió a realizar Estadísticas inferenciales tales como pruebas de
hipotesis, regresión lineal, intervalos de confianza y cálculo del valor p de la prueba.
El experimento es realizado para probar la hipótesis de que no es COLOCAR TU HIPOTESIS NULA
siendo así se tuvo que realizar diferentes métodos estadísticos para llegar a una conclusión final
de la proposición o supuesto.
2. OBJETIVOS

2.1. OBJETIVO GENERAL
ü Analizar peso y estatura de diferentes chicos.

2.2. OBJETIVOS ESPECÍFICOS
ü Identificar que parámetro influyen los factores peso y estatura.

ü Representar mediante gráficos estadísticos datos obtenidos en el experimento.
ü Realizar Pruebas de Hipótesis para verificar la teoría o modelo del supuesto que
tenga el investigador.

3. MARCO TEÓRICO
3.1. Estadística Inferencial.
La teoría de inferencia estadística consiste en aquellos métodos con los cuales se pueden realizar
inferencias o generalizaciones acerca de una población.
La inferencia estadística puede dividirse en 2 áreas:
ü Estimación de Parámetros

ü Pruebas de Hipótesis
3.1.1. Estimación de Parámetros.

Los parámetros a estudiar son parámetros poblacionales como la media y la varianza.
Si θ es un parámetro desconocido, entonces θ será su estimador.
Así, 𝑥 es un estimador de µ y 𝑠 ' es un estimador de σ' y ellos cumplen con la propiedad de

insesgamiento.
3.1.2. Estimación por intervalo.

Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma 𝜃* < 𝜃 <
𝜃' , donde 𝜃* y 𝜃' dependen del valor de 𝜃 para una muestra particular y también de la
distribución muestral de 𝜃 .
Basado en la distribución muestral de 𝜃 se puede determinar si el intervalo (𝜃* , 𝜃' ) con una
probabilidad dada contiene realmente el parámetro que se supone que va a estimar.
Esto es 𝑃 (𝜃* < 𝜃* < 𝜃' ) = 1 − 𝛼 donde 0 < α < 1.
El intervalo (𝜃* , 𝜃' ) calculado de una muestra particular se llama intervalo de confianza del (1 −
𝛼)100%, la fracción 1 − 𝛼 se denomina coeficiente de confianza, grado de confianza o
nivel de confianza y los puntos 𝜃* y 𝜃' se llaman límites de confianza.

3.1.3. Intervalos de confianza para la media (µ) de una población normal.

ü Se conoce su varianza

@A
Obs.: Si 𝑋 − 𝑁 µμ, 𝜎 ' , 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑥 − N(µμ, )
B

@A DEF
Como 𝑥 − N µμ, , 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍 = G
B
H
P 𝑍* < 𝑍 < 𝑍' = 1 − 𝛼 Luego: 𝑍' = 𝑍*EJ por construcción

A
L L
P Z < Z' = + 1 − 𝛼 = 1 − 𝑍* = 𝑍J pero 𝑍* = −𝑍'
' ' A
L
P(Z < 𝑍' ) = Luego: 𝑍* = −𝑍*EJ
' A

Si 𝑥 es la media de una muestra aleatoria e tamaño n de una población normal con varianza 𝜎 ' ,
el intervalo de confianza (1 – α) 100% para µ es:
(Morales, Estadística y Probabilidades, 2012)
ü Varianza desconocida
Sea 𝑥* , 𝑥' , … , 𝑥B una muestra aleatoria de 𝑋 − 𝑁 µμ, 𝜎 ' con 𝜎 ' desconocida.

𝑥−𝜇
𝑇= 𝑠
𝑛
Tiene una distribución t – student con (n – 1) grados de libertad (s es la a
desviaciones estándar de la muestra).

La función de la densidad de la t – student gráficamente es igual a la densidad de la normal.

Su función de distribución acumulada se encuentra tabulada.

El parámetro que caracteriza a la t – student se conoce como grados de libertad.

Si 𝑥 es la media de una muestra aleatoria de tamaño n de una población normal con varianza
desconocida, el intervalo de confianza (1 – α) 100% para µ es:


3.1.4. Intervalos de Confianza para la Varianza (𝝈𝟐 ) de una Población Normal.

Sea 𝑥* , 𝑥' , … , 𝑥B una muestra aleatoria de 𝑋 − 𝑁 µμ, 𝜎 ' con 𝜎 ' desconocida.

(𝑛 − 1)𝑠 '
𝑋' =
𝜎'
Tiene distribución ji cuadrado con (n – 1) grados de libertad (𝑠' es la Varianza de la muestra).
La grafica de la función de densidad:

Si 𝑠 ' es la varianza de una muestra aleatoria de tamaño n de una población normal, su intervalo
de confianza es del 1 − 𝛼 100% para 𝜎 ' es:

L L
Donde 𝑋J' y 𝑋*E
' '
J son valores de 𝑋 con n-‐1 grados de libertad, con áreas de y 1 − ,
A A
' '
respectivamente

3.2. Prueba de hipótesis.

Son procedimientos de decisión basada en datos que puedan introducir una conclusión acerca de
algún sistema científico.
Una hipótesis estadística es una afirmación o conjetura acerca de una o mas poblaciones.
No es posible saber con absoluta certeza la verdad o falsedad de una hipótesis estadística, pues
para ello habría que trabajar con toda la población. En la práctica se toma una muestra aleatoria
de la población de interés y se utilizan los datos que contiene tal muestra para proporcionar
evidencias que confirmen o no la hipótesis. Si la evidencia de la muestra es inconsistente con la
hipótesis planteada, entonces ésta se rechaza y si la evidencia apoya a la hipótesis planteada,
entonces se acepta ésta.
La aceptación de una hipótesis implica tan solo que los datos no proporcionan evidencia suficiente
para refutarla. Por otro lado, el rechazo implica que la evidencia de la muestra la refuta.
La estructura de una prueba de hipótesis consiste en la formulación de una hipótesis nula, es

decir, cualquier hipótesis que se desee probar, se denota por 𝑯𝟎 . el rechazo de 𝐻] , genera la
aceptación de una hipótesis alternativa, que se denota por 𝑯𝟏 .
Una hipótesis nula referente a un parámetro poblacional siempre debe establecerse de manera
que especifique un valor exacto del parámetro, mientras que la hipótesis alternativa admite la
posibilidad de varios valores.
REGLA DE DECISIÓN
Generalmente se considera α = 0.05.

Fuente: Universidad de Oviedo.
En la hipótesis alternativa se plantea usualmente lo que se cree verdadero y en la hipótesis nula lo
que se desea rechazar.
Para tomar una decisión acerca de un parámetro es necesaria una prueba estadística para
cuantificar esta decisión. Esto se logra al establecer primero la distribución maestral que sigue la
muestra estadística (es decir, la media) y después calcular la prueba estadística apropiada. Esta
prueba estadística mide que tan cerca de la hipótesis nula se encuentra el valor de la muestra. La
prueba estadística suele seguir una distribución conocida (normal, t-‐student, ji cuadrado).
La distribución apropiada de la prueba estadística se divide en dos regiones
ü Región de rechazo (región critica)

ü Región de no rechazo
Si la prueba estadística cae en la región de no rechazo no se puede rechazar la hipótesis nula y si
cae en la región de rechazo, se rechaza la hipótesis nula.
Para decidir con relación a la hipótesis nula, primero se tiene que determinar el valor crítico para
la distribución estadística de interés. El valor crítico separa la región de no rechazo de la de
rechazo.

3.3 Regresión Lineal
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la
relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Este modelo puede ser expresado como:

Donde:
: Variable dependiente, explicada o regresando.

: Variables explicativas, independientes o regresores.
: Parámetros, miden la influencia que las variables explicativas tienen sobre
el regrediendo.
Donde es la intersección o término "constante", las son los parámetros

respectivos a cada variable independiente, y es el número de parámetros independientes a
tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no
lineal.

4. ESTADÍSTICAS DESCRIPTIVAS
4.1 Resultados de recolección de datos
Se escogieron al azar 10 personas y se tomaron las mediciones del peso y estatura de cada
persona.
Tabla de Datos

Los datos que se obtuvieron fueron los siguientes:
Estatura (cm) Peso (kg)

179 64,09
175 60,91
165 70,45
176 67,27
160 73,64
171 65,45
160 50,00
161 54,55
170 62,73
160 56,36
160 60,00
157 60,00
155 70,00
157 54,55
178 86,36
165 63,18
155 47,73
167 91,82
170 75,00
164 44,55

Gráfico Peso vs Estatura

Peso (kg) vs Estatura(cm)

80,00
70,00
60,00
50,00
Peso
40,00
Peso (kg)
30,00
20,00 Lineal (Peso (kg))
10,00
0,00
155 160 165 170 175 180
Estatura

Con el gráfico mostrado, nuestra primera inferencia acerca de este conjunto de datos bivariados
es que no tiene relación es decir que el peso es independiente de la estatura en la muestra
tomada ya que la línea de regresión no pasa por la mayoría de los puntos. Pero para asegurarnos
de esto procedemos a analizar los datos y elaborar una prueba de hipótesis que nos permita
rechazar nuestra hipótesis nula que definiremos mas adelante.
4.2 Análisis de Datos

Para verificar si existe o no una relación entre las variables peso y estatura, lo haremos a través
del análisis de regresión lineal simple, es decir, de una sola variable independiente, el peso. Junto
con una prueba de hipótesis para el coeficiente de correlación de Pearson entre dos variables
próximo a determinar que nos permitirá contrastar la hipótesis de que la pendiente de la recta de
regresión vale 0 que indicaría que las variables no están relacionadas.
Primero encontraremos el coeficiente de correlación de Pearson.
𝑋𝑌
− 𝑋𝑌
𝑟D` = 𝑁
𝑆D 𝑆`

Para el conjunto de datos las medias y las desviaciones muestrales son:
𝑋 = 62,5
𝑌 = 167,7
𝑆D = 6,93
𝑆` = 7,04
Con estos datos el valor del coeficiente de correlación de Pearson es de:
𝑟D` = 0,298
Ya calculado el valor del coeficiente de correlación, nos interesa determinar si el valor que
obtuvimos muestra que las variables peso y estatura están relacionadas de cierta manera, es decir
ver la significación del coeficiente de correlación. Para esto nuestra hipótesis nula y alternativa
serán las siguientes:
𝐻] : 𝑟D` = 0 El coeficiente de correlación obtenido proviene de una población cuya

correlación es cero.
𝐻l : 𝑟D` ≠ 0 El coeficiente de correlación obtenido procede de una población cuya

correlación es distinta de cero.
Con un nivel de significancia del 5%
Rechazaremos la hipótesis nula si 𝑡 > 𝑡(L,oE')
La distribución muestral de correlaciones procedentes de una población caracterizada por una

correlación igual a cero sigue una ley de Student con 𝑁 − 2 grados de libertad, de media el valor
poblacional y desviación tipo:
1 − 𝑟D` '
𝑆p =
𝑁−2
Entonces, dado 𝑟D` , obtenido en nuestra muestra se trata de comprobar si el coeficiente se

encuentra dentro de la distribución muestral. Para lo cual nuestro estadístico de prueba será:
𝑟D` − 0
𝑡=
1 − 𝑟D` '
𝑁−2
Calculando el valor de t obtenemos:
0,298 − 0
𝑡=
1 − 0,298'
10 − 2
𝑡 = 0,883
Dado que optamos por un nivel de significancia del 5% nuestro valor critico de t, buscando en la
tabla para distribución t-‐Student es de:
𝑡(].]q,r) = 1,860
Dado que:
𝑡 < 𝑡(].]q,r) Se acepta la hipótesis nula, por lo que ambas variables no están relacionadas.
Ahora calcularemos el intervalo de confianza:
1 − 𝑟𝑥𝑦 2 1 − 𝑟𝑥𝑦 2
𝑟𝑥𝑦 − 𝑡 0.05,8 ≤ 𝑟𝑥𝑦 ≤ 𝑟𝑥𝑦 + 𝑡 0.05,8
𝑁−2 𝑁−2
0,298 − 1,860(0,337) ≤ 𝑟D` ≤ 0,298 + 1,860(0,337)
−0,32882 ≤ 𝑟D` ≤ 0,925
Con un 95% de confianza podemos decir que el valor del coeficiente de correlación de Pearson
para este grupo de datos está entre los valores de -‐0,32882 y 0,925.

5. CONCLUSIONES
Con un 95% de confianza, podemos decir que existe evidencia estadística para decir que el
coeficiente de correlación obtenido proviene de una población cuya correlación es cero, por lo
tanto para nuestra muestra, es decir para el grupo de personas que seleccionamos al azar, el peso
es independiente de la estatura. Cabe recalcar que la correlación simple expresa el grado de la
cercanía de la relación entre dos variables con una medida indirecta de la variabilidad de los
puntos alrededor de la mejor line de ajuste, claro está que la regresión ni la correlación dan
pruebas de relaciones causa – efecto.
6. RECOMENDACIONES.
Ya que concluimos que no existía una relación entre los pesos y las estaturas de la muestra, habría
que recolectar mas datos y rehacer la prueba de hipótesis con una muestra mas grande, ya que
como se conoce existe una relación entre la estatura-‐peso pero que depende de muchas variables,
si bien interviene la masa muscular, el peso de nuestros huesos, la grasa corporal, entre otras,
todo esto hace definir el peso ideal para cada persona según su estatura.
Se recomienda medir los datos con una balanza y una cinta métrica para poder tener valores casi
exactos, no solo preguntarle a los chicos ya que pueden ser datos desactualizados.
Se necesita estar atentos al momento de usar los instrumentos al momento de coger los datos.
7. BIBLIOGRAFÍA.

7.1. Trabajos citados
Herrera, G. Z. (2008). Probabilidad y Estadística: Fundamentos y Aplicaciones. Guayaquil: ISBN:
9789978310557.
Morales, A. E. (2012). Estadística y Probabilidades. Santiago -‐ Chile: Paginas (134-‐136-‐140-‐141-‐
144-‐145-‐150.
Oviedo, U. d. (2000). Prueba de Hipótesis. http://uce.uniovi.es/cursolineal/Informese3.html.

Regresion Lineal

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Regresion Lineal

Загружено:

Авторское право:

Доступные форматы

ü Analizar peso y estatura de diferentes chicos.

ü Identificar que parámetro influyen los factores peso y estatura.

La inferencia estadística puede dividirse en 2 áreas:

ü Estimación de Parámetros

3.1.1. Estimación de Parámetros.

Si θ es un parámetro desconocido, entonces θ será su estimador.

Así, 𝑥 es un estimador de µ y 𝑠 ' es un estimador de σ' y ellos cumplen con la propiedad de

3.1.2. Estimación por intervalo.

ü Se conoce su varianza

P 𝑍* < 𝑍 < 𝑍' = 1 − 𝛼 Luego: 𝑍' = 𝑍*EJ por construcción

(Morales, Estadística y Probabilidades, 2012)

La grafica de la función de densidad:

(Morales, Estadística y Probabilidades, 2012)

La estructura de una prueba de hipótesis consiste en la formulación de una hipótesis nula, es

(Morales, Estadística y Probabilidades, 2012)

Generalmente se considera α = 0.05.

Fuente: Universidad de Oviedo.

ü Región de rechazo (región critica)

(Morales, Estadística y Probabilidades, 2012)

: Variable dependiente, explicada o regresando.

Donde es la intersección o término "constante", las son los parámetros

Tabla de Datos

Estatura (cm) Peso (kg)

Peso (kg) vs Estatura(cm)

4.2 Análisis de Datos

Primero encontraremos el coeficiente de correlación de Pearson.

𝐻] : 𝑟D` = 0 El coeficiente de correlación obtenido proviene de una población cuya

𝐻l : 𝑟D` ≠ 0 El coeficiente de correlación obtenido procede de una población cuya

Con un nivel de significancia del 5%

Rechazaremos la hipótesis nula si 𝑡 > 𝑡(L,oE')

La distribución muestral de correlaciones procedentes de una población caracterizada por una

Entonces, dado 𝑟D` , obtenido en nuestra muestra se trata de comprobar si el coeficiente se

Ahora calcularemos el intervalo de confianza:

0,298 − 1,860(0,337) ≤ 𝑟D` ≤ 0,298 + 1,860(0,337)

−0,32882 ≤ 𝑟D` ≤ 0,925

Oviedo, U. d. (2000). Prueba de Hipótesis. http://uce.uniovi.es/cursolineal/Informese3.html.

Вам также может понравиться