Exam1 19-1

UNIVERSIDAD NACIONAL DE INGENIERÍA
FACULTAD DE INGENIERÍA MECÁNICA

Escuela Profesional de Ingeniería Mecatrónica
UNI Machine Learning (MT-616-A)

Paul Cárdenas Lizana
Práctica No 1
(Sección A)
1. (5 puntos) La regularización es una forma estándar de controlar el sobreajuste en el

aprendizaje supervisado. La forma común de una función de costo penalizada con una
regularización es:
La regularización no solo trata de encontrar exclusivamente los valores de θ que

minimicen la discrepancia entre xi y yi, sino que también intenta satisfacer un requisito en el
que θ no debe ser muy grande. De esta manera se controla directamente la competencia entre la
magnitud de θ y el parámetro λ. En este problema vamos regularizar la regresión lineal con un
término cuadrático (q=2) que se pueden escribir de la forma matricial como
a. Encuentre el valor de θ que minimice la función de costo.
2. (5 puntos) Función de costo. Supongamos que tenemos un conjunto de datos donde cada
datos, está ponderado por un factor escalar λn tal que λn > 0. φ(xi) representa una
transformación. Esto hace que la suma de la función de costo tenga el siguiente aspecto:
a. Encuentre el valor de θ que minimice la función de costo

b. Explique qué hace este factor de ponderación, λn, a la función de costo en términos de
la varianza del ruido en los datos y en el set de datos.
c. Escribir el código en python para comprobar el resultado.
1
3. (5 puntos) Single Value Decomposition (SVD). En clase derivamos que la solución de

regresión debe satisfacer XTX θ = XTy. Si XTX no es invertible, la solución θ = (XTX)-1 XTy no
funciona ya que hay muchas soluciones que cumplen y minimizan Ein. Si p es el rango de X,
supongamos que la descomposición de valores únicos (SVD) de X es UΓVT donde U ∈ ℝNxp y
satisface UTU = Ip , V ∈ ℝ(d+1)xp y satisface VTV = Ip , Γ ∈ ℝpxp y es una matriz diagonal
positiva.
a. Demostrar que θ* = VΓ-1UTy es una solución ya que satisface XTX θ = XTy.
b. Mostrar que cualquier otra solución que satisface XTX θ = XTy cumple con ||θ*|| < ||θ||.
c. Que se puede afirmar acerca de ||θ*|| con respecto a Ein .
4. (10 puntos) Contaminación ambiental por partículas (Particulate pollution): Regresión

Lineal como modelo de predicción.
La contaminación de partículas, también llamada particulate matter (PM), es una mezcla de

sólidos y gotas de líquido que flotan en el aire. PM2.5 se refiere a partículas que tiene un
diámetro menor que 2.5 micrómetros y que es aproximadamente el 3% del diámetro de un
cabello humano. Las partículas menores o iguales a 10 micrómetros de diámetro son tan
pequeñas que pueden ingresar a los pulmones, lo que podría causar serios problemas de salud.
Las lecturas de PM2.5 se incluyen en los informes de calidad del aire de las autoridades
ambientales y las empresas. Ver lab para mayor detalle:
https://github.com/PCL-AI/MT616_2019_1/blob/master/Lab03/Lab03.ipynb
El dataset
En esta tarea, debe entrenar los modelos de regresión en el set de datos de Beijing PM2.5.
Este conjunto de datos por hora contiene los datos de PM2.5 de la Embajada de EE. UU. en
Beijing. También se incluyen los datos meteorológicos del Aeropuerto Internacional de Pekín.
No: row number TEMP: Temperature (â„ƒ)

year: year of data in this row PRES: Pressure (hPa)
month: month of data in this row cbwd: Combined wind direction
day: day of data in this row Iws: Cumulated wind speed (m/s)
hour: hour of data in this row Is: Cumulated hours of snow
pm2.5: PM2.5 concentration (ug/m^3) Ir: Cumulated hours of rain
DEWP: Dew Point (â„ƒ)
Pregunta : ¿Cuál de los atributos mejora la calidad de nuestras predicciones?
Hipótesis : el cbwd no mejora las predicciones del modelo. Prueba de hipótesis: Que
hacemos para mejorar el error.
2
Para escoger el mejor modelo:
1. Hacer un análisis inicial de jerarquías en los datos para subdividirlos.

2. Puedes eliminar las filas con NA (mas adelante vamos a aprender técnicas para manejar
este tipo de valores)
3. Debes categorizar el atributo cbwd o justificar su eliminación
4. Seleccionar las características aleatoriamente, forward, backward. etc
5. Implementar regresores lineales (polinomios) escogiendo los atributos con al menos dos
técnicas mostradas en clase.
6. Mostrar un gráfico residual para cada uno de los modelos tanto en los datos de
entrenamiento como en los datos de prueba.
2 debe ser mayor que 0
7. El R .7 en los datos de prueba para tu modelo final.
Tip:
El error es algo que queremos minimizar, por lo que un número menor para MSE es mejor. Si
quisiéramos realizar cambios y mejoras el modelo, el MSE debería ser menor si el modelo está
mejorando.
Reference:
a. Liang, X., Zou, T., Guo, B., Li, S., Zhang, H., Zhang, S., Huang, H. and Chen, S. X.
(2015). Assessing Beijing's PM2.5 pollution: severity, weather impact, APEC and
winter heating. Proceedings of the Royal Society A, 471, 20150257. Proceedings of the
Royal Society A, 471, 20150257.
b. http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data#

Exam1 19-1

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Exam1 19-1

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA MECÁNICA

UNI Machine Learning (MT-616-A)

1. (5 puntos) La regularización es una forma estándar de controlar el sobreajuste en el

La regularización no solo trata de encontrar exclusivamente los valores de θ que

a. Encuentre el valor de θ que minimice la función de costo.

a. Encuentre el valor de θ que minimice la función de costo

3. (5 puntos) Single Value Decomposition (SVD). En clase derivamos que la solución de

4. (10 puntos) Contaminación ambiental por partículas (Particulate pollution): Regresión

La contaminación de partículas, también llamada particulate matter (PM), es una mezcla de

No: row number TEMP: Temperature (â„ƒ)

Pregunta : ¿Cuál de los atributos mejora la calidad de nuestras predicciones?

Para escoger el mejor modelo:

1. Hacer un análisis inicial de jerarquías en los datos para subdividirlos.

Вам также может понравиться

Exam1 19-1

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Exam1 19-1

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA MECÁNICA

UNI Machine Learning (MT-616-A)

1. (5 puntos) La regularización ​es una forma estándar de controlar el sobreajuste en el

La ​regularización no solo trata de encontrar exclusivamente los valores de θ que

a. Encuentre el valor de θ que minimice la función de costo.

a. Encuentre el valor de θ que minimice la función de costo

3. (5 puntos) Single Value Decomposition (SVD). En clase derivamos que la solución de

4. (10 puntos) Contaminación ambiental por partículas (Particulate pollution): Regresión

La contaminación de partículas​, también llamada particulate matter (PM), es una mezcla de

No:​ row number TEMP:​ Temperature (â„ƒ)

Pregunta : ¿Cuál de los atributos mejora la calidad de nuestras predicciones?

Para escoger el mejor modelo:

1. Hacer un análisis inicial de jerarquías en los datos para subdividirlos.

Вам также может понравиться

1. (5 puntos) La regularización es una forma estándar de controlar el sobreajuste en el

La regularización no solo trata de encontrar exclusivamente los valores de θ que

La contaminación de partículas, también llamada particulate matter (PM), es una mezcla de

No: row number TEMP: Temperature (â„ƒ)