Вы находитесь на странице: 1из 3

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA MECÁNICA


Escuela Profesional de Ingeniería Mecatrónica

UNI Machine Learning (MT-616-A)


Paul Cárdenas Lizana
Práctica No 1
(Sección A)

1. (4 puntos) La regularización ​es una forma estándar de controlar el sobreajuste en el


aprendizaje supervisado. La forma común de una función de costo penalizada con una
regularización es:

La ​regularización no solo trata de encontrar exclusivamente los valores de θ que


minimicen la discrepancia entre ​x​i y ​y​i,​ sino que también intenta satisfacer un requisito en el
que θ no debe ser muy grande. De esta manera se controla directamente la competencia
entre la magnitud de θ y el parámetro λ. En este problema vamos regularizar la regresión
lineal con un término cuadrático que se pueden escribir de la forma matricial como:

a. Encontrar el valor de θ que minimice la función de costo.

2. (4 puntos) ​En clase derivamos que la solución de regresión debe satisfacer ​XT​​ X ​θ = X​T​y​. Si ​XT​​ X
no es invertible, la solución ​θ = (X​T​X)​-1 X​T​y no funciona ya que hay muchas soluciones que
minimizan ​J​(​θ)​ ​. Si ​p es el rango de ​X​, supongamos que la descomposición de valores únicos
(SVD) de ​X es U ​ ΓV​T donde ​U ∈ ℝ​Nx​p y satisface ​UT​​ U = I​p , ​V ∈ ℝ​(d+1)x​p y satisface ​VT​​ V = I​p , ​Γ
∈ ℝ​px​ ​p​ y es una matriz diagonal positiva.

​ *​ = VΓ​-1​U​T​y​ es una solución ya que satisface ​XT​​ X θ


a. Mostrar que θ ​ ​ = X​T​y​.
b. Mostrar que cualquier otra solución que satisface ​XT​​ X ​θ​ = X​T​y​ cumple con
||​θ*​|| < ||​θ​||.
c. Que se puede afirmar acerca de ||​θ*|​ | con respecto a ​J​(​θ​)​.

1
UNIVERSIDAD NACIONAL DE INGENIERÍA
FACULTAD DE INGENIERÍA MECÁNICA
Escuela Profesional de Ingeniería Mecatrónica

3. (4 puntos) Construyendo J y GD para el Boston Housing dataset: ​Gradiente descendiente


para una función de una sola variable
En esta parte se construye la función de costo y se usa el gradiente descendiente para
obtener los valores óptimos. En esta parte usaremos una data reducida y de una sola
dimensión del Boston Housing dataset
El resultado deseado para esta parte del examen es el gráfico de costos con iteraciones
tituladas "Error vs training" con y sin regularización (eje y etiquetado como costo y eje x
etiquetado como iteraciones calculando el respectivo MSE.
https://github.com/PCL-AI/MT616_2019_2/blob/master/Exams/MaquinaLineal_01.ipynb

4. (8 puntos) Contaminación ambiental por partículas (Particulate pollution): Máquina Lineal


como modelo de predicción.
https://github.com/PCL-AI/MT616_2019_2/blob/master/Exams/MaquinaLineal_01.ipynb

La contaminación por partículas​, también llamada particulate matter (PM), es una mezcla de
sólidos y gotas de líquido que flotan en el aire. PM2.5 se refiere a partículas que tiene un
diámetro menor que 2.5 micrómetros y que es aproximadamente el 3% del diámetro de un
cabello humano. Las partículas menores o iguales a 10 micrómetros de diámetro son tan
pequeñas que pueden ingresar a los pulmones, lo que podría causar serios problemas de
salud. Las lecturas de PM2.5 se incluyen en los informes de calidad del aire de las autoridades
ambientales y las empresas. Ver lab para mayor detalle:

El dataset
En esta tarea, debe entrenar los modelos de regresión en el set de datos de​ ​Beijing PM2.5​.
Este conjunto de datos por hora contiene los datos de PM2.5 de la Embajada de EE. UU. en
Beijing. También se incluyen los datos meteorológicos del Aeropuerto Internacional de Pekín.

No:​ row number TEMP:​ Temperature (℃)


year:​ year of data in this row PRES:​ Pressure (hPa)
month:​ month of data in this row cbwd:​ Combined wind direction
day:​ day of data in this row Iws:​ Cumulated wind speed (m/s)
hour:​ hour of data in this row Is:​ Cumulated hours of snow
pm2.5:​ PM2.5 concentration (ug/m^3) Ir: Cumulated hours of rain
DEWP:​ Dew Point (℃)

Pregunta : ¿Cuál de los atributos mejora la calidad de nuestras predicciones?


Hipótesis : el ​cbwd no mejora las predicciones del modelo. ​Prueba de hipótesis​: Que
hacemos para mejorar el error.

2
UNIVERSIDAD NACIONAL DE INGENIERÍA
FACULTAD DE INGENIERÍA MECÁNICA
Escuela Profesional de Ingeniería Mecatrónica

Para escoger el mejor modelo:

1. Hacer un análisis inicial de jerarquías en los datos para subdividirlos.


2. Puedes eliminar las filas con ​NA (mas adelante vamos a aprender técnicas para
manejar este tipo de valores)
3. Debes categorizar el atributo ​cbwd​ o justificar su eliminación.
4. Seleccionar las características aleatoriamente, forward, backward. etc
5. Implementar regresores lineales (polinomios) escogiendo los atributos con al menos
dos técnicas mostradas en clase.
6. Mostrar un gráfico residual para cada uno de los modelos tanto en los datos de
entrenamiento como en los datos de prueba.
​ 2​​ debe ser mayor que 0
7. El R ​ .7 ​en los datos de prueba para tu modelo final.

Tip:
El error es algo que queremos minimizar, por lo que un número menor para MSE es mejor. Si
quisiéramos realizar cambios y mejoras el modelo, el MSE debería ser menor si el modelo está
mejorando.

Reference:
a. Liang, X., Zou, T., Guo, B., Li, S., Zhang, H., Zhang, S., Huang, H. and Chen, S. X. (2015).
Assessing Beijing's PM2.5 pollution: severity, weather impact, APEC and winter
heating. Proceedings of the Royal Society A, 471, 20150257. ​Proceedings of the Royal
Society A, 471, 20150257.
b. http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data#

Вам также может понравиться