DESCRIPCIN DEL DATASET El dataset seleccionado es el SML2010, este dataset obtiene un conjunto de datos a travs de un sistema de monitores montados en una casa domtica, donde estn registrados los datos meteorolgicos de cada rea o seccin de la casa donde estn ubicados los sensores. El conjunto de datos podra contener valores perdidos, y los datos fueron tomados por muestras de cada minuto desde el 13/03/2012 hasta el 02/05/2012. El dataset SML2010 cuenta con 24 atributos que son: 1. Fecha: UTC. 2. Tiempo: UTC. 3. Temperatura interior (sala-comedor), en C. 4. Temperatura interior (habitacin), en C. 5. Tiempo temperatura pronstico, en A C. 6. El dixido de carbono en ppm (comedor). 7. El dixido de carbono en ppm (habitacin). 8. Humedad relativa (comedor), en%. 9. Humedad relativa (habitacin), en%. 10. Iluminacin (comedor), en Lux. 11. Iluminacin (habitacin), en Lux. 12. La lluvia, la proporcin de los ltimos 15 minutos donde se detect la lluvia (un valor en el rango [0,1]). 13. Atardecer dom. 14. Viento, en m / s. 15. La luz del sol en la fachada oeste, en Lux. 16. La luz del sol en el este de la fachada, en Lux. 17. La luz del sol en la fachada sur, en Lux. 18. Irradiancia Sol, en W/m2. 19. Entlpico motor 1, 0 o 1 (on-off). 20. Entlpico motor 2, 0 o 1 (on-off). 21. Turbo motor entlpico, 0 o 1 (on-off). 22. Temperatura exterior, en A C. 23. Humedad relativa en el exterior, en%. 24. Da de la semana (calculado a partir de la fecha), 1 = lunes, 7 = Domingo.
DESCRIPCION DE LA TAREA A REALIZAR La tarea map-reduce a realizar del dataset SML2010 es la siguiente: Calcular la media aritmtica de la temperatura en el mes 03/2012 entre la 13:00 y 16:30 del da, de la luz del sol en la fachada oeste. Ejemplo de la salida del resultado a obtener: (03/2012, (13:00-16:30), media de la temperatura representada en nmeros) DESCRIPCIN DE LA IMPLEMENTACIN REALIZADA Debido al gran tamao de la informacin procedemos hacer uso del modelo de programacin Map-Reduce El formato de mi Data Set NEW-DATA-1.T15.txt se encuentra en perfecta disposicin para resolver y dar solucin a mi tarea Map-Reduce Mapper En esta instancia de la implementacin se dispone a cargar el archivo (NEW-DATA- 1.T15.txt ) tomando Lnea por lnea y as procesarla. Para la tarea Map-reduce fue necesario hacer uso de la Funcin (Split()) en tres ocasiones, primero para capturar los datos directamente de las lneas del data set teniendo en cuenta que se encontraban separadas por ; luego para capturar el dato Fecha y solo el mes el cual se encontraba separado por / y finalmente el tiempo que se encontraba separado por :. Todo lo anterior con el fin de filtrar las entradas e imprimir para ser luego capturadas por el Shuffle y reduce fue necesario realizar filtros como: Filtro por mes. Filtro por minutos.
Los minutos se calculan multiplicando las horas por (60) que son los minutos que tiene una hora.
La salida de mi Map es una dupla (clave, valor) donde la clave hace referencia al Mes y el Valor hace referencia a la Temperatura de la fachada Oeste del de la casa.
Esta salida va directamente a un proceso intermedio que se encarga de ordenar la salida de forma jerrquica por orden alfanumrico (Shuffle).
Reduce Aqu se reciben como entrada las duplas (clave, valor). De la misma forma que en el Map es necesario tomar lnea por lnea y analizarla y procesarla de modo que podamos llegar al resultado de nuestra tarea Map-Reduce. Para evitar conflictos posteriores se hace un filtro donde no recibimos lneas con instancias diferentes a (2)
Nos disponemos a cargar los datos en Variables conocidas y como la clave durante todos los datos es la misma, no es necesario o no fue necesario hacer un ciclo donde agrupramos por claves iguales.
Al tener esto en cuenta simplemente nos disponemos a enlistar las temperaturas en tipo Float para luego poder usar dos funciones de python. La funcin Sum(x) y la Funcin len(x), porque necesitamos el promedio de Temperaturas en el mes 03 entre las horas (13:00 - 16:30).
Esto se haya dividiendo la suma total de la temperatura entre la cantidad de instancias o registros capturados en el dataset.
Descripcin de los resultados obtenidos:
Map input records: la suma de entrada los dos Map corresponde al total de lneas del dataset, con lo cual los datos estn correctos.
Reduce input records: en cuanto al Reduce podemos ver que los datos estn correctos, la suma de las salida del Map output records: es el mismo que el de la entrada del Reduce.
Reduce output records: la salida del reduce corresponde a 3 registros lo cual es correcto.
LOS TIEMPOS CLCULOS EN EL PROCESO
Average Map time Average Reduce time Average Shuffle time Elapsed 8 Seg 0 seg 3 seg 17 seg
Task type Map 1 Map 2 Reduce Total map Elapsed time Map input records Map output records
8 seg 1387 225 Elapsed time Map input records Map output records
8 seg 1377 60
Elapsed time Reduce input records Reduce output records
[AAB02] Cuestionario 2_ Mida su nivel de conocimientos sobre los contenidos de la Unidad 5 mediante la resolución de problemas de funciones y aplicaciones de la vida real._ 5-01-2022 FUNDAMENTOS MATEMATICOS