Вы находитесь на странице: 1из 9

INFORME FINAL DE BASE DE DATOS

FREDY ROLANDO CUELLO QUINTERO


ESTUDIANTE





RAUL RAMOS POLLAN
ING. DE SISTEMAS



UNIVERSIDAD POPULAR DEL CESAR

VALLEDUPAR
CESAR
2014


DESCRIPCIN DEL DATASET
El dataset seleccionado es el SML2010, este dataset obtiene un conjunto de datos a
travs de un sistema de monitores montados en una casa domtica, donde estn
registrados los datos meteorolgicos de cada rea o seccin de la casa donde estn
ubicados los sensores. El conjunto de datos podra contener valores perdidos, y los
datos fueron tomados por muestras de cada minuto desde el 13/03/2012 hasta el
02/05/2012.
El dataset SML2010 cuenta con 24 atributos que son:
1. Fecha: UTC.
2. Tiempo: UTC.
3. Temperatura interior (sala-comedor), en C.
4. Temperatura interior (habitacin), en C.
5. Tiempo temperatura pronstico, en A C.
6. El dixido de carbono en ppm (comedor).
7. El dixido de carbono en ppm (habitacin).
8. Humedad relativa (comedor), en%.
9. Humedad relativa (habitacin), en%.
10. Iluminacin (comedor), en Lux.
11. Iluminacin (habitacin), en Lux.
12. La lluvia, la proporcin de los ltimos 15 minutos donde se detect la lluvia (un
valor en el rango [0,1]).
13. Atardecer dom.
14. Viento, en m / s.
15. La luz del sol en la fachada oeste, en Lux.
16. La luz del sol en el este de la fachada, en Lux.
17. La luz del sol en la fachada sur, en Lux.
18. Irradiancia Sol, en W/m2.
19. Entlpico motor 1, 0 o 1 (on-off).
20. Entlpico motor 2, 0 o 1 (on-off).
21. Turbo motor entlpico, 0 o 1 (on-off).
22. Temperatura exterior, en A C.
23. Humedad relativa en el exterior, en%.
24. Da de la semana (calculado a partir de la fecha), 1 = lunes, 7 = Domingo.



DESCRIPCION DE LA TAREA A REALIZAR
La tarea map-reduce a realizar del dataset SML2010 es la siguiente:
Calcular la media aritmtica de la temperatura en el mes 03/2012 entre la 13:00 y
16:30 del da, de la luz del sol en la fachada oeste.
Ejemplo de la salida del resultado a obtener:
(03/2012, (13:00-16:30), media de la temperatura representada en nmeros)
DESCRIPCIN DE LA IMPLEMENTACIN REALIZADA
Debido al gran tamao de la informacin procedemos hacer uso del modelo de
programacin Map-Reduce
El formato de mi Data Set NEW-DATA-1.T15.txt se encuentra en perfecta disposicin
para resolver y dar solucin a mi tarea Map-Reduce
Mapper
En esta instancia de la implementacin se dispone a cargar el archivo (NEW-DATA-
1.T15.txt ) tomando Lnea por lnea y as procesarla.
Para la tarea Map-reduce fue necesario hacer uso de la Funcin (Split()) en tres
ocasiones, primero para capturar los datos directamente de las lneas del data set
teniendo en cuenta que se encontraban separadas por ; luego para capturar el dato
Fecha y solo el mes el cual se encontraba separado por / y finalmente el tiempo
que se encontraba separado por :.
Todo lo anterior con el fin de filtrar las entradas e imprimir para ser luego capturadas
por el Shuffle y reduce fue necesario realizar filtros como:
Filtro por mes.
Filtro por minutos.





Los minutos se calculan multiplicando las horas por (60) que son los minutos que tiene
una hora.




La salida de mi Map es una dupla (clave, valor) donde la clave hace referencia al
Mes y el Valor hace referencia a la Temperatura de la fachada Oeste del de la casa.

Esta salida va directamente a un proceso intermedio que se encarga de ordenar la
salida de forma jerrquica por orden alfanumrico (Shuffle).






Reduce
Aqu se reciben como entrada las duplas (clave, valor).
De la misma forma que en el Map es necesario tomar lnea por lnea y analizarla y
procesarla de modo que podamos llegar al resultado de nuestra tarea Map-Reduce.
Para evitar conflictos posteriores se hace un filtro donde no recibimos lneas con
instancias diferentes a (2)








Nos disponemos a cargar los datos en Variables conocidas y como la clave durante
todos los datos es la misma, no es necesario o no fue necesario hacer un ciclo donde
agrupramos por claves iguales.



Al tener esto en cuenta simplemente nos disponemos a enlistar las temperaturas en
tipo Float para luego poder usar dos funciones de python. La funcin Sum(x) y la
Funcin len(x), porque necesitamos el promedio de Temperaturas en el mes 03 entre
las horas (13:00 - 16:30).


Esto se haya dividiendo la suma total de la temperatura entre la cantidad de instancias
o registros capturados en el dataset.






Descripcin de los resultados obtenidos:

Map input records: la suma de entrada los dos Map corresponde al total de lneas del
dataset, con lo cual los datos estn correctos.







Reduce input records: en cuanto al Reduce podemos ver que los datos estn correctos,
la suma de las salida del Map output records: es el mismo que el de la entrada del
Reduce.

Reduce output records: la salida del reduce corresponde a 3 registros lo cual es
correcto.





































LOS TIEMPOS CLCULOS EN EL PROCESO

Average Map time Average Reduce
time
Average Shuffle
time
Elapsed
8 Seg 0 seg 3 seg 17 seg









Task type
Map 1 Map 2 Reduce Total
map
Elapsed time
Map input records
Map output
records


8 seg
1387
225
Elapsed time
Map input records
Map output records


8 seg
1377
60

Elapsed time
Reduce input records
Reduce output records

4 seg
285
3





16 seg
2764
285

Вам также может понравиться