Вы находитесь на странице: 1из 9

Universidad Autónoma del

Estado de México

Ingeniería de Software

Proyecto Primer Parcial

Isaac Alvarado Gonzalez


Eric Ríos Sánchez
Abraham Aguilar Aguilar

Data Warehouse
2018-A
Contenido

Extracción, transformación, carga. .................................................................................................... 3


Mapeo de Datos. ................................................................................................................................ 4
Renombrar Campos. ........................................................................................................................... 4
Renombrar con RapidMiner ................................................................................................................. 5
Objetivo. ............................................................................................................................................. 6
Transformación de los datos. ............................................................................................................. 6
Eliminar filas repetidas ....................................................................................................................... 8
Extracción de información. ................................................................................................................ 8
Graficas de información importante.................................................................................................. 9
Extracción, transformación, carga.

Los datos fueron adquiridos desde una carpeta en Google Drive, se descargaron y se
analizaron los formatos para poderlos manejar, usamos la herramienta RapidMiner para
trabajar cada conjunto de datos.

Extracción Carga

Transformación
Mapeo de Datos.

Se realizo una relación de datos para identificar que atributos comparten el mismo tipo de
información para así poder juntar cada conjunto de datos.

Renombrar Campos.

Conforme a la relación se tomaron solo los atributos que comparten el mismo tipo de
información a estos se les asigno un nuevo nombre para unificar cada conjunto de datos.

amlo_knime UserTweets meade_rapidminer Nombre unificado


Tweet Tweet Text Text Text
Tweet ID Tweet Id Id id
Time Tweet Time Created -At Time
Retweeted Tweet Retweet Count Retweet-Count Retweeted
Latitude Geo-Location-Latitude Latitude
Longitude Geo-Locatio- Longitude Longitude
User - Name From- User User Name
User - Lenguage Lenguage Lenguage
User - ID From-User-Id User Id
Tweet Source Source Source
Renombrar con RapidMiner

Para renombrar se utilizó el operador “Rename”.


Objetivo.

Conforme a los datos proporcionados se busca analizar que tanto los usuarios de Twitter
comparten la misma opinión en temas de política en E.U. y enfocado principalmente a en
candidatos que perfilan para la presidencia de México basado en el número de Retweets,
para cumplir con el objetivo los principales atributos que se destacaran son los Retweet hechos
en cada Tweet; si un usuario comparte ese mismo tweet es porque tiene la misma opinión,
realizar algún comentario o solamente como medio informativo, la fecha de Tweet y el
Nombre del usuario que genero ese Tweet.

Transformación de los datos.

Como ya se había menciona primero se renombraron los atributos. A cada conjunto de datos
se le aplicó el operador “Select Attributes” este operador nos permite seleccionar un
subconjunto de Atributos y elimina los otros atributos que no nos son relevantes.
Resultados

Para poder unirlos, cada conjunto de datos tiene que tener el mimo número de atributos y
tiene que llevar el mismo nombre, con el operador “Generate Empty Attribute” nos permitio
agregar un nuevo atributo de nombre y tipo especificado en este caso User Name para el
conjunto User Tweets.
Eliminar filas repetidas

Fue necesario agregar un campo especial para identificar cada dato y facilitar en manejo
de estos por ello se agregó el atributo “id” con ayuda del operador “Generate ID”
Este operador agrega un nuevo atributo con función id. Cada ejemplo en la entrada ExampleSet está
etiquetado con una identificación incrementada. Si ya existe un atributo con la función id, el nuevo
atributo de ID lo reemplaza.

Extracción de información.

Por último, unir todos los conjuntos de datos y almacenarlos en un nuevo archivo, el operador
“Append” crea un conjunto de ejemplos combinado de dos o más conjuntos de ejemplos
compatibles al agregar todos los ejemplos en un conjunto combinado y el operador “Write
Excel” escribe un ExampleSet en un archivo de hoja de cálculo de Excel.
Graficas de información importante.

Вам также может понравиться