Вы находитесь на странице: 1из 2

Claudio Meza Arias

Grupo: S8 14 de Febrero del 2014

Tarea No. 2

Big Data
Big Data es en el sector de tecnologas de la informacin y la comunicacin una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades ms habituales en estos casos se centran en la captura, el almacenado, bsqueda, comparticin, anlisis y visualizacin. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del anlisis en un gran conjunto de datos relacionado, tal es el ejemplo de los anlisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado. "Big data" es un trmino aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaos del "big data" se hallan constantemente en aumento. En 2012 se dimensionaba su tamao en una docena de terabytes hasta varios petabytes de datos en un nico data set. En la metodologa MIKE2.0 dedicada a investigar temas relacionados con la gestin de informacin, definen big data en trminos de permutaciones tiles, complejidad y dificultad para borrar registros individuales.

Hadoop
Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspir en los documentos Google para MapReduce y Google File System (GFS). Hadoop es un proyecto de alto nivel Apache que est siendo construido y usado por una comunidad global de contribuidores, mediante el lenguaje de programacin Java. Yahoo! ha sido el mayor contribuyente al proyecto, y usa Hadoop extensivamente en su negocio. Hadoop consiste bsicamente en el Hadoop Common, que proporciona acceso a los sistemas de archivos soportados por Hadoop. El paquete de software The Hadoop Common contiene los archivos .jar y los scripts necesarios para hacer correr Hadoop. El paquete tambin proporciona cdigo fuente, documentacin, y una seccin de contribucin que incluye proyectos de la Comunidad Hadoop. Una funcionalidad clave es que para la programacin efectiva de trabajo, cada sistema de archivos debe conocer y proporcionar su ubicacin: el nombre del rack (ms precisamente, del switch) donde est el nodo trabajador. Las aplicaciones Hadoop pueden usar esta informacin para ejecutar trabajo en el nodo donde estn los datos y, en su defecto, en el mismo rack/switch, reduciendo as el trfico de red troncal (backbone traffic). El sistema de archivos HDFS usa esto cuando replica datos, para intentar conservar copias diferentes de los datos en racks diferentes. El objetivo es reducir el impacto de un corte de energa de rack o de fallo de interruptor de modo que incluso si se producen estos eventos, los datos todava puedan ser legibles. Un clster tpico Hadoop incluye un nodo maestro y mltiples nodos esclavo. El nodo maestro consiste en jobtracker (rastreador de trabajo), tasktracker (rastreador de tareas), namenode (nodo de nombres), y datanode (nodo de datos). Un esclavo o compute node (nodo de cmputo) consisten en un nodo de datos y un rastreador de tareas. Hadoop requiere tener instalados entre nodos en el clster JRE 1.6 o superior, y SSH.

KDD

La Extraccin de conocimiento est principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no-trivial de descubrir conocimiento e informacin potencialmente til dentro de los datos contenidos en algn repositorio de informacin. No es un proceso automtico, es un proceso iterativo que exhaustivamente explora volmenes muy grandes de datos para determinar relaciones. Es un proceso que extrae informacin de calidad que puede usarse para dibujar conclusiones basadas en relaciones o modelos dentro de los datos. El proceso KDD se divide en 5 fases y son:

Claudio Meza Arias


1.

Grupo: S8 14 de Febrero del 2014

Tarea No. 2

2.

3.

4.

5.

Seleccin de datos. En esta etapa se determinan las fuentes de datos y el tipo de informacin a utilizar. Es la etapa donde los datos relevantes para el anlisis son extrados desde la o las fuentes de datos. Preprocesamiento. Esta etapa consiste en la preparacin y limpieza de los datos extrados desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que estn fuera de rango, obtenindose al final una estructura de datos adecuada para su posterior transformacin. Transformacin. Consiste en el tratamiento preliminar de los datos, transformacin y generacin de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aqu se realizan operaciones de agregacin o normalizacin, consolidando los datos de una forma necesaria para la fase siguiente. Data Mining. Es la fase de modelamiento propiamente tal, en donde mtodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles y que estn contenidos u ocultos en los datos. Interpretacin y Evaluacin. Se identifican los patrones obtenidos y que son realmente interesantes, basndose en algunas medidas y se realiza una evaluacin de los resultados obtenidos.

Adems de las fases descritas, frecuentemente se incluye una fase previa de anlisis de las necesidades de la organizacin y definicin del problema, en la que se establecen los objetivos de la minera de datos. Tambin es usual incluir una etapa final, donde los resultados obtenidos se integran al negocio para la realizacin de acciones comerciales.

Вам также может понравиться