Вы находитесь на странице: 1из 4

Big Data una revolucin en proceso

BIG DATA UNA REVOLUCIN EN PROCESO


Germn Peralta Bernal
e-mail: german@electroge32.com

RESUMEN: Big data es un trmino que se utiliza


para describir el crecimiento exponencial de datos, de mltiples variadas fuentes de datos tanto estructurados como no estructurados, a raz del crecimiento masivo de datos dentro y fuera de las empresas, han emergido herramientas de gestin de datos distribuidos que permiten almacenar, clasificar y consultar grandes cantidades de datos en periodos muy cortos de tiempo a un bajo costo en comparacin con los sistemas tradicionales RDBMS, hay toda una gama de productos que se amparan bajo el nombre de NO SQL, haciendo uso de la analtica y de herramientas NO SQL, las empresas pueden obtener una ventaja competitiva y nuevas oportunidades de negocio. PALABRAS CLAVE: big data,no sql,cluster

concepto ha madurado con el tiempo a medida, que surgen nuevas herramientas especializadas en el tratamiento de grandes volmenes de datos. Big Data es un trmino actualmente utilizado para describir el crecimiento exponencial de datos y la accesibilidad a la informacin de mltiples y variadas fuentes de datos estructurados y no estructurados, con el fin de obtener valor agregado de los datos, dando paso la apertura de oportunidades de negocio ocultas hasta el momento para las organizaciones.

1 INTRODUCCIN
Cada da se crean 2.5 trillones de bytes de informacin, el 90% de los datos en internet se ha creado en los dos ltimos aos, esta informacin ha sido creada por tres mil millones de personas ms o menos, que equivalen al cincuenta por ciento de la humanidad, la revolucin se debe principalmente al surgimiento de la web 2.0 y a la incursin de las redes sociales, anteriormente la informacin de internet era generada por un pequeo grupo de organizaciones e instituciones, actualmente casi todos somos generadores de datos, ya sea inconscientemente o ya sea propsito con al algn fin especfico , es muy cierto cuando se dice que todos somos Big Data, entre todos generamos ingentes cantidades de datos , a travs de diferentes medios, como redes sociales, tarjetas de puntos ya sea en supermercados u otro tipo de negocios, pago de facturas, tarjetas de crdito, telfonos celulares, GPS, sistemas de televisin digital, etc. Todas estas actividades dejan un rastro de nuestros movimientos, nuestros gustos y hasta de nuestro estado de nimo; tota esa enorme cantidad de datos adquieren valor si se procesan en un tiempo y a un costo razonable, este es el reto que deben afrontar las organizaciones de estos das, como manejar grandes volmenes de datos ya sean internos o externos y sacarles valor para obtener oportunidades de negocio.

Figura 1 Imagen creada por IBM de Wikipedia, clsico empleo de Big Data.

2.1 LAS 4 V DEL BIG DATA


Cundo se habla del termino Big Data se tiene que hablar obligatoriamente de las principales caractersticas que definen Big Data, como se daba a entender antes, Big Data no es solo grandes volmenes de datos, por tal razn existen las 4 V del Big Data. Volumen de los datos Variedad de los datos Velocidad en la transaccin de los datos Valor y/o veracidad de los datos

2 Qu ES BIG DATA?
Big Data es un trmino que se ha venido utilizando desde finales de los 90, a medida que la web 2.0, se expanda a pasos agigantados, como motor de cientos de miles de sitios generadores de datos no estructurados, frecuentemente se entiende que el Big Data, se refiere al volumen ingente de datos, pero el

Volumen: el volumen de los datos es probablemente la caracterstica que con mayor frecuencia se asocia con el Big Data, las empresas se enfrentan a ingentes volmenes de datos de los cuales intentan explorar para obtener datos relevantes con el fin de mejorar en la toma de daciones de los procesos y reas de la empresa, los volmenes de datos crecen constantemente a un ritmo acelerado; aunque Big Data puede variar dependiendo del sector al que se haga referencia, a la ubicacin geogrfica y a los recursos tecnolgicos y profesionales con los que se cuenta, as

Big Data una revolucin en proceso


.
que bien podra ser que un terabyte sea Big Data para una empresa y que para otra ya no lo sea. Variedad: mltiples y gran cantidad de tipos de fuentes de datos, estructurados y no estructurados, datos internos, datos externos, fuentes de datos tan variadas como puede ser: correos electrnicos, comentarios en redes sociales, logs de transacciones, de facturacin, cmaras de vigilancia, archivos de audio y video. Velocidad: mover grandes cantidades de datos en sistemas tradicionales resulta complicado y demorado, los sistemas Big Data se orientan a manejar grandes volmenes de datos en cortos periodos de tiempo acercndose al tiempo real, disminuyendo en gran medida los tiempos de latencia desde que se introducen los datos, al instante de tiempo en que se genera una solicitud y al instante en el que es asequible la informacin; hay decisiones que se tiene que tomar en el instante, procesos en los cuales el tiempo es un factor crtico; como puede ser la deteccin de fraude o transacciones, movimientos de bolsa, para estos casos los datos deben analizarse en tiempo real para que no pierdan su valor y por consiguiente se pierdan oportunidades de negocio. Valor: se podra afirmar que es el ms importante, hace referencia a la calidad, fiabilidad de los datos. Para asegurar que los datos contienen algn valor relevante, se tendr que tener plena claridad sobre lo que se est buscando como objetivo y la relevancia que tiene un determinado conjunto de datos con lo que se busca, es importante entonces contar con profesionales en analtica que filtren, clasifiquen y valoren los datos mediante reglas precisas que no den espacio a la entrada de datos invlidos o de muy baja relevancia. lo que las convierte finalmente en bases de datos No SQL, as que la ventaja principal que ofrece No SQL es su gran flexibilidad para manejar grandes cantidades de datos dispersos.

Figura 2 Imagen

tomada de www.palentino.es

3.1 DESVENTAJAS NO SQL


Se pierde la capacidad de integridad referencial en las transacciones, se pierde la capacidad de utilizar ndices, la capacidad para realizar consultas se afectado notablemente, uno de los objetivos de los desarrolladores de las bases de datos No SQL es implementar la mayor cantidad de funcionalidades de las bases de datos RDBMS si afectar el procesamiento de grandes volmenes de datos.

3.2 TIPOS DE BASES DE DATOS NO SQL


Actualmente se pueden identificar cuatro tipos de bases de datos no SQL Almacenamiento de datos clave valor, los datos se almacenan en pares, clave valor, para consultar los datos se utilizan la clave, que es nica para cada elemento ejemplos: Redis, Dynomite, voldemort, son algunos de los ejemplos ms representativos de este tipo de bases de datos. Bases de datos basadas en columnas, estas utilizan un mtodo similar a los sistemas de base de datos RDBMS, haciendo uso de tablas para almacenar los datos, pero a diferencia de las RDBMS; estas bases de datos almacenan los datos en columnas y no en filas como los RDBMS tradicionales, tienen buen desempeo en el almacenamiento de ingentes volmenes de datos. Algunos ejemplos son; Hbase de apache; esta es la base de datos de hadoop, Casandra y hypertable. Base de datos basadas en documentos, los datos se organizan y se almacenan como una coleccin de documentos, los documentos de estas bases de datos suelen ser muy flexibles, los documentos pueden a su vez contener otros documentos, los documentos pueden tener un nmero indeterminado de filas. Ejemplos: apache CouchDB y MongoDB.

3 BASE DE DATOS NO SQL


No SQL o not only SQL, no es un concepto nuevo, las bases de datos no relacionales se usan desde que se pusieron en funcionamiento los primeros computadores, pero su uso se limit a entornos muy reducidos, con la aparicin de los mainframe y de la computadora personal, frente a los sistemas RDBMS; los nuevos sistemas no relacionales, surgen en un contexto completamente diferente, al de aquellos das en los que la computacin daba sus primeros pasos, estos nuevos sistemas emergentes surgen en medio de la computacin distribuida, aplicaciones escalables en internet y procesamiento en paralelo. RDBMS no es capaz de escalar al nivel que exigen las aplicaciones de hoy, tiene problemas cuando se aplica a grandes cantidades de datos, debe optimizar el procesamiento de datos, la escalabilidad y la reduccin de costos; todos los RDBMS tienen una estructura bien definida, los datos tienen que ser uniformes, las propiedades de estos datos deben definirse con anterioridad, las relaciones deben estar perfectamente establecidas y ser referenciadas de forma sistemtica, se puede dar consistencia a conjuntos de datos con el uso de ndices, los ndices mediante el usos de reglas estrictas facilitan la consulta de datos. Las bases de datos RDBMS tienden a presentar inconvenientes con grandes cantidades de datos distribuidos para solventar estas dificultades, estas bases de datos empiezan a dejar de aplicar una serie de reglas, reglas que las definen en s,

Big Data una revolucin en proceso


.
Almacenamiento de datos en grafos, las bases de datos No SQL basadas en grafos se apoyan en la teora de las ciencias computacionales de grafos, para organizar y almacenar los datos e interconectarlos entre s por valores y jerarquas de acuerdo la teora de los grafos; Neo4j es el ejemplo ms sobresaliente de este tipo de sistemas. Bases de datos basadas en objetos. Los datos son objetos y las relaciones punteros entre ellos. Permiten operaciones muy complejas pero suelen tener bajo rendimiento. Otras. Cubren necesidades muy especficas y tienen escasa implantacin: basadas en tupla, multivaluadas, jerrquicas, etc.

4 CLSTER
En un estudio denominado the 2011 digital universe study estima que el volumen de la informacin de internet alcanzara los 35 ZettaByts en el ao 2020. Tolerancia a fallos y copias de seguridad a grandes conjuntos de datos, son tareas complejas. Discos y capacidad ingente de datos. Los discos actuales estn aumentando constantemente la capacidad de almacenamiento, pero no sucede lo mismo con la velocidad de acceso a los datos, un disco promedio de 7200 RPM y una velocidad de lectura de 300Mbps, se demora aproximadamente una hora en leer un TeraByt de datos, a medida que las capacidades aumentan as tambin aumenta la los tiempos que se necesitan para leer los datos del disco, la velocidad de lectura puede ser engaosa, la informacin se guarda en discos circulares para optimizar el rea de almacenamiento, cuando los datos se leen en la parte externa del disco se tiene ms rea y por consiguiente ms datos , a medida que el disco se llena los crculos se van haciendo ms pequeos y el rea es menor y por consiguiente la cantidad de datos disminuye drsticamente, por otra parte estn los discos SSD que ofrecen velocidades de acceso por encima de un giga y van en aumento, pero presentan bastantes problemas de funcionamiento, por lo cual no se recomiendan en el uso diario a parte que sus costos son bastante elevados, en comparacin con los discos magnticos tradicionales. La escalabilidad puede conseguirse de dos formas utilizando un medio ms potente que es capaz de gestionar grandes cargas de datos requeridas o mediante clster, con equipos de menor capacidad que trabajan juntos como un nico elemento de mayor capacidad, a este tipo de escalabilidad se le conoce como escalabilidad horizontal, la escalabilidad con grandes maquinas muy complejas y potentes se conoce como escalabilidad vertical o sper computadores que cuentan con muchos ncleos de procesador, grandes discos con una vasta capacidad de almacenamiento y gran cantidad de memoria RAM, para ejecutar numerosos procesos en paralelo, el escalamiento vertical tiene la desventaja ser una solucin muy costosa sumado al inconveniente de tratar con software y hardware propietario. Figura 3 Imagen

tomada de rcervantes.com

5 BIG DATA VENTAJAS COMPETITIVAS


Big Data permite a las empresas desarrollar ventajas competitivas frente a la competencia, hallar nuevas oportunidades de negocio, mediante la aplicacin de analtica a grandes volmenes de datos, para identificar preferencias de los usuarios, manejo adecuado de inventarios en tiempo real, mediante el cruce de datos y analtica aplicada correctamente, se podrn ofrecer ofertas ms acertadas y personalizadas a los clientes.

5 Empresas utilizan No SQL


ING Direct da el paso para entrar en el mundo del Big Data: Con la intencin de conocer mejor a sus clientes el banco ING Direct apuesta por Big Data, para analizar la informacin que dispone de sus clientes con toda la informacin externa que pueda conseguir y utilizar en la toma de decisiones.

Telefnica presenta su nueva unidad de negocio "Big Data" llamada Telefnica Dynamic Insights: Permitir utilizar el Big Data para el anlisis de datos agregados y totalmente annimos. WalMart, uno de los pioneros en el sector en utilizar Big Data: Estn observando todo en su negocio prcticamente en tiempo real. A travs del anlisis de los datos pueden predecir eventos y ofrecer una respuesta antes que cualquiera, garantizando que su producto estar disponible donde lo necesitan. Amazon se benefician del Big Data, un testimonio real: Amazon ha crecido mucho de forma bastante consistente como organizacin, pero muchas empresas crecen a travs de la adquisicin, lo que hace que la sincronizacin de datos sea una tarea enorme.

Big Data una revolucin en proceso


.

6 Desarrolladores frente a No SQL


Se pueden clasificar tres grupos de desarrolladores: primero estn los que creen firmemente en las ventajas que ofrecen las bases de datos NO SQL, estos colaboran activamente en comunidades en lnea que mantienen a NO SQL y estn explorando continuamente las posibilidades que puede ofrecer esta tecnologa emergente. En segundo lugar estn aquellos que se centran en resaltar las desventajas que tiene NO SQL y la inviabilidad de las bases de datos no relacionales. En tercer lugar estn los que ignoran esta tecnologa ya sea porque desconocen en absoluto de que se trata o porque creen que es una moda pasajera que no prevalecer por mucho tiempo.

empezar explorar con mayor auge y empezar a plantearse proyectos encaminados a la gestin, anlisis y la obtencin de resultados del anlisis de Big Data.

9 REFERENCIAS
[1] APTEAN Available: www.cmt-la.com/todo-lo-que-necesita-saber-sobrebig-data-pero-tenia-miedo-de-preguntar/ [2] Una Docena De scar Ray Available: unadocenade.com/una-docena-declaves-para-entender-la-importancia-del-fenomeno-big-data/ [3] Eureka Available: www.eureka-startups.com/blog/2013/05/28/todo-lo-quenecesitas-saber-sobre-big-data/ [4] IBM Institute for Business Value Available: www05.ibm.com/services/es/bcs/pdf/Big_Data_ES.PDF [5] bigdata-hadoop.pragsis.com/pages/2/casos_de_uso [6] EMC2 Available: colombia.emc.com/microsites/cio/articles/big-datapwf/pwf.pdf [7] Fidelity Available: www.fondosfidelity.es/static/pdfs/informesfondos/Fidelity_ArgInvSXXI_BigData_Sept12_ES.pdf [8] Energia Creadora Available: www.energiacreadora.es/ec-3/data-miningbig-data-data-science/ [9] lapastillaroja.net/2012/02/nosql-for-non-programmers/ [10] www.nosql.es/ [11] Diego Lpez de Ipia Available: www.slideshare.net/dipina/nosqlcassandra-couchdb-mongodb-y-neo4j#btnNext [12] Zainex Available: www.zainex.es/tags/nosql/bases-datos-orientadasobjetos-documentos-ddbb-nosql [13] Peter Wayner, InfoWorld Available: cioperu.pe/fotoreportaje/11634/diezbases-de-datos-nosql-que-debe-probar/#?foto=11 [14] Hugo Gonzlez Available: atit.upslp.edu.mx/~hugo/presentaciones/2011-noSQL--SemanaUPSLP.pdf [15] Marvin Ramrez Valenzo, Ren E. Cuevas Valencia, Jos Mario Martnez Castro Available: revistavinculos.udistrital.edu.co/files/2012/12/integracionbusqueda.pdf [16] Minux Magazine Available: www.linux-magazine.es/issue/76/038044_BasedeDatosNoSQLLM76.pdf [17] Wikipedia Available: es.wikipedia.org/wiki/Big_data [18] McKinsey Global Institute Available: www.mckinsey.com/insights/business_technology/big_data_the_next_fro ntier_for_innovation [19] EMC2 Available: www.emc.com/campaign/bigdata/index.htm [20] SAS Available: www.sas.com/big-data/ [21] BigdataWeek Available: bigdataweek.com/ [22] Intel Available: www.intel.com/content/dam/www/public/us/en/documents/whitepapers/distributed-data-mining-paper.pdf [23] StatSoft Available: www.statsoft.com/textbook/data-mining-techniques/ [24] KDD Jimmy Lin and Dmitriy Ryaboy Available: www.kdd.org/sites/default/files/issues/14-2-2012-12/V14-02-02-Lin.pdf [25] IT-TNA Steve Wexler Available: it-tna.com/2013/02/15/big-data-versusdata-warehouse-only-one-will-survive/ [26] Saima Solutios Miguel Angel Available: www.saimasolutions.com/blog/business-intelligence-big-data/ [27] Oracle Available: docs.oracle.com/cd/NOSQL/html/index.html [28] Christof Strauch Available: www.christof-strauch.de/nosqldbs.pdf [29] Oracle Available: www.oracle.com/technetwork/database/nosqldb/learnmore/nosqldatabase-498041.pdf [30] DATASTAX CORPORATION Available: www.datastax.com/wpcontent/uploads/2013/02/WP-Benchmarking-Top-NoSQL-Databases.pdf [31] Martin Fowler and Pramod Sadalage Available: martinfowler.com/articles/nosql-intro.pdf [32] couchbase Available: www.couchbase.com/sites/default/files/uploads/all/whitepapers/NoSQLWhitepaper.pdf [33] Christof Strauch Available: oak.cs.ucla.edu/cs144/handouts/nosqldbs.pdf [34] Rick Cattell Available: cattell.net/datastores/Datastores.pdf [35] Jon Moore amazon Available: s3.amazonaws.com/cimlabs/OredevEnterprise-NoSQL.pdf

7 Ejemplo prctico con MongoDB


Se trata de una aplicacin realizada en PHP que originalmente utilizaba el motor de base de datos MySql, es una pequea aplicacin para subir y compartir documentos, implementa dos tipos de bsquedas, por palabra individual y por ndice de texto o FullText, para bsquedas complejas. Modificar la aplicacin para que funcione con MongoDB fue una tarea relativamente fcil, ya que en la pgina de MongoDB existe baste documentacin que explica con ejemplos las equivalencias de sentencias SQL VS las sentencias que utiliza MongoDB. La parte ms compleja fue implementar la bsqueda de texto completo (fullText), debido a que es una caracterstica nueva en la ltima versin de MongoDB, a la fecha de creacin de este document, por tal razn existe poca documentacin sobre el tema. El cdigo fuente est disponible en HitHub, en las siguientes urls: https://github.com/electroge32/Safe-DocumentsMongoDB https://github.com/electroge32/Sefe-DocumentsMySQL.

8 CONCLUSIONES
Las tecnologas relacionadas con el Big Data pueden generar grandes frutos a las organizaciones, pero es necesario capacitar y contar con una infraestructura tecnolgica, de importantes magnitudes, y sobre todo contar con profesionales con experiencia en analtica, minera de datos y business intelligence; este tipo de profesionales tienen habilidades que son necesarias para un adecuado manejo de proyectos orientados al anlisis de Big Data, con el fin de obtener oportunidades de negocio y ventajas competitivas en el mercado. El Fenmeno Big Data es una rea explorada por muy pocos hasta ahora, los expertos consideran que se generara entre 150.000 180.000 empleos para profesionales en anlisis de datos de Big Data Para el ao 2018, es una rea que los centros educativos deben

Вам также может понравиться