Вы находитесь на странице: 1из 5

UNIVERSIDAD ESTATAL PENINSULA DE

SANTA ELENA

TEMA:
BASE DE DATOS NO SQL Y SU RELACION CON SPARK Y SYSPARK

AUTORES:
GONZALEZ CATUTO ALEX DANIEL
RODRIGUEZ MATIAS LUIS ARTURO

CARERRA:
INFORMÁTICA 6/1

MATERIA:
BASE DE DATOS II

DOCENTE:
ING. SENDRY ROSERO V.
2018-1
BASE DE DATOS NO SQL Y SU RELACION CON
SPARK Y SYSPARK
González Alex, Rodríguez Arturo
alex_02gonzalez@hotmail.com, arturodri0909@gmail.com
Universidad Península de Santa Elena

RESUMEN
II. BASE DE DATOS NO SQL

En esta presente investigación se detalla las características de una


base de datos pero a diferencia de la base de datos normal, se Se puede decir que la aparición del término No SQL aparece con
enfocara a la base de datos no sql, ya que son varias aplicaciones la llegada de la web 2.0 ya que hasta ese momento sólo subían
web que están conformado por una base de datos por debajo de las contenido a la red aquellas empresas que tenían un portal, pero con
aplicaciones que dependen en sí de ellas para su funcionamiento. la llegada de aplicaciones como Facebook, Twitter o Youtube,
cualquier usuario podía subir contenido, provocando así un
Las relaciones que tiene Spark y Syspark con las bases de datos crecimiento exponencial de los datos.[ CITATION ace1 \l 3082 ]
son muy importante ya que ayudan a las bases de información a
general más espacio para almacenar datos, brindan mayor rapidez Al momento de generar nuevas aplicaciones que serían de mucha
al momento de acceder a un dato para generar la información, ya utilidad para el usuario se requirió fuentes de información para
que en muchos software o aplicaciones funcionan exclusivamente guardar datos y las salidas de los mismos datos para eso se
de datos por eso dependen de estos tipos para brindar buenas necesitaron repositorios de información.
funcionalidades al momento de ejecutar un proceso para el
Es en este momento cuando empiezan a aparecer los primeros
usuario.
problemas de la gestión de toda esa información almacenada en
bases de datos relacionales. En un principio, para solucionar estos
problemas de accesibilidad, las empresas optaron por utilizar un
I. INTRODUCCION mayor número de máquinas pero pronto se dieron cuenta de que
esto no solucionaba el problema, además de ser una solución muy
cara. La otra solución era la creación de sistemas pensados para un
uso específico que con el paso del tiempo han dado lugar a
Las bases de datos no sql (Not only SQL – No sólo SQL) y que en
soluciones robustas, apareciendo así el movimiento No SQL.
la actualidad han aparecido para hacerle frente o hacerte
[ CITATION ace1 \l 3082 ]
competencia a las bases de datos relacionales que los usuarios
conocen y utilizan más a diario ya están familiarizadas con ellas. Las bases de datos no relacionales tuvieron problemas al principio,
problemas que estaba en pelea para solucionaros ya que
Todo dato que genera información es la parte más importante de
implementando nuevos sistemas no era optimo se optó por crear
un sistema de información, por tal motivo veremos sus relaciones
nuevos sistemas que trataran de resolver estos inconvenientes y es
con Spark y Syspark para mejorar el sistema de una base de datos.
donde nació los no SQL.
Los usuarios por lo general están muy relacionados con las bases
de datos relacionales que son fijas al momento de aplicar para una
tarea o un proceso, a estas se les denominan las bases de datos III. EJEMPLOS DE BASE DE DATOS NO SQL
SQL pero existen bases de datos no SQL que si bien es cierto no
son tan utilizadas o no son muy conocidas pero buscan enfocarse
más a usuario y hacer que los mismos le den uso para resolver los A continuación presentamos un listado de datos no SQL pero son
problemas que se les presenten, en otras palabras se puede decir los más utilizados actualmente:
que las no SQL son lo opuesto de SQL y que buscan hacerles
frente. A. Cassandra
Se trata de una base de datos creada por Apache del tipo clave–
valor. Dispone de un lenguaje propio para realizar consultas CQL
(Cassandra Query Language). Cassandra es una aplicación Java
por lo que puede correr en cualquier plataforma que cuente con la
JVM.[ CITATION ace1 \l 3082 ]
B. Redis
Se trata de una base de datos creada por Salvatore Sanfilippo y IV. GRANDES COMPAÑÍAS QUE UTILIZAN
Pieter Noordhuis y está apoyado por VMWare. Se trata de una ESTE TIPO DE BASES DE DATOS
base de datos del tipo clave–valor. Se puede imaginar como un
array gigante en memoria para almacenar datos, datos que pueden
ser cadenas, hashes, conjuntos de datos o listas. Tiene la ventaja de Son muchas las grandes empresas que hacen uso de este tipo de
que sus operaciones son atómicas y persistentes. Por ponerle una bases de datos no relacionales, como:
pega, Redis no permite realizar consultas, sólo se puede insertar y
 Cassandra: Facebook, Twitter…
obtener datos, además de las operaciones comunes sobre conjuntos  HBase: Yahoo, Adobe…
(diferencia, unión e inserción). Creado en ANSI C, por lo tanto es  Redis: Flickr, Instagram, Github…
compatible y funciona sin problemas en sistemas Unix, Linux y  Neo4j: Infojobs
sus derivados, Solaris, OS/X sin embargo no existe soporte oficial  MongoDB: FourSquare, SourceForge, CERN…
para plataformas Windows.[ CITATION ace1 \l 3082 ]

V. BASE DE DATOS NO SQL Y SU RELACION


CON SPARK
C. MongoDB
Se trata de una base de datos creada por 10gen del tipo orientada a Cuando se habla de datos estructurados nos referimos a la
documentos, de esquema libre, es decir, que cada entrada puede información que suele encontrarse en la mayoría de bases de
tener un esquema de datos diferente que nada tenga que ver con el datos, información etiquetada y controlada que puede encontrarse
resto de registros almacenados. Es bastante rápido a la hora de en filas o en columnas. Spark SQL se utiliza principalmente para el
ejecutar sus operaciones ya que está escrito en lenguaje C++. Para tratamiento de este tipo de información y lo hace
el almacenamiento de la información, utiliza un sistema propio de mediante DataFrames.[ CITATION Dan \l 3082 ]
documento conocido con el nombre BSON, que es una evolución Mediante los mismos permitían a las bases de información generar
del conocido JSON pero con la peculiaridad de que puede más datos de una manera más ordenada y rápida para la salida de
almacenar datos binarios. En poco tiempo, MongoDB se ha los datos y ser más rápidos y eficaz.
convertido en una de las bases de datos NoSQL favoritas por los
desarrolladores.[ CITATION ace1 \l 3082 ]

Los DataFrames son conjuntos de datos distribuidos y


organizados por columnas que pueden ser construidos a partir de
D. CouchBD diversas fuentes de datos como Cassandra, HIVE, Elastic Search,
JDBC, ficheros csv, json, avro, etc. o directamente desde un RDD
ya existente. Por explicarlo de una forma más sencilla, los
Se trata de un sistema creado por Apache y escrito en lenguaje
DataFrames son conceptualmente equivalentes a las tablas de una
Erlang que funciona en la mayoría de sistemas POSIX, incluyendo
base de datos relacional.[ CITATION ace1 \l 3082 ]. En otras
GNU/LINUX y OSX, pero no así en sistemas Windows. Como
palabras en la realización de una nueva bases de datos al momento
características más importantes cabe destacar el uso de Restfull
de grabar una información organizándolos por tablas estamos
HTTP API como interfaz y JavaScript como principal lenguaje de
creando una base de datos relacional.
interacción. Para el almacenamiento de los datos se utiliza
archivos JSON. Permite la creación de vistas, que son el La API de Spark SQL permite la conexión a las fuentes de origen,
mecanismo que permite la combinación de documentos para obteniendo así los datos y pasando a ser gestionados en memoria
retornar valores de varios documentos, es decir, CouchDB permite
mediante Spark.[ CITATION ace1 \l 3082 ] Teniendo información
la realización de las operaciones JOIN típicas de SQL.
en memoria de una manera estática y dinámica.
[ CITATION ace1 \l 3082 ]
VIII. CONCLUSION

VI. BASE DE DATOS NO SQL Y SU RELACION Las bases de datos son muy importantes para aplicaciones en
CON SYSPARK especial para los de aplicaciones web entre otras ya que cada
software programa o sitios web tienen un repositorio de
información que es la parte más importante, existen bases de datos
 Se relaciona o nace de Spark de ahí prácticamente su SQL y no SQL, por lo general los no SQL buscan hacerle
relación competencia para integrarse a los usuarios haciéndole frente a las
 El Dataframe permite la aceleración de sus procesos en bases de datos relaciones actuales.
el sistema base de información.
 Determina el lugar donde se van a extraer dichos Su relación de Spark con las bases de datos buscan darles espacios
ficheros más grandes de información ya que estos repositorios necesitan
 Permite representar datos de archivos mucho espacio de almacenamiento y de una forma organizada para
 genera rutas y defines estructuras que se usaran en un el acceso de datos de una manera rápida, Syspark nos proporciona
formato en específico a utilizar procesamientos más rápidos, define estructura y representa datos
 Realiza la tarea de hacer en secuencia los archivos y los en los archivos.
selecciona de 1 en 1.
 permite la visualización mediante el Dataframe.

VII. PALABRAS CLAVES


DataFrame, Rdd, Api, Spark, Syspak

Referencias

[1] «acenswhitepapers,» [En línea]. Available: https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-


wp-acens.pdf.

[2] D. Graña, «FutureSpace,» [En línea]. Available: https://bites.futurespace.es/2017/04/28/apache-spark-


introduccion-a-spark-sql/.

[3] Oracle, G. Author, Ed., 16 ABRIL 2016.

[4] D. Calvo, 24 noviembre, 2017.

[5] acenswhitepapers, Ed.

Вам также может понравиться