Академический Документы
Профессиональный Документы
Культура Документы
Spark
SQL permite el procesamiento de datos estructurados. Permite trabajar
con DataFrames, una abstracción de programación, y también puede actuar como
motor de consultas SQL distribuido. Spark Streaming permite realizar un
procesamiento de datos en tiempo real, escalable, de alto rendimiento, y con
tolerancia a fallos. El objetivo de MLlib es hacer práctico, escalable y fácil el
machine learning. Consiste en un conjunto de algoritmos y utilidades comunes,
como clasificación, regresión, clustering, filtrado colaborativo y reducción de
dimensionalidad. GraphX es el componente de Spark para visualizaciones y
cálculo gráfico en paralelo.
Ventajas Spark
Analítica avanzada
Spark ofrece un framework para realizar análisis avanzados out-of-the-box. Incluye
como hemos visto una herramienta para realizar queries rápidamente, una librería
de aprendizaje de máquina, un motor de procesamiento de gráficos, y un motor de
análisis en datos en en streaming. No hay necesidad de implementar otras
herramientas via MapReduce, Spark ya ofrece librerías preconfiguradas, que son
más fáciles y rápidas de usar.
Simplicidad
Una de las primeras críticas que se hizo a Hadoop fue que era difícil de usar,
requería que los usuarios comprendieran una variedad de complejidades como
MapReduce o programación avanzada en Java. Aunque se ha simplificado a la
vez que se hacía más potente con cada nueva versión, la queja ha permanecido.
Spark fue creado para ser accesible a cualquiera con conocimientos en bases de
datos y algo de habilidad de scripting en Python o Scala.
Reinventando MapReduce
Uso de HDFS
Uso de YARN