Академический Документы
Профессиональный Документы
Культура Документы
La b) es falsa porque las hiptesis forman parte del modelo de causalidad. De forma similar, las muestra
de los datos se utiliza en los modelos tradicionales. En Big Data se utilizan todos los datos para los
clculos.
Segn la definicin de Big Data ms extendida:
a) Aplicar una solucin basada en Big Data slo tiene sentido cuando se cumplen las condiciones
de las 3 V's: velocidad, volumen, variedad.
b) La velocidad significa que el tiempo para procesar los datos es muy pequeo.
La a) es falsa porque aplicar una solucin BI basada en Big Data tiene sentido aunque se cumpla slo
una de las condiciones de las 3 V's. La c) tambin es falsa porque la variedad significa que los datos son
de tipo no estructurado (por ejemplo, texto sin formato). La correcta es la b).
La 4 V del Big Data
d) Ninguna es cierta.
La 4V significa la veracidad de los datos, evaluada en la exactitud del dato y del clculo. Aunque es
cierto que fue introducida por IBM, no existe unanimidad en la comunidad sobre su aceptacin.
De la relacin entre un sistema BI tradicional y un sistema basado
en Big Data, podemos decir que:
b) En un sistema basado en Big Data, los datos almacenados en el data warehouse son derivados
o filtrados.
c) A diferencia de los sistemas Big Data, en un sistema de BI tradicional los datos son
almacenados en el data warehouse en su mnima granularidad.
a) Los datos iniciales se encuentran divididos en mltiples documentos o ficheros que pueden ser
procesados en paralelo por la funcin Map.
b) La funcin Reduce extrae de los datos iniciales las claves que utilizar la funcin Map
posteriormente para asignarles un valor.
c) La funcin Map traduce los datos iniciales a una serie de pares clave-valor, y la funcin
Reduce combina todos los pares clave-valor de los documentos o ficheros tratados.
d) La a) y la c) son ciertas.
La b) es falsa porque la funcin Reduce se encarga de combinar las claves de mltiples documentos o
datos para crear un valor reducido (combinado) nico para cada clave. El resto son ciertas, por lo que la
correcta es la d).
En el sistema de ficheros distribuidos de Apache Hadoop:
c) Por encima del sistema de ficheros, Hadoop incorpora un motor de ejecucin de trabajos
MapReduce.
d) No existe tolerancia a fallos puesto que los procesos de integridad aseguran que los datos no
se encuentran replicados.
La a) es falsa puesto que, generalmente, Hadoop utiliza el sistema de ficheros distribuido HDFS. La b) es
falsa puesto que los datos se distribuyen en diferentes nodos y pueden ser, por tanto, procesados en
paralelo. La d) es falsa puesto que existen mltiples copias de los datos en diferentes nodos, por lo que
existe tolerancia a fallos. La correcta es la c).
El sistema Apache Spark
c) Puede utilizar bases de datos NoSQL o HDFS para almacenar los datos.
La a) es falsa puesto que Spark no utiliza el modelo MapReduce. La b) es falsa porque los datos se
pueden almacenar en distintos sistemas de ficheros distribuidos, entre ellos HDFS, y bases de datos
NoSQL. La d) es falsa puesto que Spark es una aplicacin independiente, aunque puede utilizarse
conjuntamente con Hadoop.