You are on page 1of 2

-M.

IQBAL FATHURROZI
-150535601350
-S1 TEKNIK INFORMATIKA OFFB

-Tentang Hadoop.

Hadoop adalah sebuah framework open source apache yang dikembangkan menggunakan
bahasa pemrograman Java,
dan dapat digunakan untuk memproses data set yang besar menjadi komputasi
terdistribusi yang lebih kecil.

-Komponen Hadoop.

Hadoop Common : berisi Java libraries yang dibutuhkan oleh Hadoop.


Hadoop YARN : Platform untuk manajemen sumber daya.
Hadoop Distributed File System (HDFS) : Sistem file terdistribusi yang menyimpan
data pada commodity machine.
Map/Reduce : Suatu model pemrograman yang digunakan untuk memproses data berskala
besar secara paralel.

-Ciri Hadoop.

Affordable : bisa berjalan pada hardware �pasaran�


Reliable : tahan terhadap kegagalan hardware/software
Scalability : hadoop bisa bertambah secara linear dengan menambahkannode baru
dalam sistem
Cost-effective : Hadoop membawa komputasi paralel yang berjumlah besar ke dalam
suatu commodity server
penghematan biaya penyimpanan per terabyte yang akan membuat
pemodelan seluruh data menjadi lebih terjangkau.
Flexible : Hadoop bersifat schema-less, dan dapat mendukung berbagai tipe data,
baik yang terstruktur atau tidak
terstruktur, dari berbagai sumber.
Fault-tolerant : ketika terjadi masalah dalam suatu node, maka sistem akan
mengalihkan pekerjaan ke lokasi
lain dari data tersebut, kemudian melanjutkan pemrosesan.

-Ekosistem Hadoop.

Common : sekumpulan komponen dan interface untuk sistem file


terdistribusi dan general I/O.
Avro : sistem serialization untuk penyimpanan data yang efisien,
crosslanguage RPC dan persistent.
MapReduce : model pemrosesan data dan lingkungan eksekusi terdistribusi yang
dapat berjalan dalam
kluster-kluster besar dari suatu commodity machine.
HDFS : sistem file terdistribusi yang berjalan pada kluster-kluster besar
dari
suatu commodity machine.
Pig : data flow language dan lingkungan eksekusi untuk menjelajahi data set
yang sangat besar. Pig berjalan pada
HDFS dan kluster-kluster MapReduce
Hive : merupakan suatu data warehouse terdistribusi. Hive mengatur data yang
disimpan di HDFS serta
menyediakan suatu bahasa query yang berbasis SQL untuk melakukan
query data
HBase : suatu basis data yang terdistribusi dan column-oriented. Hbase
menggunakan HDFS untuk media penyimpanannya,
serta mendukung baik komputasi berjenis batch menggunakan MapReduce,
maupun point queries.
ZooKeeper : sebuah coordination service yang terdistribusi dan highly available.
ZooKeeper menyediakan fitur seperti
kunci-kunci terdistribusi yang dapat digunakan untuk membangun
aplikasi-aplikasi terdistribusi.
Sqoop : tool untuk transfer bulk data secara efisien antara data store
yang terstruktur dan HDFS.
Oozie : service untuk menjalankan dan menjadwalkan workflow dari job-
job Hadoop.