You are on page 1of 21

Big Data

Teknologi dan Aplikasi


Achmad Imam Kistijantoro
21 Mei 2016
Seminar Nasional Aplikasi Big Data pada Sains dan E-Government
STMIK Widya Cipta Dharma
Mengapa Big Data
Istilah yang kekinian, istilah yang wajib dalam setiap
diskusi teknologi
Ledakan Informasi sudah mulai dibahas sejak 1944
Estimasi perpustakaan di universitas di US berkembang 2X
setiap 16 tahun, dan pada tahun 2040, perpustakaan Yale
akan memiliki 200 juta volume, di atas 6000 mil rak, dengan
staf sebanyak 6000 orang
1990, Peter J. Denning menyatakan rate dan volume
informasi yang mengalir melebihi kemampuan network,
storage dan kemampuan manusia untuk memahaminya
1997, Cox & Ellsworth menggunakan istilah Big Data
untuk problem visualisasi data yang besar
Mengapa Big Data
Tahun 2001, Doug Laney menulis paper dengan judul
3D Data Management: Controlling Data Volume,
Velocity and Variety, yang kini menjadi atribut dasar
Big Data
2008, Bryant, Katz dan Lazowska menulis
Big-Data Computing: Creating Revolutionary Breakthrou
ghs in Commerce, Science and Society

Big data computing will transform the activities of companies,
scientific researcher, medical practitioners, nations defense &
intelligence
Mengapa Big Data
Awalnya Big Data digunakan untuk problem
penanganan data set yang besar, sehingga memerlukan
superkomputer
Perkembangan teknologi, yang diawali oleh Google
(didirikan 1998, MapReduce & GFS 2003), dan
ketersediaan implementasi opensource Hadoop (2006)
3V: Volume, Velocity & Variety, + 2V: Veracity, Value
Dari relational tabel, menjadi beragam data untuk
analitik & deep learning
Gartner Hype Cycle
www.gartner.com/technology/research/methodologies/h
ype-cycle.jsp
Peran Big Data
Perusahaan: membantu memahami customer, e.g. Sistem rekomendasi pada online
shopping
Optimasi proses: memprediksi permintaan barang, gerakan kendaraan pada
taksi/transportasi online
Amazon tahun 2013 mengajukan paten untuk proses mengirimkan barang sebelum diorder
customer
Menentukan strategi harga dan marketing
Walmart (2008) menggunakan data transaksi POS sebesar 4 PB untuk advertising dan pricing
Keamanan, surveillance
Kesehatan: informasi tentang pasien dengan imaging (CT scan, MRI), genetik dan
perangkat lain digunakan untuk memahami penyebab penyakit
Science: data-driven science
Large Synoptic Survey Telescope merekam 30 triliun byte image per hari,
Large Hadron Collider (LHC) menghasilkan 60 TB per hari, 15 PB per tahun
Berbagai sensor untuk pengamatan lingkungan dan dampaknya
Big Data & traditional data
management
Relational:
skema data dirancang rigid, untuk menangani berbagai kasus yang dapat
diperkirakan sebelumnya
Validasi, seleksi data dilakukan saat skema data dirancang. Informasi/insight yang
dapat diambil terbatas pada skema data yang telah dirancang.
Data yang disimpan dibatasi pada yang dianggap penting saat perancangan
Pendekatan Big data: proses validasi, pembersihan data, seleksi data dan
analisis data merupakan bagian dari workflow proses.
Teknologi saat ini memungkinkan untuk menyimpan raw data untuk
dapat diolah kembali, dibersihkan, diseleksi dan dianalisis pada sistem,
tanpa harus membuang data mentah
Memungkinkan analisis data yang menghasilkan pengetahuan dan value
yang mungkin belum terpikirkan saat perekaman data
Teknologi
large scale data processing framework
Pendekatan scale-up vs scale-out
Menggabungkan banyak mesin sehingga menjadi
storage terdistribusi tunggal
Menjadi solusi murah sejak adanya opensource HDFS
yang dikembangkan berdasarkan GFS dari Google
Teknologi
Distributed Infrastructure
Cloud (e.g. Infrastructure as a service, Amazon EC2, Google App Engine,
Elastic, Azure)
Storage
Distributed storage (e.g. Amazon S3, Hadoop Distributed FS (HDFS),
Google FS)
Data Model/indexing
High performance schema-free DB (e.g. NoSQL DB Redis, Riak,
BigTable, Hbase, Cassandra, Mongodb)
Programming model
Distributed processing (e.g. MapReduce, Resilient Distributed Dataset)
Teknologi - MapReduce
Problem dipecah menjadi 2 operasi: Mapping dan
Reducing
Setiap operasi beroperasi independen, pada subset data
Operasi pada distributed storage efisien, karena tidak
ada ketergantungan antara operasi
Scalable
Teknologi - RDD
Big Data Analytic Stack
Hadoop Big Data Analytic Stack
Spark Big Data Analytic Stack
Data Analytic
Classification
Memprediksi label kelas dari data input
Aplikasi: pengenalan wajah, gambar, suara
diagnosis penyakit
Metode: Logistic regression,
Support Vector Machines (SVM), Neural Networks,
Random Forests, Gaussian Process Classifiers
Data Analytics
Regression
Memprediksi kuantitas kontinu dari
data input
Aplikasi: financial forecasting, click-rate prediction
Metode: regresi linier, neural network, gaussian process
Data Analytics
Clustering
Mengelompokkan data sehingga titik
yang serupa akan masuk ke grup yang sama
Aplikasi: bioinformatics, astronomy,
pemodelan dokumen, pemodelan jaringan
Metode: K-means, Gaussian mixture
Data Analytics
Dimensionality Reduction
Memetakan data dengan dimensi tinggi menjadi
dimensi yang lebih rendah
Aplikasi: pengolahan data yang memiliki dimensi tinggi,
seperti pengolahan citra, pengenalan wajah
Metode: PCA, factor analysis, GPLVM
Data Analytics
Semi supervised learning
Mengenali dari data yang berlabel dan
tidak
Aplikasi: pengenalan pada kasus dimana pemberian
label mahal
Metode: probabilistic model, graph-based SSL
Big Data & e-Government
E-gov dalam arti luas, mencakup penerapan IT dalam kegiatan
kepemerintahan
Membantu pemerintah dalam menentukan kebijakan
BI saat ini menggunakan Big Data dalam memonitor respons masyarakat
terhadap kebijakan moneter tertentu (e.g. via social media, berita media
massa)
Dirjen Pajak menggunakan Big Data untuk mendapatkan informasi
tambahan tentang wajib pajak, via social media, data transaksi kartu
kredit
Penanganan bencana
Perbaikan layanan pemerintah: respons yang lebih baik, perbaikan
workflow