1

BIG DATA – BIG OPPORTUNITY – DATA LAKE

(Seri 2)

“Data dapat diibaratkan sebagai Ladang Minyak Baru – sebuah sumber yang menawarkan potensi yang luar biasa, tapi membutuhkan kemampuan eksplorasi dan proses pemurnian untuk mengekstrak nilai potensi tersebut”  oleh Indra Gunawan Limena.

 

Ungkapan di atas merupakan sebuah gambaran bahwa data yang dimiliki oleh siapa saja, khususnya organisasi bisnis, dapat digali lagi untuk menghasilkan nilai baru yang bermanfaat dalam pengembangan sebuah bisnis.

 

….

 

Kalimat pembuka di atas adalah sebuah mata rantai tulisan ini dengan tulisan sebelumnya, dimana pembahasan masih seputar Big Data dan pemanfaatannya.

 

Pemanfaatan data menjadi sebuah kumpulan data ( mengandung nilai variety, volume dan velocity ) yang memiliki kategori sebuah Big Data diperoleh dengan berbagai macam cara dan berbagai sumber atau implikasi bidang ilmu yang bermacam-macam. Sebagai contoh berikut adalah contoh sebuah big data yang dimaksud.

 

Pemanfaatan pada bidang agrikultur, digali data tentang kualitas tanah sebuah area sawah yang luas melalui data foto udara (aerial), selanjutnya digunakan data, masih dalam bentuk foto, tentang tinggi hasil tanam (melihat pertumbuhan sebuah padi di are sawah tersebut) selama beberapa kurun waktu dan yang tidak kalah pentingnya adalah pengumpulan data tentang cuaca diseputar area penanaman tersebut. Data tersebut diolah dengan menggunakan teknik yang ada dari bermacam tipe data, foto – data angka, untuk diolah dan dimanfaatkan bagi dunia pertanian dan dimanfaatkan sebagai pengetahuan bagi para petani.

 

Di bidang kesehatan, big data diolah dan diperoleh dari sekumpulan data yang dikumpulkan dari berbagai sumber sebagai contoh di Indonesia adalah data dari klinik pengobatan, puskesmas dan rumah sakit, dimana ragam data yang dikumpulkan berupa data kesehatan pasien, data penyakit selama periode tertentu, data lokasi (menunjukkan tingkat lingkungan) pasien dan berbagai penyakit yang ada. Data yang terkumpul tersebut diolah dan dianalisis agar hasil yang diperoleh bermanfaat di bidang kesehatan khususnya dalam hal peningkatan kesehatan masyarakat dan dapat memberikan prediksi penyakit untuk memperoleh tingkat kesehatan masyarakat di lingkungan tertentu bahkan seluruh Indonesia.

 

Beberapa catatan di lapangan, untuk saat ini pengolahan Big Data masih didominasi oleh bidang usaha telekomunikasi dan perbankan. Hal ini tentu saja masuk akal mengingat kedua bidang tersebut memang sumber data paling banyak dan cukup bervariasi (dari segi tipe) mengingat layanan akses yang diberikan juga cukup beragam baik dari segi konvensional, paper based sampai dengan digital yang bersumber dengan teknologi terkini (pc sampai dengan mobile) dari data text sampai data multimedia. Data tersbut diolah guna memperoleh perilaku pelanggannya serta kemungkian terjadi pelanggan “menyeberang” ke kompetitor yang digali dari data tersebut.

 

Salah satu contoh perusahaan telekomunikasi yang memiliki produk yang saat ini cukup banyak digunakan di bidang telekomunikasi. Perusahaan ini sudah memanfaatkan big data semenjak teknologi telekomunikasi masih pada tahap teknologi GSM. Meski masih tergolong teknologi yang masih sederhana namun data yang diperoleh bersumber dari besarnya data yang dihasilkan setiap transaksi dari perangkat telekomunikasi seperti sinyal radio dan performa perangkatnya. Olah data tersebut dilakukan mereka untuk menjaga kualitas layanan yang diberikan kepada pelanggannya. Berdasarkan laporan mereka analisa big data ini dapat mengurangi biaya investasi lebih dari setengah belanja modal mereka jika dibendingkan dengan analisa menggunakan teknologi yang konvensional. Selain mengefisienkan nilai transaksi (belanja) pemanfaatan teknologi big data juga dapat mengefisienkan segi waktu.

 

Yang terakhir, pengalaman pemanfaatan big data ditunjukkan oleh perusahaan “raksasa” google. Secara kasat mata perusahaan ini memang bersumber dari banyak data, dari layanan yang diberikan berupa mesin pencari, serta variasi tipe data baik dari data text biasa sampai dengan data multimedia, dari database video yang “tersimpan” pada layanan youtubenya. Salah satu hasil olahan yang dilakukan “dikemas” menjadi produk layanan yang dikenal dengan “google now” dimana dengan memanfaatkan produk ini data yang disajikan berupa timeline dengan tampilan data berupa text, gambar sampai dalam bentuk video. Semua hasil yang disajikan adalah hasil olahan dari rekam jejak data pengguna mereka (mungkin kita salah satu yang juga ikut berkontribusi karena seringnya menggunakan aplikasi “mbah google” ini). Rekam jejak tersebut dioleh sedemikian rupa sehingga menjadi tawaran produk yang disajikan mereka. Selain itu, dalam melakukan strategi bisnisnya, perusahaan ini memanfaatkan data yang dimiliki untuk diolah menggunakan konsep big data salah satunya digunakan untuk mengisarkan pertumbuhan bisnisnya ke depan.

Secara teknologi, perusahaan ini sampai menyiapkan atau lebih tepatnya menciptakan “Google File System (GFS)” yang digunaan sebagai pusat penyimpanan data yang secara fisik sebenarnya diimplementasikan secara terdistribusi pada ribuan computer yang tersebar. Selanjutnya data tersebut akan diproses dengan teknologi pengolahan data (MapReduce) dimana teknologi ini memeiliki kemampuan mengolah data yang tersimpan di GFS secara parallel maupun independen. Dari penejelasan tersebut maka tampak jelas komitmen mereka dalam pengolahan data yang memang masuk kategori Big sehingga layanan hasil olahan tersebut benar-benar dapat dirasakan siapa saja untuk saat ini. Namun sekali lagi itu semua karena adanya konsep (teknologi) big data.

 

 

Konsep “Data Lake” dalam Big Data

 

Kita sudah mengetahui tentang konsep Big Data yaitu pengolahan sumber data yang cukup besar (banyak) dilihat dari segi volume, variasi dan velocity (pergerakan dalam hitungan waktu). Cukup mudah untuk dibayangkan bahwa dalam pemrosesan big data tersebut akan menimbulkan effort yang lumayan, namun muncul pertanyaan berikut adalah bagaimana caranya jika semua pihak ingin melakukan akses ke big data tersebut. Kebutuhan data yang ingin digunakan mulai dari elemen data itu sendiri berikut riwayat data pendukung namun mungkin saja data yang diperlukan tidak dapat ditemukan dalam sumber data (source atau kantung data yang diakses dan mungkin ada namun berbeda kantung data).

Para praktisi teknologi informasi khususnya yang berkecimpung di bidang olah data membuat konsep (istilah) “Data Lake” guna menyelesaikan kasus di atas. Konsep ini secara prinsip membuat sebuah teknologi memiliki kemampuan melakukan proses olah data yang sangat besar pada suatu sistem cluster. Teknologi ini dirancang untuk pengembangan scale out dari satu mesin ke ribuan mesin yang tersebar.

Data lake juga dibuat untuk mendukung data discovery (untuk menemukan data tertentu), analisis, investigasi ad hoc dan pelaporan. Penemuan data diperlukan karena pada implementasinya cukup banyak data digunakan oleh pengguna data tersebut sehingga terjadi kemungkinan data yang sama digunakan oleh pengguna yang banyak sehingga perlu adanya “catatan” tentang data tersebut digunakan oleh siapa saja (data disalin oleh siapa saja).

Catatan khusus, data lake ini harus didukung (dilengkapi) dengan manajemen dan tata kelola yang baik sehingga pada dasarnya data ini dapat menghasilkan analisis bisnis dan proses pengambilan keputusan bagi perusahaan.

Dampak pengelolaan dari data lake meliputi dua hal yaitu, jika data lake tidak dikelola dengan baik maka akan menjadi “data swamp” sebaliknya, jika dikelola dengan baik akan menjadi “data reservoir”.