Last Updated on February 17, 2022 by
Hai, kembali lagi di artikel seru, informatif dan berwawasan IT dari Appkey.id! Pada artikel sebelumnya, kita sudah berkenalan dengan framework Hadoop. Masihkah Anda mengingat apa itu Hadoop? Hadoop adalah framework pengolahan big data yang simpel dan sering digunakan oleh banyak perusahaan ternama.
Dalam proses kerjanya mengolah big data, Hadoop mempunyai 2 fungsi kinerja utama yakni MapReduce dan HDFS. Kali ini, kita akan melihat secara lebih rinci bagaimana cara kerja Hadoop MapReduce.
MapReduce adalah teknik pengolahan big data yang amat populer. Seperti yang Anda mungkin sudah ketahui, saat ini kita sudah berada dalam era big data. Era big data adalah masa di mana ada banyak sekali data multimedia (gambar, video, audio, file, dan sebagainya) yang bisa terkumpul dalam 1 detik, sehingga menghasilkan jumlah total data yang sangat besar. Oleh sebab itu, kita membutuhkan software khusus untuk mempermudah proses pengolahan big data. Jika tidak, sudah pasti kita akan keteteran saat mengolah big data!
MapReduce adalah salah satu metode ampuh untuk mengolah big data tersebut. Pun banyaknya perusahaan yang menerapkan MapReduce adalah bukti atas pernyataan tersebut. Salah satu perusahaan yang menerapkan MapReduce adalah Google, sang perusahaan raksasa internet.
Kira-kira, apa keuntungan MapReduce dan cara kerja Hadoop MapReduce sehingga perusahaan sekelas Google pun memanfaatkannya?
Daripada bertanya-tanya, yuk kita simak artikel berikut ini tentang belajar MapReduce. Selamat membaca!
Table of Contents
Apa Itu MapReduce?
MapReduce adalah yang melekat dengan Hadoop dan pengolahan big data, sehingga para ilmuwan atau data scientist pastinya sudah akrab dengan cara kerja Hadoop MapReduce. Teknologi MapReduce adalah temuan yang sudah cukup lama beredar di kalangan pegiat IT. Teori belajar MapReduce pertama kali muncul pada artikel ilmiah milik Google di tahun 2004.
Dua tahun berselang, Doug Cutting mengembangkan framework pengolahan big data yang dinamakan Apache Hadoop atau yang lebih dikenal dengan nama Hadoop. Hadoop mempunyai kecanggihan teknologi MapReduce di dalamnya, yang mampu memilah data-data besar menjadi komponen yang lebih kecil. Sehingga, data dapat diolah dengan lebih mudah oleh machine learning.
Ada pula yang mendefinisikan MapReduce adalah suatu software yang sengaja dibentuk untuk bisa memproses big data dengan cara khusus. Cara tersebut adalah dengan membagi-bagi kumpulan data yang besar ke dalam potongan-potongan tugas independen yang berkesinambungan satu dengan yang lain.
Sistem kerja pengolahan data ini lantas dipandang menaikkan keuntungan MapReduce secara signifikan. Keuntungan MapReduce yang paling jelas dan utama tentunya mempermudah perusahaan dan mesin-mesin lain bekerja mengolah data yang besar. Sehingga, terciptalah suatu sistem pekerjaan yang lebih hemat biaya, ringan, dan simpel. Plus, hasil analisa data yang didapatkan bisa tetap rinci dan akurat.
Perusahaan Apa Saja yang Menerapkan MapReduce?
Jika ditanya perusahan mana saja yang menerapkan MapReduce dalam sistem kerjanya, maka jawabannya ada banyak sekali! Terlebih di era digital dan big data kali ini, sebagian besar perusahaan pastinya memperoleh ribuan hingga jutaan dalam per detiknya.
Apakah perusahaan yang Anda jalankan atau tempat bekerja Anda saat ini juga sudah tergolong besar dan sering memperoleh banyak data? Jika iya, maka Anda perlu mempertimbangkan beralih memakai MapReduce.
Sebagai contoh, beberapa perusahaan yang menerapkan MapReduce adalah sebagai berikut:
Tentu saja Google akan mengelola data-datanya dengan MapReduce. Siapa yang tidak tahu Google? Google adalah perusahaan internet raksasa yang masih eksis sampai hari ini. Bahkan, Google adalah perusahaan yang mencetuskan mekanisme MapReduce pertama kali dalam artikel ilmiahnya di tahun 2004. Untuk bagian pengolahan big datanya, Google memiliki sektor khusus tersendiri yang dinamai Google Bigtable.
MapD Technologies
Selanjutnya adalah perusahaan MapD Technologies yang bergerak di bidang pengelolaan query. Perusahaan ini menerima data dalam jumlah masif setiap saat mengingat cakupan pelayanannya meliputi analisis geospasial dan operasional, riset big data, mempelajari ilmu data dan juga membuat aplikasi khusus pengolahan data. Pun untuk memudahkan pekerjaannya, MapD Tech memanfaatkan MapReduce.
CenturyLink
CenturyLink adalah perusahaan yang juga melibatkan big data untuk dikelola. Perusahaan ini menawarkan layanan konsultasi ‘data to decisions’ (data untuk pengambilan keputusan) untuk perusahaan guna menyusun strategi bisnis. Selain itu, CenturyLink juga secara terang-terangan mengembangkan teknologi pengelolaan big data secara otomatis memakai mesin dan kecanggihan IT, salah satunya MapReduce.
Dataiku
Terakhir adalah perusahaan Dataiku, yang bekerja mengembangkan software pengelolaan big data. Dataiku pun memperoleh penghargaan beberapa kali sebagai perusahaan IT berprestasi yang sering berkontribusi menyumbang ilmu pengetahuan baru seputar pengelolaan big data. Sudah tentu Dataiku memanfaatkan MapReduce dalam pekerjaannya.
Bagaimana Cara Kerja MapReduce?
Tibalah kita di pertanyaan terakhir yang masih membuat penasaran, yaitu ‘bagaimana cara kerja MapReduce’ khususnya pada Hadoop?
Dalam prakteknya, MapReduce terdiri dari 2 proses utama yakni Map ( fungsi: Map() ) dan Reduce ( fungsi: Reduce() ). Jadi, programmer hanya perlu membuat 2 program kalkulasi untuk menjalankan Map dan Reduce, selebihnya bagian pemecahan dan pengelolaan big data akan berlangsung otomatis dikerjakan fungsi Map dan Reduce.
Fungsi Map
Apa tugas fungsi map? Map berfungsi mengumpulkan semua informasi yang dimuat oleh potongan-potongan data dalam cluster di komputer. Nantinya, kumpulan informasi tersebut akan disalurkan ke proses Redue.
Dalam mengumpulkan data, Map juga akan membaca input ‘key/value’ lalu menghasilkan output yang sama: ‘key/value’. Pasangan ini disebut juga dengan ‘key/value intermediate’. Key/value intermediate lah yang akan disalurkan pula ke fungsi Reduce.
Fungsi Reduce
Reduce adalah fungsi setelah Map, di mana hasil dari Reduce akan dikirimkan ke user (pengguna). Fungsi reduce membaca pasangan Key/Value intermediate yang dihasilkan dari Map. Setelah membaca informasi, fungsi reduce akan mengelompokkan dan menggabung setiap Value dengan Key yang sama menjadi 1 kelompok. Pun output yang dikirimkan ke user tetap dalam bentuk key/value.
Contoh coding dengan Map dan Reduce adalah sebagai berikut:
map(String key, String value):
//key : nama teks contoh.
//value: isi teks contoh.
for each word A in value:
emitIntermediate(A,"1");
reduce(String key, Iterator values):
//key : sebuah kalimat.
//values : daftar hasil hitungan.
int result = 1;
for each v in values:
result+=ParseInt(v);
emit(AsString(result));
Namun ada 3 cara untuk menjalankan MapReduce di Hadoop. Ketiga cara tersebut adalah sebagai berikut:
- Memakai Hadoop mode ‘pseudo-distributed’. Mode ini bisa dijalankan dengan PC berbasis OS Linux.
- Memakai Hadoop mode ‘standalone’. Mode ini bisa dijalankan pada PC berbasis OS Windows. Tidak perlu konfigurasi tambahan pada metode ini.
Sementara tahapan kerja MapReduce Hadoop terbagi menjadi 4:
Splitting
Splitting adalah tahap pertama di mana terjadi pemecahan dari data-data yang diinput. Setiap big data yang diinput user akan dipecah menjadi potongan kecil, maksimal 128 MB.
Mapping
Selanjutnya adalah Mapping. Data yang telah dipecah pada splitting akan diproses melalui pemetaan (mapping) untuk mendapatkan beragam pasangan key/value intermediate. Di sinilah fungsi Map bekerja. Semakin banyak mesin yang bekerja pada mapping, atau semakin tinggi tingkatan parallelisme yang berlangsung, maka proses mapping akan berlangsung lebih singkat.
Shuffling
Tahap ketiga adalah shuffling atau pengacakan data hasil proses sebelumnya. Proses ini akan mengumpulkan 1 dan lebih key yang tersebar di setiap mesin yang terlibat dalam proses mapping. Tujuan pengumpulan ini adalah untuk mempermudah melakukan agregasi data.
Reducing
Agregrasi data yang sebenarnya baru berlangsung pada tahap ini, di mana pasangan key/value akan diagregasi oleh fungsi reduce. Alhasil, reducer akan memperoleh output hasil data baru yang lebih kecil untuk diproses dan disimpan dalam mesin.
Demikianlah pembahasan artikel edisi kali ini tentang cara kerja Hadoop MapReduce! Semoga artikel belajar MapReduce kali ini mampu menambah wawasan dan pengetahuan Anda, ya. Yuk temukan lebih banyak artikel menarik, informatif dan berwawasan IT lainnya hanya dari Appkey.id. Sayonara!
Jasa Pembuatan Aplikasi, Website dan Internet Marketing | PT APPKEY
PT APPKEY adalah perusahaan IT yang khusus membuat aplikasi Android, iOS dan mengembangkan sistem website. Kami juga memiliki pengetahuan dan wawasan dalam menjalankan pemasaran online sehingga diharapkan dapat membantu menyelesaikan permasalahan Anda.