Big Data - Apa itu MapReduce Sesi 7

Apa itu MapReduce?

MapReduce dirancang oleh Google sebagai model pemrograman untuk pengolahan data yang besar dengan paralel, algoritma terdistribusi pada sebuah cluster. Meskipun, MapReduce awalnya teknologi eksklusif Google.

MapReduce terdiri Map() dan Reduce() prosedur. Prosedur Map() kinerja penyaringan dan pemilahan operasi pada data di mana sebagai prosedur Reduce() melakukan operasi ringkasan data. Model ini didasarkan pada konsep modifikasi dari fungsi umum map dan reduce yang tersedia dalam pemrograman fungsional. Perpustakaan di mana prosedur Map() dan Reduce() kepunyaan ditulis dalam berbagai bahasa. Paling populer implementasi dari MapReduce adalah Apache Hadoop.

Sesi Sebelumnya : Big Data - Apa itu Hadoop?

Bagaimana Cara Kerja MapReduce?

Keuntungan dari Prosedur MapReduce

The Framework MapReduce biasanya didistribusikan server dan menjalankan berbagai tugas secara paralel satu sama lain. Ada berbagai komponen yang mengelola komunikasi antara berbagai node dari data dan menyediakan ketersediaan dan kesalahan toleransi yang tinggi. Program yang ditulis dalam gaya fungsional MapReduce secara otomatis diparalelkan dan dieksekusi pada mesin komoditas. The Framework MapReduce mengurus rincian partisi data dan melaksanakan proses di server didistribusikan pada run time. Selama proses ini jika ada gangguan, framework menyediakan ketersediaan tinggi dan mode lain yang menangani node gagal tersebut.

Seperti yang anda lihat lebih banyak seluruh MapReduce Frameworks ini menyediakan lebih dari sekedar Map () dan Reduce () prosedur, menyediakan skalabilitas dan toleransi kesalahan juga. Sebuah implementasi framework MapReduce proses banyak petabyte data dan ribuan mesin pengolahan.

Bagaimana Cara Kerja Framework MapReduce?

Framework MapReduce berisi petabyte data dan ribuan node. Berikut adalah penjelasan dasar dari Prosedur MapReduce yang menggunakan komoditas besar ini dari server.

Prosedur Map ()

Selalu ada node master di bidang infrastruktur ini yang mengambil masukan. Tepat setelah mengambil input node master membaginya menjadi sub-input yang lebih kecil atau sub-masalah. sub-masalah ini didistribusikan ke kelenjar pekerja. Sebuah node pekerja kemudian memproses mereka dan melakukan analisis yang diperlukan. Setelah node pekerja melengkapi proses dengan sub-masalah ini ia kembali kembali ke node master.

Prosedur Reduce ()

Semua node pekerja kembali jawaban untuk sub-masalah yang ditugaskan kepada mereka untuk menguasai simpul. Node master mengumpulkan jawabannya dan sekali lagi agregat yang berupa jawaban terhadap masalah besar asli yang ditugaskan node master.

Kerangka ini tidak di atas Map () dan Mengurangi () prosedur secara paralel dan independen satu sama lain. Semua Peta () prosedur dapat berjalan sejajar satu sama lain dan sekali setiap node pekerja telah menyelesaikan tugas mereka, mereka dapat mengirim kembali kode master untuk compile dengan satu jawaban. Prosedur khusus ini dapat sangat efektif bila diterapkan pada jumlah yang sangat besar data (Big Data).

Framework ini memiliki 5 (lima) langkah yang berbeda:

Mempersiapkan inputan Map ()
Pelaksana Pengguna Kode Map ()
Mengocok output map untuk Reduce Processor
Pelaksana Pengguna Mengurangi Kode
Memproduksi Output Akhir

Berikut adalah Dataflow dari Framework MapReduce:

Input Reader
Map Function
Partition Function
Compare Function
Reduce Function
Output Write

Single Statement

Hal ini sama halnya dengan SELECT dan GROUP BY dari database relasional untuk database yang sangat besar.

Sesi Berikutnya : Big Data - Apa itu HDFS Sesi 8