Big Data - Apa itu Hadoop Sesi 6

Tags

Apa itu Hadoop?

Apache Hadoop adalah open-source, bebas dan kerangka kerja perangkat lunak berbasis Java menawarkan platform didistribusikan kuat untuk menyimpan dan mengelola Big Data. Hal ini berlisensi di bawah lisensi Apache V2. Ini berjalan aplikasi pada kelompok besar dari perangkat keras komoditas dan memproses ribuan terabyte data pada ribuan node. Hadoop terinspirasi dari MapReduce dan Google File System Google (GFS) kertas. Keuntungan utama dari kerangka Hadoop adalah bahwa ia menyediakan keandalan dan ketersediaan yang tinggi.

Big Data - Apa itu Hadoop Sesi 6

Apa saja komponen inti Hadoop?

Ada dua komponen utama dari kerangka Hadoop dan kedua fo mereka melakukan dua tugas penting untuk itu.

Hadoop MapReduce adalah metode untuk membagi masalah data yang lebih besar ke dalam potongan yang lebih kecil dan mendistribusikannya ke banyak server komoditas yang berbeda. Setiap server memiliki set mereka sendiri sumber daya dan mereka telah diproses secara lokal. Setelah server komoditas telah diproses data mereka mengirim kembali kolektif ke server utama. Ini adalah efektif proses di mana kita memproses data yang besar secara efektif dan efisien.

Hadoop Distributed File System (HDFS) adalah sistem file virtual. Ada perbedaan besar antara sistem file lain dan Hadoop. Ketika kita memindahkan file pada HDFS, maka secara otomatis dibagi menjadi banyak potongan-potongan kecil. Ini potongan kecil dari file direplikasi dan disimpan di server lain (biasanya 3) untuk toleransi kesalahan atau ketersediaan tinggi. 

Selain dua komponen inti proyek diatas, Hadoop juga berisi modul berikut :
  • Hadoop Umum: utilitas umum untuk modul Hadoop lainnya
  • Hadoop Yarn: Sebuah kerangka kerja untuk penjadwalan kerja dan manajemen cluster resource

Sesi Sebelumnya : Big Data - Apa itu NoSQL?

Multi-simpul Hadoop Cluster Arsitektur

Sekarang mari kita cepat melihat arsitektur multi-node Hadoop cluster

Multi-simpul Hadoop Cluster Arsitektur

Sebuah Hadoop kelompok kecil termasuk node master tunggal dan beberapa pekerja atau budak simpul. Seperti dibahas sebelumnya, seluruh cluster berisi dua lapisan. Salah satu lapisan MapReduce Layer dan is lain HDFS Layer. Masing-masing lapisan ini memiliki komponen yang relevan sendiri. Node master terdiri dari JobTracker, TaskTracker, NameNode dan DataNode. Seorang budak atau pekerja simpul terdiri dari DataNode dan TaskTracker. Hal ini juga mungkin bahwa budak simpul atau node pekerja hanya data atau menghitung node. Soal fakta bahwa adalah fitur kunci dari Hadoop.

Mengapa Gunakan Hadoop?

Ada banyak keuntungan menggunakan Hadoop. Berikut keuntungan menggunakan Hadoop :

Kuat dan Scalable - Kita bisa menambahkan node baru yang diperlukan serta memodifikasi mereka.
Terjangkau dan Biaya Efektif - Kami tidak memerlukan perangkat keras khusus untuk menjalankan Hadoop. Kami hanya dapat menggunakan server komoditas.
Adaptif dan fleksibel - Hadoop adalah menjaga dibangun dalam pikiran bahwa hal itu akan menangani data terstruktur dan tidak terstruktur.
Sangat Tersedia dan Fault Tolerant - Ketika sebuah node gagal, kerangka Hadoop otomatis gagal ke node lain.

Mengapa Hadoop disebut sebagai Hadoop?

Pada tahun 2005 Hadoop diciptakan oleh Doug Cutting dan Mike Cafarella saat bekerja di Yahoo. Doug Cutting memberikan nama Hadoop setelah anaknya bermain gajah.

Sesi Berikutnya : Big Data - Apa itu MapReduce

Copyrighted.com Registered & Protected 
QBXE-RP9B-CFSC-QLJF


EmoticonEmoticon