Big Data - Apa itu HDFS Sesi 8

Tags

Apa itu HDFS?

HDFS adalah singkatan dari Hadoop Distributed File System merupakan sistem penyimpanan utama yang digunakan oleh Hadoop. HDFP menyediakan akses kinerja tinggi untuk data di cluster Hadoop. Hal ini biasanya digunakan pada perangkat keras komoditas murah. Dalam komoditas kegagalan deployment hardware server yang sangat umum. Karena alasan yang sama HDFS dibangun untuk memiliki toleransi kesalahan yang tinggi. Kecepatan transfer data antara node komputasi di HDFS sangat tinggi, yang mengarah ke penurunan risiko kegagalan.

Sesi Sebelumnya : Apa itu MapReduce Sesi 7

HDFS menciptakan potongan-potongan kecil data yang besar dan mendistribusikan pada node yang berbeda. Hal ini juga salinan masing-masing bagian yang lebih kecil untuk beberapa kali pada node yang berbeda. Oleh karena itu ketika setiap node dengan data crash sistem ini secara otomatis dapat menggunakan data dari node yang berbeda dan melanjutkan proses. Ini adalah fitur kunci dari sistem HDFS.

Arsitektur dari HDFS

Arsitektur HDFS adalah arsitektur master / slave. Cluster HDFS selalu terdiri dari NameNode tunggal. NameNode tunggal ini adalah server master dan mengelola sistem file serta mengatur akses ke berbagai file. Dalam tambahan untuk NameNode ada beberapa DataNodes. Selalu ada satu DataNode untuk setiap server data. Dalam HDFS file besar dibagi menjadi satu atau lebih blok dan blok-blok disimpan dalam satu set DataNodes.

Tugas utama dari NameNode adalah untuk membuka, menutup atau mengganti nama file dan direktori dan mengatur akses ke sistem file, sedangkan tugas utama dari DataNode adalah membaca dan menulis ke sistem file. DataNode juga bertanggung jawab untuk penciptaan, penghapusan atau replikasi data berdasarkan instruksi dari NameNode.

Pada kenyataannya, NameNode dan DataNode yang perangkat lunak yang dirancang untuk berjalan pada komoditas mesin membangun dalam bahasa Java.

Visual Representasi HDFS Arsitektur

Visual Representasi HDFS Arsitektur

Mari kita memahami bagaimana HDFS bekerja dengan bantuan diagram. Klien APP atau HDFS klien terhubung ke namespace serta DataNode. Klien App akses ke DataNode diatur oleh NameSpace Node. NameSpace Node memungkinkan Client App untuk terhubung ke DataNode berdasarkan dengan memungkinkan koneksi ke DataNode langsung. Sebuah file data besar dibagi menjadi beberapa blok data (mari kita asumsikan bahwa mereka potongan data A, B, C dan D. Klien App akan nanti blok menulis data langsung ke DataNode tersebut. Klien App tidak harus langsung menulis ke semua node. itu hanya harus menulis ke salah satu dari node dan NameNode akan memutuskan di mana DataNode lain harus mereplikasi data. dalam contoh kita Client App langsung menulis ke DataNode 1 dan ditahan 3. Namun, potongan data secara otomatis direplikasi ke node lain. Semua informasi seperti di mana DataNode yang blok data ditempatkan ditulis kembali ke NameNode.

Ketersediaan tinggi Selama Gangguan

Sekarang terdapat beberapa DataNode memiliki blok data yang sama dalam kasus, setiap DataNode yang menghadapi gangguan, seluruh proses akan terus sebagai DataNode lainnya akan berperan untuk melayani blok data spesifik yang pada node gagal. Sistem ini menyediakan toleransi yang sangat tinggi untuk gangguan dan menyediakan ketersediaan tinggi.

Jika Anda melihat hanya ada NameNode tunggal dalam arsitektur kita. Jika node yang gagal kami seluruh Aplikasi Hadoop akan berhenti tampil karena merupakan node tunggal di mana kita menyimpan semua metadata. Sebagai node ini sangat kritis, biasanya direplikasi. Meskipun, bahwa direplikasi node tidak operasional dalam arsitektur, memiliki semua data yang diperlukan untuk melakukan tugas NameNode dalam kasus NameNode gagal.

Seluruh arsitektur Hadoop dibangun untuk berfungsi dengan lancar bahkan ada kegagalan node atau kerusakan hardware. Kita perlu banyak komoditas (murah) hardware untuk mengelola data yang besar dan kegagalan hardware merupakan bagian dari server komoditas. Untuk mengurangi dampak dari kegagalan perangkat keras arsitektur Hadoop dibangun untuk mengatasi keterbatasan hardware tidak berfungsi.

Sesi Berikutnya : Pentingnya Database Relasional di Big Data Sesi 9

Copyrighted.com Registered & Protected 
OEKN-4U2C-QPA7-DRKO


EmoticonEmoticon