Hadoop筆記02_HDFS(Hadoop分散式檔案系統)

HDFS(Hadoop分散式檔案系統)特色:

源自Google 2003發表的GFS( Google File System )論文https://static.googleusercontent.com/media/research.google.com/zh-TW//archive/gfs-sosp2003.pdf
Hadoop的HDFS其實是GFS的clone版本
具有可擴展性、高容錯性及海量數據儲存。
把文件切分成指定大小的數據塊(block)並且以多副本方式儲存在多台機器上。
數據切分、多副本、容錯相關操作，對於使用者而言是不需感知、十分透明。

預設的blocksize為128M

假設文件 test.log ->200M

拆分為2個block分別是 block1 : 128M , block2:72M

副本默認有三個，可能分散在不同節點上。但用戶去存取時不需要去知道從哪個node抓取到。

node1:block1 block2

node2:

node3:block2

node4:block1 block2

node5:block1

倘若某節點掛掉還有其他節點能代替做存取。

Data Replication

以上述圖來看，檔案拆分為part0 , part1

r代表副本有幾個，Datanode也就是儲存數據的節點。

part0就有針對1,3各自於不同節點有2份副本

part1則針對2,4,5各自於不同節點共3份副本。

Ref:

The Google File System 論文筆記

https://hackmd.io/@Chang-Chia-Chi/GFS

Google 檔案系統 (GFS) 與 Hadoop 分散式檔案系統 (HDFS)

https://www.geeksforgeeks.org/google-file-system-gfs-vs-hadoop-distributed-file-system-hdfs/

HDFS Architecture Guide

第25個冬天