Hadoop筆記02_HDFS(Hadoop分散式檔案系統)_架構初探
HDFS(Hadoop分散式檔案系統)特色:
- 源自Google 2003發表的GFS( Google File System )論文https://static.googleusercontent.com/media/research.google.com/zh-TW//archive/gfs-sosp2003.pdf
Hadoop的HDFS其實是GFS的clone版本 - 具有可擴展性、高容錯性及海量數據儲存。
- 把文件切分成指定大小的數據塊(block)並且以多副本方式儲存在多台機器上。
- 數據切分、多副本、容錯相關操作,對於使用者而言是不需感知、十分透明。
預設的blocksize為128M
假設文件 test.log ->200M
拆分為2個block分別是 block1 : 128M , block2:72M
副本默認有三個,可能分散在不同節點上。但用戶去存取時不需要去知道從哪個node抓取到。
node1:block1 block2
node2:
node3:block2
node4:block1 block2
node5:block1
倘若某節點掛掉還有其他節點能代替做存取。
以上述圖來看,檔案拆分為part0 , part1
r代表副本有幾個,Datanode也就是儲存數據的節點。
part0就有針對1,3各自於不同節點有2份副本
part1則針對2,4,5各自於不同節點共3份副本。
Ref:
The Google File System 論文筆記
https://hackmd.io/@Chang-Chia-Chi/GFS
Google 檔案系統 (GFS) 與 Hadoop 分散式檔案系統 (HDFS)
https://www.geeksforgeeks.org/google-file-system-gfs-vs-hadoop-distributed-file-system-hdfs/
HDFS Architecture Guide
留言
張貼留言