發表文章

目前顯示的是有「HDFS指令」標籤的文章

HDFS指令和cloudera manager網頁管理介面筆記(二)_MapReduce莎士比亞txt檔案分析實作

圖片
  從起初尚未上傳莎士比亞 txt檔案 執行HDFS指令上傳莎士比亞 txt檔案 hdfs dfs -put /home/cloudera/shakespeare.txt 如果不指定hdfs端目錄,則使用家目錄 shakespeare.txt 此檔案約為5.18MB 顯示/user/cloudera/shakespeare.txt由那些hdfs區塊組成 檢查shakespeare.txt的區塊個數 用指令 hdfs fsck -blocks -files /user/cloudera/shakespeare.txt hdfs fsck /user/cloudera/shakespeare.txt -files -blocks 使用Cloudera Manager -> HDFS -> NameNode WebUI WordCout範例 (運行前要確保要被計數的檔案必須存在於HDFS,輸出目錄不能事先存在於HDFS。) ls -l /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar yarn jar /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar hdfs dfs -ls /user/cloudera/wordcount_output/ 來源檔案(位在HDFS,必須已經存在) wordcount的輸出目錄(位在HDFS,但不能已經存在) wordcount_output此檔案位於執行yarn所在機器,不需要事先上傳到HDFS,運行時由resource manager將程式碼傳送到所有執行此操作的Yarn Container中 yarn jar /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar wordcount /user/cloudera/shakespeare.txt /u...

HDFS指令和cloudera manager網頁管理介面筆記

圖片
HDFS 是Apache Hadoop 其中核心,為分散式的檔案系統。 因具有高容錯性的特點,適合建立在低成本的商業設備上。 其設計理念是支持在低價硬件上運用分散式的儲存架構,達到高容錯性 (fault-tolerant)、高吞吐量 (high throughput)。 優點: 採用分散式架構,搜尋、讀取資料快速。 多台機器都有備份,資料不易消失。 缺點: 在寫入資料速度緩慢,因其架構設計是 以一次寫入多次讀取 。 HDFS Read流程圖 在讀取時,可從好幾個Data Node做存取,來快速獲取資料。 HDFS Write流程圖 但寫入時候,寫到某一個Data Node之外,還要做資料複製,備份後還需要等待ACK。 HDFS結構上採取Master/Slave架構,如下面示意圖所示,HDFS的叢集建置由一個NameNode和數個DataNode組成。通常每個Node都包含一個Name Node或Data Node。也可以在同一台機器上有多個Data Node但很少這麼做。 NameNode 是一個控制所有Data Node行為主控端,資料不會透過它傳送,但會保存哪個Data Node有哪些資料的資訊,俗稱metadata,也可控制Client端對資料存取。 更重要的就是NameNode還控制Name Space,所謂Name Space就是讓使用者看到的HDFS只是一大塊空間,可在裡面創建資料,使用者並不知道實際上資料被存放到哪個node,更不知道真實路徑,只會知道在HDFS裡面的路徑,真實資料就存在Name Node當中,包括所有備份檔位置。 HDFS在有資料請求情況下會由 NameNode(Master)下的中間資料來進行對DataNode(Slave)的資料存取。 Cloudera Distribution Hadoop (CDH) 是 Cloudera 公司推出的 Big Data Solution,目的是為了讓各個企業能夠輕鬆部署自己的 Cloud,讓更多公司能夠導入 Hadoop 資來做使用,減低入門門檻。此外CDH 是屬於Apache 眾多的 Open Source Project之一。 CDH 包含了 Hadoop、HBase、Hive、Pig、Impala、Spark,使用者不需要像之前要一個個系統去建立安裝,先安裝好CDH,之後直接把其他...