發表文章

CDH Hadoop集群虛擬機本地配置搭建筆記_part8_透過Cloudera Manager(6.3)_安裝自訂服務YARN,Hive及Spark

圖片
 接續前面篇章 CDH Hadoop集群虛擬機本地配置搭建筆記 part1透過VMWare創建3台虛擬機(各節點的網路配置) part2_配置yum local repo part3_集群NTP時間同步配置(ntpd,ntpdate) part4_安裝Java與MySQL配置_建立CDH預設資料庫 part5_安裝Cloudera Manager(6.3) Server跟Agent(關閉透明巨頁配置) part6_透過Cloudera Manager(6.3)_安裝自訂服務ZooKeeper part7_透過Cloudera Manager(6.3)_安裝自訂服務HDFS並啟動高可靠(HA) https://www.linkedin.com/pulse/hadoop-ecosystem-components-smriti-saini/ 這邊要注意Spark和Hive這類服務安裝 都必須等到YARN安裝好才能接續安裝,因為是跑在YARN之上。 安裝YARN 配置Resource Manager 就host1, JobHitory Server 就host1, NodeManager三台 用默認分配即可 安裝過程可切換到All Hosts開分頁查看記憶體使用狀況 安裝好最後一步驟Finish跳回主頁就可以多看到YARN 安裝Hive 先將mysql連線用到的數據驅動jar上傳到以下路徑 /opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hive/lib 上傳好後再做Add Service 自訂角色分配(這邊用默認) 事實上Hive資料庫搭配除了這邊用的MySQL之外也支援PostgreSQL,Oracle 這邊Test 一下Connection Hive Warehouse Directory (這邊都用默認即可) /user/hive/warehouse 這邊就可以看到Hive 不過預設會看到CPU配置不足,這邊放著就好,因為剛好都配置一顆CPU。 硬體資源不足 後來又將CPU改降為各自都1顆,後續再觀察。 VM跑會讓電腦十分卡頓....> ~ <||| God 若要確認目前自己電腦的CPU 跟 相關資訊可以打指令查看 WMIC CPU Get NumberOfCores WMIC ...

CDH Hadoop集群虛擬機本地配置搭建筆記_part7_透過Cloudera Manager(6.3)_安裝自訂服務HDFS並啟動高可靠(HA)

圖片
 接續前面篇章 CDH Hadoop集群虛擬機本地配置搭建筆記 part1透過VMWare創建3台虛擬機(各節點的網路配置) part2_配置yum local repo part3_集群NTP時間同步配置(ntpd,ntpdate) part4_安裝Java與MySQL配置_建立CDH預設資料庫 part5_安裝Cloudera Manager(6.3) Server跟Agent(關閉透明巨頁配置) part6_透過Cloudera Manager(6.3)_安裝自訂服務ZooKeeper 回到首頁 http://192.168.80.81:7180/cmf/home 選中 HDFS Assign Roles 這邊將 DataNode 選擇All Hosts NameNode為Host1 SecondaryNameNode為Host2 其他NFS Gateway , HttpFS 可以先不用特別選,比較核心重要上述三種。 Review Changes 等待綠色勾全部顯示再Continue 把一些false alarm先給supress掉 Erasure Coding Policy Verification Test Concerning : 9 DataNodes are required for the erasure coding policies: RS-6-3-1024k. The number of DataNodes is only 3. Java Heap Size of NameNode in Bytes is recommended to be at least 1GB for every million HDFS blocks. Suggested minimum value: 4.0 GiB File Browser頁面 NameNode WebUI host:9870 http://192.168.80.81:9870/ Datanode Information Browse Directory Name Node High Availability(高可用性)配置的必要性 HDFS的metadata基本上都存紀錄於Name Node中 個別的Data Node並不知道自身存放的HDFS Block屬於或如何組成HDFS file。...