CDH Hadoop集群虛擬機本地配置搭建筆記_part8_透過Cloudera Manager(6.3)_安裝自訂服務YARN,Hive及Spark

CDH Hadoop集群虛擬機本地配置搭建筆記_part8_透過Cloudera Manager(6.3)_安裝自訂服務YARN,Hive及Spark

- 2月 11, 2025

接續前面篇章

CDH Hadoop集群虛擬機本地配置搭建筆記

part1透過VMWare創建3台虛擬機(各節點的網路配置)

part2_配置yum local repo

part3_集群NTP時間同步配置(ntpd,ntpdate)

part4_安裝Java與MySQL配置_建立CDH預設資料庫

part5_安裝Cloudera Manager(6.3) Server跟Agent(關閉透明巨頁配置)

part6_透過Cloudera Manager(6.3)_安裝自訂服務ZooKeeper

part7_透過Cloudera Manager(6.3)_安裝自訂服務HDFS並啟動高可靠(HA)

https://www.linkedin.com/pulse/hadoop-ecosystem-components-smriti-saini/

這邊要注意Spark和Hive這類服務安裝

都必須等到YARN安裝好才能接續安裝，因為是跑在YARN之上。

安裝YARN

配置Resource Manager 就host1, JobHitory Server 就host1, NodeManager三台

用默認分配即可

安裝過程可切換到All Hosts開分頁查看記憶體使用狀況

安裝好最後一步驟Finish跳回主頁就可以多看到YARN

安裝Hive

先將mysql連線用到的數據驅動jar上傳到以下路徑

/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hive/lib

上傳好後再做Add Service

自訂角色分配(這邊用默認)

事實上Hive資料庫搭配除了這邊用的MySQL之外也支援PostgreSQL,Oracle

這邊Test 一下Connection

Hive Warehouse Directory (這邊都用默認即可)

/user/hive/warehouse

這邊就可以看到Hive

不過預設會看到CPU配置不足，這邊放著就好，因為剛好都配置一顆CPU。

硬體資源不足

後來又將CPU改降為各自都1顆，後續再觀察。

VM跑會讓電腦十分卡頓....> ~ <||| God

若要確認目前自己電腦的CPU 跟相關資訊可以打指令查看

WMIC CPU Get NumberOfCores

WMIC CPU Get DeviceID,NumberOfCores,NumberOfLogicalProcessors

安裝Spark

選擇Spark

Apache Spark is an open source cluster computing system. This service runs Spark as an application on YARN.

這邊預設配置即可

可點開來看目前各節點角色配置

這邊都先不用特別配置就跳下一步做指令安裝

當完成步驟後可以展開執行步驟

看到底層幫忙配置的

Spark User Dir

Spark History Log Dir

Spark Driver Log Dir

按完Finish跳回首頁就可以看到多出了Spark圖示

點入State Confirguration

這邊把Hive,Spark 給Restart

背後會去執行特定任務的shell

重啟後就又都會變綠色正常了

Spark後台配置介面

History Service WebUI

留言