發表文章

目前顯示的是 2024的文章

HDFS指令和cloudera manager網頁管理介面筆記

圖片
cloudera manager網頁管理介面 (另外一套 Apache Ambari 也是類似網頁管理工具,是開源的。) Cloudera Manager是Cloudera專門for Hadoop所釋出的管理工具,分免費與企業版本。  點開NameNode網頁介面 Browse the file system 在 Hadoop 的 HDFS 架構中,NameNode 是核心元件之一。 它的兩個主要 Port 分別具有不同的用途: 一個是8020的 RPC port 用於 DataNode 和 NameNode 之間的內部通信。 客戶端(例如 Hadoop 的 FileSystem API 或 CLI)會通過這個 Port 與 NameNode 交互,執行文件系統相關的操作(例如讀寫文件、創建目錄、刪除文件等)。 負責處理 Hadoop Distributed File System (HDFS) 的 RPC(Remote Procedure Call)請求。 一個是web ui port CDH5版本50070    (Hadoop 1.x) CDH6版本9870     (Hadoop 2.x 及以上版本) 提供 Web 介面,讓用戶可以通過瀏覽器查看 HDFS 的狀態和統計信息。 支援用戶檢視文件系統的目錄結構、DataNode 的狀態、內存使用情況、複製因數等。 適用於系統監控和管理。 通常可以在 Hadoop 配置檔案(如 core-site.xml 和 hdfs-site.xml)中找到相關設定。 Hadoop 配置檔案路徑確認 ls -l /etc/hadoop/conf/ cat /etc/hadoop/conf/core-site.xml cat /etc/hadoop/conf/ hdfs-site.xml 其他配置檔路徑 Spark: ls -l /etc/spark/conf/ Hive: ls -l /etc/hive/conf/ Apache Flume: ls -l /etc/flume-ng/conf/ 目前登入的os user資訊 查看hdfs block的副本個數( 正式環境建議要設置至少3個) cat /etc/hadoop/conf/hdfs-site.xml | gre...

Enterprise Big Data Professional(EBDP)_學習筆記_3.Big Data Strategy_六大業務驅動_制定大數據策略5個步驟

圖片
https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 大數據策略需求六大業務驅動 數位化社會形成:大多數人每天上網時間至少6~7小時 技術成本大幅下降: 儲存和處裡數據技術成本急遽下降,1TB硬碟自2020年4070美元到2022年降至14.30美元。 始終透過雲端連接: 提供可擴展性、數據共享、協作並改善管理 數據知識的提升 社群媒體興盛 物聯網技術廣泛興起 制定大數據策略5個步驟 1.定義業務目標 :目標要可被度量,大數據策略也要跟企業策略保持一致,需要高階主管參與。 Ex:提高客戶滿意度、提高經營績效.... 遵循SMART原則 Specific 詳細明確, Measurable 可量測 Agreed Upon 協商一致 Realistic 現實的 Time-based基於時間的 2.執行現況評估 可採用企業大數框架成熟度模型評估,結果可用於定義路線圖。 3.識別用例並排優先級 優先級矩陣(橫軸:實施可行性,縱軸:商業價值),促進業務和IT利益相關者之間討論和辯論。 用例是解決業務挑戰的具體解決方案,使策略具有可操作性,可作為專案分配給團隊。 Ex:行銷支出優化、客戶區分、市場整體分析.... 4.制定大數據路線圖 用例順序、時間軸 角色和職責指派 預算編排 5.錨定數據驅動結果 變革管理,數據驅動文化。 新工作方式、新流程

Enterprise Big Data Professional(EBDP)_學習筆記_2.企業大數據框架6大核心能力與成熟度模型

圖片
https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 企業大數據框架是一種結構化方法,由六個核心能力組成,由30個微觀能力組成。 大數據策略(BIG DATA STRATEGY):投資理由、目標、投資報酬率? 大數據架構(BIG DATA ARCHITECTURE):80%成本結構,分散式儲存,處裡技術。 大數據演算法(BIG DATA ALGORITHMS):處裡數據基本能力、統計學&演算法 大數據流程(BIG DATA PROCESSES): 數據的分析、治理、管理流程,帶來結構及可度量步驟,並可每天有效管理。 為目標帶來承先啟後的行動綱領。 大數據職能(BIG DATA FUNCTIONS):必須依靠人的能力來執行(組織結構、工作角色) 人工智慧(ARTIFICIAL INTELLIGENCE):最後框架外圍AI,需依賴大數據的能力來訓練和開發模型。 企業大數據框架成熟度評估 它基於大數據框架的六個能力,以及基於卡內基梅隆軟體工程研究院(Carnegie Mellon Software Engineering Institute)所 開發的五點能力成熟度模型 (five point Capability Maturity Model , CMM)量表,衡量企業大數據在每項能力上的成熟度。 CMM為組織 提供指導,以 確定其當前流程的成熟度,並制定改進軟體品質和流程的策略。 它包括以下五個階段: Level 0-Absent 完全無意識缺席 Level 1-Initial         / Analytically Impaired   分析能力障礙級(混亂和臨時活動) 整個企業當中有極少的分析活動和相關的基礎架構,數據與分析策略都很模糊。 Level 2-Managed   / Localised Analytics  分析能力本地級(初始活動) 整個企業的分析,僅是在孤立的(獨立式的)運作,或是對於數據與分析,都沒有總體策略。 Level 3-Defined     / Analytica...

Enterprise Big Data Professional(EBDP)_學習筆記_5.Big Data Algorithms

圖片
https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 現代統計學 描述型統計 統計推論 描述型統計是統計學的一個分支 描述型統計(descriptive statistics)三種類型 集中趨勢統計(Central Tendency Statistics) 提供了對數據「中心」或典型值的洞察,助於了解大多數數據點聚集的位置。 1-1.Mean(平均數):所有數值的總和除以數值的數量。 對異常值較敏感。 1-2.Median(中位數):是數據由小到大排序後,位於中間的值。 受異常值影響較小,可更好了解偏態數據集(skewed datasets)。 當資料N個,N為偶數個,則取第N/2跟N/2+1的數來取平均值。 2、2、4、 5、7 、8、9、10   ->Median:(5+7)/2= 6 當資料N個,N為奇數個,則取第(N+1)/2的數 2、2、4、5、 7 、8、9、10、13   ->Median: 7 1-3.Mode(眾數):數據集中出現最頻繁的數。 對分類數據較有幫助,並不受極端值影響。 離散統計:可量化數據點圍繞在中心值的分佈或變異性 2-1.Range(全距):數據中最大值和最小值相減差值。 2-2.Interquartile Range,IQR(四分位數區間距):也稱為中間分佈或中間50%。 第一個四分位數25%跟第三個四分位數75%之間範圍。 搭配圖: 箱型(鬚)圖 先升序排列取得中位數(Q2),之後分別計算下半部中位數(Q1)跟上半部中位數(Q3)。 在計算IQR = Q3-Q1 2-3.Variance(變異數):度量單一數據點偏離平均值的程度,涉及對每個數據點和平均值之間的差異,進行平方,對這些平方在求和,之後除以數據點的數量。 先求平均值,之後每個數據再減去平均值計算出偏差(有正負),做平方(對數字大有懲罰效應,數字大的會更大)消彌正負號,但單位也平方了。之後求平均後即變異數。 2-4.Standard Deviation(標準差):變異數的平方根,表示數據點和平均值的平均偏差。標準差愈大,表示離散程度愈大,較低標準差表示數據點較緊密聚集在平均值周圍。量化...

Apache Spark筆記01_架構與介紹

圖片
  Apache Spark架構圖 什麼是 Apache Spark? Apache Spark 是一個用於大規模資料處理的快速通用引擎。 它 比僅使用 RAM 的 MapReduce 快大約 100 倍 ,如果使用磁碟則快 10 倍。 它建立在與 MapReduce 類似的範例之上。 它與 Hadoop 整合良好,因為它可以在 YARN 之上運行並可以存取 HDFS。 上述架構圖 資源/叢集資源管理器: 是一種軟體元件,用於管理叢集中連接的機器的各種資源,例如記憶體、磁碟、CPU。 Apache Spark 可以在許多叢集資源管理器(例如 YARN、Amazon EC2 或 Mesos)之上運作。 如果還沒有任何資源管理器,則可以在獨立模式下使用 Apache Spark。 Apache Spark 附帶了一組很棒的函式庫如下: Data frames 提供了一種以表格結構表示資料的通用方法。 可使 R 或 SQL 操作查詢資料變得可行,而無需編寫大量程式碼。 Streaming Library 使得使用 Spark 處理快速傳入的海量資料流成為可能。 MLLib是一個非常豐富的機器學習函式庫。 它提供了以分散式方式運行的非常複雜的演算法。 GraphX使得用圖表表示大量資料變得非常簡單。其證明了使用多台電腦處理圖形的演算法庫。 像是以下這些應用情境都適用於Spark 對HDFS中儲存的大數據執行ETL(提取-轉換-載入) 產生推薦,針對大量使用者的協同過濾 執行複雜的圖形計算,例如 PageRank(Google 搜尋) 使用機器學習執行即時詐欺偵測 為何Spark會比Hadoop HDFS機制來得更快呢? 回顧Map Reduce流程 在 MapReduce 中,使用者需要建立兩個程式或函數:map 和 reduce,然後提交這些任務。 MapReduce 的運行流程如下: 從 HDFS 讀取數據,並將 MapReduce 的結果回存至 HDFS。 當然多階段的 MapReduce 是非常常見的。如果任務有多個 MapReduce 階段,那麼當第一個階段將數據寫入 HDFS 後,第二個階段會從 HDFS 讀取相同的數據,這導致了大量的延遲。 Hadoop MapReduce 的缺點如下: 批量設計(Batchwise design):每個 MapRed...