發表文章

目前顯示的是有「Spark MLlib」標籤的文章

Spark MLlib介紹與使用(2)_線性回歸

圖片
  [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_train.csv 21.6 1:208 15.5 1:152 10.4 1:113 31.0 1:227 13.0 1:137 32.4 1:238 19.0 1:178 10.4 1:104 19.0 1:191 11.8 1:130 26.5 1:220 16.0 1:140 9.5  1:100 28.3 1:200 20.1 1:150 22.6 1:170 24.5 1:200 25   1:185 14.3 1:120 [cloudera@cdh6 ~]$ hdfs dfs -put lr_train.csv [cloudera@cdh6 ~]$ nano lr_test.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_test.csv 16 1:150 9  1:100 28 1:200 20 1:130 [cloudera@cdh6 ~]$ hdfs dfs -put lr_test.csv >>> lr_train = spark.read.format("libsvm").load("lr_train.csv") >>> lr_test = spark.read.format("libsvm").load("lr_test.csv") >>> lr_train.show() +-----+---------------+ |label|       features| +-----+---------------+ | 21.6|(1,[0],[208.0])| | 15.5|(1,[0],[152.0])| | 10.4|(1,[0],[113.0])| | 31.0|(1,[0],[227.0])| | 13.0|(1,[0],[137.0])| | 32.4|(1,[0],[238.0])| | 19.0|(1,...

Spark MLlib介紹與使用(1)_Pipeline觀念

圖片
  https://spark.apache.org/mllib/ https://spark.apache.org/docs/latest/ml-guide.html Apache Spark MLlib是Apache Spark的一個擴展模組,專注於機器學習。 這個Library提供了一系列的機器學習算法和工具,適用於大規模數據處理。 以下是Spark MLlib的一些主要特色和優點: Spark MLlib提供了廣泛的機器學習算法,包括分類、回歸、聚類等等常見的成熟ML演算法。這些算法方便用戶實現從基礎到複雜的數據分析和預測模型。 MLlib有針對Scala、Java、Python和R的API,使開發者能夠輕鬆地在Spark上實現機器學習應用。這些API結構清晰,使得機器學習流程的實施更為直觀和簡單。 MLlib內建於Spark平台之上,能夠利用Spark的強大數據處理能力,輕鬆處理大規模數據集。它支持各種數據格式和存儲系統,如HDFS、Cassandra、HBase等。 由於基於Spark的分布式計算架構,MLlib可橫向擴展至成百上千的節點,以處理或分析巨量數據。此特性使得MLlib非常適合企業級的大數據機器學習應用。 https://spark.apache.org/docs/latest/ml-pipeline.html 在Apache Spark的MLlib中,Pipeline是一個非常重要的概念,其允許用戶以模組化的方式來定義和執行機器學習工作流程。 Pipeline將數據處理和機器學習模型的訓練過程串聯起來,使得整個流程更為高效和容易管理。以下是使用Pipeline的一些主要特色: 組件化提升再利用性: Pipeline由多個可以獨立更換的組件(如數據轉換、模型選擇等)組成,每個組件都有特定的功能。這種模組化設計使得Pipeline易於修改和擴展。已經建立的Pipeline可以輕易地在不同的數據集上重複使用,或者快速修改成適應新的機器學習任務。 一致的工作流程: Pipeline整合了從數據預處理、特徵工程到模型訓練和評估的全過程,每個步驟都以統一的方式進行,整合數據處理和模型訓練。 自動化的數據處理: Pipeline內的數據轉換操作會自動應用於訓練數據和預測數據,確保所有數據都通過相同的預處理步驟,減少錯誤和不一致性。 高效的參數調優...