第25個冬天

發表文章

目前顯示的是有「Spark MLlib」標籤的文章

Spark MLlib介紹與使用(2)_線性回歸

- 1月 04, 2025

[cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_train.csv 21.6 1:208 15.5 1:152 10.4 1:113 31.0 1:227 13.0 1:137 32.4 1:238 19.0 1:178 10.4 1:104 19.0 1:191 11.8 1:130 26.5 1:220 16.0 1:140 9.5 1:100 28.3 1:200 20.1 1:150 22.6 1:170 24.5 1:200 25 1:185 14.3 1:120 [cloudera@cdh6 ~]$ hdfs dfs -put lr_train.csv [cloudera@cdh6 ~]$ nano lr_test.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_test.csv 16 1:150 9 1:100 28 1:200 20 1:130 [cloudera@cdh6 ~]$ hdfs dfs -put lr_test.csv >>> lr_train = spark.read.format("libsvm").load("lr_train.csv") >>> lr_test = spark.read.format("libsvm").load("lr_test.csv") >>> lr_train.show() +-----+---------------+ |label| features| +-----+---------------+ | 21.6|(1,[0],[208.0])| | 15.5|(1,[0],[152.0])| | 10.4|(1,[0],[113.0])| | 31.0|(1,[0],[227.0])| | 13.0|(1,[0],[137.0])| | 32.4|(1,[0],[238.0])| | 19.0|(1,...

閱讀完整內容

Spark MLlib介紹與使用(1)_Pipeline觀念

- 1月 04, 2025

https://spark.apache.org/mllib/ https://spark.apache.org/docs/latest/ml-guide.html Apache Spark MLlib是Apache Spark的一個擴展模組，專注於機器學習。這個Library提供了一系列的機器學習算法和工具，適用於大規模數據處理。以下是Spark MLlib的一些主要特色和優點： Spark MLlib提供了廣泛的機器學習算法，包括分類、回歸、聚類等等常見的成熟ML演算法。這些算法方便用戶實現從基礎到複雜的數據分析和預測模型。 MLlib有針對Scala、Java、Python和R的API，使開發者能夠輕鬆地在Spark上實現機器學習應用。這些API結構清晰，使得機器學習流程的實施更為直觀和簡單。 MLlib內建於Spark平台之上，能夠利用Spark的強大數據處理能力，輕鬆處理大規模數據集。它支持各種數據格式和存儲系統，如HDFS、Cassandra、HBase等。由於基於Spark的分布式計算架構，MLlib可橫向擴展至成百上千的節點，以處理或分析巨量數據。此特性使得MLlib非常適合企業級的大數據機器學習應用。 https://spark.apache.org/docs/latest/ml-pipeline.html 在Apache Spark的MLlib中，Pipeline是一個非常重要的概念，其允許用戶以模組化的方式來定義和執行機器學習工作流程。 Pipeline將數據處理和機器學習模型的訓練過程串聯起來，使得整個流程更為高效和容易管理。以下是使用Pipeline的一些主要特色：組件化提升再利用性： Pipeline由多個可以獨立更換的組件（如數據轉換、模型選擇等）組成，每個組件都有特定的功能。這種模組化設計使得Pipeline易於修改和擴展。已經建立的Pipeline可以輕易地在不同的數據集上重複使用，或者快速修改成適應新的機器學習任務。一致的工作流程： Pipeline整合了從數據預處理、特徵工程到模型訓練和評估的全過程，每個步驟都以統一的方式進行，整合數據處理和模型訓練。自動化的數據處理： Pipeline內的數據轉換操作會自動應用於訓練數據和預測數據，確保所有數據都通過相同的預處理步驟，減少錯誤和不一致性。高效的參數調優...

閱讀完整內容