發表文章

目前顯示的是 1月, 2025的文章

Microsoft Azure 基本概念:描述雲端概念

圖片
  Microsoft Azure 基本概念:描述雲端概念 https://learn.microsoft.com/zh-tw/training/paths/microsoft-azure-fundamentals-describe-cloud-concepts/ 1.描述雲端運算 2.描述使用雲端服務的優點 3.描述雲端服務類型 1.描述雲端運算 什麼是雲端運算? 雲端運算為透過網際網路傳遞的運算服務。 運算服務包括常見的 IT 基礎結構,例如虛擬機器、儲存體、資料庫和網路。 雲端服務也會擴充傳統的 IT 供應項目,包括物聯網 (IoT)、機器學習 (ML),以及人工智慧 (AI)。 責任分擔模式 共同責任模型 傳統的公司資料中心,公司負責維護實體空間、確保安全性,並在發生任何情況時維護或替換伺服器。讓資料中心持續運作所需的一切基礎結構和軟體,則由IT部門負責維護,可能也得負責修補所有系統,並維持正確的版本。 使用共同責任模型後,雲端提供者與取用者就可共同分擔這些責任。實體安全性、電源、冷卻和網路連線是雲端提供者的責任。取用者不會與資料中心共置,因此要求取用者負擔與此相關的任何責任並不合理。同時,取用者須負責處理儲存在雲端的資料和資訊。(您不會想讓雲端提供者讀取您的資訊。)取用者也須負責存取安全性,也就是說,您只會將存取權授與需要的人。 使用雲端提供者時,您一律須負責: 儲存在雲端的資訊和資料 可連線到雲端的裝置 (行動電話、電腦等) 組織內人員、服務和裝置的帳戶與身分識別 下列項目一律由雲端提供者負責: 實體資料中心 實體網路 實體主機 定義雲端模型 三種主要的雲端模型分別是:私人、公用和混合式。 私人雲端 某種程度上來說,私人雲端是公司資料中心的自然演進。 它是一種由單一實體使用的雲端 (透過網際網路提供 IT 服務)。 私人雲端可為公司及其 IT 部門提供更好的控制性。 不過,它的成本較高,也只擁有較少的公用雲端部署優點。 最後,私人雲端可以用您的站台資料中心裝載。 它也可能裝載於專用的異地資料中心,甚至由提供該資料中心給您公司專用的協力廠商裝載。 公用雲端 公用雲端由協力廠商雲端提供者建置、控制和維護。 透過公用雲端,任何想要購買雲端服務的人都可以存取並使用資源。 公用和私人雲端之間的主要差異在於一般公開可用性。 混合式雲端 混合式雲端是一種運算環...

Spark MLlib介紹與使用(2)_線性回歸

圖片
  [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_train.csv 21.6 1:208 15.5 1:152 10.4 1:113 31.0 1:227 13.0 1:137 32.4 1:238 19.0 1:178 10.4 1:104 19.0 1:191 11.8 1:130 26.5 1:220 16.0 1:140 9.5  1:100 28.3 1:200 20.1 1:150 22.6 1:170 24.5 1:200 25   1:185 14.3 1:120 [cloudera@cdh6 ~]$ hdfs dfs -put lr_train.csv [cloudera@cdh6 ~]$ nano lr_test.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_test.csv 16 1:150 9  1:100 28 1:200 20 1:130 [cloudera@cdh6 ~]$ hdfs dfs -put lr_test.csv >>> lr_train = spark.read.format("libsvm").load("lr_train.csv") >>> lr_test = spark.read.format("libsvm").load("lr_test.csv") >>> lr_train.show() +-----+---------------+ |label|       features| +-----+---------------+ | 21.6|(1,[0],[208.0])| | 15.5|(1,[0],[152.0])| | 10.4|(1,[0],[113.0])| | 31.0|(1,[0],[227.0])| | 13.0|(1,[0],[137.0])| | 32.4|(1,[0],[238.0])| | 19.0|(1,...

Spark MLlib介紹與使用(1)_Pipeline觀念

圖片
  https://spark.apache.org/mllib/ https://spark.apache.org/docs/latest/ml-guide.html Apache Spark MLlib是Apache Spark的一個擴展模組,專注於機器學習。 這個Library提供了一系列的機器學習算法和工具,適用於大規模數據處理。 以下是Spark MLlib的一些主要特色和優點: Spark MLlib提供了廣泛的機器學習算法,包括分類、回歸、聚類等等常見的成熟ML演算法。這些算法方便用戶實現從基礎到複雜的數據分析和預測模型。 MLlib有針對Scala、Java、Python和R的API,使開發者能夠輕鬆地在Spark上實現機器學習應用。這些API結構清晰,使得機器學習流程的實施更為直觀和簡單。 MLlib內建於Spark平台之上,能夠利用Spark的強大數據處理能力,輕鬆處理大規模數據集。它支持各種數據格式和存儲系統,如HDFS、Cassandra、HBase等。 由於基於Spark的分布式計算架構,MLlib可橫向擴展至成百上千的節點,以處理或分析巨量數據。此特性使得MLlib非常適合企業級的大數據機器學習應用。 https://spark.apache.org/docs/latest/ml-pipeline.html 在Apache Spark的MLlib中,Pipeline是一個非常重要的概念,其允許用戶以模組化的方式來定義和執行機器學習工作流程。 Pipeline將數據處理和機器學習模型的訓練過程串聯起來,使得整個流程更為高效和容易管理。以下是使用Pipeline的一些主要特色: 組件化提升再利用性: Pipeline由多個可以獨立更換的組件(如數據轉換、模型選擇等)組成,每個組件都有特定的功能。這種模組化設計使得Pipeline易於修改和擴展。已經建立的Pipeline可以輕易地在不同的數據集上重複使用,或者快速修改成適應新的機器學習任務。 一致的工作流程: Pipeline整合了從數據預處理、特徵工程到模型訓練和評估的全過程,每個步驟都以統一的方式進行,整合數據處理和模型訓練。 自動化的數據處理: Pipeline內的數據轉換操作會自動應用於訓練數據和預測數據,確保所有數據都通過相同的預處理步驟,減少錯誤和不一致性。 高效的參數調優...

Ollama本機跑免費輕量級LLM大型語言模型

圖片
  https://ollama.com/ Ollama 是一個由 OpenAI 開發的大型語言模型系列,這些模型是基於 transformer 架構設計的。 https://ollama.com/library/llama3:latest 模型中最新的llama3.3是meta訓練的 大概要47G 很吃電腦容量 llama 3.3 是這個系列中的一個版本,它具有 70B(即 700 億)個參數 ,提供了先進的語言理解和生成能力。 與前一版本 Llama 3.1 相比,Llama 3.3 70B 模型在模型大小和處理效率上進行了優化。儘管 Llama 3.1 擁有 405B(即 4050 億)個參數,但 Llama 3.3 70B 在性能上與之相當,這表明了在參數效率和計算資源使用上的改進。這種模型通常用於各種自然語言處理任務,如文本生成、語言翻譯、內容摘要以及問答系統等。 這裡抓4.7G的llama3版本的Model來測試來測試 看起來資料集對中文背景知識較難cover。 可改用財團法人國家實驗研究院開發並建置的lama模型 https://ollama.com/cwchang/llama3-taide-lx-8b-chat-alpha1 Ref: https://medium.com/@simon3458/project-tame-llama-3-taiwan-1b249b88ab67

Cloudera公司的演進與曾經主流的Hadoop發行商版本_淺談CDH和CDP之間差異

圖片
https://www.whizlabs.com/blog/cloudera-and-hortonworks-merger/ Cloudera、Hortonworks 和 MapR 都是專門從事大數據和 Hadoop 生態系統的公司,他們在大數據領域中各有重要的地位,且各自的發展曲線和合作關係相當有趣。 Cloudera 這間公司是在2009年上市的,是早期 Hadoop 發展的領導者之一,提供基於 Apache Hadoop 的軟體和服務,他們提供了 Cloudera Manager 這項核心產品去整合整個Hadoop生態。相較另外兩間競爭對手來得更強大。以前Cloudera把所有hadoop軟體市場給吃下來,但後續Hadoop又被雲的市場超越了。Cloudera推出的Hadoop發行版主要為 Cloudera Distribution of Hadoop (CDH)  ,但該技術在當時為完全開源的,任何人都可以從其官網免費下載 CDH 進行安裝部署。竟然是開源的話,當時Cloudera又如何盈利呢?事實上產品安裝配置過程會遇到諸多問題,需要有專業人員、顧問來諮詢解決問題。因此Cloudera收入來源為透過這類解決客戶問題方式來收費存活。隨後因為營運問題產品逐漸轉為私有化,轉向訂閱形式按年計費。 Hortonworks 則是於 2011 年從 Yahoo! 分拆出來的公司,同樣專注於開發和支持基於 Hadoop 的平台。在 2018 年末, Cloudera 和 Hortonworks 宣布合併 。合併後的公司保留了 Cloudera 的名稱,目的是結合兩家公司的技術和市場資源,加強在快速變化的大數據市場中的競爭力。過去為了和Cloudera的CDH競爭推出了HDP。Cloudera 跟HortonWorks 合併後,便推出了新的大數據平台CDP,並正逐步停止原有的大數據平台CDH 和HDP。 「Hortonworks」這個名稱來源於著名的Dr. Seuss兒童書中的角色「Horton the Elephant」(霍頓大象)。這家公司選擇這個名字,是因為大象同時也是Hadoop的象徵,而Hadoop正是Hortonworks構建其數據平台的核心技術。 https://zh.wikipedia.org/zh-tw/%E8%8D%B7%E9%A0%93%E5%...