發表文章

T-SQL筆記60_Database Mail設定檔確認指令

列出一或多個郵件設定檔的相關資訊。 EXECUTE msdb.dbo.sysmail_help_profile_sp 列出一或多個Database Mail 設定檔的相關帳戶。 EXECUTE msdb.dbo.sysmail_help_profileaccount_sp 列出Database Mail 帳戶的相關資訊(密碼除外)。 EXECUTE msdb.dbo.sysmail_help_account_sp 列出Database Mail設定檔 SELECT * FROM msdb.dbo.sysmail_profile 列出Database Mail帳戶 SELECT * FROM msdb.dbo.sysmail_account 列出設定檔對應的帳戶 select * from msdb.dbo.sysmail_profileaccount

T-SQL筆記59_條列角色與對應成員清單_檢查某個角色下授權的存取清單

條列角色與對應成員清單 WITH RoleMembers (member_principal_id, role_principal_id) AS ( SELECT rm1.member_principal_id, rm1.role_principal_id FROM sys.database_role_members rm1 (NOLOCK) UNION ALL SELECT d.member_principal_id, rm.role_principal_id FROM sys.database_role_members rm (NOLOCK) INNER JOIN RoleMembers AS d ON rm.member_principal_id = d.role_principal_id ) select distinct rp.name as database_role, mp.name as database_userl from RoleMembers drm join sys.database_principals rp on (drm.role_principal_id = rp.principal_id) join sys.database_principals mp on (drm.member_principal_id = mp.principal_id) order by rp.name 檢查某個角色下授權的存取清單(以USER_TABLE來篩) SELECT DB_NAME() AS 'DBName' ,p.[name] AS 'PrincipalName' ,p.[type_desc] AS 'PrincipalType' ,p2.[name] AS 'GrantedBy' ,dbp.[permission_name] ,dbp.[state_desc] ,so.name AS 'ObjectName' ,so.[type_de...

Microsoft Azure 基本概念:描述雲端概念

圖片
  Microsoft Azure 基本概念:描述雲端概念 https://learn.microsoft.com/zh-tw/training/paths/microsoft-azure-fundamentals-describe-cloud-concepts/ 1.描述雲端運算 2.描述使用雲端服務的優點 3.描述雲端服務類型 1.描述雲端運算 什麼是雲端運算? 雲端運算為透過網際網路傳遞的運算服務。 運算服務包括常見的 IT 基礎結構,例如虛擬機器、儲存體、資料庫和網路。 雲端服務也會擴充傳統的 IT 供應項目,包括物聯網 (IoT)、機器學習 (ML),以及人工智慧 (AI)。 責任分擔模式 共同責任模型 傳統的公司資料中心,公司負責維護實體空間、確保安全性,並在發生任何情況時維護或替換伺服器。讓資料中心持續運作所需的一切基礎結構和軟體,則由IT部門負責維護,可能也得負責修補所有系統,並維持正確的版本。 使用共同責任模型後,雲端提供者與取用者就可共同分擔這些責任。實體安全性、電源、冷卻和網路連線是雲端提供者的責任。取用者不會與資料中心共置,因此要求取用者負擔與此相關的任何責任並不合理。同時,取用者須負責處理儲存在雲端的資料和資訊。(您不會想讓雲端提供者讀取您的資訊。)取用者也須負責存取安全性,也就是說,您只會將存取權授與需要的人。 使用雲端提供者時,您一律須負責: 儲存在雲端的資訊和資料 可連線到雲端的裝置 (行動電話、電腦等) 組織內人員、服務和裝置的帳戶與身分識別 下列項目一律由雲端提供者負責: 實體資料中心 實體網路 實體主機 定義雲端模型 三種主要的雲端模型分別是:私人、公用和混合式。 私人雲端 某種程度上來說,私人雲端是公司資料中心的自然演進。 它是一種由單一實體使用的雲端 (透過網際網路提供 IT 服務)。 私人雲端可為公司及其 IT 部門提供更好的控制性。 不過,它的成本較高,也只擁有較少的公用雲端部署優點。 最後,私人雲端可以用您的站台資料中心裝載。 它也可能裝載於專用的異地資料中心,甚至由提供該資料中心給您公司專用的協力廠商裝載。 公用雲端 公用雲端由協力廠商雲端提供者建置、控制和維護。 透過公用雲端,任何想要購買雲端服務的人都可以存取並使用資源。 公用和私人雲端之間的主要差異在於一般公開可用性。 混合式雲端 混合式雲端是一種運算環...

Spark MLlib介紹與使用(2)_線性回歸

圖片
  [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ nano lr_train.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_train.csv 21.6 1:208 15.5 1:152 10.4 1:113 31.0 1:227 13.0 1:137 32.4 1:238 19.0 1:178 10.4 1:104 19.0 1:191 11.8 1:130 26.5 1:220 16.0 1:140 9.5  1:100 28.3 1:200 20.1 1:150 22.6 1:170 24.5 1:200 25   1:185 14.3 1:120 [cloudera@cdh6 ~]$ hdfs dfs -put lr_train.csv [cloudera@cdh6 ~]$ nano lr_test.csv [cloudera@cdh6 ~]$ [cloudera@cdh6 ~]$ cat lr_test.csv 16 1:150 9  1:100 28 1:200 20 1:130 [cloudera@cdh6 ~]$ hdfs dfs -put lr_test.csv >>> lr_train = spark.read.format("libsvm").load("lr_train.csv") >>> lr_test = spark.read.format("libsvm").load("lr_test.csv") >>> lr_train.show() +-----+---------------+ |label|       features| +-----+---------------+ | 21.6|(1,[0],[208.0])| | 15.5|(1,[0],[152.0])| | 10.4|(1,[0],[113.0])| | 31.0|(1,[0],[227.0])| | 13.0|(1,[0],[137.0])| | 32.4|(1,[0],[238.0])| | 19.0|(1,...

Spark MLlib介紹與使用(1)_Pipeline觀念

圖片
  https://spark.apache.org/mllib/ https://spark.apache.org/docs/latest/ml-guide.html Apache Spark MLlib是Apache Spark的一個擴展模組,專注於機器學習。 這個Library提供了一系列的機器學習算法和工具,適用於大規模數據處理。 以下是Spark MLlib的一些主要特色和優點: Spark MLlib提供了廣泛的機器學習算法,包括分類、回歸、聚類等等常見的成熟ML演算法。這些算法方便用戶實現從基礎到複雜的數據分析和預測模型。 MLlib有針對Scala、Java、Python和R的API,使開發者能夠輕鬆地在Spark上實現機器學習應用。這些API結構清晰,使得機器學習流程的實施更為直觀和簡單。 MLlib內建於Spark平台之上,能夠利用Spark的強大數據處理能力,輕鬆處理大規模數據集。它支持各種數據格式和存儲系統,如HDFS、Cassandra、HBase等。 由於基於Spark的分布式計算架構,MLlib可橫向擴展至成百上千的節點,以處理或分析巨量數據。此特性使得MLlib非常適合企業級的大數據機器學習應用。 https://spark.apache.org/docs/latest/ml-pipeline.html 在Apache Spark的MLlib中,Pipeline是一個非常重要的概念,其允許用戶以模組化的方式來定義和執行機器學習工作流程。 Pipeline將數據處理和機器學習模型的訓練過程串聯起來,使得整個流程更為高效和容易管理。以下是使用Pipeline的一些主要特色: 組件化提升再利用性: Pipeline由多個可以獨立更換的組件(如數據轉換、模型選擇等)組成,每個組件都有特定的功能。這種模組化設計使得Pipeline易於修改和擴展。已經建立的Pipeline可以輕易地在不同的數據集上重複使用,或者快速修改成適應新的機器學習任務。 一致的工作流程: Pipeline整合了從數據預處理、特徵工程到模型訓練和評估的全過程,每個步驟都以統一的方式進行,整合數據處理和模型訓練。 自動化的數據處理: Pipeline內的數據轉換操作會自動應用於訓練數據和預測數據,確保所有數據都通過相同的預處理步驟,減少錯誤和不一致性。 高效的參數調優...

Ollama本機跑免費輕量級LLM大型語言模型

圖片
  https://ollama.com/ Ollama 是一個由 OpenAI 開發的大型語言模型系列,這些模型是基於 transformer 架構設計的。 https://ollama.com/library/llama3:latest 模型中最新的llama3.3是meta訓練的 大概要47G 很吃電腦容量 llama 3.3 是這個系列中的一個版本,它具有 70B(即 700 億)個參數 ,提供了先進的語言理解和生成能力。 與前一版本 Llama 3.1 相比,Llama 3.3 70B 模型在模型大小和處理效率上進行了優化。儘管 Llama 3.1 擁有 405B(即 4050 億)個參數,但 Llama 3.3 70B 在性能上與之相當,這表明了在參數效率和計算資源使用上的改進。這種模型通常用於各種自然語言處理任務,如文本生成、語言翻譯、內容摘要以及問答系統等。 這裡抓4.7G的llama3版本的Model來測試來測試 看起來資料集對中文背景知識較難cover。 可改用財團法人國家實驗研究院開發並建置的lama模型 https://ollama.com/cwchang/llama3-taide-lx-8b-chat-alpha1 Ref: https://medium.com/@simon3458/project-tame-llama-3-taiwan-1b249b88ab67

Cloudera公司的演進與曾經主流的Hadoop發行商版本_淺談CDH和CDP之間差異

圖片
https://www.whizlabs.com/blog/cloudera-and-hortonworks-merger/ Cloudera、Hortonworks 和 MapR 都是專門從事大數據和 Hadoop 生態系統的公司,他們在大數據領域中各有重要的地位,且各自的發展曲線和合作關係相當有趣。 Cloudera 這間公司是在2009年上市的,是早期 Hadoop 發展的領導者之一,提供基於 Apache Hadoop 的軟體和服務,他們提供了 Cloudera Manager 這項核心產品去整合整個Hadoop生態。相較另外兩間競爭對手來得更強大。以前Cloudera把所有hadoop軟體市場給吃下來,但後續Hadoop又被雲的市場超越了。Cloudera推出的Hadoop發行版主要為 Cloudera Distribution of Hadoop (CDH)  ,但該技術在當時為完全開源的,任何人都可以從其官網免費下載 CDH 進行安裝部署。竟然是開源的話,當時Cloudera又如何盈利呢?事實上產品安裝配置過程會遇到諸多問題,需要有專業人員、顧問來諮詢解決問題。因此Cloudera收入來源為透過這類解決客戶問題方式來收費存活。隨後因為營運問題產品逐漸轉為私有化,轉向訂閱形式按年計費。 Hortonworks 則是於 2011 年從 Yahoo! 分拆出來的公司,同樣專注於開發和支持基於 Hadoop 的平台。在 2018 年末, Cloudera 和 Hortonworks 宣布合併 。合併後的公司保留了 Cloudera 的名稱,目的是結合兩家公司的技術和市場資源,加強在快速變化的大數據市場中的競爭力。過去為了和Cloudera的CDH競爭推出了HDP。Cloudera 跟HortonWorks 合併後,便推出了新的大數據平台CDP,並正逐步停止原有的大數據平台CDH 和HDP。 「Hortonworks」這個名稱來源於著名的Dr. Seuss兒童書中的角色「Horton the Elephant」(霍頓大象)。這家公司選擇這個名字,是因為大象同時也是Hadoop的象徵,而Hadoop正是Hortonworks構建其數據平台的核心技術。 https://zh.wikipedia.org/zh-tw/%E8%8D%B7%E9%A0%93%E5%...

Apache Hive筆記(一)_Hive分散式資料倉儲系統介紹_Hive CLI和beeline CLI

圖片
Hive 是Hadoop當中一個極重要的子專案,與HDFS協同合作成為Hadoop上的資料倉儲架構,Hive提供相近於T-SQL的查詢語言稱為Hive QL。 Hive QL提供使用者執行部份與SQL類似的操作,如常見的資料定義(DDL)操作及資料操 作語言(DML)等 目前Hive QL並不完全支援目前SQL提供的所有的函式,如預存程序與觸發程序等。與Hadoop中的MapReduce程式技術結合後,可自動的將Hive QL語言轉换為MapReduce Task,使用者可容易的使用Hive QL對HDFS中的海量資料進行分析處理,不需要再以Java語言自行撰寫MapReduce程式。 目前Hive提供透過JDBC與ODBC及Thrift等方式來與Hive進行連接 https://www.nitendratech.com/hive/apache-hive/ Thrift 是Facebook在2007年交給Apache軟體基金會的開源專案,主要目的是為了解決Facebook在不同系統中大資料量的傅輸通訊,及系統之間所使用的不同軟體語言與異質環境而訂定的跨平台軟體服務,其支援C++、C#、Haskell、Java、Ocami、Per、PHP、Python、Ruby、Smalltalk等多種不同的程式語言間的通訊,並可作為二進位的高性能的通訊中介軟體,支援資料及物件的序列化和多種類型的RPC服務etaStore為Hive的系統目錄架構,負責Hive中介資料的存放,如資料表的格式、屬性等,因Hive儲存建立在HDFS架構上,在Hive下每張資料表實體存放位置皆會對應到HDFS中的檔案目錄。 Hive提供使用者兩種操作模式為Web UI及命令列介面,來進行對Hive執行Hive QL指令, Hive QL對MetaStore的中介資料進行分析後,透過Driver中的编譯器轉换為 MapReduce Task後,將該工作交給Hadoop進行資料處理。 於AWS網站摘要的內文介紹 Apache Hive 是一種容錯的分散式資料倉儲系統,可進行大規模分析。資料倉儲提供資訊的中央存放區,可以輕鬆分析資料以作出明智且資料導向的決策。Hive 讓客戶使用 SQL 讀取、寫入與管理 PB 級資料。 Hive 建構在 Apache Hadoop 之上,這是一個用於有效儲存和處理大型資料集的開...

Spark Streaming使用介紹_DStream API與Structured Streaming

圖片
  https://www.researchgate.net/figure/Spark-Streaming-uses-DStream-to-transform-streaming-data-into-a-series-of-batches_fig7_381900460 https://www.databricks.com/blog/2015/07/30/diving-into-apache-spark-streamings-execution-model.html DStream API(Discretized Streams) 較舊的流處理模型,主要操作RDD(彈性分佈式數據集)來處理數據流。 Dstream也就是離散的stream,也就表示把連續的資料分成一小團一小團,又稱作“microbatching”。每個microbatch 變成一個RDD以便Spark的後續處理。 在每一個batch interval中,每個DStream會有也僅有一個RDD。 可以由StreamingContext透過串流資料產生或其他DStream使用map方法產生(與RDD一樣)。 DStream裡面的RDD就是透過某個時間間隔產生的,而且以產生的時間為索引,因此time屬性對DStream而言非常重要。 在訪問DStream的某個RDD時,實際上是訪問它在某個時間點的RDD。 Structured Streaming 自spark2.0 開始, spark 引進了一套新的流式計算模型「Structured Streaming」 進一步降低了處理資料的延遲時間 提供快速,可擴展,容錯,end-to-end exactly-once stream processing (端到端的完全一次性流處理),實踐了"有且僅有一次(Exectly Once)" 語義, 可以保證資料被精準消費。 是一種基於Spark SQL 引擎構建的可擴展且容錯的stream processing engine 。 可以使用Dataset/DataFrame API 來表示streaming aggregations (流聚合), event-time windows (事件時間視窗), stream-to-batch joins (流到批次連接) 等。 結構化流提供了對複雜事件處理和狀態管...