發表文章

Enterprise Big Data Professional(EBDP)_學習筆記_1.大數據介紹

圖片
  https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 大數據的定義 Introduction to Big Data 大數據是一個知識領域,它探索技巧、技能和技術 ,從大量數據中推斷出有價值的見解。 大數據的價值 Value of Big Data 創造透明度 數據驅動的發現 客戶細分和定制化行銷 自動化的演算法支持決策 產品開發與創新 大數據發展史 A short history of Big Data 階段1.結構化內容時期:長期存放於RDBMS中的數據。 (1970~2000) 階段2.Web-Based 非結構化內容 (2000~2010) 階段3.基於移動和感測器的內容 (2010~至今) 大數據的特徵 Big Data characteristics 表示規模龐大的數據集,因此難以使用傳統計算資源進行儲存、處理和分析。 大數據最廣泛接受的特徵 ,使用 4V模型: 容量 ( Volume ): 數據量是指需要分析和處理的數據的大小,通常大於TB或PB。 速度 ( Velocity ): 數據產生的速度以及分析或處裡數據的速度。 多樣性 ( Variety ): 比方說,透過感測器、智慧型手機或社群媒體所收集來的不同類型數據。 準確性 (Veracity): 指分析數據的品質,愈高品質則會有更高準確性。 數據術語(數據分析、解析/資料科學、商業智慧、大數據) Data analysis, analytics, business intelligence and Big Data 數據分析(Data Analysis) 是檢查、清理、轉換和建模數據的過程,目的在於發現有用的資訊、提出結論和支持決策。 主要目的是審查現有數據以描述過去發生的模式。因此也常被稱為「描述型數據分析」。 數據解析(Data Analytics) 是發現、解釋和溝通數據中有意義的模式。於紀錄資訊豐富場合中,尤其有價值,解析依賴於統計、電腦程式和運算的同步應用,藉此量化其性能。 也需具備數學、統計學、機器學習、預測建模、數據挖掘、認知計算。 以下分四類解析模式 描述型解析(Descriptive Analytics) 偏重於模式揭開,讓洞察顯現。聚焦於大數據價值

Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts

圖片
https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 何謂數據? What is Data exactly? 數據代表可以收集、儲存和分析的資訊。可以有多種形式,可以是原始數據或二手數據,能夠透過多種方式儲存和存取。 數據類型(Data Type) 參照數據的特性與對其操作的樣態,因而進行分類。每種數據類型都有與其相關聯的特定屬性、特性和行為。最常見的就是數字(numerical)、分類(categorical)和文字(text)。 數據類型於程式語言和資料庫管理中,用於儲存在特定欄位或變數的數據類型分為如下幾類: 1.數字數據,可進一步分為離散型(只能取某些值)、連續型(取某個範圍內任何值)。 2.分類數據,用於將item給分組,透過進一步分類為名目、序數。 名目數據代表不具任何順序、排名的類別,比方膚色、性別、交易幣別、交易條件、國內外。 序數數據代表具有既有順序或排名的類別,比方教育程度(高中、大學、研究所) 3.文字數據:使用自然語言(NLP)文字形式,包含社群評論、留言。 4.圖像數據(Image Data):照片、影像。 5.聲音數據(Audio Data):音樂、語音或音效。 6.時間序列數據(Time-series Data):依據固定時間間隔,所收集到的數據點集合。 常用在天氣預報、金融經濟。 7.地理空間數據(Geospatial Data):座標經緯度、地圖和衛星數據。 8.感測器數據(Sensor Data):溫、溼度、壓力。 數據結構分類(結構化、非結構化和元數據) (Structured, Unstructured and Metadata) 結構化數據: 以特定格式組織並遵循特定模式的數據,比方關聯式資料庫中的表格。 易於搜尋、排序及過濾。通常存放在資料庫中由行列組成,可透過SQL(結構化查詢語言)進行查詢與操作。橫row:表示觀察值(observation),直column:表示變量(variable)也就表示表格型數據。 非結構化數據: 無特定格式或模式的數據,不適用傳統關聯式資料庫中表格。比方自然語言的文字、圖像、聲音和影像。通常很難搜尋、排序和過濾,需要透過專門工具和技術進行分析。 非結構化數據資料量正在不斷增加,衍

Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_1.Introduction to Data Literacy

圖片
  姊去洗四輪。 未遇意中人,能精心追求,驅動幸福人生。 客運上喝決明子茶望著外面風景,找尋新歸宿。 https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 數據素養(Data Literacy) 理解、處理和分析數據以做出明智決策的能力。 解取析視倫 姊 去洗四輪 數據素養包含關鍵組成元素如下: 1.數據存 取 (Data Access): 從各種來源像是線上平台、資料庫、電子試算表查詢並獲取數據之能力。 2.數據理 解 (Data Understanding): 能解釋並理解數據的意義,包含理解其結構、品質、侷限性。當然涵蓋能識別模式和趨勢,以及數據何時遺失或不可靠。 3.數據分 析 (Data Analysis) 使用解析工具和技巧來操作並理解數據,比方透過Excel,統計軟體、程式語言分析數據,也要具備基本統計觀念(例如:平均值、標準差、中位數) 4.資料 視 覺化(Data Visualization) 透過圖表、圖形等視覺化手段來進行有效的數據溝通能力,能幫助識別可能不會立即顯而易見的模式和趨勢。 5.數據 倫 理(Data Ethics): 瞭解數據中潛在的偏差、確保數據隱私及安全,考慮數據驅動決策對社會造成的影響。 數據素養等級 組織中數據素養的衡量標準,取決於個人所擁有的知識,以及日常決策中如何使用數據。 未 遇 意 中人, 能精 心追求, 驅 動幸福人生。 如下依序由低到高劃分五個等級: 1.數據 未 察覺(Data Unaware) 未察覺到數據的價值,也不具備收集、儲存或分析數據之能力。可能欠缺基礎設施或資源。 2.數據 意 識(Data Aware) 對於數據價值有意識,但不具備有效收集、儲存或分析數據的能力。可能已經具備基礎設施,但沒有必備的技能、資源來處理數據。 3.數據 能 力(Data Capable) 對於數據有能力收集、儲存和分析,但可能無法有效地使用數據。已經具備基礎設施,但欠缺有效分析和使用數據所需要的技能或專業知識。 4.數據 精 通(Data Proficient) 對於數據有能力收集、儲存和分析,並也具備有效地使用數據來為決策提供資訊。已經具備基礎設施及資源,並投資必要技能和專業知識。 5.數據 驅 動(Da

國內供應商管理_C#串接工商登記API_補齊登記資本額X實收資本額X營業登記現況資訊

圖片
https://data.gcis.nat.gov.tw/main/index 工商登記平台主要是針對國內廠商,有統一編號的才能撈取的到。 此外資本額又細分兩種欄位,分別是 資本總額(也就是登記資本額),跟實收資本額(又稱發行資本)。 登記資本額是公司在成立時,向主管機關(如經濟部)登記的資本數額,代表公司允許發行的最大股本。這是公司可以籌集的資金上限,但不一定實際投入。 實收資本= 股本  +  資本公積(額外實收資本)​​ = 已發行股份總數 x 每股金額 實收資本額是公司實際已經收取的資本,代表股東實際投入的金額。這是公司目前可用的資本,用於經營或投資,並會反映在公司的財務報表中。 換言之,要有上市上櫃的廠商才會有實收資本額欄位。 https://data.gcis.nat.gov.tw/od/rule 在此以新竹市工廠廠商名冊的Open data來做演示。 https://data.gov.tw/dataset/67538 下載下來的excel預設是這些欄位資訊,美中不足的地方在於缺少資本額資訊跟營業登記現況。 工商登記平台提供的API介接十分豐富 在示範體驗中 5.公司登記關鍵字查詢,可讓我們測試傳入參數呼叫後對應回傳欄位 其中公司狀況代碼也就表示其營業登記現況,01表示「核准設立」。 可搭配 商工登記公示資料查詢服務平台 做確認。 https://findbiz.nat.gov.tw/fts/query/QueryCmpyDetail/queryCmpyDetail.do?objectId=SEMyMjA5OTEzMQ==&banNo=22099131&disj=84063A5E4A6517336AE096E3E76A12DF&fhl=zh_TW 公司登記_公司狀態代碼對照表 其實不只01,另外不同Company_Status狀態碼Mapping可參照這份excel。 這邊將excel重新更名為新竹市工廠廠商名冊.xlsx 多擴充三個欄位到F,G,H  存放到指定C槽路徑 C#主控台專案 先建立好我們的BusinessInfo類別。 using System ; using System.Collections.Generic ; using System.Linq ; using System.Text ; using

Kafka筆記_開發API類別及常見用語跟組成單元

圖片
接續前一篇筆記  Kafka筆記_架構與集群概念 基本上Kafka處理發布跟訂閱消息的系統,背後使用了4個API分別如下 1.生產者 API:支援應用程式發布 Record 流。 2.消費者 API:支援應用程式訂閱 Topic 和處理 Record 流。 3.Stream API:將輸入流轉換為輸出流,並產生結果。 4.Connector API:執行可重複使用的生產者和消費者 API,可將 Topic 連結到現有應用程式。 Kafka 對各類程式語言提供相關支援 API ,可供.NET、Java、Python 等主流的程式語言所使用。 捨麼是Messages? Messages消息(也稱為 Kafka 記錄)是存儲在主題分區內的鍵/值對。Message 根據為主題配置的保留設置進行持久保存和持久保存。每條消息都包含元數據,例如時間戳屬性,該屬性由建立者在創建時設置,或由代理在插入時設置。 捨麼是Producer? 消息和資料的產生者,向Kafka的一個topic發布消息的一個Process、程式碼、服務。 捨麼是Consumer? 消息和資料的消費者,訂閱數據(topic)並且處理其發佈消息的一個Process、程式碼、服務。 捨麼是Consumer Group? 對於同一個Topic,會廣播給不同Group,一個Group中,只有一個Consumer可消費該消息。 捨麼是Broker? 即Kafka集群中的每個Kafka節點。 什麼是Topic ? 是持久化到磁碟的事件的集合,可以理解為Kafka消息的類別,對數據做區分和隔離。 Topic 由 Record 組成,Record 持有不同的訊息,而 Broker 則負責複製訊息。 Topic支持數據保留的概念,因此可以附加事件並將其保留更長的時間(例如幾天/幾周/幾個月)或僅短暫存儲(例如幾分鐘/小時) 什麼是Partitions ? 從物理層級概念切入,Kafka下數據儲存的基本單元。 一個Topic進一步劃分儲存到多個Partitions(至少有一個),每一個Partition都是有序的。  以提高負載較重時的性能,比方優化可以是 10 秒或 100 秒。 Topic的分區分佈(即複製)所有 Kafka Brokers之間,以實現容錯並提高使用主題時的並行度。 可將Topic分區配置為在不同的 Kafka

使用VRoid搭配VSeeFace進行VTuber的線上課程助教製作_透過Bandicam錄製

圖片
  https://vroid.com/en/studio https://www.vseeface.icu/ 可將剛剛透過vroid軟體自己製作出來的Vtuber模型匯入至VSeeFace 當點選完模型後再按Start 會自動開啟電腦視訊鏡頭開始作臉部與上半身的捕捉 但目前肢體互動是無法捕捉到的 綠幕背景圖可網路上自己找 在此我用的是這張 https://st3.depositphotos.com/11246114/19291/v/600/depositphotos_192911234-stock-video-green-screen-green-background-green.jpg Ref: https://www.bandicam.com/how-to-make-video-with-avatar/