發表文章

目前顯示的是有「數據素養學習筆記」標籤的文章

Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts

圖片
  https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 捨麼是數據? 數據是指可 被收集、被儲存、被分析 的資訊。 被收集 :  透過個人或組織經過調查、訪談、實驗或觀察 直接收集的原始數據 。 數據也也可以是 二手數據 ,就是 由其他人收集和整理的數據 ,例如政府統計數愈、產業報告或線上數據等來源。 被儲存 : 存取於資料庫、電子試算表、數據湖 被分析 : 使用於 明智的決策 、 識別模式和趨勢 、 產生新的見解 可採用多種形式 ,例如:數值(數字)、文字、圖像、聲音、影像。 數據可以是結構化、非結構化,也可以是定量的(數字的numerical)或定性的(描述的descriptive)。 數據類型(Data Type) 是指參照數據的特性(particular type)與對其操作(operations)的樣態,因而進行的分類(classification)。每種數據類型都有與其關聯的特定屬性(properties)、特性(characteristics)和行為(behaviours)。 1.數字數據(Numerical data) 數據本質上是數值型。可進一步細分為離散型或連續型。 離散型數據只能取某些值,例如整數(1,2,3) 。 而 連續型可以取某個範圍內任何值(例如:溫度、重量) 。 2.分類數據(Categorical Data) 此類數據用於將項目分組。可進一步分類為名目(nominal)或序數(ordinal)。 名目數據代 表 沒有任何順序或排名 類別, 例如:頭髮顏色、膚色、性別(男生、女生) 。 序數數據 代表具 有固有順序或排名 類別, 例如:教育程度(高中、大學、研究所) 。 3.文字數據(Textual data) 此類數據採用 自然語言文字 的形式,數據包括發言、評論和社群軟體的貼文等。 4.圖像數據(Image data)   -> 透過Streaming(串流)處理 此類數據由數位圖像所組成,例如照片和影像。 5.聲音數據(Audio data)   -> 透過Streaming(串流)處理 此類數據由數位聲音記錄所組成,例如音樂、語音或音效。 6....

Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts

圖片
https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 何謂數據? What is Data exactly? 數據代表可以收集、儲存和分析的資訊。可以有多種形式,可以是原始數據或二手數據,能夠透過多種方式儲存和存取。 數據類型(Data Type) 參照數據的特性與對其操作的樣態,因而進行分類。每種數據類型都有與其相關聯的特定屬性、特性和行為。最常見的就是數字(numerical)、分類(categorical)和文字(text)。 數據類型於程式語言和資料庫管理中,用於儲存在特定欄位或變數的數據類型分為如下幾類: 1.數字數據,可進一步分為離散型(只能取某些值)、連續型(取某個範圍內任何值)。 2.分類數據,用於將item給分組,透過進一步分類為名目、序數。 名目數據代表不具任何順序、排名的類別,比方膚色、性別、交易幣別、交易條件、國內外。 序數數據代表具有既有順序或排名的類別,比方教育程度(高中、大學、研究所) 3.文字數據:使用自然語言(NLP)文字形式,包含社群評論、留言。 4.圖像數據(Image Data):照片、影像。 5.聲音數據(Audio Data):音樂、語音或音效。 6.時間序列數據(Time-series Data):依據固定時間間隔,所收集到的數據點集合。 常用在天氣預報、金融經濟。 7.地理空間數據(Geospatial Data):座標經緯度、地圖和衛星數據。 8.感測器數據(Sensor Data):溫、溼度、壓力。 數據結構分類(結構化、非結構化和元數據) (Structured, Unstructured and Metadata) 結構化數據: 以特定格式組織並遵循特定模式的數據,比方關聯式資料庫中的表格。 易於搜尋、排序及過濾。通常存放在資料庫中由行列組成,可透過SQL(結構化查詢語言)進行查詢與操作。橫row:表示觀察值(observation),直column:表示變量(variable)也就表示表格型數據。 非結構化數據: 無特定格式或模式的數據,不適用傳統關聯式資料庫中表格。比方自然語言的文字、圖像、聲音和影像。通常很難搜尋、排序和過濾,需要透過專門工具和技術進行分析。 非結構化數據資料量正在不斷增加,衍...

Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_1.Introduction to Data Literacy

圖片
  姊去洗四輪。 未遇意中人,能精心追求,驅動幸福人生。 客運上喝決明子茶望著外面風景,找尋新歸宿。 https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 數據素養(Data Literacy) 獲取、理解、處理和分析數據以做出明智決策的能力。 解取析視倫 姊 去洗四輪 數據素養包含關鍵組成元素如下: 1.數據存 取 (Data Access): 從各種來源像是線上平台、資料庫、電子試算表 查詢並獲取數據 之能力。 2.數據理 解 (Data Understanding): 能 解釋並理解數據 的意義,包含 理解其結構、含義和上下文意義、品質、侷限性 。當然涵蓋能識別模式和趨勢,以及數據何時遺失或不可靠。 3.數據分 析 (Data Analysis) 應用統計和分析技巧來提取見解 ,使用解析工具和技巧來操作並理解數據,比方透過Excel,統計軟體、程式語言分析數據,也要具備基本統計觀念(例如:平均值、標準差、中位數) 4.資料 視 覺化(Data Visualization) 透過圖表、圖形等視覺化手段 來進行有效的數據溝通能力,能幫助識別可能不會立即顯而易見的模式和趨勢。 5.數據 倫 理(Data Ethics)/倫理考慮: 考慮 潛在的偏見、隱私和安全 ,並瞭解數據中潛在的偏差、確保數據隱私及安全,考慮數據驅動決策對社會造成的影響。 數據素養等級 組織中數據素養的衡量標準,取決於個人所擁有的知識,以及日常決策中如何使用數據。 未 遇 意 中人, 能精 心追求, 驅 動幸福人生。 如下依序由低到高劃分五個等級: 1.數據 未 察覺(Data Unaware) 未察覺到數據的價值,也不具備收集 、儲存或分析數據之能力。可能欠缺基礎設施或資源。 2.數據 意 識(Data Aware) 對於數據價值 有意識到,但不具備 有效收集、儲存或分析數據的能力。可能已經具備基礎設施,但沒有必備的技能、資源來處理數據。 3.數據 能 力(Data Capable) 對於數據 有能力收集 、儲存和分析,但可能無法有效地使用數據。 已經具備基礎設施 ,但欠缺有效分析和使用數據所需要的技能或專業知識。 4.數據 精 通(Data Proficient) 對於數據...