Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts
https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 捨麼是數據? 數據是指可 被收集、被儲存、被分析 的資訊。 被收集 : 透過個人或組織經過調查、訪談、實驗或觀察 直接收集的原始數據 。 數據也也可以是 二手數據 ,就是 由其他人收集和整理的數據 ,例如政府統計數愈、產業報告或線上數據等來源。 被儲存 : 存取於資料庫、電子試算表、數據湖 被分析 : 使用於 明智的決策 、 識別模式和趨勢 、 產生新的見解 可採用多種形式 ,例如:數值(數字)、文字、圖像、聲音、影像。 數據可以是結構化、非結構化,也可以是定量的(數字的numerical)或定性的(描述的descriptive)。 數據類型(Data Type) 是指參照數據的特性(particular type)與對其操作(operations)的樣態,因而進行的分類(classification)。每種數據類型都有與其關聯的特定屬性(properties)、特性(characteristics)和行為(behaviours)。 1.數字數據(Numerical data) 數據本質上是數值型。可進一步細分為離散型或連續型。 離散型數據只能取某些值,例如整數(1,2,3) 。 而 連續型可以取某個範圍內任何值(例如:溫度、重量) 。 2.分類數據(Categorical Data) 此類數據用於將項目分組。可進一步分類為名目(nominal)或序數(ordinal)。 名目數據代 表 沒有任何順序或排名 類別, 例如:頭髮顏色、膚色、性別(男生、女生) 。 序數數據 代表具 有固有順序或排名 類別, 例如:教育程度(高中、大學、研究所) 。 3.文字數據(Textual data) 此類數據採用 自然語言文字 的形式,數據包括發言、評論和社群軟體的貼文等。 4.圖像數據(Image data) -> 透過Streaming(串流)處理 此類數據由數位圖像所組成,例如照片和影像。 5.聲音數據(Audio data) -> 透過Streaming(串流)處理 此類數據由數位聲音記錄所組成,例如音樂、語音或音效。 6....