Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts
https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/ 何謂數據? What is Data exactly? 數據代表可以收集、儲存和分析的資訊。可以有多種形式,可以是原始數據或二手數據,能夠透過多種方式儲存和存取。 數據類型(Data Type) 參照數據的特性與對其操作的樣態,因而進行分類。每種數據類型都有與其相關聯的特定屬性、特性和行為。最常見的就是數字(numerical)、分類(categorical)和文字(text)。 數據類型於程式語言和資料庫管理中,用於儲存在特定欄位或變數的數據類型分為如下幾類: 1.數字數據,可進一步分為離散型(只能取某些值)、連續型(取某個範圍內任何值)。 2.分類數據,用於將item給分組,透過進一步分類為名目、序數。 名目數據代表不具任何順序、排名的類別,比方膚色、性別、交易幣別、交易條件、國內外。 序數數據代表具有既有順序或排名的類別,比方教育程度(高中、大學、研究所) 3.文字數據:使用自然語言(NLP)文字形式,包含社群評論、留言。 4.圖像數據(Image Data):照片、影像。 5.聲音數據(Audio Data):音樂、語音或音效。 6.時間序列數據(Time-series Data):依據固定時間間隔,所收集到的數據點集合。 常用在天氣預報、金融經濟。 7.地理空間數據(Geospatial Data):座標經緯度、地圖和衛星數據。 8.感測器數據(Sensor Data):溫、溼度、壓力。 數據結構分類(結構化、非結構化和元數據) (Structured, Unstructured and Metadata) 結構化數據: 以特定格式組織並遵循特定模式的數據,比方關聯式資料庫中的表格。 易於搜尋、排序及過濾。通常存放在資料庫中由行列組成,可透過SQL(結構化查詢語言)進行查詢與操作。橫row:表示觀察值(observation),直column:表示變量(variable)也就表示表格型數據。 非結構化數據: 無特定格式或模式的數據,不適用傳統關聯式資料庫中表格。比方自然語言的文字、圖像、聲音和影像。通常很難搜尋、排序和過濾,需要透過專門工具和技術進行分析。 非結構化數據資料量正在不斷增加,衍...