Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts
何謂數據?
What is Data exactly?
數據代表可以收集、儲存和分析的資訊。可以有多種形式,可以是原始數據或二手數據,能夠透過多種方式儲存和存取。
數據類型(Data Type)
參照數據的特性與對其操作的樣態,因而進行分類。每種數據類型都有與其相關聯的特定屬性、特性和行為。最常見的就是數字(numerical)、分類(categorical)和文字(text)。
數據類型於程式語言和資料庫管理中,用於儲存在特定欄位或變數的數據類型分為如下幾類:
1.數字數據,可進一步分為離散型(只能取某些值)、連續型(取某個範圍內任何值)。
2.分類數據,用於將item給分組,透過進一步分類為名目、序數。
- 名目數據代表不具任何順序、排名的類別,比方膚色、性別、交易幣別、交易條件、國內外。
- 序數數據代表具有既有順序或排名的類別,比方教育程度(高中、大學、研究所)
3.文字數據:使用自然語言(NLP)文字形式,包含社群評論、留言。
4.圖像數據(Image Data):照片、影像。
5.聲音數據(Audio Data):音樂、語音或音效。
6.時間序列數據(Time-series Data):依據固定時間間隔,所收集到的數據點集合。
常用在天氣預報、金融經濟。
7.地理空間數據(Geospatial Data):座標經緯度、地圖和衛星數據。
8.感測器數據(Sensor Data):溫、溼度、壓力。
數據結構分類(結構化、非結構化和元數據)
(Structured, Unstructured and Metadata)
結構化數據:
以特定格式組織並遵循特定模式的數據,比方關聯式資料庫中的表格。
易於搜尋、排序及過濾。通常存放在資料庫中由行列組成,可透過SQL(結構化查詢語言)進行查詢與操作。橫row:表示觀察值(observation),直column:表示變量(variable)也就表示表格型數據。
非結構化數據:
無特定格式或模式的數據,不適用傳統關聯式資料庫中表格。比方自然語言的文字、圖像、聲音和影像。通常很難搜尋、排序和過濾,需要透過專門工具和技術進行分析。
非結構化數據資料量正在不斷增加,衍生出針對這類資料分析和處裡的手段,例如自然語言處理、電腦視覺、圖像識別和文字挖掘。
非結構化數據可透過如下三種技術轉換為結構化數據(Structuring Unstructured Data)
- 數據整理(Data Wrangling)
- 數據清理(Data Cleaning)
- 數據標準化(Data Normalization)
元數據(Metadata):幫助使用者更輕鬆查詢、理解和使用數據的數據。
是描述其他數據的數據,提供上下文背景、說明和組織資訊。被用於改善它所描述的數據之可發現性(discoverability)、可理解性(understand-ability)並加以管理。
元數據類型又細分如下幾類
- 描述型元數據(Descriptive metadata):提供數據內容、結構和格式資訊。包含標題、作者、創建時間日期、檔案大小、類型等資訊。
- 管理型元數據(Administrative metadata):提供管理、使用和保存的資訊。包含創建、修改時間日期與數據品質。
- 技術型元數據(Technical metadata):提供數據技術方面的資訊,像是檔案格式、解析度和使用的壓縮方式等。
- 結構型元數據(Structural metadata):提供有關數據關係和組織的資訊,比方檔案文件的層次結構或是不同數據元素之間的關係(例如:ER-Model)。
數據品質
指數據的準確、完整和可靠程度,會影響到做出準確和明智決策的能力。數據品質差就會導致資源浪費、機會喪失與錯誤,甚至導致法律或監管等問題。
數據品質分為如下幾個方面:
- 準確性(Accuracy)
- 完整性(Completeness)
- 一致性(Consistency)
- 有效性(Validity)
- 時效性(Timeliness)
- 唯一性(Uniqueness)
數據儲存
- 本地儲存(Local storage):
是指在一個設備儲存數據,該設備的實體位置與用於存取數據的設備相同。 - 雲端儲存(Cloud storage):
數據可以透過網際網路存取於遠端伺服器。這些伺服器由雲端儲存供應商維護和營運,比方 Amazon Web Services、Microsoft Azure 和Google Cloud。 - 資料庫(database):
是以電子方式儲存和存取,有組織的數據集合。目的是對於大量數據提供高效且可靠的存取。細分如下幾類資料庫:
1.關聯式資料庫(Relational databases),以橫row代表一筆紀錄用表格方式儲存數據。比方:Oracle,MySQL,SQLServer。
2.非關聯式資料庫(Non-relational databases) ,也稱作NoSQL資料庫,以非表格格式儲存數據。透過鍵值對、文件或圖形式數據儲存。比方:MongoDB和Cassandra。
3.常駐記憶體資料庫(In-memory databases)
將數據儲存在電腦的隨機存取記憶體(random-access memory , RAM) 而非硬碟上,藉此提高某些類型工作負載的性能。
4.時間序列資料庫(Time-series databases):針對儲存和查詢時間戳記數據做了優化。 - 資料倉庫(data warehouse)是一個大規模達到TB或PB等級、集中式的儲存資料庫,用於儲存和管理來自多個來源的數據。通常被組織成一個多維度(multidimensional)的模型,其中數據被分組為事實(facts)和維度(dimensions)。事實代表定量的數據(實際的數據),維度代表數據的特徵,如時間、地點、產品等(定義欄位的)。此數據模型允許快速靈活地查詢和進行數據的報告。
- 數據湖(Data lakes)是一個集中式儲存庫,允許組織儲存任何規模的結構化和非結構化數據。目的在處理現代組織產生的大量數據,它們提供了一種經濟且高效的方式來儲存和管理大數據。數據湖建立在分散式檔案系統(distributed file systems)之上,例如Hadoop 分散式檔案系統(HDFS)或Amazon S3,可以處理大量數據並提供高可用性和高擴展性。
數據安全(Data security)
側重於保護數據免遭未經授權的存取和使用。
數據隱私(Data privacy)
側重於保護每個人的個人資訊並賦予對其個人資訊的控制權。
數據分析
是使用各種技術和工具從數據中提取見解、模式和趨勢的過程。
數據分析過程(data analysis process)通常涉及幾個步驟
- 定義問題和目標(Define the problem and objectives)
- 收集和準備數據(Collect and prepare the data)
- 探索數據(Explore the data)
- 數據建模(Model the data)
- 解釋結果(Interpret the results)
- 溝通和協作(Communicate and collaborate)
- 實施見解(Implement the insights)
- 審查和監控(Review and monitor)
留言
張貼留言