Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts




https://www.bigdataframework.org/big-data-certification/data-literacy-fundamentals/

何謂數據?
What is Data exactly?
數據代表可以收集、儲存和分析的資訊。可以有多種形式,可以是原始數據或二手數據,能夠透過多種方式儲存和存取。


數據類型(Data Type)
參照數據的特性與對其操作的樣態,因而進行分類。每種數據類型都有與其相關聯的特定屬性、特性和行為。最常見的就是數字(numerical)、分類(categorical)和文字(text)。

數據類型於程式語言和資料庫管理中,用於儲存在特定欄位或變數的數據類型分為如下幾類:
1.數字數據,可進一步分為離散型(只能取某些值)、連續型(取某個範圍內任何值)。

2.分類數據,用於將item給分組,透過進一步分類為名目、序數。
  • 名目數據代表不具任何順序、排名的類別,比方膚色、性別、交易幣別、交易條件、國內外。
  • 序數數據代表具有既有順序或排名的類別,比方教育程度(高中、大學、研究所)

3.文字數據:使用自然語言(NLP)文字形式,包含社群評論、留言。

4.圖像數據(Image Data):照片、影像。

5.聲音數據(Audio Data):音樂、語音或音效。

6.時間序列數據(Time-series Data):依據固定時間間隔,所收集到的數據點集合。

常用在天氣預報、金融經濟。

7.地理空間數據(Geospatial Data):座標經緯度、地圖和衛星數據。

8.感測器數據(Sensor Data):溫、溼度、壓力。


數據結構分類(結構化、非結構化和元數據)
(Structured, Unstructured and Metadata)

結構化數據:
以特定格式組織並遵循特定模式的數據,比方關聯式資料庫中的表格。
易於搜尋、排序及過濾。通常存放在資料庫中由行列組成,可透過SQL(結構化查詢語言)進行查詢與操作。橫row:表示觀察值(observation),直column:表示變量(variable)也就表示表格型數據。


非結構化數據:
無特定格式或模式的數據,不適用傳統關聯式資料庫中表格。比方自然語言的文字、圖像、聲音和影像。通常很難搜尋、排序和過濾,需要透過專門工具和技術進行分析。
非結構化數據資料量正在不斷增加,衍生出針對這類資料分析和處裡的手段,例如自然語言處理、電腦視覺、圖像識別和文字挖掘。

非結構化數據可透過如下三種技術轉換為結構化數據(Structuring Unstructured Data)
  • 數據整理(Data Wrangling)
  • 數據清理(Data Cleaning)
  • 數據標準化(Data Normalization)

元數據(Metadata):幫助使用者更輕鬆查詢、理解和使用數據的數據。

是描述其他數據的數據,提供上下文背景、說明和組織資訊。被用於改善它所描述的數據之可發現性(discoverability)、可理解性(understand-ability)並加以管理。

元數據類型又細分如下幾類
  • 描述型元數據(Descriptive metadata):提供數據內容、結構和格式資訊。包含標題、作者、創建時間日期、檔案大小、類型等資訊。
  • 管理型元數據(Administrative metadata):提供管理、使用和保存的資訊。包含創建、修改時間日期與數據品質。
  • 技術型元數據(Technical metadata):提供數據技術方面的資訊,像是檔案格式、解析度和使用的壓縮方式等。
  • 結構型元數據(Structural metadata):提供有關數據關係和組織的資訊,比方檔案文件的層次結構或是不同數據元素之間的關係(例如:ER-Model)。

數據品質

指數據的準確、完整和可靠程度,會影響到做出準確和明智決策的能力。數據品質差就會導致資源浪費、機會喪失與錯誤,甚至導致法律或監管等問題。

數據品質分為如下幾個方面:
  1. 準確性(Accuracy)
  2. 完整性(Completeness)
  3. 一致性(Consistency)
  4. 有效性(Validity)
  5. 時效性(Timeliness)
  6. 唯一性(Uniqueness)

數據儲存

  • 本地儲存(Local storage):
    是指在一個設備儲存數據,該設備的實體位置與用於存取數據的設備相同。
  • 雲端儲存(Cloud storage):
    數據可以透過網際網路存取於遠端伺服器。這些伺服器由雲端儲存供應商維護和營運,比方 Amazon Web Services、Microsoft Azure 和Google Cloud。

  • 資料庫(database):
    是以電子方式儲存和存取,有組織的數據集合。目的是對於大量數據提供高效且可靠的存取。細分如下幾類資料庫:
    1.關聯式資料庫(Relational databases),以橫row代表一筆紀錄用表格方式儲存數據。比方:Oracle,MySQL,SQLServer。
    2.非關聯式資料庫(Non-relational databases) ,也稱作NoSQL資料庫,以非表格格式儲存數據。透過鍵值對、文件或圖形式數據儲存。比方:MongoDB和Cassandra。
    3.常駐記憶體資料庫(In-memory databases)
    將數據儲存在電腦的隨機存取記憶體(random-access memory , RAM) 而非硬碟上,藉此提高某些類型工作負載的性能。
    4.時間序列資料庫(Time-series databases):針對儲存和查詢時間戳記數據做了優化。

  • 資料倉庫(data warehouse)是一個大規模達到TB或PB等級、集中式的儲存資料庫,用於儲存和管理來自多個來源的數據。通常被組織成一個多維度(multidimensional)的模型,其中數據被分組為事實(facts)和維度(dimensions)。事實代表定量的數據(實際的數據),維度代表數據的特徵,如時間、地點、產品等(定義欄位的)。此數據模型允許快速靈活地查詢和進行數據的報告。

  • 數據湖(Data lakes)是一個集中式儲存庫,允許組織儲存任何規模的結構化和非結構化數據。目的在處理現代組織產生的大量數據,它們提供了一種經濟且高效的方式來儲存和管理大數據。數據湖建立在分散式檔案系統(distributed file systems)之上,例如Hadoop 分散式檔案系統(HDFS)或Amazon S3,可以處理大量數據並提供高可用性和高擴展性。


數據安全(Data security)
側重於保護數據免遭未經授權的存取和使用。

數據隱私(Data privacy)
側重於保護每個人的個人資訊並賦予對其個人資訊的控制權。

數據分析
是使用各種技術和工具從數據中提取見解、模式和趨勢的過程。
數據分析過程(data analysis process)通常涉及幾個步驟
  1. 定義問題和目標(Define the problem and objectives)
  2. 收集和準備數據(Collect and prepare the data)
  3. 探索數據(Explore the data)
  4. 數據建模(Model the data)
  5. 解釋結果(Interpret the results)
  6. 溝通和協作(Communicate and collaborate)
  7. 實施見解(Implement the insights)
  8. 審查和監控(Review and monitor)











留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

Architecture(架構) 和 Framework(框架) 有何不同?_軟體設計前的事前規劃的藍圖概念

經得起原始碼資安弱點掃描的程式設計習慣培養(五)_Missing HSTS Header