Enterprise Big Data Framework_Data Literacy Fundamentals學習筆記_2.Fundamental Data Concepts
捨麼是數據?
數據是指可被收集、被儲存、被分析的資訊。
被收集 :
透過個人或組織經過調查、訪談、實驗或觀察直接收集的原始數據。
數據也也可以是二手數據,就是由其他人收集和整理的數據,例如政府統計數愈、產業報告或線上數據等來源。
數據也也可以是二手數據,就是由其他人收集和整理的數據,例如政府統計數愈、產業報告或線上數據等來源。
被儲存 : 存取於資料庫、電子試算表、數據湖
被分析 : 使用於明智的決策、識別模式和趨勢、產生新的見解
可採用多種形式,例如:數值(數字)、文字、圖像、聲音、影像。
數據可以是結構化、非結構化,也可以是定量的(數字的numerical)或定性的(描述的descriptive)。
數據類型(Data Type)
是指參照數據的特性(particular type)與對其操作(operations)的樣態,因而進行的分類(classification)。每種數據類型都有與其關聯的特定屬性(properties)、特性(characteristics)和行為(behaviours)。
序數數據代表具有固有順序或排名類別,例如:教育程度(高中、大學、研究所)。
1.數字數據(Numerical data)
數據本質上是數值型。可進一步細分為離散型或連續型。
離散型數據只能取某些值,例如整數(1,2,3)。
而連續型可以取某個範圍內任何值(例如:溫度、重量)。
2.分類數據(Categorical Data)
此類數據用於將項目分組。可進一步分類為名目(nominal)或序數(ordinal)。
名目數據代表沒有任何順序或排名類別,例如:頭髮顏色、膚色、性別(男生、女生)。序數數據代表具有固有順序或排名類別,例如:教育程度(高中、大學、研究所)。
3.文字數據(Textual data)
此類數據採用自然語言文字的形式,數據包括發言、評論和社群軟體的貼文等。
4.圖像數據(Image data) -> 透過Streaming(串流)處理
此類數據由數位圖像所組成,例如照片和影像。
5.聲音數據(Audio data) -> 透過Streaming(串流)處理
此類數據由數位聲音記錄所組成,例如音樂、語音或音效。
6.時間序列數據(Time-series data) -> TimeStamp
此類數據是依據固定時間間隔,所收集到的數據點集合。
常用於金融、經濟、天氣預報等領域。
7.地理空間數據(Geospatial data)
此類數據本質上是地理數據,包括坐標、地圖和衛星圖像等數據。
8.感測器數據(Sensor data)
此類數據是從感測器所收集到的,例如溫度、壓力或運動感測。
數據結構類型(Type of Data Structures)
結構化、非結構化和元數據(metadata)
結構化數據(Structured data)
是以特定格式組織並遵循特定模式的數據,例如:關聯式資料庫中的表格。它易於搜索、排序和過濾,並且可以輕鬆的整合到其他系統中。
結構化數據通常儲存在資料庫中,可以使用SQL(Structured Query Language,結構化查詢語言)進行查詢與操作。
結構化數據通常由行和列(rows and columns)組成,其中每行代表一條紀錄,每列代表該紀錄中的特定欄位。列具有特定的數據類型和約束,例如整數、字串、日期等。這種格式使得搜索、排序和過濾數據變得容易。(註:row 是橫的,是觀察值observation,column 是直的,是變量variable,指的就是表格型數據)。
結構化數據的案例包括:
- CRM 系統中的客戶資訊
- 會計系統中的財務數據
- ERP 系統中的庫存數據
- 電子試算表中的數據
非結構化數據(Unstructured data)
是沒有特定格式或模式的數據,不適合傳統數據模型(例如關聯式資料庫中的表格)。它通常是無組織的,涵蓋多種格式,例如自然語言的文字、圖像、聲音和影像。通常很難搜索、排序和過濾,並且需要專門的工具和技術進行分析。
非結構化數據的案例包括:
- 社群媒體的貼文和發言評論
- 電子郵件和附件
- PDF 檔案和圖像
- 聲音和影像記錄
非結構化數據的量不斷增加,導致了處理和分析非結構化數據的新技術發展。
例如自然語言處理、電腦視覺和文字挖掘。這些技術使組織能夠從非結構化數據中提取有價值的見解和資訊,並做出更明智的決策。
對非結構化數據進行結構化(structuring unstructured data)
非結構化數據可以透過使用以下三種技術轉換為結構化數據
- 數據整理(data wrangling)
- 數據清理(data cleaning)
- 數據標準化(data normalization)
元數據(Metadata)
是描述其他數據的數據。它是為所描述的數據,提供上下文背景、說明和組織的資訊。元數據被用來改善數據之可發現性(discoverability)、可理解性(understand-ability)並加以管理(管理所描述的數據)。
它可以讓使用者更輕鬆地查找、理解和使用數據。
它還可用於提高數據品質、確保數據安全並滿足法規要求。
它還可用於數據發現和編目,例如用於搜索引擎或數據目錄
也反向有助於提高數據的可發現性和可獲取性。
Ex:編碼簿(Codebook)、數據字典 (Data dictionary)、ER-Model。
元數據類型
描述型元數據(Descriptive metadata)
這種類型的元數據提供有關數據內容、結構和格式的資訊。它包括標題、作者、創建日期、檔案類型和檔案大小等資訊。
管理型元數據(Administrative metadata)
這種類型的元數據提供有關數據管理、使用和保存的資訊。它包括創建日期、修改日期和數據品質等資訊。
技術型元數據(Technical metadata)
這種類型的元數據提供有關數據技術方面的資訊,例如檔案格式、解析度和所使用的壓縮方式等。
結構型元數據(Structural metadata)
這種類型的元數據提供有關數據關係和組織的資訊,例如檔案文件的層次結構或不同數據元素之間的關係。
數據品質(Data Quality)
是指數據準確(accurate)、完整(complete)和可靠(reliable)的程度。數據品質很重要,因為它會影響到做出準確和明智決策的能力,並且還會對組織的底線產生重大影響。
糟糕的數據品質就會導致錯誤、資源浪費、機會喪失,甚至導致法律或監管等問題。應避免出現garbage in garbage out情況發生,像是財務數據由財務部門管理,人力數據由人資部門管理。
數據品質六大標準
(from 世界經濟論壇6層面 ,而IBM說還缺一項目的適用性)
1.準確性(Accuracy)
數據的準確性是指數據正確無誤的程度。這包括正確輸入的數據,以及沒有拼寫錯誤和其他錯誤的數據。
2. 完整性(Completeness)
數據的完整性是指數據的完整程度,這包含所有需要的資訊。這也包括缺失數據,例如缺失值或空的欄位。
3. 一致性(Consistency)
數據的一致性是指數據的一致,遵循相同的標準和規則的程度。這包括輸入的數據是一致的,例如使用相同的格式或測量單位。
4. 有效性(Validity)
數據的有效性是指數據有效的程度,遵守為數據定義的業務規則和約束。這包括特定範圍內的數據,例如特定範圍內的出生日期。
5. 時效性(Timeliness)
數據的時效性是指數據在多大程度上是當前且最新的(current and up-to-date)。
這包括即時輸入的數據和定期更新的數據。
6. 唯一性(Uniqueness)
數據的唯一性是指數據唯一和不與現有數據重複的程度。
這些內容也牽涉到主關鍵欄位(primary keys)和其他獨特的標識符號(unique identifiers)。
7.目的適用性(Fitness for purpose) ->額外補充不涵蓋於DLF範圍但很重要細節
是指數據是否能夠代表了你正在訓練的人工智慧使用了適當的人群、市場或因素,作為你的用力。反之,若選用於訓練人工智慧的數據不適合你的目的,人工智慧就會失敗!
例如:倘若我們使用根據亞洲市場數據訓練金融服務演算法來去分析歐洲市場,此模型勢必無法有效運作。
數據儲存(Storage Mechanism in Storing Data)
數據可以儲存在各種不同的位置,這取決於數據的類型和組織的需要。
1.本地儲存(Local storage)
是指在一個設備儲存數據,該設備的實體位置與用於存取數據的設備相同。這包括儲存在設備的硬碟、固態硬碟(solid-state drive, SSD)或設備內部的其他儲存媒介。
例如:
• 儲存在個人電腦硬碟的數據
• 儲存在筆記型電腦固態硬碟的數據
• 儲存在移動設備內部儲存卡的數據
• 儲存在設備所連接的 USB 硬碟或外部硬碟的數據
2.雲端儲存(Cloud storage)
數據可以透過網際網路存取於遠端伺服器。這些伺服器由雲端儲存供應商維護和營運,例如 Amazon Web Services、Microsoft Azure 和Google Cloud。雲端儲存允許使用者從任何具有網際網路連接的設備儲存和存取數據,使其成為一種高度可存取方便的選擇。
例如:
例如:
• Amazon S3
• Microsoft Azure Storage
• Google Cloud Storage
• Dropbox
• iCloud
3.資料庫(database)
以電子方式儲存和存取,有組織的數據集合。它的目的是對於大量數據提供高效且可靠的存取。資料庫可以被認為是一個電子檔案系統(electronic filing system),使用有組織和有效的方式儲存、檢索和更新數據。
1. 關聯式資料庫(Relational databases)
關聯式資料庫將數據儲存在表格中,以行代表紀錄,列代表這些紀錄中的欄位。最流行的關聯式資料庫是MySQL、PostgreSQL 和Oracle。
2. 非關聯式資料庫(Non-relational databases)
非關聯式資料庫,也稱為 NoSQL資料庫,以非表格格式儲存數據,例如鍵值對(key-value pairs)、文件(documents)或圖形式數據。非關聯式資料庫的案例包括 MongoDB 和Cassandra。
3. 常駐記憶體資料庫(In-memory databases)
常駐記憶體資料庫將數據儲存在電腦的隨機存取記憶體 (random-access memory , RAM) 而不是硬碟上,這可以提高某些類型工作負載的性能,例如即時分析和高頻交易。
4. 時間序列資料庫(Time-series databases)
時間序列資料庫針對儲存和查詢時間戳記(time-stamped)數據進行了優化,它們通常用於物聯網、監控和其他以高速率和時間戳記產生數據的應用程式。
5.資料倉庫(data warehouse)
是一個大規模、集中式的儲存資料庫,用於儲存和管理來自多個來源的數據。資料倉庫的目標是提供單一、整合的組織數據視圖(view of an organization’s data),使之可以更容易分析,並且做出明智決策的一種架構。
數據通常被組織成一個多維度(multidimensional)的模型,其中數據被分組為事實(facts)和維度(dimensions)。事實代表定量的數據(實際的數據),維度代表數據的特徵,如時間、地點、產品等(定義欄位的)。此數據模型允許快速靈活地查詢和進行數據的報告。
目的在處理大量數據,通常為TB 或PB 級。他們通常使用關聯式資料庫管理系統(RDBMS)並針對讀取繁重的工作負載進行了優化。資料倉庫通常用於商業智慧、報告和分析。它們允許組織組合來自多種來源的數據,例如交易系統和外部數據,並以單一數據源無法實現的方式對其進行分析。還提供數據的歷史視角,可用於趨勢分析、預測和決策制定。它們還允許整合來自不同系統的數據,並支持不同的數據類型和結構,可以用來支持不同的業務需求。
數據倉庫之父比爾·恩門(Bill Inmon)/威廉·H·英蒙(William H. Inmon)
資料倉儲一詞,於1990年由資料倉儲之父Bill Inmon提出,他認為DW的目的在於整合及運用資料。這種系統存在的目的,就是將所有資料儲存在同一個地方,管理這些資料的進出,並且透過各種分析方法。
6.數據湖(Data Lake)
它允許利用原生的格式儲存原始的非結構化數據,從而促進大數據處理和分析。數據湖被認為是數據倉庫的一種更靈活、可擴展且更具成本效益的替代方案。允許組織以原始格式儲存數據,這使得執行大數據處理和分析變得更加容易。從而允許數據發現、自助服務分析和數據治理等功效。
是一個集中式儲存庫,允許組織儲存任何規模的結構化和非結構化數據。數據湖中的數據可以是原始格式,包括來自交易系統的結構化數據、來自日誌(logs)檔案和XML 檔案的半結構化數據,以及文字和圖像等非結構化數據。
數據湖的目的在處理現代組織產生的大量數據,它們提供了一種經濟且高效的方式來儲存和管理大數據。數據湖建立在分散式檔案系統(distributed file systems)之上,例如Hadoop 分散式檔案系統(HDFS)或Amazon S3,可以處理大量數據並提供高可用性和高擴展性。
數據湖通常使用於:
• 儲存原始數據供以後分析
• 執行大數據處理和分析
• 支持機器學習和人工智慧
• 儲存和處理即時串流數據
留言
張貼留言