Enterprise Big Data Professional(EBDP)_學習筆記_1.大數據介紹
Introduction to Big Data
大數據是一個知識領域,它探索技巧、技能和技術 ,從大量數據中推斷出有價值的見解。
大數據的價值
Value of Big Data
Value of Big Data
- 創造透明度
- 數據驅動的發現
- 客戶細分和定制化行銷
- 自動化的演算法支持決策
- 產品開發與創新
大數據發展史
A short history of Big Data
階段1.結構化內容時期:長期存放於RDBMS中的數據。
(1970~2000)
階段2.Web-Based 非結構化內容
(2000~2010)
階段3.基於移動和感測器的內容
(2010~至今)
大數據的特徵
Big Data characteristics
表示規模龐大的數據集,因此難以使用傳統計算資源進行儲存、處理和分析。
表示規模龐大的數據集,因此難以使用傳統計算資源進行儲存、處理和分析。
大數據最廣泛接受的特徵 ,使用 4V模型:
- 容量 ( Volume ):
數據量是指需要分析和處理的數據的大小,通常大於TB或PB。 - 速度 ( Velocity ):
數據產生的速度以及分析或處裡數據的速度。 - 多樣性 ( Variety ):
比方說,透過感測器、智慧型手機或社群媒體所收集來的不同類型數據。 - 準確性 (Veracity):
指分析數據的品質,愈高品質則會有更高準確性。
數據術語(數據分析、解析/資料科學、商業智慧、大數據)
Data analysis, analytics, business intelligence and Big Data
數據分析(Data Analysis)
是檢查、清理、轉換和建模數據的過程,目的在於發現有用的資訊、提出結論和支持決策。
主要目的是審查現有數據以描述過去發生的模式。因此也常被稱為「描述型數據分析」。
數據解析(Data Analytics)
是發現、解釋和溝通數據中有意義的模式。於紀錄資訊豐富場合中,尤其有價值,解析依賴於統計、電腦程式和運算的同步應用,藉此量化其性能。
也需具備數學、統計學、機器學習、預測建模、數據挖掘、認知計算。
以下分四類解析模式
- 描述型解析(Descriptive Analytics)
偏重於模式揭開,讓洞察顯現。聚焦於大數據價值鏈的底層數據挖掘。例如:銷售週期應用中,季節性趨勢並相應調整採購決策。 - 診斷型解析(Diagnostic Analytics)
用於發現獲確定發生事件的原因。甚至可謂組織提供有價值的見解,輔助決策影響公司績效。例如:社群媒體銷售活動,廣告轉換率提高原因? - 預測型解析(Predictive Analytics)
透過大數據來識別過去的模式以預測未來。根據現有數據集中的趨勢或模式,並透過預測演算法計算某事件發生概率。 - 指導型解析(Prescriptive Analytics)
最終且最有價值的解析級別。根據預測分析的結果,總結及建議不同結果的優化行動。有助於瞭解現況,把握未來機會。優化利益或者降低風險。
資料科學(Data Science)
美國國家標準與技術研究院(NIST):
是透過完整的數據生命週期過程,從原始數據中實證綜合為可操作的知識。
屬於一個跨學科領域,使用科學方法、流程、演算法和系統從吵雜的、結構或非結構化數據中提取知識和見解,並將數據中的知識應用於廣泛領域。
商業智慧(Business Intelligence)
涵蓋了企業用於業務資訊數據分析的策略和技術。面臨之挑戰是將不同企業資訊系統和數據匯總到一個整合數據倉庫中,在該倉庫中可以執行分析或解析等操作。
大數據(Big Data)
大數據的特點是四個關鍵特徵(四個 V),分析數據會比傳統BI解決方案能處裡的數據要大更多,因此涉及到分散式儲存和處裡的解決方案。
更具備多樣性特點,包含非結構化、半結構化數據,像是圖像、影音文件。
數據結構
2.非結構化數據 (Unstructured data):指沒有預先定義數據模型或沒有事先定義格式的資訊。
非結構化資訊通常是文字密集(text-heavy)的,但也可能包含日期、數字和事實(數據倉儲中的一個(度量)值,表示有關被管理實體或系統的事實)。更具有不規則性和模糊性。
例如:音頻檔案、影片影像檔或No-SQL資料庫。
3.半結構化數據 (Semi-structured data):是一種結構化數據形式, 但卻不符合關聯式資料庫或資料表格相關的數據模型,但仍然包含用於分離語義元素的標簽或其他標記,並在數據中強制 進行記錄和欄位的層次結構,也被稱為自描述結構 (self-describing structure)。
例如: XML、Json,2都有自身格式及規範。
4.元數據(metadata ):它提供了有關特定數據集的其他資訊。
例如,在一組照片中,元數據可以描述拍攝照片的時間和地點。
元數據提供日期和位置的資訊 。
數據產品和大數據解決方案
Hadoop
是一個開源軟體框架,使用MapReduce開發模式(編程模型 Programming Model) 對大數據 的數據集進行分散式儲存和處理 。由使用商用級的硬體,構建的電腦集群 (Cluster)所組成。
大多數大數據解決方案都使用 Hadoop框架作為其底層軟體框架。
因此,“Hadoop” 這個術語也被稱為將不同的大數據解決方案 (和商業供應商)連接在一起的生態系統 (ecosystem)。
留言
張貼留言