發表文章

目前顯示的是有「企業大數據專業人員」標籤的文章

Enterprise Big Data Professional(EBDP)_學習筆記_3.Big Data Strategy_六大業務驅動_制定大數據策略5個步驟

圖片
https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 大數據策略需求六大業務驅動 數位化社會形成:大多數人每天上網時間至少6~7小時 技術成本大幅下降: 儲存和處裡數據技術成本急遽下降,1TB硬碟自2020年4070美元到2022年降至14.30美元。 始終透過雲端連接: 提供可擴展性、數據共享、協作並改善管理 數據知識的提升 社群媒體興盛 物聯網技術廣泛興起 制定大數據策略5個步驟 1.定義業務目標 :目標要可被度量,大數據策略也要跟企業策略保持一致,需要高階主管參與。 Ex:提高客戶滿意度、提高經營績效.... 遵循SMART原則 Specific 詳細明確, Measurable 可量測 Agreed Upon 協商一致 Realistic 現實的 Time-based基於時間的 2.執行現況評估 可採用企業大數框架成熟度模型評估,結果可用於定義路線圖。 3.識別用例並排優先級 優先級矩陣(橫軸:實施可行性,縱軸:商業價值),促進業務和IT利益相關者之間討論和辯論。 用例是解決業務挑戰的具體解決方案,使策略具有可操作性,可作為專案分配給團隊。 Ex:行銷支出優化、客戶區分、市場整體分析.... 4.制定大數據路線圖 用例順序、時間軸 角色和職責指派 預算編排 5.錨定數據驅動結果 變革管理,數據驅動文化。 新工作方式、新流程

Enterprise Big Data Professional(EBDP)_學習筆記_2.企業大數據框架6大核心能力與成熟度模型

圖片
https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 企業大數據框架是一種結構化方法,由六個核心能力組成,由30個微觀能力組成。 大數據策略(BIG DATA STRATEGY):投資理由、目標、投資報酬率? 大數據架構(BIG DATA ARCHITECTURE):80%成本結構,分散式儲存,處裡技術。 大數據演算法(BIG DATA ALGORITHMS):處裡數據基本能力、統計學&演算法 大數據流程(BIG DATA PROCESSES): 數據的分析、治理、管理流程,帶來結構及可度量步驟,並可每天有效管理。 為目標帶來承先啟後的行動綱領。 大數據職能(BIG DATA FUNCTIONS):必須依靠人的能力來執行(組織結構、工作角色) 人工智慧(ARTIFICIAL INTELLIGENCE):最後框架外圍AI,需依賴大數據的能力來訓練和開發模型。 企業大數據框架成熟度評估 它基於大數據框架的六個能力,以及基於卡內基梅隆軟體工程研究院(Carnegie Mellon Software Engineering Institute)所 開發的五點能力成熟度模型 (five point Capability Maturity Model , CMM)量表,衡量企業大數據在每項能力上的成熟度。 CMM為組織 提供指導,以 確定其當前流程的成熟度,並制定改進軟體品質和流程的策略。 它包括以下五個階段: Level 0-Absent 完全無意識缺席 Level 1-Initial         / Analytically Impaired   分析能力障礙級(混亂和臨時活動) 整個企業當中有極少的分析活動和相關的基礎架構,數據與分析策略都很模糊。 Level 2-Managed   / Localised Analytics  分析能力本地級(初始活動) 整個企業的分析,僅是在孤立的(獨立式的)運作,或是對於數據與分析,都沒有總體策略。 Level 3-Defined     / Analytica...

Enterprise Big Data Professional(EBDP)_學習筆記_5.Big Data Algorithms

圖片
https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 現代統計學 描述型統計 統計推論 描述型統計是統計學的一個分支 描述型統計(descriptive statistics)三種類型 集中趨勢統計(Central Tendency Statistics) 提供了對數據「中心」或典型值的洞察,助於了解大多數數據點聚集的位置。 1-1.Mean(平均數):所有數值的總和除以數值的數量。 對異常值較敏感。 1-2.Median(中位數):是數據由小到大排序後,位於中間的值。 受異常值影響較小,可更好了解偏態數據集(skewed datasets)。 當資料N個,N為偶數個,則取第N/2跟N/2+1的數來取平均值。 2、2、4、 5、7 、8、9、10   ->Median:(5+7)/2= 6 當資料N個,N為奇數個,則取第(N+1)/2的數 2、2、4、5、 7 、8、9、10、13   ->Median: 7 1-3.Mode(眾數):數據集中出現最頻繁的數。 對分類數據較有幫助,並不受極端值影響。 離散統計:可量化數據點圍繞在中心值的分佈或變異性 2-1.Range(全距):數據中最大值和最小值相減差值。 2-2.Interquartile Range,IQR(四分位數區間距):也稱為中間分佈或中間50%。 第一個四分位數25%跟第三個四分位數75%之間範圍。 搭配圖: 箱型(鬚)圖 先升序排列取得中位數(Q2),之後分別計算下半部中位數(Q1)跟上半部中位數(Q3)。 在計算IQR = Q3-Q1 2-3.Variance(變異數):度量單一數據點偏離平均值的程度,涉及對每個數據點和平均值之間的差異,進行平方,對這些平方在求和,之後除以數據點的數量。 先求平均值,之後每個數據再減去平均值計算出偏差(有正負),做平方(對數字大有懲罰效應,數字大的會更大)消彌正負號,但單位也平方了。之後求平均後即變異數。 2-4.Standard Deviation(標準差):變異數的平方根,表示數據點和平均值的平均偏差。標準差愈大,表示離散程度愈大,較低標準差表示數據點較緊密聚集在平均值周圍。量化...

Enterprise Big Data Professional(EBDP)_學習筆記_1.大數據介紹

圖片
  https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/ 大數據的定義 Introduction to Big Data 大數據是一個知識領域,它探索技巧、技能和技術 ,從大量數據中推斷出有價值的見解。 大數據的價值 Value of Big Data 創造透明度 數據驅動的發現 客戶細分和定制化行銷 自動化的演算法支持決策 產品開發與創新 大數據發展史 A short history of Big Data 階段1.結構化內容時期:長期存放於RDBMS中的數據。 (1970~2000) 階段2.Web-Based 非結構化內容 (2000~2010) 階段3.基於移動和感測器的內容 (2010~至今) 大數據的特徵 Big Data characteristics 表示規模龐大的數據集,因此難以使用傳統計算資源進行儲存、處理和分析。 大數據最廣泛接受的特徵 ,使用 4V模型: 容量 ( Volume ): 數據量是指需要分析和處理的數據的大小,通常大於TB或PB。 速度 ( Velocity ): 數據產生的速度以及分析或處裡數據的速度。 多樣性 ( Variety ): 比方說,透過感測器、智慧型手機或社群媒體所收集來的不同類型數據。 準確性 (Veracity): 指分析數據的品質,愈高品質則會有更高準確性。 數據術語(數據分析、解析/資料科學、商業智慧、大數據) Data analysis, analytics, business intelligence and Big Data 數據分析(Data Analysis) 是檢查、清理、轉換和建模數據的過程,目的在於發現有用的資訊、提出結論和支持決策。 主要目的是審查現有數據以描述過去發生的模式。因此也常被稱為「描述型數據分析」。 數據解析(Data Analytics) 是發現、解釋和溝通數據中有意義的模式。於紀錄資訊豐富場合中,尤其有價值,解析依賴於統計、電腦程式和運算的同步應用,藉此量化其性能。 也需具備數學、統計學、機器學習、預測建模、數據挖掘、認知計算。 以下分四類解析模式 描述型解析(Descriptive Analytics) 偏重於模式揭開,讓洞察顯現。聚焦於大...