Enterprise Big Data Professional(EBDP)_學習筆記_5.Big Data Algorithms






https://www.bigdataframework.org/big-data-certification/enterprise-big-data-professional/



現代統計學
  • 描述型統計
  • 統計推論
描述型統計是統計學的一個分支
描述型統計(descriptive statistics)三種類型
  1. 集中趨勢統計(Central Tendency Statistics)
    提供了對數據「中心」或典型值的洞察,助於了解大多數數據點聚集的位置。

    1-1.Mean(平均數):所有數值的總和除以數值的數量。
    對異常值較敏感。

    1-2.Median(中位數):是數據由小到大排序後,位於中間的值。
    受異常值影響較小,可更好了解偏態數據集(skewed datasets)。
    當資料N個,N為偶數個,則取第N/2跟N/2+1的數來取平均值。
    2、2、4、5、7、8、9、10   ->Median:(5+7)/2=6
    當資料N個,N為奇數個,則取第(N+1)/2的數
    2、2、4、5、7、8、9、10、13   ->Median:7

    1-3.Mode(眾數):數據集中出現最頻繁的數。
    對分類數據較有幫助,並不受極端值影響。


  2. 離散統計:可量化數據點圍繞在中心值的分佈或變異性
    2-1.Range(全距):數據中最大值和最小值相減差值。

    2-2.Interquartile Range,IQR(四分位數區間距):也稱為中間分佈或中間50%。
    第一個四分位數25%跟第三個四分位數75%之間範圍。
    搭配圖: 箱型(鬚)圖

    先升序排列取得中位數(Q2),之後分別計算下半部中位數(Q1)跟上半部中位數(Q3)。
    在計算IQR = Q3-Q1

    2-3.Variance(變異數):度量單一數據點偏離平均值的程度,涉及對每個數據點和平均值之間的差異,進行平方,對這些平方在求和,之後除以數據點的數量。
    先求平均值,之後每個數據再減去平均值計算出偏差(有正負),做平方(對數字大有懲罰效應,數字大的會更大)消彌正負號,但單位也平方了。之後求平均後即變異數。

    2-4.Standard Deviation(標準差):變異數的平方根,表示數據點和平均值的平均偏差。標準差愈大,表示離散程度愈大,較低標準差表示數據點較緊密聚集在平均值周圍。量化了數據點跟平均值分散程度。

  3. 分佈型態(Distribution Shapes):一組數學函數或一組值,描述可能是結果的隨機變量,如何分散或分佈(spread or distributed)
    常見分佈四類型:
    3-1.頻率分佈(Frequency Distribution):是用數字(次數、頻率)呈現

    3-2.概率分佈(Probability Distribution):是用百分比呈現,概率總和必為1。

    3-3.抽樣分佈(Sampling Distribution):
    用於大數據預測分析的主要簡化方法,是隨機樣本的給定,進行統計量的概率分佈。
    而抽樣若有偏差,則無法代表母體,用於檢驗樣本數據是否可代表母體
    用Q-Q圖來表示跟常態分佈進行比較。

    3-4.常態分佈(Normal Distribution):高斯分佈,是一種自然發生現象的分佈。
    比方測驗分數、身高。一種鐘型對稱性(平均值、中位數、眾數都相等),位於曲線中心。
    峰值(最高點)出現在平均值。->可用於做標準化(平均值為0,標準差為1,將數據重新分佈)

    偏度Skewness:數據分佈鐘不對稱或缺發對稱性,用於發覺數據分佈
    向左傾斜(left-skewed)、向右傾斜(rigjt-skewed),也能檢測是否有任何異常值將分佈拉向某一方向。偏度也能表明數據集中潛在的偏差(potential bias)。


    正偏度(Positive Skewness):平均數大於中位數和眾數。
    右偏(rigjt-skewed),分佈尾部向右延伸過多。
    大多數數據集中在分佈左側,少數較大值會將分佈拉向右側。




    負偏度(Negative Skewness):平均數小於中位數和眾數。
    左偏(left-skewed),分佈尾部向左延伸過多。
    大多數數據集中在分佈右側。



    偏差Bias:
    為了對母體進行準確預測,樣本能夠充分代表母體十分重要,若樣本不能充分代表,就表示有抽樣偏差(Sampling Bias),有偏差的數據會導致錯誤預測。






留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

Architecture(架構) 和 Framework(框架) 有何不同?_軟體設計前的事前規劃的藍圖概念

經得起原始碼資安弱點掃描的程式設計習慣培養(五)_Missing HSTS Header