Enterprise Big Data Professional(EBDP)_學習筆記_5.Big Data Algorithms
現代統計學
- 描述型統計
- 統計推論
描述型統計是統計學的一個分支
描述型統計(descriptive statistics)三種類型
- 集中趨勢統計(Central Tendency Statistics)
提供了對數據「中心」或典型值的洞察,助於了解大多數數據點聚集的位置。
1-1.Mean(平均數):所有數值的總和除以數值的數量。
對異常值較敏感。
1-2.Median(中位數):是數據由小到大排序後,位於中間的值。
受異常值影響較小,可更好了解偏態數據集(skewed datasets)。
當資料N個,N為偶數個,則取第N/2跟N/2+1的數來取平均值。
2、2、4、5、7、8、9、10 ->Median:(5+7)/2=6
當資料N個,N為奇數個,則取第(N+1)/2的數
2、2、4、5、7、8、9、10、13 ->Median:7
1-3.Mode(眾數):數據集中出現最頻繁的數。
對分類數據較有幫助,並不受極端值影響。 - 離散統計:可量化數據點圍繞在中心值的分佈或變異性
2-1.Range(全距):數據中最大值和最小值相減差值。
2-2.Interquartile Range,IQR(四分位數區間距):也稱為中間分佈或中間50%。
第一個四分位數25%跟第三個四分位數75%之間範圍。
搭配圖: 箱型(鬚)圖
先升序排列取得中位數(Q2),之後分別計算下半部中位數(Q1)跟上半部中位數(Q3)。
在計算IQR = Q3-Q1
2-3.Variance(變異數):度量單一數據點偏離平均值的程度,涉及對每個數據點和平均值之間的差異,進行平方,對這些平方在求和,之後除以數據點的數量。
先求平均值,之後每個數據再減去平均值計算出偏差(有正負),做平方(對數字大有懲罰效應,數字大的會更大)消彌正負號,但單位也平方了。之後求平均後即變異數。
2-4.Standard Deviation(標準差):變異數的平方根,表示數據點和平均值的平均偏差。標準差愈大,表示離散程度愈大,較低標準差表示數據點較緊密聚集在平均值周圍。量化了數據點跟平均值分散程度。 - 分佈型態(Distribution Shapes):一組數學函數或一組值,描述可能是結果的隨機變量,如何分散或分佈(spread or distributed)
常見分佈四類型:
3-1.頻率分佈(Frequency Distribution):是用數字(次數、頻率)呈現
3-2.概率分佈(Probability Distribution):是用百分比呈現,概率總和必為1。
3-3.抽樣分佈(Sampling Distribution):
用於大數據預測分析的主要簡化方法,是隨機樣本的給定,進行統計量的概率分佈。
而抽樣若有偏差,則無法代表母體,用於檢驗樣本數據是否可代表母體。
用Q-Q圖來表示跟常態分佈進行比較。
3-4.常態分佈(Normal Distribution):高斯分佈,是一種自然發生現象的分佈。
比方測驗分數、身高。一種鐘型對稱性(平均值、中位數、眾數都相等),位於曲線中心。
峰值(最高點)出現在平均值。->可用於做標準化(平均值為0,標準差為1,將數據重新分佈)
偏度Skewness:數據分佈鐘不對稱或缺發對稱性,用於發覺數據分佈
向左傾斜(left-skewed)、向右傾斜(rigjt-skewed),也能檢測是否有任何異常值將分佈拉向某一方向。偏度也能表明數據集中潛在的偏差(potential bias)。
正偏度(Positive Skewness):平均數大於中位數和眾數。
右偏(rigjt-skewed),分佈尾部向右延伸過多。
大多數數據集中在分佈左側,少數較大值會將分佈拉向右側。
負偏度(Negative Skewness):平均數小於中位數和眾數。
左偏(left-skewed),分佈尾部向左延伸過多。
大多數數據集中在分佈右側。
偏差Bias:
為了對母體進行準確預測,樣本能夠充分代表母體十分重要,若樣本不能充分代表,就表示有抽樣偏差(Sampling Bias),有偏差的數據會導致錯誤預測。
留言
張貼留言