特徵類型及常見特徵工程手法

https://www.geeksforgeeks.org/machine-learning/what-is-feature-engineering/
在機器學習(深度學習)中關鍵絕大部分在特徵工程

而特徵工程關鍵則在所謂領域知識。

特徵類型

常見特徵工程手法
特徵工程是將現實(可能非數值)資料轉換為對應數值型分數的過程

標籤編碼(Label Encoding):
類似編列流水號概念，依序將新出現的類別編新代碼。
已出現類別編上已使用的代碼，缺點是該數值大小順序皆無意義。
假設我們有一個「顏色」變數，將 red 指定為 0 、 green 為 1 、 blue 為 2 。
獨熱編碼(One Hot Encoding):
為改良數字大小無意義問題，將不同類別分別獨立為一欄。
缺點是當類別數量越多時，會需要較大記憶空間與計算耗時成本。
假設我們有一個「顏色」變數，其具有三個標籤 red 、 blue 和 green 。為了讓機器學習算法能夠處理，這些標籤都必須轉換為數值形式。透過創建三個新欄位（每個欄位對應一個標籤）來實現，其中對應標籤的欄位使用 1 ，其他顏色欄位則使用 0 。

常用手法:方根去偏、對數去偏、分布去偏(boxcox)
方根去偏(sqrt):將數值減去最小值後開根號，可應用的時機在最大值有明確上限時候。例如:班級分數調整，開根號除以10，常用在班級分數調整手法。
整班考試成績分布愈集中在中央，似乎更理想。若偏向靠左(普遍低分不及格)所謂感覺更合理，換言之，越接近常態分布(左右對稱，集中於中央)，平均會更具代表性。
平均值要更具代表性，這可用薪資分布的平均薪資來探討幸福程度。通常拿平均薪資探討常令人詬病的問題中、高薪群的長尾分布會造成平均值不具代表性。除了常見取中位數、眾數，也會採用對數去偏之後的新分布，平均值就比較具代表性。
對數去偏
基本上是使用自然對數去除偏態，常用於計數、價格這類非負且可能為0的欄位。
因此為了把0對應到0，需要先加1之後再去取log。
當我們想還原時則用指數函數(exponential)，先取指數後再減1。
分布去偏(boxcox)
採用boxcox轉換函數，當函數的lambda參數為0時候等同於log函數，lambda為0.5時等同於開根號，藉此更靈活做數值轉換，須注意Y值輸入必須要為非0正數。

常用手法是標準化(Standard Scaler)跟最小最大化(MinMax Scaler)。
標準化(Standard Scaler):假定數值屬於常態分布，適合此方法來平衡特徵。
透過將每個X特徵值減去平均值，再將數值除以該特徵的標準差來標準化特徵。
經標準化縮放處理後，資料中心值被設為 0(平均值 = 0)。
資料具有統一單位變異數(標準差 = 1)。
最小最大化(MinMax Scaler):假定數值為均勻分布，適合此方法平衡特徵。
將特徵值減去最小值，再除以極差（最大值與最小值之間的差值）。
按比例將該列中的每個值轉換到[0,1]的範圍內，通常為標準化手法首選手法，因為會保留資料集的形狀(不失真)。