資料探勘研究與實務_空氣品質預報Time Series Regression_part2
2. 時間序列
a.預測目標
1. 將未來第一個小時當預測目標
取6小時為一單位切割,例如第一筆資料為第0~5小時的資料(X[0]),去預測第6小時(未來第一小時)的PM2.5值(Y[0]),下一筆資料為第1~6小時的資料(X[1])去預測第7 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-6=1458
2. 將未來第六個小時當預測目標
取6小時為一單位切割,例如第一筆資料為第0~5小時的資料(X[0]),去預測第11小時(未來第六小時)的PM2.5值(Y[0]),下一筆資料為第1~6小時的資料(X[1])去預測第12 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-11=1453
b. X請分別取
1. 只有PM2.5 (e.g. X[0]會有6個特徵,即第0~5小時的PM2.5數值)
2. 所有18種屬性 (e.g. X[0]會有18*6個特徵,即第0~5小時的所有18種屬性數值)
c. 使用兩種模型 Linear Regression 和 XGBoost 建模
d. 用測試集資料計算MAE (會有8個結果, 2種X資料 * 2種Y資料 * 2種模型)
確定PM2.5的位置,因為這是我們的目標變量。
在此發現一個小問題就是多於空白
在檢索 'PM2.5' 索引之前先將所有測項的名稱進行空白處理。
這可以通過 strip 函數來移除字符串前後的空白字符。
第5階段程式碼
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 | import pandas as pd import numpy as np # 讀取檔案 file_path = r'E:\交大學分班\557607資料探勘研究與實務\HW3_11134225_周冠羽\新竹_2021.xls' data = pd.read_excel(file_path, engine='xlrd') # 清理數據:移除不需要的第一橫列,設置正確的列名 data_cleaned = data.iloc[1:].copy() # 使用 .copy() 來創建副本,避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame. data_cleaned.reset_index(drop=True, inplace=True) correct_hour_columns = ['測站', '日期', '測項'] + [str(i) for i in range(24)] data_cleaned.columns = correct_hour_columns # 轉換日期格式並篩選出10、11、12月的資料 data_cleaned['日期'] = pd.to_datetime(data_cleaned['日期']) #data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])] # 使用 .copy() 來創建副本,避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame. data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])].copy() data_filtered.reset_index(drop=True, inplace=True) # 將 'NR' 替換為 0,然後將 *, #, x 替換為 NaN。 data_filtered.replace({'NR': 0, '*': pd.NA, '#': pd.NA, 'x': pd.NA}, inplace=True) # 確保所有數據列都是數值型 for col in data_filtered.columns[3:]: data_filtered[col] = pd.to_numeric(data_filtered[col], errors='coerce') # 處理缺失值:使用前後一小時的平均值填充缺失值 #對於每個缺失的數據點,我們往前和往後尋找非缺失的值來計算平均值進行填充。如果前面沒有有效值,則僅使用後面的值;如果後面也沒有有效值,則僅使用前面的值。最後,我們檢查整個 DataFrame 確保沒有剩餘的缺失值。 for col in data_filtered.columns[3:]: for i in range(len(data_filtered)): if pd.isna(data_filtered.at[i, col]): # 往前找到非缺失值 prev_index = i - 1 while prev_index >= 0 and pd.isna(data_filtered.at[prev_index, col]): prev_index -= 1 # 往後找到非缺失值 next_index = i + 1 while next_index < len(data_filtered) and pd.isna(data_filtered.at[next_index, col]): next_index += 1 # 計算平均值並填充 prev_val = data_filtered.at[prev_index, col] if prev_index >= 0 else None next_val = data_filtered.at[next_index, col] if next_index < len(data_filtered) else None if prev_val is not None and next_val is not None: data_filtered.at[i, col] = (prev_val + next_val) / 2 elif prev_val is not None: data_filtered.at[i, col] = prev_val elif next_val is not None: data_filtered.at[i, col] = next_val # 檢查是否還有缺失值 missing_values_after_fill = data_filtered.isnull().sum().sum() print(f'After filling, the number of missing values is: {missing_values_after_fill}') #根據月份將資料分成訓練集(10月和11月)和測試集(12月) train_data = data_filtered[data_filtered['日期'].dt.month.isin([10, 11])] test_data = data_filtered[data_filtered['日期'].dt.month == 12] #將訓練集的資料轉換成時序資料,其中行代表18種屬性,列代表每小時的數據。 # 首先我們需要確定屬性的唯一值 unique_items = train_data['測項'].unique() # 建立一個空的DataFrame來保存時序格式的數據 time_series_data = pd.DataFrame() # 對於訓練集中的每一種屬性 for item in unique_items: # 挑選出該屬性的所有行 item_data = train_data[train_data['測項'] == item].iloc[:, 3:].reset_index(drop=True) # 由於每一天的數據在單獨的行中,我們需要將它們連接起來 item_data = item_data.melt(var_name='hour', value_name=item) # 重排列索引,使其成為連續的時序數據 item_data = item_data.sort_values(by='hour').reset_index(drop=True) time_series_data[item] = item_data[item] # 設定正確的行索引 time_series_data.index = pd.date_range(start=train_data['日期'].min(), periods=len(time_series_data), freq='H') # 現在,time_series_data 已經是一個時序資料集,行代表時間,列代表18種屬性的測量值 print(time_series_data.shape) # 應該是 (18, 61*24) 如果包括10月和11月的所有小時 # 檢查維度是否符合預期(應該有61天*24小時=1464個時刻) #assert time_series_data.shape == (1464, len(unique_items)), "維度不匹配" #unique_items = train_data['測項'].unique() #print(unique_items) # 移除測項名稱的前後空白 unique_items = [item.strip() for item in unique_items] pm25_index = unique_items.index('PM2.5') # 創建特徵和標籤集 window_size = 6 # 使用6小時的窗口大小 X = [] # 特徵集 Y_future_1hr = [] # 未來第一個小時的PM2.5值 Y_future_6hr = [] # 未來第六個小時的PM2.5值 # 遍歷時序數據集,創建特徵和標籤 for i in range(time_series_data.shape[0] - window_size): # 提取6小時的特徵 X.append(time_series_data.iloc[i:i+window_size].values.flatten()) # 提取未來第一個小時和第六個小時的PM2.5值作為標籤 Y_future_1hr.append(time_series_data.iloc[i+window_size, pm25_index]) if i+window_size+5 < time_series_data.shape[0]: Y_future_6hr.append(time_series_data.iloc[i+window_size+5, pm25_index]) # 轉換成numpy數組便於後續處理 X = np.array(X) Y_future_1hr = np.array(Y_future_1hr) Y_future_6hr = np.array(Y_future_6hr[:1458]) # 確保與X的形狀一致 # 確認形狀 print(f'X shape: {X.shape}') print(f'Y_future_1hr shape: {Y_future_1hr.shape}') print(f'Y_future_6hr shape: {Y_future_6hr.shape}') |
第6階段程式碼
2. 時間序列
a.預測目標
1. 將未來第一個小時當預測目標
取6小時為一單位切割,例如第一筆資料為第0~5小時的資料(X[0]),去預測第6小時(未來第一小時)的PM2.5值(Y[0]),下一筆資料為第1~6小時的資料(X[1])去預測第7 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-6=1458
2. 將未來第六個小時當預測目標
取6小時為一單位切割,例如第一筆資料為第0~5小時的資料(X[0]),去預測第11小時(未來第六小時)的PM2.5值(Y[0]),下一筆資料為第1~6小時的資料(X[1])去預測第12 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-11=1453
b. X請分別取
1. 只有PM2.5 (e.g. X[0]會有6個特徵,即第0~5小時的PM2.5數值)
2. 所有18種屬性 (e.g. X[0]會有18*6個特徵,即第0~5小時的所有18種屬性數值)
c. 使用兩種模型 Linear Regression 和 XGBoost 建模
d. 用測試集資料計算MAE (會有8個結果, 2種X資料 * 2種Y資料 * 2種模型)
| import pandas as pd import numpy as np # 讀取檔案 file_path = r'E:\交大學分班\557607資料探勘研究與實務\HW3_11134225_周冠羽\新竹_2021.xls' data = pd.read_excel(file_path, engine='xlrd') # 清理數據:移除不需要的第一橫列,設置正確的列名 data_cleaned = data.iloc[1:].copy() # 使用 .copy() 來創建副本,避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame. data_cleaned.reset_index(drop=True, inplace=True) correct_hour_columns = ['測站', '日期', '測項'] + [str(i) for i in range(24)] data_cleaned.columns = correct_hour_columns # 轉換日期格式並篩選出10、11、12月的資料 data_cleaned['日期'] = pd.to_datetime(data_cleaned['日期']) #data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])] # 使用 .copy() 來創建副本,避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame. data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])].copy() data_filtered.reset_index(drop=True, inplace=True) # 將 'NR' 替換為 0,然後將 *, #, x 替換為 NaN。 data_filtered.replace({'NR': 0, '*': pd.NA, '#': pd.NA, 'x': pd.NA}, inplace=True) # 確保所有數據列都是數值型 for col in data_filtered.columns[3:]: data_filtered[col] = pd.to_numeric(data_filtered[col], errors='coerce') # 處理缺失值:使用前後一小時的平均值填充缺失值 #對於每個缺失的數據點,我們往前和往後尋找非缺失的值來計算平均值進行填充。如果前面沒有有效值,則僅使用後面的值;如果後面也沒有有效值,則僅使用前面的值。最後,我們檢查整個 DataFrame 確保沒有剩餘的缺失值。 for col in data_filtered.columns[3:]: for i in range(len(data_filtered)): if pd.isna(data_filtered.at[i, col]): # 往前找到非缺失值 prev_index = i - 1 while prev_index >= 0 and pd.isna(data_filtered.at[prev_index, col]): prev_index -= 1 # 往後找到非缺失值 next_index = i + 1 while next_index < len(data_filtered) and pd.isna(data_filtered.at[next_index, col]): next_index += 1 # 計算平均值並填充 prev_val = data_filtered.at[prev_index, col] if prev_index >= 0 else None next_val = data_filtered.at[next_index, col] if next_index < len(data_filtered) else None if prev_val is not None and next_val is not None: data_filtered.at[i, col] = (prev_val + next_val) / 2 elif prev_val is not None: data_filtered.at[i, col] = prev_val elif next_val is not None: data_filtered.at[i, col] = next_val # 檢查是否還有缺失值 missing_values_after_fill = data_filtered.isnull().sum().sum() print(f'After filling, the number of missing values is: {missing_values_after_fill}') #根據月份將資料分成訓練集(10月和11月)和測試集(12月) train_data = data_filtered[data_filtered['日期'].dt.month.isin([10, 11])] test_data = data_filtered[data_filtered['日期'].dt.month == 12] #將訓練集的資料轉換成時序資料,其中行代表18種屬性,列代表每小時的數據。 # 首先我們需要確定屬性的唯一值 unique_items = train_data['測項'].unique() # 建立一個空的DataFrame來保存時序格式的數據 time_series_data = pd.DataFrame() # 對於訓練集中的每一種屬性 for item in unique_items: # 挑選出該屬性的所有行 item_data = train_data[train_data['測項'] == item].iloc[:, 3:].reset_index(drop=True) # 由於每一天的數據在單獨的行中,我們需要將它們連接起來 item_data = item_data.melt(var_name='hour', value_name=item) # 重排列索引,使其成為連續的時序數據 item_data = item_data.sort_values(by='hour').reset_index(drop=True) time_series_data[item] = item_data[item] # 設定正確的行索引 time_series_data.index = pd.date_range(start=train_data['日期'].min(), periods=len(time_series_data), freq='H') # 現在,time_series_data 已經是一個時序資料集,行代表時間,列代表18種屬性的測量值 print(time_series_data.shape) # 應該是 (18, 61*24) 如果包括10月和11月的所有小時 # 檢查維度是否符合預期(應該有61天*24小時=1464個時刻) #assert time_series_data.shape == (1464, len(unique_items)), "維度不匹配" #unique_items = train_data['測項'].unique() #print(unique_items) # 移除測項名稱的前後空白 unique_items = [item.strip() for item in unique_items] pm25_index = unique_items.index('PM2.5') # 創建特徵和標籤集 window_size = 6 # 使用6小時的窗口大小 X = [] # 特徵集 Y_future_1hr = [] # 未來第一個小時的PM2.5值 Y_future_6hr = [] # 未來第六個小時的PM2.5值 # 遍歷時序數據集,創建特徵和標籤 for i in range(time_series_data.shape[0] - window_size): # 提取6小時的特徵 X.append(time_series_data.iloc[i:i+window_size].values.flatten()) # 提取未來第一個小時和第六個小時的PM2.5值作為標籤 Y_future_1hr.append(time_series_data.iloc[i+window_size, pm25_index]) if i+window_size+5 < time_series_data.shape[0]: Y_future_6hr.append(time_series_data.iloc[i+window_size+5, pm25_index]) # 轉換成numpy數組便於後續處理 X = np.array(X) Y_future_1hr = np.array(Y_future_1hr) Y_future_6hr = np.array(Y_future_6hr[:1458]) # 確保與X的形狀一致 # 確認形狀 print(f'X shape: {X.shape}') print(f'Y_future_1hr shape: {Y_future_1hr.shape}') print(f'Y_future_6hr shape: {Y_future_6hr.shape}') # 獲取 PM2.5 數據的索引 pm25_index = unique_items.index('PM2.5') # 創建只包含 PM2.5 的特徵集 X_pm25_only = [] for i in range(0, time_series_data.shape[0] - window_size): # 提取過去 6 小時的 PM2.5 數據 X_pm25_only.append(time_series_data.iloc[i:i + window_size, pm25_index].values.flatten()) # 轉換成 NumPy 數組 X_pm25_only = np.array(X_pm25_only) # 打印形狀以確認 #只包含PM2.5的特徵集,其形狀為 (1458, 6)。這代表了1458個樣本,每個樣本有6個小時的PM2.5數據。 print(f'X_pm25_only shape: {X_pm25_only.shape}') # 創建包含所有屬性的特徵集 X_all_features = [] for i in range(0, time_series_data.shape[0] - window_size): # 提取過去 6 小時的所有屬性數據 X_all_features.append(time_series_data.iloc[i:i + window_size].values.flatten()) # 轉換成 NumPy 數組 X_all_features = np.array(X_all_features) # 打印形狀以確認 #包含所有18種屬性的特徵集,其形狀應該與 X 相同,也就是 (1458, 108)。 print(f'X_all_features shape: {X_all_features.shape}') #更新標籤集,使它們匹配特徵集的數量。 Y_future_1hr_trimmed = Y_future_1hr[:len(X_pm25_only)] Y_future_6hr_trimmed = Y_future_6hr[:len(X_pm25_only)] # 打印形狀以確認 #未來第一小時的PM2.5標籤集,其形狀為 (1458,),與特徵集 X 一樣有1458個標籤。 print(f'Y_future_1hr shape: {Y_future_1hr_trimmed.shape}') #未來第六小時的PM2.5標籤集,其形狀為 (1453,)。 print(f'Y_future_6hr shape: {Y_future_6hr_trimmed.shape}') |
對於 Y_future_1hr 和 Y_future_6hr 的標籤集,由於我們無法預測最後5個小時的PM2.5值(因為沒有足夠的未來數據),所以 Y_future_6hr 的數量會比 Y_future_1hr 少5個值,這也是合理的。
而 X 和 X_all_features 應該是相同的,因為它們都是基於所有屬性的6小時窗口大小的特徵集。
第7階段程式碼
2. 時間序列
a.預測目標
1. 將未來第一個小時當預測目標
取6小時為一單位切割,例如第一筆資料為第0~5小時的資料(X[0]),去預測第6小時(未來第一小時)的PM2.5值(Y[0]),下一筆資料為第1~6小時的資料(X[1])去預測第7 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-6=1458
2. 將未來第六個小時當預測目標
取6小時為一單位切割,例如第一筆資料為第0~5小時的資料(X[0]),去預測第11小時(未來第六小時)的PM2.5值(Y[0]),下一筆資料為第1~6小時的資料(X[1])去預測第12 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-11=1453
b. X請分別取
1. 只有PM2.5 (e.g. X[0]會有6個特徵,即第0~5小時的PM2.5數值)
2. 所有18種屬性 (e.g. X[0]會有18*6個特徵,即第0~5小時的所有18種屬性數值)
c. 使用兩種模型 Linear Regression 和 XGBoost 建模
d. 用測試集資料計算MAE (會有8個結果, 2種X資料 * 2種Y資料 * 2種模型)
記得pip install xgboost 不然會報錯
ModuleNotFoundError: No module named 'xgboost'
ValueError: Found input variables with inconsistent numbers of samples: [1458, 1453]
[1458, 1453]」表示你嘗試用於訓練或預測的特徵矩陣 X 與目標向量 Y 有不一致的樣本數量。在這種情況下,X 有 1458 個樣本,而 Y 只有 1453 個樣本。
要解決這個問題,你需要確保 X 和 Y 有相同數量的樣本。這通常意味著你需要裁剪或擴展其中一個向量,以便它們匹配。例如,如果 Y_future_6hr 只有 1453 個樣本,你應該只使用 X 的前 1453 行來匹配 Y。
留言
張貼留言