資料探勘研究與實務_空氣品質預報Time Series Regression

資料探勘研究與實務_空氣品質預報Time Series Regression_part2

- 11月 03, 2023

2. 時間序列

a.預測目標

1. 將未來第一個小時當預測目標

取6小時為一單位切割，例如第一筆資料為第0~5小時的資料(X[0])，去預測第6小時(未來第一小時)的PM2.5值(Y[0])，下一筆資料為第1~6小時的資料(X[1])去預測第7 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-6=1458

2. 將未來第六個小時當預測目標

取6小時為一單位切割，例如第一筆資料為第0~5小時的資料(X[0])，去預測第11小時(未來第六小時)的PM2.5值(Y[0])，下一筆資料為第1~6小時的資料(X[1])去預測第12 小時的PM2.5值(Y[1]) *hint: 切割後X的長度應為1464-11=1453

b. X請分別取

1. 只有PM2.5 (e.g. X[0]會有6個特徵，即第0~5小時的PM2.5數值)

2. 所有18種屬性 (e.g. X[0]會有18*6個特徵，即第0~5小時的所有18種屬性數值)

c. 使用兩種模型 Linear Regression 和 XGBoost 建模

d. 用測試集資料計算MAE (會有8個結果， 2種X資料 * 2種Y資料 * 2種模型)

確定PM2.5的位置，因為這是我們的目標變量。

在此發現一個小問題就是多於空白

在檢索 'PM2.5' 索引之前先將所有測項的名稱進行空白處理。

這可以通過 strip 函數來移除字符串前後的空白字符。

第5階段程式碼

import pandas as pd
import numpy as np
# 讀取檔案
file_path = r'E:\交大學分班\557607資料探勘研究與實務\HW3_11134225_周冠羽\新竹_2021.xls'

data = pd.read_excel(file_path, engine='xlrd')


# 清理數據：移除不需要的第一橫列，設置正確的列名
data_cleaned = data.iloc[1:].copy()  # 使用 .copy() 來創建副本，避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.
data_cleaned.reset_index(drop=True, inplace=True)
correct_hour_columns = ['測站', '日期', '測項'] + [str(i) for i in range(24)]
data_cleaned.columns = correct_hour_columns


# 轉換日期格式並篩選出10、11、12月的資料
data_cleaned['日期'] = pd.to_datetime(data_cleaned['日期'])
#data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])]
# 使用 .copy() 來創建副本，避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.
data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])].copy()
data_filtered.reset_index(drop=True, inplace=True)


# 將 'NR' 替換為 0，然後將 *, #, x 替換為 NaN。
data_filtered.replace({'NR': 0, '*': pd.NA, '#': pd.NA, 'x': pd.NA}, inplace=True)

# 確保所有數據列都是數值型
for col in data_filtered.columns[3:]:
    data_filtered[col] = pd.to_numeric(data_filtered[col], errors='coerce')

# 處理缺失值：使用前後一小時的平均值填充缺失值
#對於每個缺失的數據點，我們往前和往後尋找非缺失的值來計算平均值進行填充。如果前面沒有有效值，則僅使用後面的值；如果後面也沒有有效值，則僅使用前面的值。最後，我們檢查整個 DataFrame 確保沒有剩餘的缺失值。
for col in data_filtered.columns[3:]:
    for i in range(len(data_filtered)):
        if pd.isna(data_filtered.at[i, col]):
            # 往前找到非缺失值
            prev_index = i - 1
            while prev_index >= 0 and pd.isna(data_filtered.at[prev_index, col]):
                prev_index -= 1
            # 往後找到非缺失值
            next_index = i + 1
            while next_index < len(data_filtered) and pd.isna(data_filtered.at[next_index, col]):
                next_index += 1

            # 計算平均值並填充
            prev_val = data_filtered.at[prev_index, col] if prev_index >= 0 else None
            next_val = data_filtered.at[next_index, col] if next_index < len(data_filtered) else None
            if prev_val is not None and next_val is not None:
                data_filtered.at[i, col] = (prev_val + next_val) / 2
            elif prev_val is not None:
                data_filtered.at[i, col] = prev_val
            elif next_val is not None:
                data_filtered.at[i, col] = next_val
# 檢查是否還有缺失值
missing_values_after_fill = data_filtered.isnull().sum().sum()
print(f'After filling, the number of missing values is: {missing_values_after_fill}')

#根據月份將資料分成訓練集（10月和11月）和測試集（12月）
train_data = data_filtered[data_filtered['日期'].dt.month.isin([10, 11])]
test_data = data_filtered[data_filtered['日期'].dt.month == 12]

#將訓練集的資料轉換成時序資料，其中行代表18種屬性，列代表每小時的數據。

# 首先我們需要確定屬性的唯一值
unique_items = train_data['測項'].unique()

# 建立一個空的DataFrame來保存時序格式的數據
time_series_data = pd.DataFrame()

# 對於訓練集中的每一種屬性
for item in unique_items:
    # 挑選出該屬性的所有行
    item_data = train_data[train_data['測項'] == item].iloc[:, 3:].reset_index(drop=True)
    # 由於每一天的數據在單獨的行中，我們需要將它們連接起來
    item_data = item_data.melt(var_name='hour', value_name=item)
    # 重排列索引，使其成為連續的時序數據
    item_data = item_data.sort_values(by='hour').reset_index(drop=True)
    time_series_data[item] = item_data[item]

# 設定正確的行索引
time_series_data.index = pd.date_range(start=train_data['日期'].min(), periods=len(time_series_data), freq='H')

# 現在，time_series_data 已經是一個時序資料集，行代表時間，列代表18種屬性的測量值
print(time_series_data.shape)  # 應該是 (18, 61*24) 如果包括10月和11月的所有小時

# 檢查維度是否符合預期（應該有61天*24小時=1464個時刻）
#assert time_series_data.shape == (1464, len(unique_items)), "維度不匹配"


#unique_items = train_data['測項'].unique()
#print(unique_items)

# 移除測項名稱的前後空白
unique_items = [item.strip() for item in unique_items]

pm25_index = unique_items.index('PM2.5')

# 創建特徵和標籤集
window_size = 6  # 使用6小時的窗口大小
X = []  # 特徵集
Y_future_1hr = []  # 未來第一個小時的PM2.5值
Y_future_6hr = []  # 未來第六個小時的PM2.5值


# 遍歷時序數據集，創建特徵和標籤
for i in range(time_series_data.shape[0] - window_size):
    # 提取6小時的特徵
    X.append(time_series_data.iloc[i:i+window_size].values.flatten())

    # 提取未來第一個小時和第六個小時的PM2.5值作為標籤
    Y_future_1hr.append(time_series_data.iloc[i+window_size, pm25_index])
    if i+window_size+5 < time_series_data.shape[0]:
        Y_future_6hr.append(time_series_data.iloc[i+window_size+5, pm25_index])

# 轉換成numpy數組便於後續處理
X = np.array(X)
Y_future_1hr = np.array(Y_future_1hr)
Y_future_6hr = np.array(Y_future_6hr[:1458])  # 確保與X的形狀一致

# 確認形狀
print(f'X shape: {X.shape}')
print(f'Y_future_1hr shape: {Y_future_1hr.shape}')
print(f'Y_future_6hr shape: {Y_future_6hr.shape}')

第6階段程式碼

2. 時間序列

a.預測目標

1. 將未來第一個小時當預測目標

2. 將未來第六個小時當預測目標

b. X請分別取

1. 只有PM2.5 (e.g. X[0]會有6個特徵，即第0~5小時的PM2.5數值)

2. 所有18種屬性 (e.g. X[0]會有18*6個特徵，即第0~5小時的所有18種屬性數值)

c. 使用兩種模型 Linear Regression 和 XGBoost 建模

d. 用測試集資料計算MAE (會有8個結果， 2種X資料 * 2種Y資料 * 2種模型)

import pandas as pd
import numpy as np
# 讀取檔案
file_path = r'E:\交大學分班\557607資料探勘研究與實務\HW3_11134225_周冠羽\新竹_2021.xls'

data = pd.read_excel(file_path, engine='xlrd')


# 清理數據：移除不需要的第一橫列，設置正確的列名
data_cleaned = data.iloc[1:].copy()  # 使用 .copy() 來創建副本，避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.
data_cleaned.reset_index(drop=True, inplace=True)
correct_hour_columns = ['測站', '日期', '測項'] + [str(i) for i in range(24)]
data_cleaned.columns = correct_hour_columns


# 轉換日期格式並篩選出10、11、12月的資料
data_cleaned['日期'] = pd.to_datetime(data_cleaned['日期'])
#data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])]
# 使用 .copy() 來創建副本，避免後續操作持續冒出 SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.
data_filtered = data_cleaned[data_cleaned['日期'].dt.month.isin([10, 11, 12])].copy()
data_filtered.reset_index(drop=True, inplace=True)


# 將 'NR' 替換為 0，然後將 *, #, x 替換為 NaN。
data_filtered.replace({'NR': 0, '*': pd.NA, '#': pd.NA, 'x': pd.NA}, inplace=True)

# 確保所有數據列都是數值型
for col in data_filtered.columns[3:]:
    data_filtered[col] = pd.to_numeric(data_filtered[col], errors='coerce')

# 處理缺失值：使用前後一小時的平均值填充缺失值
#對於每個缺失的數據點，我們往前和往後尋找非缺失的值來計算平均值進行填充。如果前面沒有有效值，則僅使用後面的值；如果後面也沒有有效值，則僅使用前面的值。最後，我們檢查整個 DataFrame 確保沒有剩餘的缺失值。
for col in data_filtered.columns[3:]:
    for i in range(len(data_filtered)):
        if pd.isna(data_filtered.at[i, col]):
            # 往前找到非缺失值
            prev_index = i - 1
            while prev_index >= 0 and pd.isna(data_filtered.at[prev_index, col]):
                prev_index -= 1
            # 往後找到非缺失值
            next_index = i + 1
            while next_index < len(data_filtered) and pd.isna(data_filtered.at[next_index, col]):
                next_index += 1

            # 計算平均值並填充
            prev_val = data_filtered.at[prev_index, col] if prev_index >= 0 else None
            next_val = data_filtered.at[next_index, col] if next_index < len(data_filtered) else None
            if prev_val is not None and next_val is not None:
                data_filtered.at[i, col] = (prev_val + next_val) / 2
            elif prev_val is not None:
                data_filtered.at[i, col] = prev_val
            elif next_val is not None:
                data_filtered.at[i, col] = next_val
# 檢查是否還有缺失值
missing_values_after_fill = data_filtered.isnull().sum().sum()
print(f'After filling, the number of missing values is: {missing_values_after_fill}')

#根據月份將資料分成訓練集（10月和11月）和測試集（12月）
train_data = data_filtered[data_filtered['日期'].dt.month.isin([10, 11])]
test_data = data_filtered[data_filtered['日期'].dt.month == 12]

#將訓練集的資料轉換成時序資料，其中行代表18種屬性，列代表每小時的數據。

# 首先我們需要確定屬性的唯一值
unique_items = train_data['測項'].unique()

# 建立一個空的DataFrame來保存時序格式的數據
time_series_data = pd.DataFrame()

# 對於訓練集中的每一種屬性
for item in unique_items:
    # 挑選出該屬性的所有行
    item_data = train_data[train_data['測項'] == item].iloc[:, 3:].reset_index(drop=True)
    # 由於每一天的數據在單獨的行中，我們需要將它們連接起來
    item_data = item_data.melt(var_name='hour', value_name=item)
    # 重排列索引，使其成為連續的時序數據
    item_data = item_data.sort_values(by='hour').reset_index(drop=True)
    time_series_data[item] = item_data[item]

# 設定正確的行索引
time_series_data.index = pd.date_range(start=train_data['日期'].min(), periods=len(time_series_data), freq='H')

# 現在，time_series_data 已經是一個時序資料集，行代表時間，列代表18種屬性的測量值
print(time_series_data.shape)  # 應該是 (18, 61*24) 如果包括10月和11月的所有小時

# 檢查維度是否符合預期（應該有61天*24小時=1464個時刻）
#assert time_series_data.shape == (1464, len(unique_items)), "維度不匹配"


#unique_items = train_data['測項'].unique()
#print(unique_items)

# 移除測項名稱的前後空白
unique_items = [item.strip() for item in unique_items]

pm25_index = unique_items.index('PM2.5')

# 創建特徵和標籤集
window_size = 6  # 使用6小時的窗口大小
X = []  # 特徵集
Y_future_1hr = []  # 未來第一個小時的PM2.5值
Y_future_6hr = []  # 未來第六個小時的PM2.5值


# 遍歷時序數據集，創建特徵和標籤
for i in range(time_series_data.shape[0] - window_size):
    # 提取6小時的特徵
    X.append(time_series_data.iloc[i:i+window_size].values.flatten())

    # 提取未來第一個小時和第六個小時的PM2.5值作為標籤
    Y_future_1hr.append(time_series_data.iloc[i+window_size, pm25_index])
    if i+window_size+5 < time_series_data.shape[0]:
        Y_future_6hr.append(time_series_data.iloc[i+window_size+5, pm25_index])

# 轉換成numpy數組便於後續處理
X = np.array(X)
Y_future_1hr = np.array(Y_future_1hr)
Y_future_6hr = np.array(Y_future_6hr[:1458])  # 確保與X的形狀一致

# 確認形狀
print(f'X shape: {X.shape}')
print(f'Y_future_1hr shape: {Y_future_1hr.shape}')
print(f'Y_future_6hr shape: {Y_future_6hr.shape}')

# 獲取 PM2.5 數據的索引
pm25_index = unique_items.index('PM2.5')

# 創建只包含 PM2.5 的特徵集
X_pm25_only = []

for i in range(0, time_series_data.shape[0] - window_size):
    # 提取過去 6 小時的 PM2.5 數據
    X_pm25_only.append(time_series_data.iloc[i:i + window_size, pm25_index].values.flatten())

# 轉換成 NumPy 數組
X_pm25_only = np.array(X_pm25_only)

# 打印形狀以確認
#只包含PM2.5的特徵集，其形狀為 (1458, 6)。這代表了1458個樣本，每個樣本有6個小時的PM2.5數據。
print(f'X_pm25_only shape: {X_pm25_only.shape}')


# 創建包含所有屬性的特徵集
X_all_features = []

for i in range(0, time_series_data.shape[0] - window_size):
    # 提取過去 6 小時的所有屬性數據
    X_all_features.append(time_series_data.iloc[i:i + window_size].values.flatten())

# 轉換成 NumPy 數組
X_all_features = np.array(X_all_features)

# 打印形狀以確認
#包含所有18種屬性的特徵集，其形狀應該與 X 相同，也就是 (1458, 108)。
print(f'X_all_features shape: {X_all_features.shape}')

#更新標籤集，使它們匹配特徵集的數量。
Y_future_1hr_trimmed = Y_future_1hr[:len(X_pm25_only)]
Y_future_6hr_trimmed = Y_future_6hr[:len(X_pm25_only)]

# 打印形狀以確認
#未來第一小時的PM2.5標籤集，其形狀為 (1458,)，與特徵集 X 一樣有1458個標籤。
print(f'Y_future_1hr shape: {Y_future_1hr_trimmed.shape}')
#未來第六小時的PM2.5標籤集，其形狀為 (1453,)。
print(f'Y_future_6hr shape: {Y_future_6hr_trimmed.shape}')

對於 Y_future_1hr 和 Y_future_6hr 的標籤集，由於我們無法預測最後5個小時的PM2.5值（因為沒有足夠的未來數據），所以 Y_future_6hr 的數量會比 Y_future_1hr 少5個值，這也是合理的。

而 X 和 X_all_features 應該是相同的，因為它們都是基於所有屬性的6小時窗口大小的特徵集。

第7階段程式碼

2. 時間序列

a.預測目標

1. 將未來第一個小時當預測目標

2. 將未來第六個小時當預測目標

b. X請分別取

1. 只有PM2.5 (e.g. X[0]會有6個特徵，即第0~5小時的PM2.5數值)

2. 所有18種屬性 (e.g. X[0]會有18*6個特徵，即第0~5小時的所有18種屬性數值)

c. 使用兩種模型 Linear Regression 和 XGBoost 建模

d. 用測試集資料計算MAE (會有8個結果， 2種X資料 * 2種Y資料 * 2種模型)

記得pip install xgboost 不然會報錯

ModuleNotFoundError: No module named 'xgboost'

ValueError: Found input variables with inconsistent numbers of samples: [1458, 1453]

[1458, 1453]」表示你嘗試用於訓練或預測的特徵矩陣 X 與目標向量 Y 有不一致的樣本數量。在這種情況下，X 有 1458 個樣本，而 Y 只有 1453 個樣本。

要解決這個問題，你需要確保 X 和 Y 有相同數量的樣本。這通常意味著你需要裁剪或擴展其中一個向量，以便它們匹配。例如，如果 Y_future_6hr 只有 1453 個樣本，你應該只使用 X 的前 1453 行來匹配 Y。

留言

DD2024年11月5日清晨7:59
詢問是否有後續建模與計算MAE結果
回覆刪除
回覆

新增留言

搜尋此網誌

第25個冬天

資料探勘研究與實務_空氣品質預報Time Series Regression_part2

留言

張貼留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

(2021年度)駕訓學科筆試準備題庫歸納分析_法規是非題

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義