種子教師研究計畫成果分享:12月03日資管系盧信銘、陳建錦老師「Nonparametric Regression via Variance-Adjusted Gradient Boosting Gaussian Process Regression」

院行政辦公室

撰文者/ 資訊管理學系暨研究所碩士生 李尚錡

臺大管理學院於12月03日舉辦「種子教師研究計畫-成果分享會」,本次邀請到資管系的盧信銘教授擔任主講人,分享其研究的「Nonparametric Regression via Variance-Adjusted Gradient Boosting Gaussian Process Regression」,此篇論文探討如何在梯度提升機(Gradient BoostingMachine,GBM)的框架下,建構高斯過程迴歸(Gaussian Process Regression, GPR),降低訓練模型時的時間與空間複雜度,提高運算效率,意即在相同配備規格下,能夠處理更龐大的資料。

高斯過程迴歸為基於內核(Kernel-based)的非參數(Nonparametric)迴歸模型,與支援向量迴歸(Support Vector Regression,SVR)類似。高斯過程迴歸與傳統的線性迴歸模型相異之處在於其假設資料集當中的應變數y的相關性可以透過如徑向基底函數(Radial Basis Function, RBF)的內核函數建構其共變異數矩陣(Covariance Matrix)。高斯過程迴歸對許多資料集有相當良好的預測表現,然而其模型訓練的時間複雜度為n3,空間複雜度為n2,隨著資料筆數的增加,訓練模型所需時間與空間的增加則相當可觀。

模型近似(Approximation)的方式可以降低複雜度。先前的研究提出的方法可分為兩類:全域近似(Global Approximation)與區域近似(Local Approximation)。全域近似的概念為使用分群方法將資料點切分為數個區塊,以每群的重心(Centroid)作為訓練資料;區域近似則是將資料點分區各自訓練模型。梯度提升機為Friedman於2001年提出,核心原理為迭代數個模型進行決策,並且每個模型針對前一次的殘差進行訓練,為泛化能力強的演算法。梯度提升機通常採用決策樹作為基本模型,而此篇研究將模型代換為高斯過程迴歸,由於其對非線性關係的良好預測能力,並且經由高斯分布的特性,可以推導出梯度提升機的結果。

此篇研究提出的Variance-adjusted Gradient Boosting Gaussian Process (VAGR)的模型架構,在訓練過程中,隨機抽樣部分資料樣本,訓練一個高斯過程迴歸模型,並將預測殘差放入之後的模型進行訓練並再次抽樣,以此類推,預測

的過程則是將各個模型的預測值加總。在實驗部分,挑選了四個著名的資料集,並以支援向量迴歸和隨機森林等模型作為基準,評估VAGR的表現。結果顯示VAGR相較其他模型在大部分實驗中具有較少的預測誤差,並在自變數維度較高的資料集也具有良好的預測結果。

分享的最後陳家麟副院長感謝盧教授帶來精彩的演講,以深入淺出的口吻分享其在機器學習領域的研究成果,演講後的提問與討論環節也讓參與的教授交流想法、深入探討。透過成果分享會讓大家闡述各自的心得,也期待能夠迸發出多樣的跨領域新興研究。