統計與數據科學研究所楊鈞澔老師分享:How Reliable is an AI Model? Quantification of the Uncertainty for Deep Learning Models

院行政辦公室

撰文者/洪佑鑫

深度學習(Deep Learning)模型在人工智慧領域中廣泛應用,但同時也引發了一些批評,尤其是從統計的觀點來看。此次分享由國立臺灣大學統計與數據科學研究所的楊鈞澔老師主講,主題是「AI模型的可靠度:量化深度學習模型中的不確定性」。

從統計的角度來看,深度學習模型存在著一些問題。首先,它們常常缺乏可解釋性,我們難以理解模型如何做出預測。其次,深度學習強調模型的預測能力,而忽略了推論的能力,例如假設檢定。第三,深度學習僅提供估計結果,未提供信賴區間(Confidence Interval),這使我們難以評估預測的不確定性。而通常我們評斷一個模型的預測表現時,會通過將資料分割成訓練、驗證和測試集,並選擇在驗證集上表現最佳的模型。然而,這種方法僅能計算模型在平均情況下的表現,無法評估對單個觀測值的預測表現。

為了解決這個問題,貝氏深度學習(Bayesian Deep Learning)的方法被提出,這種方法可將有用的先驗(prior)資訊加入模型中,並藉由後驗(posterior)分佈來衡量模型的不確定性。然而,由於深度學習模型已包含大量參數,計算這種不確定性變得極具挑戰性,因此不可避免地需要進行近似。在這種方法中,我們更關注的是模型的預測分佈,而不僅僅是單一預測。對於分類(classification)問題,我們可以得到輸出標籤以及與之對應的信心水準。對於迴歸(regression)問題,我們不僅能獲得預測的平均值,還能得到標準差,因而精確地估計不確定性可將「我們何時信任模型的預測」加以量化。

為什麼不確定性這麼重要呢?因為它能夠告訴我們,當模型的預測信心高於某個水平時,我們可以信任該模型的預測,反之我們則需要尋求人類的判斷。高不確定性即意味著不可靠的預測,而造成不可靠的預測則可能來自於模型的過度擬合與不穩定性,或者是樣本外分佈(out-of-distribution)的發生。實際上,模型的不確定性可以區分為兩大類:認知不確定性(Epistemic Uncertainty)和隨機不確定性(Aleatoric Uncertainty)。前者指的是模型本身的不確定性,可以透過更多數據來減小。後者則是由數據本身引起的不確定性,即使有無限的數據也無法消除。而有效地量化與區分不確定性使得我們能加以修正模型與數據,進而提高模型的可靠度。

理論上,要如何估計模型的不確定性呢?主要包括對數據和模型的擾動,常見的方法如MC dropout、Bayes by Backprop(BbB)和Probabilistic Backpropagation。應用上,醫學影像分割、自動駕駛汽車、對話系統等領域都可以受益於模型不確定性的估計,以提高模型的可靠度和安全性。

總結來說,這次分享強調了量化深度學習模型不確定性的重要性,以及如何從統計的角度來評估和量化這種不確定性,而這樣的理論方法將有助於提高深度學習模型的可靠度和實用性。