統計與數據科學研究所楊鈞澔老師分享：How Reliable is an AI Model? Quantification of the Uncertainty for Deep Learning Models

院行政辦公室

撰文者／洪佑鑫

深度學習（Deep Learning）模型在人工智慧領域中廣泛應用，但同時也引發了一些批評，尤其是從統計的觀點來看。此次分享由國立臺灣大學統計與數據科學研究所的楊鈞澔老師主講，主題是「AI模型的可靠度：量化深度學習模型中的不確定性」。

從統計的角度來看，深度學習模型存在著一些問題。首先，它們常常缺乏可解釋性，我們難以理解模型如何做出預測。其次，深度學習強調模型的預測能力，而忽略了推論的能力，例如假設檢定。第三，深度學習僅提供估計結果，未提供信賴區間（Confidence Interval），這使我們難以評估預測的不確定性。而通常我們評斷一個模型的預測表現時，會通過將資料分割成訓練、驗證和測試集，並選擇在驗證集上表現最佳的模型。然而，這種方法僅能計算模型在平均情況下的表現，無法評估對單個觀測值的預測表現。

為了解決這個問題，貝氏深度學習（Bayesian Deep Learning）的方法被提出，這種方法可將有用的先驗（prior）資訊加入模型中，並藉由後驗（posterior）分佈來衡量模型的不確定性。然而，由於深度學習模型已包含大量參數，計算這種不確定性變得極具挑戰性，因此不可避免地需要進行近似。在這種方法中，我們更關注的是模型的預測分佈，而不僅僅是單一預測。對於分類（classification）問題，我們可以得到輸出標籤以及與之對應的信心水準。對於迴歸（regression）問題，我們不僅能獲得預測的平均值，還能得到標準差，因而精確地估計不確定性可將「我們何時信任模型的預測」加以量化。

為什麼不確定性這麼重要呢？因為它能夠告訴我們，當模型的預測信心高於某個水平時，我們可以信任該模型的預測，反之我們則需要尋求人類的判斷。高不確定性即意味著不可靠的預測，而造成不可靠的預測則可能來自於模型的過度擬合與不穩定性，或者是樣本外分佈（out-of-distribution）的發生。實際上，模型的不確定性可以區分為兩大類：認知不確定性（Epistemic Uncertainty）和隨機不確定性（Aleatoric Uncertainty）。前者指的是模型本身的不確定性，可以透過更多數據來減小。後者則是由數據本身引起的不確定性，即使有無限的數據也無法消除。而有效地量化與區分不確定性使得我們能加以修正模型與數據，進而提高模型的可靠度。

理論上，要如何估計模型的不確定性呢？主要包括對數據和模型的擾動，常見的方法如MC dropout、Bayes by Backprop（BbB）和Probabilistic Backpropagation。應用上，醫學影像分割、自動駕駛汽車、對話系統等領域都可以受益於模型不確定性的估計，以提高模型的可靠度和安全性。

總結來說，這次分享強調了量化深度學習模型不確定性的重要性，以及如何從統計的角度來評估和量化這種不確定性，而這樣的理論方法將有助於提高深度學習模型的可靠度和實用性。