資管系專題演講 – On Data Science with Graph Representation Learning

資訊管理學系暨研究所

撰文者/資訊管理學碩士生  楊雅汝

『On Data Science with Graph Representation Learning』演講者是成大的李政德教授,老師的領域橫跨了機器學習、深度學習、資料探勘、社群網路分析、推薦系統、自然語言處理‥‥‥等,研究的領域相當廣泛。

這場演講主要講述了 GRL 的應用。之前我只要一聽到Graph-based 的應用,就會馬上聯想到社群媒體上的應用,像是 Community detection 或意見領袖偵測;但聽李老師說其實幾乎所有的應用都可以用graph來表示,例如 E-Commerce、物聯網、蛋白質結構檢測‥‥‥等等,方法也分為(但不限於)Link prediction、Node classification。此外,老師也提到了自然語言處理和 graph neural network 的關係,雖然我們一般來說不會將文字和 graph 兩者 聯想在一起,但以 graph 的表示法卻能讓 neural network 得出好的成果,這帶給我一些衝擊和啟發。

在簡單介紹 GRL 之後,李教授講述了很多有趣的專案。其中的「Shared Account Detection」是和 KKBOX 去合作的案子。多人共用一個帳號會影響 KKBOX 的推薦演算法,讓他們難以去推薦歌單;因此 KKBOX 希望能夠研究出 能夠判別出 Account 中每個人的歌單 Session,再分別依照 Session 去推薦歌 單。把 Session 產生成 graph,內含歌手與歌曲間的edge,形成 embedding,再做分群;若只能分成一群,則該帳號只會有一個 user 使用。 接下來則是社群媒體中假新聞的偵測,教授是以 retweet user 形成 fully connected 的 graph,以邊的相似度來形成行為相似度,之後再拿來做 embedding,後來結果也很好,F1-score有達到 0.79。

另外一個有趣的論文則是時間序列預測相關,是來預測空氣品質依照時間變動 的情形,影響因素包含交通流向與腳踏車需求等等,教授將整個空氣品質的每 個時間變動情形變成 graph,sensor 為 node,而各個變項之間的影響力為 edge,用 GCN 來將每個graph形成 embedding,最終也有很好的效果; 還有一個論文是用 stock-level 來表示出各公司間的關係,以 graph model FinGAT ( Financial Graph ATtention Net) 來進行 high-profit 的投資標的 Ranking 和推薦。我很少看到有股價、金融相關的研究利用 graph 的方式來去做預測,一般來說通常是用 LSTM / CNN 等較常見的 model 來去做數值或文字類相關的預測,真的蠻特別的。

最後一個案例是奈及利亞海關違禁品檢測,老師選擇奈及利亞是因為該國的抽 查率為100%,有許多資料可以用;違禁品的分類有分為高價低報(避掉關稅)、更改商品類型(ex:電視/電腦的液晶螢幕)、更改原產地(避免掉抽查或較高關稅)。以各個項目、進口商的one-hot encoding作為 input,來去預測該貨物 是否為違禁品。

演講的最後,教授強烈向我們推薦GRLs,他認為graph 的特徵可以更好的表現出每個 data point 的特徵與關係,以 relational 的方式來作為判斷依據的方式,在多個領域中都可以有好的結果。整體而言,我覺得教授的分享案例都非常有趣,也讓我知道原來 graph的應用可以這麼廣泛,不是只能用在特定的案例或領域當中。