疫情假新聞滿天飛，Line如何用AI加速事實查核？ - iThome Online

今年5月疫情在臺灣瞬間爆發，全國進入三級警戒，確診人數史無前例來到三位數。但暴增的不只是病例數，還有各種假新聞。「光是5月，每天湧入Line訊息查證中心的人數就比之前高出3.6倍，」Line臺灣表示。

一如病毒喜歡在人群間流竄，假新聞最常在通訊平臺蔓延。在臺擁有2千萬活躍用戶的Line，每天群組傳遞的訊息高達93億則，為避免成為假新聞培養皿，Line臺灣兩年前就聯手行政院和4家事實查核機構，成立訊息查證中心，來提供正確的新聞資訊。

隨著疫情起伏，更湧出巨量待查核新聞，Line如何因應？

兩款AI模型分工，辨識文章相似度再分類給專家

答案是「靠兩套AI模型加速查核速度。」Line臺灣資料工程部資深經理蔡景祥指出，Line本身不進行訊息查核，而是透過自動化的機制，匯聚查核的結果供使用者檢閱。因此，Line訊息查證中心成立之初，就利用兩套自然語言預訓練模型，來進行近似文章辨識和文章分類。

這麼做的原因是，新聞內容的真假，仍仰賴不少專家人工判讀，但許多假新聞都是同一則重複散播的訊息，因此只要辨識出這些文章的同一則來源，查核一次即可，省下大量人力的重工。

如此，每當Line訊息查證中心收到一則文章查核通報，會先利用近似文章辨識的AI技術，來比對已查證過的新聞。只有當通報的新聞未經查證，Line訊息查證中心才會將文章分派給專家，來查證真偽。但這些專家擅長領域不同，有些專精政治、醫療，有些熟悉體育、娛樂。為將通報的新聞派送給合適領域的專家，Line也利用AI模型來分類文章，並將派送過程自動化。

不論是文章辨識和文章分類工作，都要靠NLP技術才能提高準確度。一開始，Line使用BERT模型來執行這些任務，BERT是Google在2018年底發表的NLP經典模型，一問世就在各大基準測試排行榜上名列前矛，在各種自然語言理解任務創下佳績。採用Transformer架構的BERT，可雙向分析語言，理解力幾乎完勝過往任一NLP模型。

原模型表現不理想，改用SBERT比對文章相似度

BERT問世後幾個月，Line很快就在自家訊息查證任務上，嘗試這項新技術。不過，「BERT在假新聞近似文章判斷，仍有進步空間。」蔡景祥指出，BERT雖有一定的辨識水準，但模型上線後出現不少狀況，比如使用者查詢特定主題新聞時，模型會給出不甚精準的答案。這促使Line團隊開始尋找其他解決方法，經過多方試驗和比較，他們決定改用BERT的變形模型Sentence-BERT（簡稱SBERT），來執行近似文章判斷任務。

近似文章判斷又稱為語義文本搜尋（Semantic textual similarity），會利用不同指標來衡量一對句子的相似度。SBERT厲害之處在於「對句子的理解力更強，而非只聚焦單字本身，」Line臺灣資料工程部資料科學家吳肇中說。這是因為，SBERT採用孿生神經網路（Siamese Network），這種三元網路的結構更容易得到有意義的句子嵌入，辨識能力比BERT還要好。

經三番試驗，文章分類採用BERT變形模型

不只在近似文章辨識的AI模型持續精進，Line在文章分類AI技術上也經過多次試驗，才找出目前的作法。Line研究了多款NLP模型，再進一步比較BERT、ELECTRA和一般主題分類常見的LDA等三種模型。他們發現，ELECTRA最符合「辨識精準、快速且模型不肥大的需求，」吳肇中說。

ELECTRA這個NLP技術的來頭也不小。自2018年發表BERT後，Google時不時推出改良版模型，ELECTRA就是其一。有別於其他以遮罩（Mask）為主的改良版模型，ELECTRA的架構猶如生成對抗網路GAN，能靠生成器和鑑別器來分辨文句真偽，而且，「模型在分類上也有不錯的表現，」吳肇中表示。Google在發表ELECTRA的論文中更指出，其耗能比NLP經典模型BERT來得低，只需四分之一的運算資源就能達到SOTA表現。

「這個優勢，非常適合新聞分類，」吳肇中強調。於是，他們利用事實查核中心提供的數千筆新聞分類資料訓練模型，大約1小時就完成訓練，部署來分辨文章類型。

預訓練模型微調就能快速落地，但也有門檻

不論是ELECTRA還是SBERT，為應付不斷變動的假新聞用語和風格，Line甚至每天都會更新模型，以當日新增的資料來調整模型，讓模型更懂時下熱門話題。

這就是預訓練模型的好處，因為已用大量、各式各樣的資料來訓練模型，因此，後續採用者只需少量資料，就能快速微調成出符合需求的模型。不過，「我們也曾從零開始訓練一套模型。」蔡景祥回憶，團隊曾在另一個專案中，自行收集、標註4,000多筆文字資料來訓練分類模型，但模型表現只有0.4、0.5。

後來，Line臺灣團隊加碼擴大訓練資料量至1萬6千筆，模型表現才達0.7，勉強堪用。但在那之後，就算團隊收集再多資料，也無法提高模型準確度。蔡景祥點出，1萬6千筆標記資料的成本太大，不僅要投入大量人力標註，也要人工維護這些標註資料，「負擔很大。」

但BERT預訓練模型就沒有這類問題。「同樣任務改用BERT，就不需要這麼多標記資料，幾千筆也能達到很好的效果。」在蔡景祥看來，採用預訓練模型比重建一套模型更經濟，也更有效率。

不過，微調也不是一件輕鬆事。蔡景祥點出，只有專精特定領域的資料科學家才能做好微調工作。為了降低門檻，Line也藉助自動化機器學習工具AutoML自動挑選最佳參數組合，把省下來的人力專注在微調工作上。

你沒注意到的小細節，都有BERT的影子

不只訊息查證使用BERT，Line許多功能也有BERT的影子。舉例來說，Line的光學文字辨識（OCR）服務就靠BERT來校正文字。它的原理是，先透過一套AI模型，在影像畫面中框出文字形狀，透過形狀來猜字，再靠另一套BERT模型計算字與字之間的機率，判斷合理性。要是兩字連著出現的機率太低，模型就會校正文字，提高辨識準確度。

除此之外，Line在命名實體辨識（NER）上也運用BERT模型。所謂NER是指，從文章中辨識人名、地名、組織名等專有名詞的技術。NER雖然不是一套最終產品，但是個不可或缺的工具，很多服務和功能都會用到它。

比如，Line有一套內部使用的NER工具，可從文章中挑出人名、地名、時間、機構名稱等名詞，自動轉為標籤，讓自家小編用來編輯相同主題的文章；而Line Today的每篇新聞，下方的#主題標籤也是靠NER先挑出候選關鍵字，再靠其他演算法排序挑選出來。

在蔡景祥看來，NER是自然語言理解（NLU）的一部分，能讓電腦掌握更多文章訊息，作為下一個服務的元素。比如，NER可用來鎖定特定關鍵字，如麻辣鍋，如此能將麻辣鍋相關食記和麻辣鍋店家連結起來，發展出食記推薦餐廳的服務，供使用者參考。

至此，Line臺灣累積不少BERT經驗，特別是訊息查證的近似文章搜尋和分類。他們希望將這個經驗擴散到更多服務，像是電商，透過自動分類、貼標、找出關鍵字等功能，來加速商品分類和推薦。

近似文章搜尋也是，可用來推薦相同主題的文章，如食記、遊記等。蔡景祥更透露，團隊也在研究自然語言生成（NLG）等前瞻技術，衡量能否提供長文縮短、編寫摘要，甚至是短句生成的服務，「成為寫文章的好助手。」

Line還有更大野心，要用Transformer通吃文字影像辨識

不只是臺灣Line團隊投入NLG技術的研究，一個多月前，Line母公司Naver舉辦線上AI技術大會，揭露了最新的NLG成果，發表了一套號稱是韓文版GPT-3的自然語言預訓練模型HyperCLOVA，具2,040億個參數，比公認的NLG指標模型GPT-3還要多。

Naver AI研究中心的主管們，在大會上興致勃勃展示HyperCLOVA的各種用途。這個AI工具能與人類自然對話，能靠幾個關鍵字生成產品介紹，還能總結複雜的文件檔案。特別的是，HyperCLOVA能讓使用者選擇、組織用來訓練另一個AI所需的資料。Naver本身也在5月初，在自家網站部署HyperCLOVA，來提供自動更正錯字、推薦相關搜尋關鍵字的功能。

Naver不只在這場大會秀最新技術，也宣示AI野心。Naver AI研究中心總監Jeong Seok-geun直言：「身為代表韓國AI科技發展的公司，我們將突破挑戰，聯手各界創造一個AI新時代。」

HyperCLOVA就是一個新利器，Naver計畫要它學會更多語言，還要能看懂圖像和影片，來提供更人性化的企業服務。Line臺灣更透露，團隊目前正商討HyperCLOVA潛在的中文應用場景。文⊙王若樸

快速認識科技巨頭力捧的Transformer

Google在2017年提出Transformer模型，是一個把注意力機制發揮到極致的架構，專門用來處理序列型任務，如自然語言處理（NLP），效果更勝傳統RNN。隔年，Google以Transformer為基礎，發表一套NLP預訓練模型BERT，在各大基準測試（Benchmark）拿下榜首，劃下NLP時代分水嶺。此後，各種Transformer變形雨後春筍般湧出，像是臉書的RoBERTa、Google的XLNet、華為的TinyBERT，以及OpenAI的GPT-3，可說是遍地開花。

GPT-3和BERT一樣，都取自Transformer架構，只是前者採用Transformer的編碼器和解碼器，因此能執行自然語言生成任務，如文章創作、摘要生成，而BERT只採用編碼器，因此擅長自然語言理解任務，如翻譯、問答等。

不過，去年底，這些科技巨頭開始探索Transformer的另一個潛能，也就是影像辨識。Google去年底發表一篇論文，指出Transformer可媲美傳統影像辨識模型CNN。論文一出，立即引起ML社群議論，不少AI界指標性人物看好Transformer的多模態潛力。

今年初，OpenAI用Transformer架構打造出可同時辨識文字和圖像的類神經網路DALL·E，Transformer正式步入多模態任務的解方模型。後來，臉書也接續發表可辨識文字和影像的模型DINO與PAW，而Google更在5月I/O大會上，揭露一款能同時辨識文字和影像的Transformer模型MUM，計畫要將MUM用來改善Google搜尋服務，將文字搜尋納入圖片資料，豐富使用者體驗。

從這個趨勢看來，Transformer持續成為科技巨頭的熱門研究對象，甚至會引發新一波多模態模型革新。

Adblock test (Why?)

"事實" - Google 新聞
July 20, 2021 at 11:27AM
https://ift.tt/3eCFumd

疫情假新聞滿天飛，Line如何用AI加速事實查核？ - iThome Online
"事實" - Google 新聞
https://ift.tt/2wpE2jK
Shoes Man Tutorial
Pos News Update
Meme Update
Korean Entertainment News
Japan News Update

Bagikan Berita Ini

Search

疫情假新聞滿天飛，Line如何用AI加速事實查核？ - iThome Online

0 Response to "疫情假新聞滿天飛，Line如何用AI加速事實查核？ - iThome Online"

Post a Comment