阿里巴巴達摩院造個「神器」 謠言識別准確率達81%

阿里巴巴達摩院造個「神器」 謠言識別准確率達81%

達摩院NLP團隊成員李泉志

一篇《為拯救爸媽朋友圈,達摩院造了「謠言粉碎機」》的文章,在朋友圈刷屏,引來一片鼓掌叫好:「這下終於不用費勁勸導爸媽了!」

文章說的是,阿里巴巴達摩院的科學家,造了一個謠言粉碎機,這是一個算法模型,可以識別真假新聞,未來也能應用在各大領域。

這是怎樣一種算法?准確率高嗎?真的可以終結謠言?記者聯繫到了正在大洋彼岸的「謠言粉碎機」的創造者李泉志。

「粉碎機」的前生功能

是為記者提供可靠線索

《速轉!科學家發現:一味中藥48小時可殺死60%癌細胞!》《晚上喝白開水的朋友,再不看就晚了!》《專家說了,這樣東西千萬別吃!》……

你有沒有收到過父母發來的這些「關懷」?又有多少次是抱着「算了算了,你開心就好」的心態結束話題?

「不能保證百分之百准確,但基本可以判斷是否為謠言。」李泉志,達摩院NLP團隊的核心成員之一,畢業於清華大學,後在美國獲得自然語言理解方向的博士學位,目前在達摩院的西雅圖辦公室工作。

在加入達摩院前,他曾是路透社重要的「情報官」:通過機器篩選成千上萬的網絡信息,為數千位一線記者提供可靠線索。

「AI謠言粉碎機」就是藉助自然語言實現的。在剛剛結束的SemEval(自然語言處理領域的國際權威比賽,由國際計算語言學學會舉辦)全球語義測試中,「AI謠言粉碎機」創造了假新聞識別准確率的新紀錄,達到了前所未有的81%。

判斷一個新聞真假

要分三個步驟

「AI謠言粉碎機」要怎麼去判斷是否為謠言呢?李泉志說,分三步——

首先,該模型會找到最初的信息源,分析用戶畫像,包括:專業領域,此前傳播或轉發過什麼,是個人還是機構,注冊時間,活躍規律等,來判斷發佈者是否「可靠」。最後根據不同態度的人群比例、各自的信譽度等信息,計算出此新聞的可信度。

第二步,尋找網上所有的信息源,看看鏈接的域名,是否來自可信網站,比如新華社、政府醫藥管理局等。

第三步,將正文里關鍵的論證提煉為知識點,與知識圖譜里的權威知識庫做匹配驗證。如果毫無聯系、自相矛盾,減分。

李泉志解釋,「AI謠言粉碎機」會考慮一部分人類的想法,更多的則是AI的運用。人工智能有很多人類比不了的地方,比如當一個流言在社交網站上傳播很快的時候,我們很難去判斷真假,不知道誰接收到了,是出於什麼原因轉發,不同的人對此的評價是什麼,而這些AI可以做到。「假如來一個流言,人可以通過網站去查證,但是AI可以快速把科學研究、新聞拉出來,加上後台知識庫的對比,做一個驗證。人腦中有基本判斷,但是沒有大型的知識庫。」李泉志說。

就拿「AI謠言粉碎機」的訓練樣本來說,就要分至少兩個層面:首先拿底層的2億條信息,幾百萬條新聞,訓練語言樣本;再將模型進行謠言的真實性訓練。「是一個復雜且費時的過程。」李泉志表示。

誰製造謠言,論文是否抄襲

未來粉碎機還有更多功能

其實,要建這樣一個數據模型,並不容易。李泉志坦言,他在前一家公司就開始研究,到如今,也還需繼續完善。他們有一個小團隊專門在研究這一技術,因為,總體來說這不是一個單獨能列出來的技術,是自然語言所有技術的綜合。

目前,該模型也並未應用於阿里巴巴的任何業務中,李泉志坦言,數據模型需要不斷被「訓練」,也需要得到社會的認同,而這些,都不是短時間內能解決的。

可以想象的是,「AI謠言粉碎機」未來將被應用的多個場合。

比如,可以識別論文是否為抄襲,用技術從個人的寫作風格、方法論、主題等多維度去判斷是否為抄襲。過去有人說某年輕作家後期的作品由人代筆,以後用AI就能分析得出結論。

另一方面,可以協助警方找到真正謠言的製造者。通過AI去追蹤傳播路徑,從傳播路徑中,將傳播分解,可以發現規律,比如傳播了哪些用戶,用戶是什麼反應,是簡單的轉發,還是贊成、反對,還是進行了二次加工?

「當然,該模型也還是需要更多的語言訓練。比如有些用戶轉發時,說的是反話、諷刺,有些是隱喻,不知是否是真實的情緒表達,這些作為機器很難對此做出判斷,但是通過大量的訓練,是可以實現的。」李泉志表示,他和團隊會繼續研究該模型。

阿里巴巴達摩院造個「神器」 謠言識別准確率達81%

來源:華人頭條B

來源:浙江在線