比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

ChatGPT 的出現讓 AI 技術一躍成為了科技圈的當紅炸子雞。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

幾乎萬能的 ChatGPT 讓寫郵件、擬合同等重復性工作失去了意義,對於寫代碼、寫小說、寫 PPT 等工作它更是信手拈來。

但討論 ChatGPT 能做什麼、能取代些什麼等話題已經過時了,現在人們更想要知道下一個「ChatGPT」在哪?

微軟的新 Bing?現在排隊可能要排到天荒地老。

百度的文心一言?目前似乎「文」字還沒一撇。

Google 的 Bard?這更是一個未知數。

難道現在除了 ChatGPT 以外,就沒有懂得聊天的機器人了嗎?

先別急,什麼都懂一點的微信不會輕易得讓你失望。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

在去年 10 月微信低調發布了一個名為 WeLM 語言模型,當時微信對 WeLM 的定義只是一個能「嘮嗑」的 AI。

現在回看,WeLM「嘮嗑」的能力已經能滿足我們對文本生成式 AI 的期待。

不過微信強調 WeLM 並不是聊天機器人,而是一個補全用戶輸入信息的生成模型。

根據微信反饋的消息,WeLM 只是微信內部的創新型實驗項目,沒有計劃應用到實際的產品之中,也不會與微信 app 的體驗有所關聯,未來 WeLM 有可能會不定時下架。

八項全能

WeLM 能做什麼呢?

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

先給它出個關於阿房宮問題,看看它的知識儲備量。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

似乎回答得沒什麼毛病,再看看它對二次元了解多少。

看來一些基本的二次元常識對 WeLM 來說還是過於簡單了。

既然常識知識問不倒他,那麼問點最新資訊看看 WeLM 能不能回答得上來。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

當我問到它知不知道 ChatGPT 時,WeLM 的回答開始出現錯誤,答案和事實偏差十萬八千里。

再問問一些特別細節的問題,例如《可愛女人》的第一句歌詞是什麼?

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

▲ 可愛女人坐船頭是什麼異次元混搭……

WeLM 的表現也不能令人滿意。

這也是 WeLM 的局限性所在。根據微信團隊給出的說明,WeLM 並不是一個直接對話的機器人,而是一個補全用戶輸入信息的生成模型。

WeLM 全稱為 Well-Read Language Model,最大的模型版本的訓練參數達 100 億,它的強項在於中文理解和生成能力,能夠在在零樣本或少樣本的情境下完成多種 NLP 任務(包括多語言任務)。

根據官方給出的提問教程,WeLM 的回答問題的側重點應該是在「補全句子」上。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

例如在「給貓取名字」的例子上,提問者需要先給 WeLM 舉出一些例子,再讓 WeLM 來補全。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

也許是測試版本的原因,目前 WeLM 補全答案時的發散性似乎要大於准確性,因此你會發現 WeLM 什麼都能答上來,但是回答得不一定準。

對於它的一些「胡言亂語」,只能說大家笑一笑就好。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

這種補全內容的回答機制可以誕生出各種各樣的玩法,微信官方為此提供了「對話、文案生成、文本改寫、閱讀理解、翻譯、文章續寫、自由任務」共八種模式。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

先來試試商品文案生成,我用它為製糖工廠的硬糖充電頭生成了一段商品文案,前半段看起來還像模像樣的,但寫到後面的商品描述時似乎 CPU 就過載了。

不得不說,最後一句「一種只為愛的甜蜜味道」還有點耐人尋味的意思。

再來試試翻譯,這可是微信的強項。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

我用它翻譯了一段 OpenAI 對 ChatGPT 的介紹,WeLM 輕松完成了任務。

根據官方的介紹,WeLM 不僅能完成多種語言間的翻譯,還能翻譯同時夾雜著多種語言文段。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

例如這段同時包含中文、英文、日文的復雜語句,WeLM 就能完整地翻譯出來。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

當你在看像公司財報那樣又長又復雜的文章時,可以將它復制到 WeLM 里,用「閱讀理解」直接檢索出想要的信息。

不過 WeLM 的理解能力還比較表面,它基本上只能回答出能在文章中直接檢索到信息,如果你想基於蘋果 2022 年的營收額和增長率,問它蘋果 2021 的營收額是多少,這種拐個彎的問題它就不能計算出來。

或者說,你需要用更精準的提示詞(prompt)指令才有可能讓它答出。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

WeLM 的對話功能是一個可玩性挺高的功能,你可以通過一系列的提示詞為 WeLM 設立人設(變成李白、變成賈伯斯、變成馬斯克),實現一場跨越時空的對話。

我試著讓 WeLM 扮演的李白評價一下杜甫,「李白」評價道讀杜甫的詩就像飲下一壺美酒,還引用了杜甫的《哀江頭》。

《哀江頭》作於至德二年(757 年),而李白逝世於寶應元年(762 年),沒准李白生前還真的讀過杜甫的《哀江頭》。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

你還可以讓 WeLM 扮演馬斯克,讓它評價一下特斯拉、Twitter、自動駕駛等問題,甚至可以采訪它對於李白的看法。

WeLM 是怎麼做到的?

一番體驗過後,我明顯感覺到 WeLM 對於精準提示詞的依賴性要高於 ChatGPT。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

雖然兩者都有很強的自然語言理解能力和表達能力,但 WeLM 的學習成本和使用成本要更高,在讓 WeLM 回答問題之前你需要先給它講清楚回答問題的邏輯(舉例回答),提示詞也要不斷地打磨,最終才會得到你想要的答案。

相比之下,ChatGPT 是一個平易近人的隱士,進可高山流水,退可下里巴人。無論是簡單的問句、文章總結,還是復雜的編程問題,ChatGPT 基本上都能一並解答。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

▲ 圖片來自:微信 AI

這當然也和兩者的模型算法、訓練參數量有關,WeLM 的一大優勢在於它是採用多樣化和廣泛的中文網頁、書籍、新聞、論壇和學術論文數據集進行訓練,對於中文的理解能力會更加突出。

WeLM 的學習數據來源主要從 Common Crawl 下載的近兩年的中文網頁數據,除此之外還包括大量的書籍、新聞、論壇數據和學術論文等,總數據量為 10 TB。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

▲ 圖片來自:微信 AI

拋開 ChatGPT 這樣的尖子生不談,WeLM 在和 CPM、華為 Pangu、百度 Ernie 3.0(文心一言前身)等同級別模型對比時,在 14 項 NLP 任務上 WeLM  基本上都能實現領先。

比 ChatGPT 更早發布的微信大語言模型,現在什麼水平?

可惜的是,這只是微信的一次實驗性嘗試,在未來有可能會不定時下架,短期內我們應該也很難在微信上見到類似的智能聊天功能,本文僅作為功能體驗分享。

體驗網址:https://welm.weixin.qq.com/docs/playground/

注意:WeLM 只是微信內部的創新型實驗項目,沒有計劃應用到實際的產品之中,也不會與微信 app 的體驗有所關聯,敬請保持開放、探索的心態進行體驗。

來源:愛范兒