Home 商業「時尚教皇」刷屏，載入史冊的 AI 假圖事件，我們如何在狂飆的 AI 中倖存

「時尚教皇」刷屏，載入史冊的 AI 假圖事件，我們如何在狂飆的 AI 中倖存

懸疑英劇《真相捕捉》里，情報機關為了給罪犯定罪，偽造了監控錄像。

他們認為，偽造監控錄像，只是將竊聽材料等非法證據，「重演」為合法證據，事情的確發生了，罪犯的確犯罪了。

但是誰也不知道，使用技術的人會不會越界。畢竟，從移花接木到無中生有，從有的放矢到肆意偽造，只有人性的一步之遙。

當 AI 制圖一日千里，這樣的世界可能離我們並不遠。

川普、教皇爭相刷屏，全靠 AI 鬼斧神工

上周，幾十張川普被捕的照片火爆 Twitter，它們記錄了川普鋃鐺入獄的全部過程，從西裝革履地走出大樓時被按在地上，到穿著囚服在鐵絲網邊思考人生。

不過，這些只是 AI 生成的圖片。

始作俑者 Eliot Higgins 的帳號被關小黑屋（現在又恢復了正常），「被捕（arrested）」這個詞也被平台封了。

周末，又輪到 Twitter@skyferrori，讓教皇方濟各穿著巴黎世家風格的羽絨服出場。

有人評價這是說唱風、DJ 范，一副要發專輯的架勢。

這條推文目前瀏覽 2600 多萬次，轉發 3 萬多次，騙過了很多人的眼睛。「AI 生成圖片」的說明，後來才補充在圖片下方。

有 Twitter 網友認為，這起事件是第一個真正大規模的 AI 虛假信息案例，可以載入史冊。

更多的模仿隨之而來。

川普下鄉再就業，在街頭拉黃包車；教皇換上羽絨服，奔赴星辰大海；異形體驗生活，上了一天的班然後深夜買醉……

這些名人在平行世界的腦洞圖片，多半出自 AI 繪畫工具 MidJourney V5 版本。

V5 版本模型能夠生成比 V4 版本更高質量、更真實的圖像，並且有更多的定製選項和更快的渲染速度，是目前最高水平的 AI 繪圖工具之一。

最直觀的一點是，它基本上解決了之前 AI 畫不好手指的問題，人類又失去了一個辨別真假的辦法。（順帶一提， V1 版本發布於 2022 年 7 月，可見疊代速度之快）

輸入的 prompt（提示詞）也並不難，某個名人的名字，再加動作、地點等，即可以成圖。

以上也有不少圖片屬於「一眼假」，接下來還有更讓人眼花繚亂的進階版本。

上周，這張用 Midjourney 生成的中國情侶照走紅網絡。

幾天前，Reddit 網友發了一組新聞圖片，記錄了 2001 年北美西海岸卡斯卡迪亞發生的 9.1 級地震和海嘯事件。

你可以看見報導這場災難的各個角度：現場房屋毀壞、巨浪奔騰，滯留機場的人們露出驚恐的表情，救援人員竭力從廢墟里救出被困的倖存者，新聞記者趕到現場直播。

整組照片的色調、著裝、場景，都有著世紀初的味道。其中有些看起來很「業余」，像是當地居民隨手拍下來的，但往往這類照片會被看作珍貴的資料。

然而，這組圖片也是用 Midjourney 生成的，災難並不存在。

類似地，網友 Arctic_Chilean 偽造了「2012 年 7 月美國太陽超級風暴和停電」事件，他覺得 MidJourney 善於捕捉 2010 年初的新聞鏡頭美學，在生成天際線和地標上的極光照片方面也表現出色，但無法生成城市斷電的場景。

另一位網友 FinewithIX 用 AI 生成了 1969 年的登月花絮圖片，模仿了當時顆粒感更強的膠片風格。

這種寫實的新聞圖片，沒有川普、教皇鮮明的個人化特徵，你反而更容易被迷了眼。

從 Deepfake 到 Cheapfake

打造「時尚教皇」的@skyferrori，在作品刷屏後接受了媒體采訪。

他是來自芝加哥地區的一名 31 歲建築工人，使用 Midjourney 並沒有什麼目的，對教皇也沒有什麼惡意，只是為了好玩。

意外的走紅，讓他後知後覺地明白了 AI 的影響之廣。別有用心的人甚至拿著這些圖片指責天主教會奢侈浪費。

我以前沒有想過這點。人們正在接受它，認為它是真實的而不質疑它，這絕對是可怕的。

目前的大多數玩家也無非是找個樂子，但就像《真相捕捉》里探討的偽造證據和程序正義，我們不知道邊界何時被越過，以及終點在哪里。

在多數情況下，色情、政治和謠言總是先行。一位女性在地鐵上的照片被 AI 一鍵脫衣，登上了今天的微博熱搜，作惡者卻隱藏在 AI 身後。當時間和地點都對得上，普通人又如何為自己分辨。

語音克隆的發展速度之快，同樣令人膽戰心驚。

騙子使用 AI 模仿對方家人的聲音，打詐騙電話誆錢，此類案件已經在美國發生了好幾起。

語音克隆這項技術並不稀奇，問題在於門檻越來越低。就像加州大學伯克利分校教授 Hany Farid 所說：

兩年前，甚至一年前，克隆一個人的聲音，需要大量的音頻。現在，如果你有一個 Facebook 頁面，或者如果你錄制了 TikTok 並且你的聲音持續了 30 秒，人們就可以克隆你的聲音。

它們甚至越來越便宜，比如 ElevenLabs 的語音克隆技術 2022 年才問世，相關服務的費用僅為每月 5 美元。

有了語音，有了圖片，完全用 AI 生成視頻也是有可能的。有人用 ChatGPT 生成講話內容，用 Midjourney 生成虛擬形象，用 ElevenLabs 生成聲音，用 D-ID 生成對口型的視頻，做出了完整的短視頻。

發現了嗎？我們仍然可以去爭論某張圖片和某個視頻的真假，但問題的核心在於它們的發展速度。

換臉的 Deepfake（深度偽造）有一定技術門檻，但現在如果你願意花些時間上手 AI 軟體，學習他人的提示詞怎麼寫，最多再訂閱一個 plus 會員，造假成本已經比之前要低。

然後，它們又廣泛傳播到 Twitter、Reddit、TikTok 等社交媒體。

有人稱之為「Cheapfakes」（廉價偽造），考慮到製作成本和傳播成本，倒也恰如其分。

The Verge 提出了一個觀點：AI 曾只是一個功能，現在它逐步成為產品。

這和當年賈伯斯在 Macintosh 電腦上安裝滑鼠和圖形界面作業系統，在智慧型手機上接入多點觸控螢幕有些類似，普通大眾的使用門檻被解決，技術不再為少數精英所有，此後相關的服務才能夠起飛。

過去我們常說無圖無真相，但在不遠的未來，有圖也不是真相，有視頻可能也不是真相，它們都證明不了任何問題了。

如何在技術的未來中倖存

在技術面前，意識和法律總是稍微滯後。已經出現的漏洞，還來得及彌補嗎？

提供 AI 服務的公司自然要把守前線。

今年 1 月底，因為太多用戶用語音克隆胡作非為，AI 語音工具 ElevenLabs 宣布引入新的保護措施，其中較為重要的 2 條是：

推出新的 AI 檢測工具，驗證某個音頻剪輯是否使用他們的技術生成；
讓某些功能只能付費使用，降低用戶的匿名性，從而讓他們「三思而後行」；

社交媒體也在想辦法減少錯誤信息的傳播。

TikTok 在上周宣布，所有展示真實場景的 Deepfakes 都必須被標記為虛假（fake）或更改（altered），並且公眾人物的 Deepfakes 不得用於政治或商業背書。

其實，虛假圖片、虛假語音、虛假視頻存在良久，以前有過無數次的討論與爭鋒，然而到今天，它們才成為了一個真正的問題。

2020 年，Adobe 曾經發布過「內容真實性計劃」（CAI），希望打造一個系統，將來源和詳細信息永久附加到圖像上，並帶有加密簽名，現在仍在開發中。

只要有人下載、截屏、編輯圖像，CAI 元數據標簽都將表明它是經過處理的。

這聽起來非常有用，也可以沿用在 AI 作品上。

但 Adobe 也指出，需要大量硬體和軟體支持，才能使系統有效運行，包括支持添加標簽的相機、記錄處理細節的照片編輯工具、顯示標簽的社交媒體等等。

這幾乎涉及到從製造到傳播的每一個環節，可想而知它的困難程度。

現在，AI 造假的困境也是類似的，就像從前無數次討論 Deepfake 一樣，技術公司、媒體機構乃至每個個體，都應該承擔一份責任，但這恰恰是難以達到的理想情況。

在「時尚教皇」出圈後，Twitter 粉絲近 1300 萬的模特 Chrissy Teigen 感嘆：

我以為教皇的羽絨服是真的，沒有多想。我不可能在技術的未來中倖存下來。

AI 的發展速度，讓公眾意識和法律法規都難以望其項背。只能說，當我們看到某張圖片時，最好不要默認它是真實的。

來源：愛范兒