懸疑英劇《真相捕捉》里,情報機關為了給罪犯定罪,偽造了監控錄像。
他們認為,偽造監控錄像,只是將竊聽材料等非法證據,「重演」為合法證據,事情的確發生了,罪犯的確犯罪了。
但是誰也不知道,使用技術的人會不會越界。畢竟,從移花接木到無中生有,從有的放矢到肆意偽造,只有人性的一步之遙。
當 AI 制圖一日千里,這樣的世界可能離我們並不遠。
川普、教皇爭相刷屏,全靠 AI 鬼斧神工
上周,幾十張川普被捕的照片火爆 Twitter,它們記錄了川普鋃鐺入獄的全部過程,從西裝革履地走出大樓時被按在地上,到穿著囚服在鐵絲網邊思考人生。
不過,這些只是 AI 生成的圖片。
始作俑者 Eliot Higgins 的帳號被關小黑屋(現在又恢復了正常),「被捕(arrested)」這個詞也被平台封了。
周末,又輪到 Twitter@skyferrori,讓教皇方濟各穿著巴黎世家風格的羽絨服出場。
有人評價這是說唱風、DJ 范,一副要發專輯的架勢。
這條推文目前瀏覽 2600 多萬次,轉發 3 萬多次,騙過了很多人的眼睛。「AI 生成圖片」的說明,後來才補充在圖片下方。
有 Twitter 網友認為,這起事件是第一個真正大規模的 AI 虛假信息案例,可以載入史冊。
更多的模仿隨之而來。
川普下鄉再就業,在街頭拉黃包車;教皇換上羽絨服,奔赴星辰大海;異形體驗生活,上了一天的班然後深夜買醉……
這些名人在平行世界的腦洞圖片,多半出自 AI 繪畫工具 MidJourney V5 版本。
V5 版本模型能夠生成比 V4 版本更高質量、更真實的圖像,並且有更多的定製選項和更快的渲染速度,是目前最高水平的 AI 繪圖工具之一。
最直觀的一點是,它基本上解決了之前 AI 畫不好手指的問題,人類又失去了一個辨別真假的辦法。(順帶一提, V1 版本發布於 2022 年 7 月,可見疊代速度之快)
輸入的 prompt(提示詞)也並不難,某個名人的名字,再加動作、地點等,即可以成圖。
以上也有不少圖片屬於「一眼假」,接下來還有更讓人眼花繚亂的進階版本。
上周,這張用 Midjourney 生成的中國情侶照走紅網絡。
幾天前,Reddit 網友發了一組新聞圖片,記錄了 2001 年北美西海岸卡斯卡迪亞發生的 9.1 級地震和海嘯事件。
你可以看見報導這場災難的各個角度:現場房屋毀壞、巨浪奔騰,滯留機場的人們露出驚恐的表情,救援人員竭力從廢墟里救出被困的倖存者,新聞記者趕到現場直播。
整組照片的色調、著裝、場景,都有著世紀初的味道。其中有些看起來很「業余」,像是當地居民隨手拍下來的,但往往這類照片會被看作珍貴的資料。
然而,這組圖片也是用 Midjourney 生成的,災難並不存在。
類似地,網友 Arctic_Chilean 偽造了「2012 年 7 月美國太陽超級風暴和停電」事件,他覺得 MidJourney 善於捕捉 2010 年初的新聞鏡頭美學,在生成天際線和地標上的極光照片方面也表現出色,但無法生成城市斷電的場景。
另一位網友 FinewithIX 用 AI 生成了 1969 年的登月花絮圖片,模仿了當時顆粒感更強的膠片風格。
這種寫實的新聞圖片,沒有川普、教皇鮮明的個人化特徵,你反而更容易被迷了眼。
從 Deepfake 到 Cheapfake
打造「時尚教皇」的@skyferrori,在作品刷屏後接受了媒體采訪。
他是來自芝加哥地區的一名 31 歲建築工人,使用 Midjourney 並沒有什麼目的,對教皇也沒有什麼惡意,只是為了好玩。
意外的走紅,讓他後知後覺地明白了 AI 的影響之廣。別有用心的人甚至拿著這些圖片指責天主教會奢侈浪費。
我以前沒有想過這點。人們正在接受它,認為它是真實的而不質疑它,這絕對是可怕的。
目前的大多數玩家也無非是找個樂子,但就像《真相捕捉》里探討的偽造證據和程序正義,我們不知道邊界何時被越過,以及終點在哪里。
在多數情況下,色情、政治和謠言總是先行。一位女性在地鐵上的照片被 AI 一鍵脫衣,登上了今天的微博熱搜,作惡者卻隱藏在 AI 身後。當時間和地點都對得上,普通人又如何為自己分辨。
語音克隆的發展速度之快,同樣令人膽戰心驚。
騙子使用 AI 模仿對方家人的聲音,打詐騙電話誆錢,此類案件已經在美國發生了好幾起。
語音克隆這項技術並不稀奇,問題在於門檻越來越低。就像加州大學伯克利分校教授 Hany Farid 所說:
兩年前,甚至一年前,克隆一個人的聲音,需要大量的音頻。現在,如果你有一個 Facebook 頁面,或者如果你錄制了 TikTok 並且你的聲音持續了 30 秒,人們就可以克隆你的聲音。
它們甚至越來越便宜,比如 ElevenLabs 的語音克隆技術 2022 年才問世,相關服務的費用僅為每月 5 美元。
有了語音,有了圖片,完全用 AI 生成視頻也是有可能的。有人用 ChatGPT 生成講話內容,用 Midjourney 生成虛擬形象,用 ElevenLabs 生成聲音,用 D-ID 生成對口型的視頻,做出了完整的短視頻。
發現了嗎?我們仍然可以去爭論某張圖片和某個視頻的真假,但問題的核心在於它們的發展速度。
換臉的 Deepfake(深度偽造)有一定技術門檻,但現在如果你願意花些時間上手 AI 軟體,學習他人的提示詞怎麼寫,最多再訂閱一個 plus 會員,造假成本已經比之前要低。
然後,它們又廣泛傳播到 Twitter、Reddit、TikTok 等社交媒體。
有人稱之為「Cheapfakes」(廉價偽造),考慮到製作成本和傳播成本,倒也恰如其分。
The Verge 提出了一個觀點:AI 曾只是一個功能,現在它逐步成為產品。
這和當年賈伯斯在 Macintosh 電腦上安裝滑鼠和圖形界面作業系統,在智慧型手機上接入多點觸控螢幕有些類似,普通大眾的使用門檻被解決,技術不再為少數精英所有,此後相關的服務才能夠起飛。
過去我們常說無圖無真相,但在不遠的未來,有圖也不是真相,有視頻可能也不是真相,它們都證明不了任何問題了。
如何在技術的未來中倖存
在技術面前,意識和法律總是稍微滯後。已經出現的漏洞,還來得及彌補嗎?
提供 AI 服務的公司自然要把守前線。
今年 1 月底,因為太多用戶用語音克隆胡作非為,AI 語音工具 ElevenLabs 宣布引入新的保護措施,其中較為重要的 2 條是:
推出新的 AI 檢測工具,驗證某個音頻剪輯是否使用他們的技術生成;
讓某些功能只能付費使用,降低用戶的匿名性,從而讓他們「三思而後行」;
社交媒體也在想辦法減少錯誤信息的傳播。
TikTok 在上周宣布,所有展示真實場景的 Deepfakes 都必須被標記為虛假(fake)或更改(altered),並且公眾人物的 Deepfakes 不得用於政治或商業背書。
其實,虛假圖片、虛假語音、虛假視頻存在良久,以前有過無數次的討論與爭鋒,然而到今天,它們才成為了一個真正的問題。
2020 年,Adobe 曾經發布過「內容真實性計劃」(CAI),希望打造一個系統,將來源和詳細信息永久附加到圖像上,並帶有加密簽名,現在仍在開發中。
只要有人下載、截屏、編輯圖像,CAI 元數據標簽都將表明它是經過處理的。
這聽起來非常有用,也可以沿用在 AI 作品上。
但 Adobe 也指出,需要大量硬體和軟體支持,才能使系統有效運行,包括支持添加標簽的相機、記錄處理細節的照片編輯工具、顯示標簽的社交媒體等等。
這幾乎涉及到從製造到傳播的每一個環節,可想而知它的困難程度。
現在,AI 造假的困境也是類似的,就像從前無數次討論 Deepfake 一樣,技術公司、媒體機構乃至每個個體,都應該承擔一份責任,但這恰恰是難以達到的理想情況。
在「時尚教皇」出圈後,Twitter 粉絲近 1300 萬的模特 Chrissy Teigen 感嘆:
我以為教皇的羽絨服是真的,沒有多想。我不可能在技術的未來中倖存下來。
AI 的發展速度,讓公眾意識和法律法規都難以望其項背。只能說,當我們看到某張圖片時,最好不要默認它是真實的。
來源:愛范兒