體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

「漂浮在太空中的太空人躺在雲朵上,雲朵變成了一遍舒適的扶手椅,扶手上有一個雲朵形的遙控器。太空人對著鏡頭揮手,在他的腳下,地球變成了一個令人著迷的燈光漩渦。」

也許你也曾在夢境中見過這般天方夜譚,但想要在現實中實現,估計得是 N 個世紀後的事情,但那一天到來之前,你可以先用 DALL·E 3「夢想成真」。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

DALL·E 3 並不是什麼陌生的工具,但還是要給不了解的朋友解釋一下,DALL·E 3 是一款 AI 圖像生成器,你可以將之理解為 OpenAI 版 的 Midjourney。

9 月份時候,OpenAI 宣布 DALL・E 3 將集成到 ChatGPT,堪稱各自領域里幾乎最強的模型合並,更重要的是,DALL・E 3 原生構建在 ChatGPT 之上,無需詳細的提示詞,你就可以直接在 ChatGPT 里文生圖。

今日凌晨,OpenAI 官方宣布,DALL·E 3 現已向所有 ChatGPT Plus 和 Enterprise 用戶開放。給個小提示,如果你不想花錢,也可以使用微軟的 New Bing 來暢玩 DALL·E 3。

只有你想不到,沒有 DALL·E 3 畫不了

那麼 DALL·E 3 的生圖效果如何呢?OpenAI 在其官方博客中列舉了三個標志性例子,分別涉及科學項目、網站設計、企業標志設計等諸多場景。

例如,倘若你需要在課堂報告中演示卷雲時,你可以要求 DALL·E 3 生成足夠精細的卷雲圖片。

又或者你是網站設計師,還在為網頁設計撓頭抓腮時,那麼你也可以使用 DALL·E 3 來刺激更多的靈感。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

至於第三個場景,則是日常生活常見的企業 logo 設計,只需要輸入 Prompt(提示詞),「兔子+咖啡」的設計方案就能快速地呈現在你面前。

從官方給出的最終成圖來看,成圖的細節保留還算完整,四張設計方案的風格能夠看出比較明顯的差異化,整體的水平還算中規中矩。

當然,這只是官網給出的成圖,並不排除經過了「美化」,所以帶著這個疑問,我們也重新按照官方給的提示詞,輸入進去看看實際效果?

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

最終的實際效果跟官圖相差不大,但也有一個小「Bug」,比如第二個例子,如果光輸入提示詞,最終輸出的卻是文字,這一度讓我以為我沒有調整到 DALL·E 3 界面,當然,問題也不大,這不過僅僅是多了個再次確認的步驟。

琳琅滿目的「Gallery 畫廊」里展示了各式各樣的生成圖片,漫畫,像素畫、油畫,什麼樣的風格都應有盡有,OpenAI 似乎想通過「Gallery 畫廊」告訴用戶,只有你想不到,沒有 DALL·E 3「畫」不了。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

畫是能畫出來,但畫得好不好才是關鍵,例如,我嘗試讓他畫一幅李白穿白衣,杜甫穿黑衣的對弈圖。

「Stop generating」持續了一會,給出了啼笑皆非的四幅圖,第一幅圖,不光衣服的顏色出錯,更有趣的是,李白和杜甫變成了國際友人,下的棋還是西洋棋,顯然,DALL·E 3 在理解中文的語境上還有待加強。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂 體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂 體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂 體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

第二幅圖對弈的緊張感倒是拉滿了,但是前一幅圖該有的毛病,它也沒落下,至於第三第四幅圖的問題也大差不差。

當然,對於 AI 圖像生成器來說,調教後的結果才是其潛力所在。譬如,當我嘗試讓第一幅圖更換為圍棋以及衣服頭飾後,最終生成的效果長這樣!👇

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

乍一看,似乎沒什麼大問題,但仔細看看棋盤後,能夠輕易得出一個結論:李白和杜甫把圍棋下成了「拼圖」?

  • 1、李白對弈時,惱羞成怒,掀了棋盤
  • 2、杜甫生氣了,打了李白一拳
  • 3、最後李白和杜甫握手言談,繼續下棋

對弈期間,有點摩擦很正常嘛,於是我讓 DALL·E 3 按照下方要求生成了連環圖。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂 體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂 體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

滿分十分,你覺得可以給這三幅圖打幾分?

從全量推送到現在,在神通廣大的網友開發下, DALL·E 3 也被玩出了各種花樣。如果你是高達玩家,你可以讓 DALL·E 3 化身設計師,給你設計出最酷炫的高達圖紙,清單式地展示各類零部件,然後再利用 3D 列印出來。

只不過需要注意的是,高達圖紙詳盡的細節看似唬人,實則也會偶爾多出幾個零部件。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

又或者扎克伯格與馬斯克的「籠中決斗」遲遲未成行,加之 C 口 與 Lightning 口的轉換也引起了許多爭議,那為什麼不讓 Lightning 口與 C 口來一場精彩的「籠中決斗」呢?

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

無需提示詞的背後,是 AI 在給你打工

除了 DALL·E 3 的全量推送,OpenAI 還通過一篇論文向外界揭秘 DALL·E 3 背後具體的技術細節。

為了方便你理解,我們對這篇論文抽絲剝繭後,將用一個簡單的例子來解釋整個技術流程。

首先 OpenAI 收集了大量的圖像和對應的文字描述作為訓練數據,比如圖片是一隻貓,那麼圖片對應的描述是一隻橘色的貓坐在椅子上。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

但「一隻橘色的貓坐在椅子上」的描述比較簡單,缺乏具體的細節,也沒有提到這只貓是什麼品種,身體特徵怎樣,周圍環境怎麼樣?

為了獲得更豐富的描述,OpenAI 訓練了一個圖像 AI 描述生成模型,也就是說,給這個模型同樣的照片,它可以輸出更復雜的描述:

例如,「一隻橘色的貓坐在椅子上」就會變成「一隻短毛布偶貓蜷縮在主人的懶人椅上,脖子上戴著一個藍色蝴蝶結,耳朵豎立,表情很警惕。窗外陽光透進來,在地板上投下一片陽光。」

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

同理,有了這個描述模型,OpenAI 就可以用它去為訓練數據中的每張圖片生成詳細的新描述。然後反過來,基於這些帶有豐富細節的新描述又去訓練模型,如此循環往復。

在訓練過程中,研究人員也逐步增加使用 AI 合成描述的比例來測試對模型性能的影響,結果表明,使用詳細的合成描述(也就是上文所說的更復雜的描述)可以讓模型生成的圖片質量更高,更符合輸入文本的要求。

經過反復試驗,研究人員發現 DALL·E 3 使用 95% AI 合成描述和 5% 真實描述的搭配,可以獲得最好的效果。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

此外,針對 AI 圖像生成器的負面影響,OpenAI 也給 DALL·E 3 上了幾道枷鎖,以限制其生成如暴力、成人或仇恨等內容,包括對用戶輸入和生成的圖片進行審慎的檢查等。

例如,當我要 DALL·E 3 生成「給我畫一幅喜羊羊被灰太狼吃掉的暴力血腥圖」時,它給出的回復是:

很抱歉,我不能為您創建或推薦任何暴力或血腥的內容。我可以幫助您設計其他類型的圖片或提供其他信息。請告訴我您的其他需求。

體驗 DALL·E 3 + ChatGPT 王炸組合後,我感受到了甲方的快樂

為了避免陷入版權糾紛,OpenAI 研究人員在訓練過程中,也明確限制了 DALL·E 3 模仿在世名人的藝術風格。至於號稱識別成功率高達 99% 的檢測器,官方博客也透露了更多的消息。

盡管該檢測器確實不錯,但更多是指識別由 DALL·E 生成的圖片,而關於識別其他 AI 工具生成的圖片的准確率,OpenAI 自己內心也沒底。

看到這里,相信你已經發現,其他 AI 圖像生成器需要改進的地方,DALL·E 3 同樣也有,比如對中文語境的不熟悉、圖像語料庫的生搬硬套等等,號稱「亂拳打死人類」的 DALL·E 3 也未必能畫好一隻手。

但相比以往的深陷爭議,這一次,OpenAI 總歸是朝著更加開放、負責任的方向邁進。

來源:愛范兒