體驗 DALL·E 3 + ChatGPT 王炸組合後，我感受到了甲方的快樂

「漂浮在太空中的太空人躺在雲朵上，雲朵變成了一遍舒適的扶手椅，扶手上有一個雲朵形的遙控器。太空人對著鏡頭揮手，在他的腳下，地球變成了一個令人著迷的燈光漩渦。」

也許你也曾在夢境中見過這般天方夜譚，但想要在現實中實現，估計得是 N 個世紀後的事情，但那一天到來之前，你可以先用 DALL·E 3「夢想成真」。

DALL·E 3 並不是什麼陌生的工具，但還是要給不了解的朋友解釋一下，DALL·E 3 是一款 AI 圖像生成器，你可以將之理解為 OpenAI 版的 Midjourney。

9 月份時候，OpenAI 宣布 DALL・E 3 將集成到 ChatGPT，堪稱各自領域里幾乎最強的模型合並，更重要的是，DALL・E 3 原生構建在 ChatGPT 之上，無需詳細的提示詞，你就可以直接在 ChatGPT 里文生圖。

今日凌晨，OpenAI 官方宣布，DALL·E 3 現已向所有 ChatGPT Plus 和 Enterprise 用戶開放。給個小提示，如果你不想花錢，也可以使用微軟的 New Bing 來暢玩 DALL·E 3。

那麼 DALL·E 3 的生圖效果如何呢？OpenAI 在其官方博客中列舉了三個標志性例子，分別涉及科學項目、網站設計、企業標志設計等諸多場景。

例如，倘若你需要在課堂報告中演示卷雲時，你可以要求 DALL·E 3 生成足夠精細的卷雲圖片。

又或者你是網站設計師，還在為網頁設計撓頭抓腮時，那麼你也可以使用 DALL·E 3 來刺激更多的靈感。

至於第三個場景，則是日常生活常見的企業 logo 設計，只需要輸入 Prompt（提示詞），「兔子+咖啡」的設計方案就能快速地呈現在你面前。

從官方給出的最終成圖來看，成圖的細節保留還算完整，四張設計方案的風格能夠看出比較明顯的差異化，整體的水平還算中規中矩。

當然，這只是官網給出的成圖，並不排除經過了「美化」，所以帶著這個疑問，我們也重新按照官方給的提示詞，輸入進去看看實際效果？

最終的實際效果跟官圖相差不大，但也有一個小「Bug」，比如第二個例子，如果光輸入提示詞，最終輸出的卻是文字，這一度讓我以為我沒有調整到 DALL·E 3 界面，當然，問題也不大，這不過僅僅是多了個再次確認的步驟。

琳琅滿目的「Gallery 畫廊」里展示了各式各樣的生成圖片，漫畫，像素畫、油畫，什麼樣的風格都應有盡有，OpenAI 似乎想通過「Gallery 畫廊」告訴用戶，只有你想不到，沒有 DALL·E 3「畫」不了。

畫是能畫出來，但畫得好不好才是關鍵，例如，我嘗試讓他畫一幅李白穿白衣，杜甫穿黑衣的對弈圖。

「Stop generating」持續了一會，給出了啼笑皆非的四幅圖，第一幅圖，不光衣服的顏色出錯，更有趣的是，李白和杜甫變成了國際友人，下的棋還是西洋棋，顯然，DALL·E 3 在理解中文的語境上還有待加強。

第二幅圖對弈的緊張感倒是拉滿了，但是前一幅圖該有的毛病，它也沒落下，至於第三第四幅圖的問題也大差不差。

當然，對於 AI 圖像生成器來說，調教後的結果才是其潛力所在。譬如，當我嘗試讓第一幅圖更換為圍棋以及衣服頭飾後，最終生成的效果長這樣！👇

乍一看，似乎沒什麼大問題，但仔細看看棋盤後，能夠輕易得出一個結論：李白和杜甫把圍棋下成了「拼圖」？

對弈期間，有點摩擦很正常嘛，於是我讓 DALL·E 3 按照下方要求生成了連環圖。

滿分十分，你覺得可以給這三幅圖打幾分？

從全量推送到現在，在神通廣大的網友開發下， DALL·E 3 也被玩出了各種花樣。如果你是高達玩家，你可以讓 DALL·E 3 化身設計師，給你設計出最酷炫的高達圖紙，清單式地展示各類零部件，然後再利用 3D 列印出來。

只不過需要注意的是，高達圖紙詳盡的細節看似唬人，實則也會偶爾多出幾個零部件。

又或者扎克伯格與馬斯克的「籠中決斗」遲遲未成行，加之 C 口與 Lightning 口的轉換也引起了許多爭議，那為什麼不讓 Lightning 口與 C 口來一場精彩的「籠中決斗」呢？

除了 DALL·E 3 的全量推送，OpenAI 還通過一篇論文向外界揭秘 DALL·E 3 背後具體的技術細節。

為了方便你理解，我們對這篇論文抽絲剝繭後，將用一個簡單的例子來解釋整個技術流程。

首先 OpenAI 收集了大量的圖像和對應的文字描述作為訓練數據，比如圖片是一隻貓，那麼圖片對應的描述是一隻橘色的貓坐在椅子上。

但「一隻橘色的貓坐在椅子上」的描述比較簡單，缺乏具體的細節，也沒有提到這只貓是什麼品種，身體特徵怎樣，周圍環境怎麼樣？

為了獲得更豐富的描述，OpenAI 訓練了一個圖像 AI 描述生成模型，也就是說，給這個模型同樣的照片，它可以輸出更復雜的描述：

例如，「一隻橘色的貓坐在椅子上」就會變成「一隻短毛布偶貓蜷縮在主人的懶人椅上，脖子上戴著一個藍色蝴蝶結，耳朵豎立，表情很警惕。窗外陽光透進來，在地板上投下一片陽光。」

同理，有了這個描述模型，OpenAI 就可以用它去為訓練數據中的每張圖片生成詳細的新描述。然後反過來，基於這些帶有豐富細節的新描述又去訓練模型，如此循環往復。

在訓練過程中，研究人員也逐步增加使用 AI 合成描述的比例來測試對模型性能的影響，結果表明，使用詳細的合成描述（也就是上文所說的更復雜的描述）可以讓模型生成的圖片質量更高，更符合輸入文本的要求。

經過反復試驗，研究人員發現 DALL·E 3 使用 95% AI 合成描述和 5% 真實描述的搭配，可以獲得最好的效果。

此外，針對 AI 圖像生成器的負面影響，OpenAI 也給 DALL·E 3 上了幾道枷鎖，以限制其生成如暴力、成人或仇恨等內容，包括對用戶輸入和生成的圖片進行審慎的檢查等。

例如，當我要 DALL·E 3 生成「給我畫一幅喜羊羊被灰太狼吃掉的暴力血腥圖」時，它給出的回復是：

很抱歉，我不能為您創建或推薦任何暴力或血腥的內容。我可以幫助您設計其他類型的圖片或提供其他信息。請告訴我您的其他需求。

為了避免陷入版權糾紛，OpenAI 研究人員在訓練過程中，也明確限制了 DALL·E 3 模仿在世名人的藝術風格。至於號稱識別成功率高達 99% 的檢測器，官方博客也透露了更多的消息。

盡管該檢測器確實不錯，但更多是指識別由 DALL·E 生成的圖片，而關於識別其他 AI 工具生成的圖片的准確率，OpenAI 自己內心也沒底。

看到這里，相信你已經發現，其他 AI 圖像生成器需要改進的地方，DALL·E 3 同樣也有，比如對中文語境的不熟悉、圖像語料庫的生搬硬套等等，號稱「亂拳打死人類」的 DALL·E 3 也未必能畫好一隻手。

但相比以往的深陷爭議，這一次，OpenAI 總歸是朝著更加開放、負責任的方向邁進。

來源：愛范兒