打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

沒有誰能一直稱王,但加上前綴誰都有稱王的機會。

AI 文生圖,還能玩出什麼新花樣?

在這片群雄割據的紅海,頭部被 Midjourney、DALL·E、Stable Diffusion 等占據,其餘還能讓人眼前一亮的產品並不多。

然而,仍有黑馬殺出:Ideogram,前 Google 工程師創立,矽谷 AI 大神投資,去年 8 月面世,2 月底發布了最新的模型。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

Ideogram 的特別在於,擅長生成包含文本的圖片,這恰恰是幾大巨頭都在改善的難題。

事實證明,從別人跌倒的地方爬起來,不失為一種彎道超車的方式。

能「畫圖」和「攝影」,但 AI 可能還是個「文盲」

讓 AI 精準生成文字,向來是個痛點,哪怕生成的人物和風景像相機拍出來的,如同亂碼的扭曲文字,瞬間讓 AI 原形畢露。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ Midjourney v5.2 生成的錯誤文字.

Ideogram 站出來表示,拒絕讓 AI 繼續做個「文盲」,不妨先從它開始。

接觸 Ideogram 的門檻很低,打開網頁(https://ideogram.ai/)登錄就能用,界面看起來也清爽不復雜。

生成一張圖片的步驟不多,在輸入框填完提示詞,再根據你想要的效果,勾選圖片長寬比,以及照片、海報、3D 渲染等圖片樣式。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

Ideogram 還考慮到了人類可能是提示詞「苦手」,今年 2 月推出了「魔法提示」,這就像一個內置的 ChatGPT,幫你完善提示詞,由 AI 拿捏同類的心思。

包含文本內容的圖片有哪些?產品標志、T 恤印花、書籍封面、電影海報……

我們先來個入門級考驗,讓幾個人舉起寫著動物名稱的指示牌,乍看文本對了,但臉和手不太正常,兩者相互抵消,原來短板沒有消失,只是轉移了。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

如果只讓 Ideogram 寫字,效果便驚艷得多。

讓 AI 生成馬斯克的經典句子「我寧願樂觀而錯誤,也不願悲觀而正確」,除了「W」有瑕疵,其他單詞都寫對了。

字體活潑了些,70 後的馬斯克不知道能不能接受,但碰撞的黑白色,應該能讓爆改小藍鳥的他滿意。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

再拿經典諺語「只工作不玩耍,聰明的孩子也變傻」作為考題,雖然提示詞強調了使用列印機字體,但 Ideogram 沒能做到。看來光用提示詞還不能定義字體,只能取個近似值。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

接著,命令 AI 為一家叫作「Coffee AI」的 AI 初創公司設計 logo。

主體是個電路圖案的咖啡杯,右上角有個機器人咖啡師,公司名稱用粗體大寫字母寫成,排版簡單和克制,作為 logo 來看很直觀,但總體來說在意料之中,很難讓甲方心動拍板。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

該給 AI 上難度了,句子更長,對設計的要求更高。

我要求 Ideogram 為兒童繪本設計內頁,不僅要在醒目的位置寫著「穿襪子的狐狸和戴禮帽的兔子」,底部還得標注「匿名」。

對於這兩行文字,Ideogram 基本完成了任務,用上了手繪字體和粉筆塗鴉,甚至配了符合題意的插圖,繪本的味道對了,但錯誤也很顯眼,「in」這個單詞有些問題,兔子長得像狐狸還和狐狸稱兄道弟。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

Ideogram 同樣可以拿來電影海報,不妨拿前段時間爆火的、阮經天主演的電影《周處除三害》試試水。

我在提示詞里雜糅了典故和電影,背景用到俠士剪影、海、山的意象,文字部分參考電影的英文名:豬、蛇和鴿子。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

除了漏了一個「the」,最終的海報效果還不錯,融合了古典的形象和現代的字體,鴿子塗鴉堪稱點睛之筆,但總體更像西幻風,讓人覺得陌生,很難聯想到電影的劇情。

體驗下來發現,其實 Ideogram 在文字上出錯的機率不小,有時候生成兩三次,才能得到一字不差的理想結果。

就算文本對了,人物的臉和手指經常翻車。

它可能還會加些花里胡哨的小動作,隨機生成無意義且扭曲的文字,自己打臉自己。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 這里的小字就糊成一團了.

但總體來說,Ideogram 讓人驚喜,可以寫對長句子,並且用上合適的字體和排版方式配合畫面氛圍,盡管目前還不能寫中文,但如同鬼畫符的幾個字非常貼合衣服褶皺。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 這四個字其實是「恭喜發財」.

瑕不掩瑜,Ideogram 的就業場景已經很多了。設計 logo、海報、T 恤圖案時,它都可以作為靈感參考和創意輔助。

以前擔心 AI 會「畫畫」和「攝影」,以後還怕 AI 有文化和會設計。

審美不輸 Midjourney,還是個表情包神器

AI 的進步按天衡量,可能一覺醒來世界就發生了變化。雖然 Ideogram 表示自己的文本渲染能力最強,但對手們也不服輸。

還未公開發布和開源的 Stable Diffusion 3 在 2 月官宣,改進了文字拼寫能力。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ Stable Diffusion 3 的拼寫能力.

去年 12 月發布測試版的 Midjourney v6,是第一個具有可靠文本生成功能的 Midjourney 版本。

不過,它的要求也依然比較苛刻,除了必須把文字放在引號內,提示詞最好解釋文本的位置和書寫方式,並用到「印刷」「寫下」等關鍵詞,一到兩個詞的文本生成效果最好。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ Midjourney v6 的文本生成功能.

被追趕的 Ideogram 團隊不慌,認為優勢在我,Ideogram 仍然擁有更高的准確率,並且能夠處理復雜的長句。

Ideogram 的系統評估也表明,Ideogram 1.0 渲染文本的准確性最高,與 DALL·E 3 等其他模型相比,錯誤率降低了近 2 倍。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

光說不練假把式,不如拿相同的提示詞,讓 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台競技。

先來比較生成文本的准確度,我要求 AI 們繪制一幅浮世繪風格的日出插圖,《飄》的經典台詞「明天又是新的一天」放置在合適的位置,表現希望和新生。

這次,Ideogram 完勝,拼寫准確,線條和色彩的設計也很大膽和出眾。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

向來差點藝術細胞的 DALL·E 竟然意外得有質感,文字基本對了但沒完全對,畫風更加抽象,Midjourney 不僅文字不准確,審美也落了下風,甚至沒有認真聽題。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 左為 DALL·E,右為 Midjourney.

二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,藉助「魔法提示」,AI 會發揮自己的想像力擴寫提示詞,配上文案,讓圖片有感情色彩。

我想看 AI 能不能生成打工貓表情包,於是輸入了提示詞:「畫一個有趣的梗圖,關於一隻戴著領結和襯衫、在電腦前打字的淚流滿面的貓,比喻人類打工的辛苦。」

Ideogram 發揮腦洞,自覺地加了句文案「貓也得工作」。

美中不足的是多了個「have」,前爪的指頭數量也不對,看來 AI 不僅僅對人手犯難,拿貓爪也沒轍。對比原版表情包,算是中規中矩,不能像「流淚貓貓頭」一擊即中。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 左為網圖,右為 Ideogram.

Midjourney 的貓嚴肅且優雅,仿佛是個已經財富自由的作家,看起來更像在拍雜誌寫真,但這滑鼠不知道怎麼回事。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 左為 Midjourney,右為 DALL·E.

DALL·E 情感最為到位,畫風雖然隨意了些,但粗糙有粗糙的好處,仿佛不在一個圖層的面條淚有內味了,真的很適合拿來當表情包用。

三是對復雜的長提示詞的理解能力,尤其是提示詞的元素是否齊全、出現的位置是否准確,所以我輸入了比較囉嗦的提示詞,規定了各個主體的位置。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

Ideogram 在整體構圖上表現得更好,提示詞說到的幾個要點都覆蓋了,心形牌子、機器人、太空人、氣球和獎牌都有,雖然太空人的手、獎牌的字等細節出了問題。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

相比之下,Midjourney 更有藝術感,但要素缺失,又多了些有的沒的裝飾,更有自己的想法和個性,DALL·E 不僅要素缺失,細節出錯,還不好看。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 上為 Midjourney,下為 DALL·E.

所以拋開文字,光看出圖質量,Ideogram 也不差,有時候對提示詞里各個物體空間關系的還原,比其他 AI 還要更加准確。

從使用體驗來說,Ideogram 的生成速度比 Midjourney 快,一般十幾秒就能完成四張圖片。

甚至根據行業的評估規則,人類評估者在提示對齊、圖像連貫性、整體偏好和文本渲染質量方面,更喜歡 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

哪怕你不滿意 Ideogram 生成的圖,把它的魔法提示詞拿去用,在 Midjourney 和 DALL·E 的生成效果,可能也比自己手搓更好,不失為一種優化提示詞的方式。

沒人能在我的 BGM 里打敗我,但同個提示詞給不同 AI 使用,勝負還真不一定。

Google 工程師創辦的明星公司,接地氣的 AI 產品

Ideogram 成立於去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。

這又是一家明星公司,創始團隊共 7 人,來自 Google Brain、加州大學伯克利分校、卡內基梅隆大學和多倫多大學,其中 4 位是 Google 文生圖擴散模型 Imagen 研究論文的作者。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

謹小慎微的 Google 經常在推出產品時慢半拍,多次眼睜睜看著對手在全球聲名大噪,聊天機器人被 ChatGPT 搶先,Imagen 也被 DALL·E 2 超車。

從工程師們的角度看,研究成果無法落地為面向消費者的應用並非好事。不少人選擇了離開,親自打造新的產品,盡量開放使用,先積累下用戶規模和口碑。

Ideogram 一天 25 次提示詞的免費額度,可能也是出於這樣的考慮。

市場很看好這個產品,Ideogram 完成了矽谷風投 a16z 領投的 8000 萬美元 A 輪融資,投資者中還有 AI 大神,包括 Google 首席科學家 Jeff Dean、OpenAI 創始團隊成員 Andrej Karpathy。

其實在體驗了很多 AI 產品之後,我暗暗有一個疑問:怎麼定義一款產品的好用?

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ Ideogram 生成的 T 恤圖案.

之前讓我覺得好用的,是插件「沉浸式翻譯」,它不像 Google 翻譯覆蓋原文,可以中英文對照,不僅是新聞網頁,X 信息流、YouTube 字幕、PDF 文件,都能用上。

Ideogram 似乎也是這樣接地氣。一方面,它可以更加精準地生成用戶所需的文字內容,並適配各種風格的圖片。另一方面,它也能無中生有,為圖片配上契合的文字,比如表情包。

雖然 Ideogram 生成的結果很多也不能拿來就用,但至少基本符合提示詞要求,文字大多可讀。

我也在體驗中發現, Ideogram 的寫實類圖片一般,但塗鴉、插圖、繪畫方面不錯,藝術天賦向 Midjourney 看齊。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ Ideogram 生成的塗鴉藝術插圖.

Ideogram 的官網還有各種作品的熱度排行榜。打開網站的瞬間,你仿佛誤入了一個 ins 風的圖片社區,上面的提示詞也都可以學習。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

當 AI 工具兼具了創意、便利和分享,就很容易讓人上頭,具體的表現是,一天的 25 次提示詞很快用完,這焦急的感覺,和等待 Suno 的積分更新差不多。

如果是每月 7 美元或者 16 美元的會員,除了更多生成次數,Ideogram 還提供了圖像上傳和編輯器的功能。

圖像上傳指的是,用戶上傳自己的圖片,然後通過 Remix 功能再創作。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

▲ 左為原圖,右為輸出.

編輯器除了裁剪、縮放等常規功能,還有一個很有意思的繪圖工具,從一幅抽象的圖畫生成圖片。人類的畫工粗糙勾勒各個元素的形狀、構圖、顏色等,AI 負責化腐朽為神奇,有些神筆馬良的既視感。

打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

Ideogram 能從血雨腥風里殺出,好用當然是最重要的,同時它的定位也很準確。

如果美學是最重要的標准,那麼 Midjourney 一騎絕塵。雖然 DALL·E 的水平時好時壞,但內置於 ChatGPT 調用方便,開源的 Stable Diffusion 則帶來了自由。

單論用戶規模,Ideogram 可能哪個都打不過,但它的長板做得很好,應當也能收獲自己穩固的受眾。

至少免費可用的 AI 圖像生成器里面,Ideogram 的整體質量領先,網頁使用方便,提供免費額度,文本渲染強大,魔法提示功能和創作者社區提供創意和靈感。

文生圖模型們還遠非完美,仍在努力地還原物理世界,或者向畫家和設計師看齊。更多的 Ideogram,或許仍能找到自己的一席之地。

這也正是 AI 競爭的殘酷和魅力所在,不知道誰能笑到最後,但永遠有新的對手瞄準阿喀琉斯之踵加入。

來源:愛范兒