因為它,馬斯克和兵馬俑跳起了《科目三》

一張照片就能讓馬斯克、梅西等各大名人魔性跳舞,甚至連火爆全網的科目三都能安排上。

這可不是什麼高深 AI 技術,阿里通義千問移動端新增的「全民舞王」功能就能實現,還有科目三、DJ 慢搖、鬼步舞、極樂勁舞等 12 種熱門舞蹈模版供你挑選。

在通義千問輸入「全民舞王」「通義舞王」等口令,接著在跳轉界面里選擇你喜歡的舞蹈、上傳一張全身照,只需十幾分鍾,一個形神兼備的舞王就這樣華麗「速成」了。

想不到,濃眉大眼的愛因斯坦也能秒變潮男,動作節奏感簡直不要太強。

因為它,馬斯克和兵馬俑跳起了《科目三》

▲  圖片來自:Simon_阿文

兵馬俑和舞王只差了一張照片,這架勢可不是蓋的。

因為它,馬斯克和兵馬俑跳起了《科目三》

手辦屆的舞王稱霸,怎麼能忽視我「亞洲舞王」尼古拉斯趙四呢?

因為它,馬斯克和兵馬俑跳起了《科目三》

▲ 圖片來自:共富財經

隨手一畫的小人物都跳得比我還歡,看來我得去報個舞蹈班才行。

因為它,馬斯克和兵馬俑跳起了《科目三》

▲ 圖片來自:叨哥胡侃

蠟筆小新「搔首弄姿」,童年瞬間回來了。

因為它,馬斯克和兵馬俑跳起了《科目三》

▲ 圖片來自:盼花 dog

讓照片「活」起來的 AI 魔法

那阿里的 AI 研究團隊是怎麼讓照片動起來的呢?

通義舞王功能的發布,實際上是 AnimateAnyone 技術的一個具體應用和落地。

據阿里 AI 研究團隊發布的論文介紹,目前,擴散模型是視覺生成研究領域的主流,但在圖像到視頻的生成領域中,依然存在局部失真、細節模糊、幀率抖動等問題。

對此,阿里的 AI 研究團隊在擴散模型的基礎上,提出了一種新的 AI 算法 Animate Anyone。這個算法的功能是將一個靜態的人物圖像轉換成一個動畫視頻,同時可以通過輸入姿勢的順序來精確控制視頻中的人物動作。

因為它,馬斯克和兵馬俑跳起了《科目三》

▲手翻書原理展示. 圖片來自:@翻頁書安迪 Andymation

需要說明的是,在視頻製作特別是動漫製作中,人物的動作是通過逐幀過渡完成的,原理類似於小時候經常玩的手翻書,每一頁都是靜態的手繪稿,快速翻動就能通過人眼「視覺暫留」的 BUG 讓畫面動起來。

而想要讓一張圖片動起來,最大的難點來自「腦補」接下來的動作和場景,並且前後都沒有參照物。所以官方的對比展示中,可以看到傳統技術「DisCO」被作為反面教材反復鞭打,其嚴重的失真效果只能做到讓主體動起來,但扭曲的身型和奇怪的動效完全稱不上作品。

因為它,馬斯克和兵馬俑跳起了《科目三》

因此,為了解決視頻人物形象一致性的問題,他們引入了參考圖像網絡 ReferenceNet,它可以捕獲參考圖像中的空間細節信息。

然後,他們將 ReferenceNet 與 UNet 結合,讓 UNet 可以理解在生成目標圖像時應該在哪些位置生成怎樣的細節,這樣就可以使生成的圖像在整體上去除噪音的同時,保留參考圖像中的關鍵細節,實現人物形象的一致性。

除了細節的捕捉以外,還要確保姿態的可控性。為此,阿里 AI 團隊還設計了一種輕量級的姿態引導器 Pose Guider,在去噪過程中集成姿態控制信號,以確保生成的動畫序列符合指定的姿態。

考慮到視頻的穩定性問題,他們還引入了時序生成模塊,目的是讓模型可以學習幀與幀之間的聯系,這樣生成的視頻才會流暢連貫,而不是割裂開來,同時還可以保持高解析度細節,讓畫質變得更好更穩定。

因為它,馬斯克和兵馬俑跳起了《科目三》

比起以前的方法,該方法能夠有效保持了視頻人物外觀的一致性,不會出現諸如衣服顏色變來變去等問題,同時視頻流暢清晰,不會閃爍抖動,並且還支持對任意角色進行動態化。

例如,梅西玩轉中老年最愛的頂流范兒,和你抬手打招呼。

因為它,馬斯克和兵馬俑跳起了《科目三》

二次元角色以靜化動,跳起宅舞來絲毫不遜色真人。

因為它,馬斯克和兵馬俑跳起了《科目三》

連鋼鐵俠都加入熱鬧,一起強身健體,活動活動筋骨,也沒什麼毛病。

因為它,馬斯克和兵馬俑跳起了《科目三》

在 AI 視頻生成領域,阿里背後的技術積累遠不止這些,比如上個月,阿里還發布了另一項視頻生成技術 DreaMoving。這是一種基於擴散的可控視頻生成框架,用於生成高質量的定製化人像視頻。

這項技術的優勢在於,無需深入了解復雜的視頻製作技術,使用者只需給定一些引導,比如一段文字或一張參考圖像,DreaMoving 就能夠創造出高度逼真的視頻。

因為它,馬斯克和兵馬俑跳起了《科目三》

也就是說,只要給定目標身份和姿勢序列,DreaMoving 可以根據姿勢序列生成,任何人/物在任何地方跳舞的視頻。

簡單點理解,DreaMoving 可以通過簡單的輸入,比如人臉圖片、動作序列和文本,就可以自動生成各種定製化的人物視頻,實現對視頻生成的精確控制。

具體的拆解步驟:先輸入一個人的面部圖片,來生成這個人的整個身體在視頻中的形象,接著輸入姿勢的順序,來精確控制人物在視頻里的動作,最後輸入文本來更全面地控制視頻的生成效果。

例如,一個女孩,微笑著,站在海邊的沙灘上,穿著淺黃色的長袖連衣裙。

因為它,馬斯克和兵馬俑跳起了《科目三》

一名男子在埃及金子塔前跳舞,身穿西裝,打著藍色領帶。

因為它,馬斯克和兵馬俑跳起了《科目三》

一個女孩,穿著淺藍色長裙,在法國小鎮微笑著跳舞

因為它,馬斯克和兵馬俑跳起了《科目三》

AI 視頻生成行業卷瘋了

事實上,在生成式 AI 的賽道中,AI 視頻生成領域的起點並不算太晚,在 ChatGPT 橫空出世之前,就已經有不少廠商押注該賽道,諸如微軟、Google 等都曾推出過類似的 AI 視頻生成工具的,但效果甚微。

立足於整個行業長期的技術積累之上,擴散模型的出現讓廠商們看到了 AI 視頻生成的潛在前景。相比 RNN 等早期模型有明顯優勢,它可以生成更連貫、清晰的圖像或視頻序列,加速了視頻生成的疊代過程。

市面上的主流工具也在此基礎上大作加法,讓 AI 視頻生成賽道再起波瀾,真正呈現出驚人的爆發之勢。

因為它,馬斯克和兵馬俑跳起了《科目三》

去年年底,Runway Gen-2 迎來一波大更新,解析度提升至 4K,視頻生成效果的保真度和一致性迎來重大突破,一周後,又再次推出運動畫筆功能,輕輕一刷,便能讓靜態事物動起來。

緊接著,文生圖的「扛把子」Stability AI 也發布 Stable Video Diffusion,給 AI 視頻生成領域再添一把旺火。

而 Pika 1.0 則憑借更簡單的視頻生成,淺顯易懂的視頻局部編輯,更高質量的視頻生成,剛出道便獲得一眾矽谷大佬的青睞。從生成到後期,僅靠自己就能完成一條龍操作。

因為它,馬斯克和兵馬俑跳起了《科目三》

李飛飛團隊和 Google 合作推出的 W.A.L.T 模型,也同樣可以根據自然語言/圖片提示,生成逼真的 2D/3D 視頻或動畫,生成效果更是媲美 Runway、Pika 等一眾好手。

因為它,馬斯克和兵馬俑跳起了《科目三》

這些 AI 視頻生成工具主要在兩個維度上有了長足進步——質量和數量。在質量上,這些 AI 產品不斷引入更強大的模型架構,使用更大規模、更高質量的數據進行訓練,使得 AI 生成的視頻畫質、流暢度、逼真度等都在持續提升。

在數量上,生成的視頻長度也在不斷內卷,朝著兩位數的秒數長度突破,場景和事件組合也日益豐富。未來在算力進一步提升的情況下,生成長達數小時的高質量視頻也將成為可能。

飄在雲上的技術終究還是落地應用,AI 視頻生成的崛起將會誕生一個巨大的藍海市場。依託技術的深厚積累,通義千問的「全民舞王」的上新,也是基於這套商業邏輯的又一落地產物。

這不僅可以打開與阿里與其他企業的競爭,促使整個行業加速進步,也讓我們有機會親身體驗更多 AI 視頻生成技術所帶來的種種可能。

來源:愛范兒