Home 產品因為它，馬斯克和兵馬俑跳起了《科目三》

因為它，馬斯克和兵馬俑跳起了《科目三》

一張照片就能讓馬斯克、梅西等各大名人魔性跳舞，甚至連火爆全網的科目三都能安排上。

這可不是什麼高深 AI 技術，阿里通義千問移動端新增的「全民舞王」功能就能實現，還有科目三、DJ 慢搖、鬼步舞、極樂勁舞等 12 種熱門舞蹈模版供你挑選。

在通義千問輸入「全民舞王」「通義舞王」等口令，接著在跳轉界面里選擇你喜歡的舞蹈、上傳一張全身照，只需十幾分鍾，一個形神兼備的舞王就這樣華麗「速成」了。

想不到，濃眉大眼的愛因斯坦也能秒變潮男，動作節奏感簡直不要太強。

▲ 圖片來自：Simon_阿文

兵馬俑和舞王只差了一張照片，這架勢可不是蓋的。

手辦屆的舞王稱霸，怎麼能忽視我「亞洲舞王」尼古拉斯趙四呢？

▲ 圖片來自：共富財經

隨手一畫的小人物都跳得比我還歡，看來我得去報個舞蹈班才行。

▲ 圖片來自：叨哥胡侃

蠟筆小新「搔首弄姿」，童年瞬間回來了。

▲ 圖片來自：盼花 dog

讓照片「活」起來的 AI 魔法

那阿里的 AI 研究團隊是怎麼讓照片動起來的呢？

通義舞王功能的發布，實際上是 AnimateAnyone 技術的一個具體應用和落地。

據阿里 AI 研究團隊發布的論文介紹，目前，擴散模型是視覺生成研究領域的主流，但在圖像到視頻的生成領域中，依然存在局部失真、細節模糊、幀率抖動等問題。

對此，阿里的 AI 研究團隊在擴散模型的基礎上，提出了一種新的 AI 算法 Animate Anyone。這個算法的功能是將一個靜態的人物圖像轉換成一個動畫視頻，同時可以通過輸入姿勢的順序來精確控制視頻中的人物動作。

▲手翻書原理展示. 圖片來自：@翻頁書安迪 Andymation

需要說明的是，在視頻製作特別是動漫製作中，人物的動作是通過逐幀過渡完成的，原理類似於小時候經常玩的手翻書，每一頁都是靜態的手繪稿，快速翻動就能通過人眼「視覺暫留」的 BUG 讓畫面動起來。

而想要讓一張圖片動起來，最大的難點來自「腦補」接下來的動作和場景，並且前後都沒有參照物。所以官方的對比展示中，可以看到傳統技術「DisCO」被作為反面教材反復鞭打，其嚴重的失真效果只能做到讓主體動起來，但扭曲的身型和奇怪的動效完全稱不上作品。

因此，為了解決視頻人物形象一致性的問題，他們引入了參考圖像網絡 ReferenceNet，它可以捕獲參考圖像中的空間細節信息。

然後，他們將 ReferenceNet 與 UNet 結合，讓 UNet 可以理解在生成目標圖像時應該在哪些位置生成怎樣的細節，這樣就可以使生成的圖像在整體上去除噪音的同時，保留參考圖像中的關鍵細節，實現人物形象的一致性。

除了細節的捕捉以外，還要確保姿態的可控性。為此，阿里 AI 團隊還設計了一種輕量級的姿態引導器 Pose Guider，在去噪過程中集成姿態控制信號，以確保生成的動畫序列符合指定的姿態。

考慮到視頻的穩定性問題，他們還引入了時序生成模塊，目的是讓模型可以學習幀與幀之間的聯系，這樣生成的視頻才會流暢連貫，而不是割裂開來，同時還可以保持高解析度細節，讓畫質變得更好更穩定。

比起以前的方法，該方法能夠有效保持了視頻人物外觀的一致性，不會出現諸如衣服顏色變來變去等問題，同時視頻流暢清晰，不會閃爍抖動，並且還支持對任意角色進行動態化。

例如，梅西玩轉中老年最愛的頂流范兒，和你抬手打招呼。

二次元角色以靜化動，跳起宅舞來絲毫不遜色真人。

連鋼鐵俠都加入熱鬧，一起強身健體，活動活動筋骨，也沒什麼毛病。

在 AI 視頻生成領域，阿里背後的技術積累遠不止這些，比如上個月，阿里還發布了另一項視頻生成技術 DreaMoving。這是一種基於擴散的可控視頻生成框架，用於生成高質量的定製化人像視頻。

這項技術的優勢在於，無需深入了解復雜的視頻製作技術，使用者只需給定一些引導，比如一段文字或一張參考圖像，DreaMoving 就能夠創造出高度逼真的視頻。

也就是說，只要給定目標身份和姿勢序列，DreaMoving 可以根據姿勢序列生成，任何人/物在任何地方跳舞的視頻。

簡單點理解，DreaMoving 可以通過簡單的輸入，比如人臉圖片、動作序列和文本，就可以自動生成各種定製化的人物視頻，實現對視頻生成的精確控制。

具體的拆解步驟：先輸入一個人的面部圖片，來生成這個人的整個身體在視頻中的形象，接著輸入姿勢的順序，來精確控制人物在視頻里的動作，最後輸入文本來更全面地控制視頻的生成效果。

例如，一個女孩，微笑著，站在海邊的沙灘上，穿著淺黃色的長袖連衣裙。

一名男子在埃及金子塔前跳舞，身穿西裝，打著藍色領帶。

一個女孩，穿著淺藍色長裙，在法國小鎮微笑著跳舞

AI 視頻生成行業卷瘋了

事實上，在生成式 AI 的賽道中，AI 視頻生成領域的起點並不算太晚，在 ChatGPT 橫空出世之前，就已經有不少廠商押注該賽道，諸如微軟、Google 等都曾推出過類似的 AI 視頻生成工具的，但效果甚微。

立足於整個行業長期的技術積累之上，擴散模型的出現讓廠商們看到了 AI 視頻生成的潛在前景。相比 RNN 等早期模型有明顯優勢，它可以生成更連貫、清晰的圖像或視頻序列，加速了視頻生成的疊代過程。

市面上的主流工具也在此基礎上大作加法，讓 AI 視頻生成賽道再起波瀾，真正呈現出驚人的爆發之勢。

去年年底，Runway Gen-2 迎來一波大更新，解析度提升至 4K，視頻生成效果的保真度和一致性迎來重大突破，一周後，又再次推出運動畫筆功能，輕輕一刷，便能讓靜態事物動起來。

緊接著，文生圖的「扛把子」Stability AI 也發布 Stable Video Diffusion，給 AI 視頻生成領域再添一把旺火。

而 Pika 1.0 則憑借更簡單的視頻生成，淺顯易懂的視頻局部編輯，更高質量的視頻生成，剛出道便獲得一眾矽谷大佬的青睞。從生成到後期，僅靠自己就能完成一條龍操作。

李飛飛團隊和 Google 合作推出的 W.A.L.T 模型，也同樣可以根據自然語言/圖片提示，生成逼真的 2D/3D 視頻或動畫，生成效果更是媲美 Runway、Pika 等一眾好手。

這些 AI 視頻生成工具主要在兩個維度上有了長足進步——質量和數量。在質量上，這些 AI 產品不斷引入更強大的模型架構，使用更大規模、更高質量的數據進行訓練，使得 AI 生成的視頻畫質、流暢度、逼真度等都在持續提升。

在數量上，生成的視頻長度也在不斷內卷，朝著兩位數的秒數長度突破，場景和事件組合也日益豐富。未來在算力進一步提升的情況下，生成長達數小時的高質量視頻也將成為可能。

飄在雲上的技術終究還是落地應用，AI 視頻生成的崛起將會誕生一個巨大的藍海市場。依託技術的深厚積累，通義千問的「全民舞王」的上新，也是基於這套商業邏輯的又一落地產物。

這不僅可以打開與阿里與其他企業的競爭，促使整個行業加速進步，也讓我們有機會親身體驗更多 AI 視頻生成技術所帶來的種種可能。

來源：愛范兒